武汉的开发者们注意啦!AI技术战略、框架以及最佳实战尽在Azure OpenAI Day 了解详情
写点什么

百度技术沙龙第 65 期回顾:百度语音识别和唤醒技术解析(含资料下载)

  • 2016-08-11
  • 本文字数:1841 字

    阅读完需:约 6 分钟

随着人工智能的普及,语音已成为了重要的交互方式,尤其是百度语音识别和语音唤醒技术一经推出,便受到了开发者的广泛关注。

在 8 月 6 号由百度开发者中心和InfoQ 联合举办的第65 期“百度语音识别和语音唤醒技术解析及实践”沙龙上,百度语音开放平台资深产品经理何荡,分享了百度语音技术最新进展及最新解决方案。同时,百度语音开放平台资深研发工程师魏力凯和唐立亮,也分别介绍了百度语音识别&百度语音唤醒技术细节以及具体实践。最后还设置了演示分享环节,以便与开发者更好地互动。

百度语音开放技术最新进展及最新解决方案(下载讲稿

首先,何荡介绍了百度语音技术的最新概况,尤其提到了语音识别和语音合成,并在后面的语音最新效果中进行了展示。语音识别方面,机器识别技术已超过人;语音合成方面,主要的是情感语音合成,即通过大数据拼接的技术,把情感的因素加到声音里面,更合理地说是在声音的采集以及最后合成的效果上,都已经注入了情感。

另外,何荡还提到了百度语音平台的开放计划:

第一个是远场识别,计划在今年年底的时候,把远场技术开放出来。这技术也是免费开放的,让大家可以去做一些解放双手的应用出来。

第二个是情感语音,把情感的因素加到声音里面,会代替原有机械的声音,比较接近真人的声音,这也是预计在年底的时候开放。

第三,被美国麻省理工凭为2016 年10 大突破技术的Deep Speech,今年年底的时候会有更大的技术提升和优化,会有更新版本的Deep Speech 出来,放到语音平台上。

个性化语音识别-离线命令词识别和自定义语义(下载讲稿

来自百度语音开放平台的资深研发工程师魏力凯,目前负责百度开放平台的离在线语音、一体化唤醒和自定义语义等技术。他的分享主要分为以下四个部分:

1、在线自定义

2、离线自定义

3、自定义语义

4、语法编辑器

在线自定义,可以将不常见、不容易识别正确或者希望识别的更加准确的内容枚举到一个称为热词表的文本文件里,使得热词表里的内容能够精确识别,有了在线自定义,每一个开发者,每一个应用,每一台机器都可以有不同的识别策略;而离线自定义则提供了命令词识别的能力,这项能力使得在网络不好甚至完全没有网络的情况下,拥有高准确率的语音识别能力,比如车载环境;自定义语义则允许开发者定义想要的垂类,为了在没网的情况下也能使用,这项技术开始就是基于离线的。

新开放的这三项功能,一个解决在线识别不准确问题,一个解决了没网络的情况下不能识别的问题,而语义自定义则解决了所说的内容没法解析,或者说解析到错误的领域的问题。

最后,魏力凯还介绍了为上述新功能定制的语法编辑器,有了这款编辑器,可以使开发者更加便捷的使用上述技术。

百度语音唤醒技术解析及实践(下载讲稿

百度语音唤醒内核技术有哪些,其原理和实现方式是怎样的?

唐立亮介绍说,语音唤醒技术常见的解决方案主要有:基于置信度、基于识别的唤醒系统和基于垃圾词网络的技术,百度语音唤醒技术是吸取了这三种方案的精华,即基于垃圾音素,采用模型统计的手段,使几个因素可以代表全部的发音,后边会接一个置信度系统,通过这个判断极大地降低误报率。

接着,唐立亮通过一张图片,介绍了百度语音唤醒的流程:

首先用户要输入他们的语音,然后进行端点检测,把人说话的部分给检测出来,之后就是一个信号处理的过程,对信号进行一个非常好的噪音的处理,或者是其他方面的处理。接下来就是提取声学特征,进行识别解码,之后就是置信度判别,由于现在是一个唤醒+ 识别的系统,那唤醒成功之后需要送到服务器进行在线解码,最后获取到识别结果。

另外,唐立亮也提到,如何评价唤醒技术的好坏?非常重要的两个指标就是唤醒的正确率和误报率。 好的唤醒技术,唤醒的正确率很高,唤醒的误报率很低。

接着,唐立亮分享了百度语音唤醒的一些应用场景,包括手机APP 替换用户常见操作、拍照、机器人、车载场景、智能家居、智能硬件等。

关于如何选择唤醒词,他也给出了以下建议:

1、唤醒词可根据应用的个性化需求来订制

2、每个词在 3 个字到 5 个汉字之间,4 个字最佳

3、 音节覆盖尽量多,差异大,响亮

4、建议选择不常用词语

5、唤醒词评估系统,帮助合理选择您的唤醒词

最后,唐立亮介绍说,未来规划上,会考虑开发英文唤醒、打断唤醒、常用指令唤醒和远场唤醒这些优秀的技术,这些技术完成后也会争取第一时间放到平台上给大家使用。

有关百度技术沙龙的更多信息,可以关注百度开发者中心,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2016-08-11 00:414392

评论

发布
暂无评论
发现更多内容

如果公司业务需要频繁更换IP地址,应该如何处理?

Finovy Cloud

云计算 网络安全 IP IP地址 高防IP

让AI看见——Azure OpenAI GPT-4 Turbo with Vision体验

Bruce Talk

AI Azure OpenAI GPT-4 Vision

智算让大模型触手可及

百度Geek说

人工智能 Prompt

数字人系统源码部署,教你怎么快速搭建AI数字人直播间?

青否数字人

数字人

QCA9882: The powerful engine of wireless LAN

wallysSK

左耳听风 - 程序员修炼之道「读书打卡 day 07」

Java 工程师蔡姬

读书笔记 程序员 个人成长 职业发展

精选LED舞台租赁屏的七项关键要素

Dylan

产品 艺术 LED LED显示屏

国内再下两城!Zilliz Cloud 全球可用服务区增至 11 个

Zilliz

Zilliz AIGC zillizcloud 云原生向量数据库

软件测试/测试开发/全日制|Page Object模式:为什么它是Web自动化测试的必备工具

霍格沃兹测试开发学社

在 zsh 中找不到刚刚安装的 MySQL 怎么破?

escray

MySQL

稳定性建设实践分享

木小风

稳定性

OpenSPG 新版发布:新增大模型知识抽取,3 步快速搭建专属知识图谱

机器智能社区

知识图谱 大模型 LLM

除了OneNote,还有什么值得推荐的手写笔记软件?

彭宏豪95

效率工具 在线白板 办公软件 笔记软件 boardmix

什么是二维码?带你快速了解二维码的原理

草料二维码

二维码 草料二维码 二维码生成器

简单6步生成数字人短视频,让你轻松实现互动!

青否数字人

浅谈新一代账务系统的高可用演进思路

鲸品堂

运营商 计费模式 方案设计

深度好文:MySQL体系结构

伤感汤姆布利柏

低代码平台,新型应用程序开发神器

这我可不懂

低代码平台 应用程序

深入了解 Python MongoDB 操作:排序、删除、更新、结果限制全面解析

小万哥

Python 数据库 程序人生 软件工程 后端开发

宇宙的尽头是带货,大模型首战在营销

脑极体

AI

携获奖产品Crystal参加CES2024,高端头显品牌小派科技体验震撼全场

Geek_2d6073

自动化测试用例规范

无涯

自动化测试 测试开发 pytest Python自动化测试

Picturesocial | 开发实践:如何在15分钟内将应用容器化

亚马逊云科技 (Amazon Web Services)

Docker ubuntu 容器 API

如何优化k8s中HPA的弹性速率

华为云开发者联盟

k8s 开发 华为云 华为云开发者联盟

华为联合伙伴发布《云端控制平台与物流自动导引车通用接口指南》

华为云开发者联盟

后端 物联网 机器人 华为云 华为云开发者联盟

淘宝拍立淘图片搜索接口:轻松找到同款商品!

tbapi

淘宝图片搜索接口 淘宝拍立淘接口 淘宝图片搜索API

赋能虚拟教学革命,实时云渲染助力复旦大学打造元宇宙教学

3DCAT实时渲染

元宇宙 元宇宙解决方案 元宇宙教学

Zynq7020 使用 Video Processing Subsystem 实现图像缩放

攻城狮Wayne

【深入浅出Docker原理及实战】「原理实战体系」零基础+全方位带你学习探索Docker容器开发实战指南(Dockerfile使用手册)

洛神灬殇

Docker 容器 后端 2024年第十二篇文章

极狐GitLab 线下『 DevOps专家训练营』成都站开班在即

极狐GitLab

字符串操作-逗号分割字符串转树形结构

alexgaoyh

自然语言处理 数据结构 字符串 数据预处理 树形

百度技术沙龙第65期回顾:百度语音识别和唤醒技术解析(含资料下载)_DevOps & 平台工程_孟夕_InfoQ精选文章