写点什么

百度技术沙龙第 65 期回顾:百度语音识别和唤醒技术解析(含资料下载)

  • 2016-08-11
  • 本文字数:1841 字

    阅读完需:约 6 分钟

随着人工智能的普及,语音已成为了重要的交互方式,尤其是百度语音识别和语音唤醒技术一经推出,便受到了开发者的广泛关注。

在 8 月 6 号由百度开发者中心和InfoQ 联合举办的第65 期“百度语音识别和语音唤醒技术解析及实践”沙龙上,百度语音开放平台资深产品经理何荡,分享了百度语音技术最新进展及最新解决方案。同时,百度语音开放平台资深研发工程师魏力凯和唐立亮,也分别介绍了百度语音识别&百度语音唤醒技术细节以及具体实践。最后还设置了演示分享环节,以便与开发者更好地互动。

百度语音开放技术最新进展及最新解决方案(下载讲稿

首先,何荡介绍了百度语音技术的最新概况,尤其提到了语音识别和语音合成,并在后面的语音最新效果中进行了展示。语音识别方面,机器识别技术已超过人;语音合成方面,主要的是情感语音合成,即通过大数据拼接的技术,把情感的因素加到声音里面,更合理地说是在声音的采集以及最后合成的效果上,都已经注入了情感。

另外,何荡还提到了百度语音平台的开放计划:

第一个是远场识别,计划在今年年底的时候,把远场技术开放出来。这技术也是免费开放的,让大家可以去做一些解放双手的应用出来。

第二个是情感语音,把情感的因素加到声音里面,会代替原有机械的声音,比较接近真人的声音,这也是预计在年底的时候开放。

第三,被美国麻省理工凭为2016 年10 大突破技术的Deep Speech,今年年底的时候会有更大的技术提升和优化,会有更新版本的Deep Speech 出来,放到语音平台上。

个性化语音识别-离线命令词识别和自定义语义(下载讲稿

来自百度语音开放平台的资深研发工程师魏力凯,目前负责百度开放平台的离在线语音、一体化唤醒和自定义语义等技术。他的分享主要分为以下四个部分:

1、在线自定义

2、离线自定义

3、自定义语义

4、语法编辑器

在线自定义,可以将不常见、不容易识别正确或者希望识别的更加准确的内容枚举到一个称为热词表的文本文件里,使得热词表里的内容能够精确识别,有了在线自定义,每一个开发者,每一个应用,每一台机器都可以有不同的识别策略;而离线自定义则提供了命令词识别的能力,这项能力使得在网络不好甚至完全没有网络的情况下,拥有高准确率的语音识别能力,比如车载环境;自定义语义则允许开发者定义想要的垂类,为了在没网的情况下也能使用,这项技术开始就是基于离线的。

新开放的这三项功能,一个解决在线识别不准确问题,一个解决了没网络的情况下不能识别的问题,而语义自定义则解决了所说的内容没法解析,或者说解析到错误的领域的问题。

最后,魏力凯还介绍了为上述新功能定制的语法编辑器,有了这款编辑器,可以使开发者更加便捷的使用上述技术。

百度语音唤醒技术解析及实践(下载讲稿

百度语音唤醒内核技术有哪些,其原理和实现方式是怎样的?

唐立亮介绍说,语音唤醒技术常见的解决方案主要有:基于置信度、基于识别的唤醒系统和基于垃圾词网络的技术,百度语音唤醒技术是吸取了这三种方案的精华,即基于垃圾音素,采用模型统计的手段,使几个因素可以代表全部的发音,后边会接一个置信度系统,通过这个判断极大地降低误报率。

接着,唐立亮通过一张图片,介绍了百度语音唤醒的流程:

首先用户要输入他们的语音,然后进行端点检测,把人说话的部分给检测出来,之后就是一个信号处理的过程,对信号进行一个非常好的噪音的处理,或者是其他方面的处理。接下来就是提取声学特征,进行识别解码,之后就是置信度判别,由于现在是一个唤醒+ 识别的系统,那唤醒成功之后需要送到服务器进行在线解码,最后获取到识别结果。

另外,唐立亮也提到,如何评价唤醒技术的好坏?非常重要的两个指标就是唤醒的正确率和误报率。 好的唤醒技术,唤醒的正确率很高,唤醒的误报率很低。

接着,唐立亮分享了百度语音唤醒的一些应用场景,包括手机APP 替换用户常见操作、拍照、机器人、车载场景、智能家居、智能硬件等。

关于如何选择唤醒词,他也给出了以下建议:

1、唤醒词可根据应用的个性化需求来订制

2、每个词在 3 个字到 5 个汉字之间,4 个字最佳

3、 音节覆盖尽量多,差异大,响亮

4、建议选择不常用词语

5、唤醒词评估系统,帮助合理选择您的唤醒词

最后,唐立亮介绍说,未来规划上,会考虑开发英文唤醒、打断唤醒、常用指令唤醒和远场唤醒这些优秀的技术,这些技术完成后也会争取第一时间放到平台上给大家使用。

有关百度技术沙龙的更多信息,可以关注百度开发者中心,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

2016-08-11 00:415576

评论

发布
暂无评论
发现更多内容

盘点 15 个好用的 API 接口管理神器

Java小咖秀

工具 工具分享

SumSwap节点预售关注度飙升而Uniswap V3版本却备受争议

币圈资讯

火山引擎 Redis 云原生实践

火山引擎开发者社区

云原生 redis cluster

面试笔记(一)事务连环炮

U2647

分布式事务 事务隔离级别 事务 4月日更

初识Nginx(一)

书旅

nginx

年薪百万是社会认同,更是自身价值体现

博文视点Broadview

重磅功能!博睿数据APM助企业从容应对云原生架构演进

博睿数据

应用性能监控产品 Bonree Server 博睿数据 bonree

LeetCode题解:剑指 Offer 49. 丑数,二叉堆,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

Golang 字符串分组

一代咩神

Go 语言

区块链农产品质量安全溯源,保证农产品品质

13530558032

技术分享第二讲报名!

神策技术社区

大数据 活动 报名 神策

区块链电子合同--助推合同数字化管理

13530558032

EFT【阿凡提】等级规则、收益、排线方法与EFTalk十大关键点

币圈那点事

Spring IOC 特性有哪些,不会读不懂源码!

小傅哥

Java spring 小傅哥 控制反转IOC

3w 字长文爆肝 Java 基础面试题!太顶了!!!

苹果看辽宁体育

Java 面试 后端

区块链产业园区服务平台开发,搭建区块链园区运营平台

13828808769

区块链+ #区块链#

手把手教你写一个spring IOC容器

华为云开发者联盟

spring 容器 ioc spring框架

Linux cat 命令

一个大红包

4月日更

“区块链+电子处方”,医疗跟更健康

电微13828808271

语音聊天室 anyHouse 使用手册

anyRTC开发者

ios android 音视频 WebRTC RTC

手摸手教你阅读和调试大型开源项目 ZooKeeper

HelloGitHub

Java zookeeper 源码分析 ZooKeeper原理

马特量化交易机器人,炒币24小时不停歇

飞亚科技

善盾SD币是什么?

飞亚科技

智慧平安社区建设,创建“三零平安社区”

13530558032

多功能工具箱Quicker+笔记软件flomo,竟然还能擦出这样的火花?

彭宏豪95

效率 工具软件 笔记 工具分享 4月日更

区块链数据共享平台—追踪、溯源、可信

电微13828808271

区块链+

【LeetCode】寻找旋转排序数组中的最小值Java题解

Albert

算法 LeetCode 4月日更

空中交警:借你一双“慧眼”,让你看透这飞机的“黑色十分钟”

华为云开发者联盟

modelarts yolo 华为云ModelArts 模型开发 华为开发者大会2021

python 调用 cmd 而不显示黑框的方法

一代咩神

Python cmd

区块链农产品溯源平台,为农产品质量安全护航

13828808769

区块链 区块链+

团队协作中,如何写出让同事赞不绝口的代码

有道技术团队

代码规范

百度技术沙龙第65期回顾:百度语音识别和唤醒技术解析(含资料下载)_DevOps & 平台工程_孟夕_InfoQ精选文章