写点什么

百度技术沙龙第 65 期回顾:百度语音识别和唤醒技术解析(含资料下载)

  • 2016-08-11
  • 本文字数:1841 字

    阅读完需:约 6 分钟

随着人工智能的普及,语音已成为了重要的交互方式,尤其是百度语音识别和语音唤醒技术一经推出,便受到了开发者的广泛关注。

在 8 月 6 号由百度开发者中心和InfoQ 联合举办的第65 期“百度语音识别和语音唤醒技术解析及实践”沙龙上,百度语音开放平台资深产品经理何荡,分享了百度语音技术最新进展及最新解决方案。同时,百度语音开放平台资深研发工程师魏力凯和唐立亮,也分别介绍了百度语音识别&百度语音唤醒技术细节以及具体实践。最后还设置了演示分享环节,以便与开发者更好地互动。

百度语音开放技术最新进展及最新解决方案(下载讲稿

首先,何荡介绍了百度语音技术的最新概况,尤其提到了语音识别和语音合成,并在后面的语音最新效果中进行了展示。语音识别方面,机器识别技术已超过人;语音合成方面,主要的是情感语音合成,即通过大数据拼接的技术,把情感的因素加到声音里面,更合理地说是在声音的采集以及最后合成的效果上,都已经注入了情感。

另外,何荡还提到了百度语音平台的开放计划:

第一个是远场识别,计划在今年年底的时候,把远场技术开放出来。这技术也是免费开放的,让大家可以去做一些解放双手的应用出来。

第二个是情感语音,把情感的因素加到声音里面,会代替原有机械的声音,比较接近真人的声音,这也是预计在年底的时候开放。

第三,被美国麻省理工凭为2016 年10 大突破技术的Deep Speech,今年年底的时候会有更大的技术提升和优化,会有更新版本的Deep Speech 出来,放到语音平台上。

个性化语音识别-离线命令词识别和自定义语义(下载讲稿

来自百度语音开放平台的资深研发工程师魏力凯,目前负责百度开放平台的离在线语音、一体化唤醒和自定义语义等技术。他的分享主要分为以下四个部分:

1、在线自定义

2、离线自定义

3、自定义语义

4、语法编辑器

在线自定义,可以将不常见、不容易识别正确或者希望识别的更加准确的内容枚举到一个称为热词表的文本文件里,使得热词表里的内容能够精确识别,有了在线自定义,每一个开发者,每一个应用,每一台机器都可以有不同的识别策略;而离线自定义则提供了命令词识别的能力,这项能力使得在网络不好甚至完全没有网络的情况下,拥有高准确率的语音识别能力,比如车载环境;自定义语义则允许开发者定义想要的垂类,为了在没网的情况下也能使用,这项技术开始就是基于离线的。

新开放的这三项功能,一个解决在线识别不准确问题,一个解决了没网络的情况下不能识别的问题,而语义自定义则解决了所说的内容没法解析,或者说解析到错误的领域的问题。

最后,魏力凯还介绍了为上述新功能定制的语法编辑器,有了这款编辑器,可以使开发者更加便捷的使用上述技术。

百度语音唤醒技术解析及实践(下载讲稿

百度语音唤醒内核技术有哪些,其原理和实现方式是怎样的?

唐立亮介绍说,语音唤醒技术常见的解决方案主要有:基于置信度、基于识别的唤醒系统和基于垃圾词网络的技术,百度语音唤醒技术是吸取了这三种方案的精华,即基于垃圾音素,采用模型统计的手段,使几个因素可以代表全部的发音,后边会接一个置信度系统,通过这个判断极大地降低误报率。

接着,唐立亮通过一张图片,介绍了百度语音唤醒的流程:

首先用户要输入他们的语音,然后进行端点检测,把人说话的部分给检测出来,之后就是一个信号处理的过程,对信号进行一个非常好的噪音的处理,或者是其他方面的处理。接下来就是提取声学特征,进行识别解码,之后就是置信度判别,由于现在是一个唤醒+ 识别的系统,那唤醒成功之后需要送到服务器进行在线解码,最后获取到识别结果。

另外,唐立亮也提到,如何评价唤醒技术的好坏?非常重要的两个指标就是唤醒的正确率和误报率。 好的唤醒技术,唤醒的正确率很高,唤醒的误报率很低。

接着,唐立亮分享了百度语音唤醒的一些应用场景,包括手机APP 替换用户常见操作、拍照、机器人、车载场景、智能家居、智能硬件等。

关于如何选择唤醒词,他也给出了以下建议:

1、唤醒词可根据应用的个性化需求来订制

2、每个词在 3 个字到 5 个汉字之间,4 个字最佳

3、 音节覆盖尽量多,差异大,响亮

4、建议选择不常用词语

5、唤醒词评估系统,帮助合理选择您的唤醒词

最后,唐立亮介绍说,未来规划上,会考虑开发英文唤醒、打断唤醒、常用指令唤醒和远场唤醒这些优秀的技术,这些技术完成后也会争取第一时间放到平台上给大家使用。

有关百度技术沙龙的更多信息,可以关注百度开发者中心,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

2016-08-11 00:415147

评论

发布
暂无评论
发现更多内容

会议室怎么添加预约功能?快速解决会议室使用效率问题

天天预约

小程序 SaaS 线上预约 会议室 预约工具

开源工具系列2:Trivy

HummerCloud

云原生安全

达摩院2023十大科技趋势发布,生成式AI将进入应用爆发期

阿里技术

云计算 AI 芯片 科技趋势

SEO 已死,LLMO 万岁

Jina AI

人工智能 搜索引擎 SEO 谷歌 ChatGPT

阿里云Imagine Computing创新技术大赛决赛启幕!

阿里云CloudImagine

云计算 阿里云 视频云 边缘云

云图说 | 勒索病毒防治解决方案

华为云开发者联盟

云计算 后端 华为云 企业号 1 月 PK 榜

手把手教您在PyCharm中连接云端资源进行代码调试

华为云开发者联盟

人工智能 华为云 企业号 1 月 PK 榜

谈谈在 select for update 中到底加了什么锁

风铃架构日知录

Java 数据库 IT 隔离级别

融云再添多项荣誉!产品、服务获多方认可

融云 RongCloud

即时通讯 即时通讯IM

【FAQ】推送服务常见问题及解决方案

HarmonyOS SDK

HMS Core

SAP系统在企业内部控制方面有哪些独到之处?

SAP虾客

报表 SAP系统 业财一体化 change history

MySql树形结构(多级菜单)查询设计方案

风铃架构日知录

Java MySQL 程序员 后端 IT

Databend 借助对象存储帮你实现降本增效

Databend

为测试管理正名,华为云CodeArts TestPlan的守护之道

华为云开发者联盟

云计算 测试 华为云 华为CodeArts 企业号 1 月 PK 榜

Nerdctl 原生支持 Nydus 加速镜像

SOFAStack

新书赠送丨《中国金融科技发展概览:创新与应用前沿》

Kyligence

数据分析 金融行业

HarmonyOS智能座舱体验是怎样炼成的?立即查看

HarmonyOS开发者

HarmonyOS

【带你读论文】向量表征经典之DeepWalk

华为云开发者联盟

人工智能 华为云 企业号 1 月 PK 榜 向量表征

数据的不确定性及可视化方法

搞大屏的小北

2022转转技术年货发布啦

转转技术团队

转转 技术年货

乐信集团刘志诚:构建可观测、可管、可控的数据安全体系

极盾科技

数据安全

技术分享| anyRTC 视频监控融合方案

anyRTC开发者

监控 音视频 指挥调度 快对讲 GB28181

云堡垒机优点简单说明-行云管家

行云管家

网络安全 堡垒机 云堡垒机

火山引擎DataTester升级:降低产品上线风险,助力产品敏捷迭代

字节跳动数据平台

大数据 AB testing实战

数据分析的尽头不是可视化,而是行动!行动!行动!

Kyligence

数据分析 指标洞察

TiDB 中标杭州银行核心系统数据库项目

PingCAP

#TiDB

2022年总结:责任驱动开源

李孟聊AI

开源 总结

解决高基数难题,云原生时序数据库 TDengine 3.0 荣获 IT168 2022 年度技术卓越奖

TDengine

数据库 tdengine 时序数据库

消息服务 + Serverless 函数计算如何助力企业降本提效?

Serverless Devs

助力 100+ 家企业实现 CentOS 平滑迁移,OpenCloudOS「千百双扶计划」重磅上线

OpenCloudOS

Linux centos

分布式系统-CAP理论

非晓为骁

分布式系统 CAP理论 分布式理论

百度技术沙龙第65期回顾:百度语音识别和唤醒技术解析(含资料下载)_DevOps & 平台工程_孟夕_InfoQ精选文章