【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

百度技术沙龙第 65 期回顾:百度语音识别和唤醒技术解析(含资料下载)

  • 2016-08-11
  • 本文字数:1841 字

    阅读完需:约 6 分钟

随着人工智能的普及,语音已成为了重要的交互方式,尤其是百度语音识别和语音唤醒技术一经推出,便受到了开发者的广泛关注。

在 8 月 6 号由百度开发者中心和InfoQ 联合举办的第65 期“百度语音识别和语音唤醒技术解析及实践”沙龙上,百度语音开放平台资深产品经理何荡,分享了百度语音技术最新进展及最新解决方案。同时,百度语音开放平台资深研发工程师魏力凯和唐立亮,也分别介绍了百度语音识别&百度语音唤醒技术细节以及具体实践。最后还设置了演示分享环节,以便与开发者更好地互动。

百度语音开放技术最新进展及最新解决方案(下载讲稿

首先,何荡介绍了百度语音技术的最新概况,尤其提到了语音识别和语音合成,并在后面的语音最新效果中进行了展示。语音识别方面,机器识别技术已超过人;语音合成方面,主要的是情感语音合成,即通过大数据拼接的技术,把情感的因素加到声音里面,更合理地说是在声音的采集以及最后合成的效果上,都已经注入了情感。

另外,何荡还提到了百度语音平台的开放计划:

第一个是远场识别,计划在今年年底的时候,把远场技术开放出来。这技术也是免费开放的,让大家可以去做一些解放双手的应用出来。

第二个是情感语音,把情感的因素加到声音里面,会代替原有机械的声音,比较接近真人的声音,这也是预计在年底的时候开放。

第三,被美国麻省理工凭为2016 年10 大突破技术的Deep Speech,今年年底的时候会有更大的技术提升和优化,会有更新版本的Deep Speech 出来,放到语音平台上。

个性化语音识别-离线命令词识别和自定义语义(下载讲稿

来自百度语音开放平台的资深研发工程师魏力凯,目前负责百度开放平台的离在线语音、一体化唤醒和自定义语义等技术。他的分享主要分为以下四个部分:

1、在线自定义

2、离线自定义

3、自定义语义

4、语法编辑器

在线自定义,可以将不常见、不容易识别正确或者希望识别的更加准确的内容枚举到一个称为热词表的文本文件里,使得热词表里的内容能够精确识别,有了在线自定义,每一个开发者,每一个应用,每一台机器都可以有不同的识别策略;而离线自定义则提供了命令词识别的能力,这项能力使得在网络不好甚至完全没有网络的情况下,拥有高准确率的语音识别能力,比如车载环境;自定义语义则允许开发者定义想要的垂类,为了在没网的情况下也能使用,这项技术开始就是基于离线的。

新开放的这三项功能,一个解决在线识别不准确问题,一个解决了没网络的情况下不能识别的问题,而语义自定义则解决了所说的内容没法解析,或者说解析到错误的领域的问题。

最后,魏力凯还介绍了为上述新功能定制的语法编辑器,有了这款编辑器,可以使开发者更加便捷的使用上述技术。

百度语音唤醒技术解析及实践(下载讲稿

百度语音唤醒内核技术有哪些,其原理和实现方式是怎样的?

唐立亮介绍说,语音唤醒技术常见的解决方案主要有:基于置信度、基于识别的唤醒系统和基于垃圾词网络的技术,百度语音唤醒技术是吸取了这三种方案的精华,即基于垃圾音素,采用模型统计的手段,使几个因素可以代表全部的发音,后边会接一个置信度系统,通过这个判断极大地降低误报率。

接着,唐立亮通过一张图片,介绍了百度语音唤醒的流程:

首先用户要输入他们的语音,然后进行端点检测,把人说话的部分给检测出来,之后就是一个信号处理的过程,对信号进行一个非常好的噪音的处理,或者是其他方面的处理。接下来就是提取声学特征,进行识别解码,之后就是置信度判别,由于现在是一个唤醒+ 识别的系统,那唤醒成功之后需要送到服务器进行在线解码,最后获取到识别结果。

另外,唐立亮也提到,如何评价唤醒技术的好坏?非常重要的两个指标就是唤醒的正确率和误报率。 好的唤醒技术,唤醒的正确率很高,唤醒的误报率很低。

接着,唐立亮分享了百度语音唤醒的一些应用场景,包括手机APP 替换用户常见操作、拍照、机器人、车载场景、智能家居、智能硬件等。

关于如何选择唤醒词,他也给出了以下建议:

1、唤醒词可根据应用的个性化需求来订制

2、每个词在 3 个字到 5 个汉字之间,4 个字最佳

3、 音节覆盖尽量多,差异大,响亮

4、建议选择不常用词语

5、唤醒词评估系统,帮助合理选择您的唤醒词

最后,唐立亮介绍说,未来规划上,会考虑开发英文唤醒、打断唤醒、常用指令唤醒和远场唤醒这些优秀的技术,这些技术完成后也会争取第一时间放到平台上给大家使用。

有关百度技术沙龙的更多信息,可以关注百度开发者中心,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2016-08-11 00:414429

评论

发布
暂无评论
发现更多内容

大咖说*图书分享-Node布道师狼叔|三卷书详解Node.js

大咖说

前端 后端 代码

明明已部署EDR,服务器为什么还是被入侵了?

青藤云安全

安全攻防 网络安全 主机安全

小白福利!教你用低代码实现一个简单的HarmonyOS页面跳转功能

HarmonyOS开发者

HarmonyOS 低代码开发

企评家,企业数据分析评价提供投资信息支撑

企评家

企评家|广州白云国际机场股份有限公司成长性报告简述

企评家

清晰明了!人人都能懂的Python自动发送邮件实战教程

Python全栈库

Python 编程 程序员 面试 全栈开发

工业质检如何以“智”取胜?15分钟上手工业零部件检测全流程方案

百度开发者中心

三、云原生安全关键要素

穿过生命散发芬芳

云原生安全 5月月更

FinClip+系列 | VUE前端开发框架核心原理

Speedoooo

Vue 前端框架 移动开发 移动端开发 小程序容器

linux中vi,vim操作技巧

入门小站

Linux

在线文本列表补集计算工具

入门小站

工具

攻防演练中常见的8种攻击方式及应对指南

青藤云安全

漏洞扫描器并非100%靠谱,那么容器镜像安全又当如何保证?

青藤云安全

网络安全 安全管理 漏洞修复

Dubbo3 落地实践及 Mesh 解决方案

阿里巴巴中间件

阿里云 开源 云原生 dubbo 中间件

腾讯云发布全新非关系型数据库KeeWiDB 搭载全自研存储引擎

科技热闻

在线TSV转YAML工具

入门小站

工具

李俊刚:我是如何在OpenHarmony完成ap6275s WiFi驱动的HDF适配工作的?

OpenHarmony开发者

OpenHarmony WiFi驱动

JAVA OOM异常可观测最佳实践

观测云

可观测性 可观测

国内首个开源物联网边缘工业协议网关软件,Neuron v2.0产品解读

EMQ映云科技

开源 物联网 IoT 5月月更 neuron

6 月亚马逊云科技培训与认证课程,精彩不容错过!

亚马逊云科技 (Amazon Web Services)

架构师 培训 认证

直播预告丨Hello HarmonyOS进阶课程第三课——游戏开发实践

HarmonyOS开发者

游戏开发 HarmonyOS

一文彻悟容器网络通信

阿里巴巴中间件

阿里云 容器 云原生 中间件

接口测试工具简介!

Liam

测试 自动化测试 测试工具 测试自动化 测试管理工具

不会吧不会吧!听说还有人在手动迁移Vault密钥?

Jianmu

自动化 数据迁移 密钥 建木CI vault

Spark离线开发框架设计与实现

百度开发者中心

Cocos 常用功能介绍

空城机

Cocos 5月月更

Hoo研究院 | 什么是流动性池?(下)流动性池的运作

区块链前沿News

defi 流动性 Hoo

抢先预约 | 阿里云无影云应用线上发布会预约开启

阿里云弹性计算

无影云电脑 云应用

SeaTunnel 加入开源之夏!一起来拿奖金

Apache SeaTunnel

Apache 大数据 开源 workflow Seatunnel

DTMO直播预告|Taier1.1新功能详解&控制台介绍

袋鼠云数栈

大数据

企评家 | 白银有色集团股份有限公司成长性评价简介

企评家

百度技术沙龙第65期回顾:百度语音识别和唤醒技术解析(含资料下载)_DevOps & 平台工程_孟夕_InfoQ精选文章