写点什么

智能语音技术,让我们“动口不动手”

  • 2015-11-02
  • 本文字数:3085 字

    阅读完需:约 10 分钟

随着移动互联网的大规模爆发,作为主要载体的智能手机在打字输入方面越来越依赖语音输入,而语音识别技术也逐渐变成了必需品。在百度,语音识别技术早已纳入需求向服务转变的进程中,其实百度语音技术就在我们身边:搜索、地图、应用、音乐、浏览器等领域无处不彰显语音技术的风采,也是它让我们进入了“动口不动手”的时代。

就在上周六(10 月 31 日)以“智能语音技术,简化你我日常生活”为主题的百度技术沙龙活动中,来自百度开发者中心的语音专家就分享了百度在智能语音上的相关成果和进展。演讲嘉宾分别是百度语音技术部高级项目经理关勇、语音开放平台首席产品经理穆向禹和百度开发者平台高级产品设计师董经纬。

百度语音技术及最新进展

百度语音部门成立于 2010 年,在 2013 年的时候已经展现出了从无到有的华丽转变,硕果累累。现已在行业里取得了不错的成果,正如关勇所说,百度在做技术的同时,不仅服务于自己的产品和应用,还会把一些比较特殊的技术开放出来,供广大开发者分享、使用、协作。实际上,智能语音技术最关键的两点是语音识别技术和语音合成技术。识别技术即:将声音转化为文字,让应用长上耳朵;合成技术即:将文字转化为声音,让应用开口说话。

目前百度语音采取的语音识别技术主要是场景化识别,自选语言模型:这其中的细节包括:长文本语音输入、短语热词识别、交互式对话垂直领域识别、语音纠错技术。正是基于这些技术,百度语音的识别功能已经在业界有了一定的领先地位,主要体现在这些方面:

  • 数万小时的声学训练语料,百度搜索引擎技术积累的海量文本语料。
  • 更精准的基于听觉感知 DNN 声学建模技术,更高的识别率。
  • 线上语言模型体积 100GB-1TB,更广泛的语言覆盖范围。
  • 小时级别的海量语言模型动态更新,更快追踪热词。
  • 高速动态 WFST 一遍解码技术,中国最快的语音输入法产品技术。

百度语音首席架构师贾磊在刚刚进行的第十三届全国人机语音通讯学术会议上做的专题报告,详细介绍了百度在语音识别技术上的最新进展,即 LSTM 建模和 CTC 训练在语音建模技术中的应用,将通用文本安静环境普通话识别率提升到接近 97%。总的来说,百度的语音技术已经达到了国际领先水平,在识别率上超过相同竞争产品。

在语音合成技术方面,百度在海量文本信息处理技术,基于 LSTM 的韵律建模技术,基于 LSTM 的声学参数建模技术,基于大规模录音语料智能弹性单元挑选技术等方面取得了重要突破,完成了业界领先的拼接合成和参数合成系统,并提供完美体验的离在线融合语音合成服务解决方案。

百度语音合成技术最新推出了基于大数据的情感语音合成技术,让声音合成摆脱平铺直叙,使用户体会更自然的发音,更丰富的情感和更强大的表现力,在沙龙演示的情感语音合成,引起开发者的热烈反响和浓厚兴趣。目前该技术已经在百度小说频道上线,用户可以在 wifi 环境下体会在线情感男声的小说播报。目前的最新进展还体现在车载场景语音交互应用 Carlife 上,这里面用到的技术点包括:麦克风阵列及信号处理技术、世界领先的基于人类听觉的 CNN+DNN+LSTM 语音识别技术、成熟的 handfree 唤醒技术、场景深度优化技术、 电话号码和音乐信息智能纠错技术和基于用户信息的个性化识别技术等等。

百度语音在车载、家居、手机等方向的解决方案

技术的意义在于将需求与服务连接起来,而产品则是连接人与服务的最终介质。百度语音开放平台首席产品经理穆向禹现场介绍了百度语音技术的应用场景和解决方案。这里面首先要提出的是百度语音平台的开放性,包括免费的技术解决方案、分享厂商解决方案和个性化定制内容。

语音平台的开放接入形式有很多种,例如 REST API 方式接入——百度语音自主研发的语音识别技术 API 调用方式,采用 http 方式请求,适用于任何平台的开发者进行语音应用的开放;支持语音识别 + 语音合成接入;支持整段录音文件识别;支持 pcm、wav、opus、speex、amr、x-flac 几种语音格式的接入。此外还有 SDK 接入方式——支持纯在线和离在线两种接入形式;支持 Android 和 iOS 系统;支持多个垂直类优化识别;支持用户指令定制化识别等等。

另一个能够体现百度语音平台开放特征的现象是为不同行业的企业和个人用户提供优质的语音服务,这些企业包括联想、中兴、特斯拉、现代、比亚迪、海尔、索尼和小米等等厂商。尤其是在车载和家居两大块,穆向禹着重以此为案例做了分析。百度语音技术在车载方面做了这么几件事情。第一是为车载重点优化语音唤醒,不但降低了功耗,还提升了稳定性和准确性。第二是在应用端增加多信号处理技术,针对不同的场景进行深度优化。其实在车载领域,百度对外开放的技术点还包括图像、大数据、地图以及相关的一些技术分支,和更多的开发者共同打造一个车载环境。语音在这一环节里起到的是入口作用。

在智能家居领域,百度语音的应用场景也很广泛。在智能电视方面有完整的基于 MCU 和 ARM 的解决方案,可以通过在遥控器上安装自己开发的 UI 的方式,或者用手机离在线方案来控制一台电视机。除此之外,百度语音技术团队的目标是在明年把语音技术做到更加极致,不仅要满足人们对洗衣机、冰箱这样的传统家居的智能化需求,还要做成一个智能生态圈,提供更多的解决方案。

在未来,百度平台将会开放更多的技术和应用,包括支持识别方言功能,增加更多的车载应用,增加多轮交互,声纹识别,个性化 TTS 和音频检索等功能。

怎样从百度获得更多分发和收入

百度基于庞大的用户基数和牢固的市场地位,在应用分发上有很强大的优势,正如百度开发者平台高级产品设计师董经纬所言,百度分发量的领跑优势已经持续两年了,但其中的问题也开始慢慢显现出来——分发量越高,意味着需要承担更高的成本。这个时候就陷入一个怪圈:百度为什么要做分发?做分发是为了养用户,养用户是干什么用的?没有用户哪来的分发?这种“为了分发而分发”的模式,没能为百度带来更多的实际价值。

如何解决这个问题呢?生态!董经纬强调说,百度要想从分发上得到更多的好处,生态是很好的出路。提到生态,不得不讲明这其中的三个误区。误区一:生态 = 赔本赚吆喝。平台不可能“只投入,不产出”。误区二:生态要由开发者买单。生态服务可替代性强,收费潜力有限,何况大部分开发者入不敷出。误区三:生态只能降低开发成本。那么,如何用正确的姿态玩生态呢?对百度而言,要让每一次分发对百度产生用户价值以外的意义,例如:数据、分发量、收入;对开发者而言,在通过使用生态服务降低开发成本的同时,还要能获得分发量、额外收入。具体的落地形式包括:应用内容前置、生态 SDK 统一、前向付费尝试。

应用内容前置,是指百度提供内容对接方案,允许开发者挖掘应用特色信息,自助完成内容对接;百度将优先、集中展示对接应用,给开发者带来分发量和特色信息的曝光。生态 SDK 一站接入,是指“一个平台:app.baidu.com”和“一次 SDK 接入”,让开发者可以快速接入、使用多种 SDK,并因此得到分发量上的合作加权,这迅速提高了百度生态 SDK 的市场覆盖率。前向付费尝试,是指百度将提供多种形态的支付场景,开发者可以选择接入,降低开发者自行尝试用户付费模式的试错成本,毕竟离开钱,就不会有生态。

最后,董经纬讲到了分发平台寡头化的影响。分发市场从早期的群雄逐鹿,到现在的鼎足而三,寡头化缩小了用户下载应用的选择范围,从而让“独家应用”的出现成为了可能——在应用市场同质化严重的今天,应用内容的差异化也许将成为各方角逐的下一个焦点。

在最后的环节里,百度开发者中心语音开发创新大赛的总负责人辛宇给在场的听众介绍了大赛相关流程和细节,并邀请了本次参赛者宋乐展示了他的参赛作品。想要了解更多语音创新大赛可以点击链接:百度语音开发大赛

2015-11-02 01:243492
用户头像

发布了 181 篇内容, 共 102.4 次阅读, 收获喜欢 208 次。

关注

评论

发布
暂无评论
发现更多内容

LoRaWAN设备接入阿里云IoT企业物联网平台实战——实践类

阿里云AIoT

物联网 传感器

智多星RPA重塑业务流程,全面赋能企业商业创新

YonBuilder低代码开发平台

大前端CPU优化技术--SIMD技术

江湖修行

simd neon

如何通过Java 代码设置 Word 文档页边距

在下毛毛雨

C# .net word文档 页边距

和狂飙的 ChatGPT 聊聊软件开发的现在与未来

极狐GitLab

DevOps 研发效能 DevSecOps 极狐GitLab ChatGPT

一图读懂 | ChatGPT热潮背后,金融行业大模型应用路在何方?——金融行业大模型应用探索

易观分析

金融 科技

当 Amazon Lambda 遇上 Apache APISIX 可以擦出什么火花?

API7.ai 技术团队

AWS api 网关 Lambda s APISIX

AntDB数据库再获奖,亚信安慧被评为“2022 PostgreSQL中国最佳创新企业”

亚信AntDB数据库

数据库 AntDB 国产数据库 AntDB数据库 企业号 2 月 PK 榜

2023年Java面试正确姿势(1000+面试题附答案解析)

Java编程日记

Java 架构 后端 java程序员 java面试

工业数字孪生:西门子工业网络与设备虚拟调试案例(TIA+MCD+SINETPLAN)

工赋开发者社区

电信NB-IoT设备对接阿里云IoT平台实战——实践类

阿里云AIoT

大数据 监控 物联网 存储 数据格式

数字经济赋能乡村建设,助力乡村全面振兴

加入高科技仿生人

低代码 数字经济 乡村振兴 农村

设备上报二进制数据在 IoT 平台解析实践——实践类

阿里云AIoT

小程序 监控 物联网 传感器 测试技术

ZBC通证月内已翻倍,Nautilus Chain 上线前夕的“开门红”

西柚子

CVE-2022-22947 SpringCloud GateWay SPEL RCE 漏洞分析

墨菲安全

漏洞分析 软件供应链安全

聊聊 HTAP 的前世今生

墨天轮

数据库 OLAP TiDB OLTP HTAP

Python 基础练习题(二)

漫步桔田

CVE-2023-23752 Joomla未授权访问漏洞分析

墨菲安全

漏洞分析 软件供应链安全

云小课|MRS数据分析-通过Spark Streaming作业消费Kafka数据

华为云开发者联盟

大数据 数据分析 华为云 企业号 2 月 PK 榜 华为云开发者联盟

Tapdata 和 Databend 数仓数据同步实战

Databend

代码的发展与终结

飞算JavaAI开发助手

行业分析| OA系统中的实时通讯

anyRTC开发者

音视频 远程办公 视频会议 视频通话 OA

IoT物联网设备端硬件上云技术方案详解——实践类

阿里云AIoT

物联网 存储 开发工具 数据采集 传感器

脑洞|ChatGPT加持下,ChatOps将如何革新团队协作与运维管理?

极狐GitLab

团队管理 DevOps 团队协作 ChatOps ChatGPT

【监控运维】消息轨迹全景图详解-独门秘籍——实践类

阿里云AIoT

运维 监控 物联网 数据可视化 消息中间件

IoT企业物联网平台,从设备端到云端业务系统全链路开发实战——实践类

阿里云AIoT

数据库 监控 物联网 存储 消息中间件

墨菲安全参与信息通信软件供应链安全社区成员大会并获自主研发创新成果奖

墨菲安全

供应链安全 安全情报

软件供应链受威胁下的应对方法——供应链安全管理平台的五大工具能力

墨菲安全

SCA 供应链安全

低代码选型,论协同开发的重要性

葡萄城技术团队

TDengine 发布主流时序数据库对比分析报告,与 InfluxDB、TimescaleDB 展开全面对比测试

TDengine

tdengine 时序数据库 数据库·

基于 IoT物联网 + 表格存储DB + DataV 搭建实时环境监控大屏——实践类

阿里云AIoT

数据库 监控 物联网 存储 数据可视化

智能语音技术,让我们“动口不动手”_百度_Xue Liang_InfoQ精选文章