【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

智能语音技术,让我们“动口不动手”

  • 2015-11-02
  • 本文字数:3085 字

    阅读完需:约 10 分钟

随着移动互联网的大规模爆发,作为主要载体的智能手机在打字输入方面越来越依赖语音输入,而语音识别技术也逐渐变成了必需品。在百度,语音识别技术早已纳入需求向服务转变的进程中,其实百度语音技术就在我们身边:搜索、地图、应用、音乐、浏览器等领域无处不彰显语音技术的风采,也是它让我们进入了“动口不动手”的时代。

就在上周六(10 月 31 日)以“智能语音技术,简化你我日常生活”为主题的百度技术沙龙活动中,来自百度开发者中心的语音专家就分享了百度在智能语音上的相关成果和进展。演讲嘉宾分别是百度语音技术部高级项目经理关勇、语音开放平台首席产品经理穆向禹和百度开发者平台高级产品设计师董经纬。

百度语音技术及最新进展

百度语音部门成立于 2010 年,在 2013 年的时候已经展现出了从无到有的华丽转变,硕果累累。现已在行业里取得了不错的成果,正如关勇所说,百度在做技术的同时,不仅服务于自己的产品和应用,还会把一些比较特殊的技术开放出来,供广大开发者分享、使用、协作。实际上,智能语音技术最关键的两点是语音识别技术和语音合成技术。识别技术即:将声音转化为文字,让应用长上耳朵;合成技术即:将文字转化为声音,让应用开口说话。

目前百度语音采取的语音识别技术主要是场景化识别,自选语言模型:这其中的细节包括:长文本语音输入、短语热词识别、交互式对话垂直领域识别、语音纠错技术。正是基于这些技术,百度语音的识别功能已经在业界有了一定的领先地位,主要体现在这些方面:

  • 数万小时的声学训练语料,百度搜索引擎技术积累的海量文本语料。
  • 更精准的基于听觉感知 DNN 声学建模技术,更高的识别率。
  • 线上语言模型体积 100GB-1TB,更广泛的语言覆盖范围。
  • 小时级别的海量语言模型动态更新,更快追踪热词。
  • 高速动态 WFST 一遍解码技术,中国最快的语音输入法产品技术。

百度语音首席架构师贾磊在刚刚进行的第十三届全国人机语音通讯学术会议上做的专题报告,详细介绍了百度在语音识别技术上的最新进展,即 LSTM 建模和 CTC 训练在语音建模技术中的应用,将通用文本安静环境普通话识别率提升到接近 97%。总的来说,百度的语音技术已经达到了国际领先水平,在识别率上超过相同竞争产品。

在语音合成技术方面,百度在海量文本信息处理技术,基于 LSTM 的韵律建模技术,基于 LSTM 的声学参数建模技术,基于大规模录音语料智能弹性单元挑选技术等方面取得了重要突破,完成了业界领先的拼接合成和参数合成系统,并提供完美体验的离在线融合语音合成服务解决方案。

百度语音合成技术最新推出了基于大数据的情感语音合成技术,让声音合成摆脱平铺直叙,使用户体会更自然的发音,更丰富的情感和更强大的表现力,在沙龙演示的情感语音合成,引起开发者的热烈反响和浓厚兴趣。目前该技术已经在百度小说频道上线,用户可以在 wifi 环境下体会在线情感男声的小说播报。目前的最新进展还体现在车载场景语音交互应用 Carlife 上,这里面用到的技术点包括:麦克风阵列及信号处理技术、世界领先的基于人类听觉的 CNN+DNN+LSTM 语音识别技术、成熟的 handfree 唤醒技术、场景深度优化技术、 电话号码和音乐信息智能纠错技术和基于用户信息的个性化识别技术等等。

百度语音在车载、家居、手机等方向的解决方案

技术的意义在于将需求与服务连接起来,而产品则是连接人与服务的最终介质。百度语音开放平台首席产品经理穆向禹现场介绍了百度语音技术的应用场景和解决方案。这里面首先要提出的是百度语音平台的开放性,包括免费的技术解决方案、分享厂商解决方案和个性化定制内容。

语音平台的开放接入形式有很多种,例如 REST API 方式接入——百度语音自主研发的语音识别技术 API 调用方式,采用 http 方式请求,适用于任何平台的开发者进行语音应用的开放;支持语音识别 + 语音合成接入;支持整段录音文件识别;支持 pcm、wav、opus、speex、amr、x-flac 几种语音格式的接入。此外还有 SDK 接入方式——支持纯在线和离在线两种接入形式;支持 Android 和 iOS 系统;支持多个垂直类优化识别;支持用户指令定制化识别等等。

另一个能够体现百度语音平台开放特征的现象是为不同行业的企业和个人用户提供优质的语音服务,这些企业包括联想、中兴、特斯拉、现代、比亚迪、海尔、索尼和小米等等厂商。尤其是在车载和家居两大块,穆向禹着重以此为案例做了分析。百度语音技术在车载方面做了这么几件事情。第一是为车载重点优化语音唤醒,不但降低了功耗,还提升了稳定性和准确性。第二是在应用端增加多信号处理技术,针对不同的场景进行深度优化。其实在车载领域,百度对外开放的技术点还包括图像、大数据、地图以及相关的一些技术分支,和更多的开发者共同打造一个车载环境。语音在这一环节里起到的是入口作用。

在智能家居领域,百度语音的应用场景也很广泛。在智能电视方面有完整的基于 MCU 和 ARM 的解决方案,可以通过在遥控器上安装自己开发的 UI 的方式,或者用手机离在线方案来控制一台电视机。除此之外,百度语音技术团队的目标是在明年把语音技术做到更加极致,不仅要满足人们对洗衣机、冰箱这样的传统家居的智能化需求,还要做成一个智能生态圈,提供更多的解决方案。

在未来,百度平台将会开放更多的技术和应用,包括支持识别方言功能,增加更多的车载应用,增加多轮交互,声纹识别,个性化 TTS 和音频检索等功能。

怎样从百度获得更多分发和收入

百度基于庞大的用户基数和牢固的市场地位,在应用分发上有很强大的优势,正如百度开发者平台高级产品设计师董经纬所言,百度分发量的领跑优势已经持续两年了,但其中的问题也开始慢慢显现出来——分发量越高,意味着需要承担更高的成本。这个时候就陷入一个怪圈:百度为什么要做分发?做分发是为了养用户,养用户是干什么用的?没有用户哪来的分发?这种“为了分发而分发”的模式,没能为百度带来更多的实际价值。

如何解决这个问题呢?生态!董经纬强调说,百度要想从分发上得到更多的好处,生态是很好的出路。提到生态,不得不讲明这其中的三个误区。误区一:生态 = 赔本赚吆喝。平台不可能“只投入,不产出”。误区二:生态要由开发者买单。生态服务可替代性强,收费潜力有限,何况大部分开发者入不敷出。误区三:生态只能降低开发成本。那么,如何用正确的姿态玩生态呢?对百度而言,要让每一次分发对百度产生用户价值以外的意义,例如:数据、分发量、收入;对开发者而言,在通过使用生态服务降低开发成本的同时,还要能获得分发量、额外收入。具体的落地形式包括:应用内容前置、生态 SDK 统一、前向付费尝试。

应用内容前置,是指百度提供内容对接方案,允许开发者挖掘应用特色信息,自助完成内容对接;百度将优先、集中展示对接应用,给开发者带来分发量和特色信息的曝光。生态 SDK 一站接入,是指“一个平台:app.baidu.com”和“一次 SDK 接入”,让开发者可以快速接入、使用多种 SDK,并因此得到分发量上的合作加权,这迅速提高了百度生态 SDK 的市场覆盖率。前向付费尝试,是指百度将提供多种形态的支付场景,开发者可以选择接入,降低开发者自行尝试用户付费模式的试错成本,毕竟离开钱,就不会有生态。

最后,董经纬讲到了分发平台寡头化的影响。分发市场从早期的群雄逐鹿,到现在的鼎足而三,寡头化缩小了用户下载应用的选择范围,从而让“独家应用”的出现成为了可能——在应用市场同质化严重的今天,应用内容的差异化也许将成为各方角逐的下一个焦点。

在最后的环节里,百度开发者中心语音开发创新大赛的总负责人辛宇给在场的听众介绍了大赛相关流程和细节,并邀请了本次参赛者宋乐展示了他的参赛作品。想要了解更多语音创新大赛可以点击链接:百度语音开发大赛

2015-11-02 01:243053
用户头像

发布了 160 篇内容, 共 70.4 次阅读, 收获喜欢 194 次。

关注

评论

发布
暂无评论
发现更多内容

去中心化区块链DAPP的优势及解决方案,DAPP系统开发

V\TG【ch3nguang】

拒做职场小白,如何入职就成为成熟工程师

小魏写代码

求职面试 就业辅导

凝创新技术,汇数字力量 欧特克数字赋能『智』造汽车高峰论坛在沪开幕

E科讯

百度智能云与蓝色光标共绘AI营销新篇章:袁佛玉亮相Blue AI行业模型发布会,千帆平台引领行业模型创新之路

Geek_2d6073

DeFi去中心化系统DAPP系统模式开发

V\TG【ch3nguang】

AutoCAD 2023 for Mac(cad2023) v2023.2.1注册激活版

mac

苹果mac Windows软件 AutoCAD 2023 三维绘图软件

打败传统Scada系统的Web Scada是什么?

2D3D前端可视化开发

物联网 组态软件 工业控制 web scada scada系统

2023-09-13:用go语言,给定一个整数数组 nums 和一个正整数 k, 找出是否有可能把这个数组分成 k 个非空子集,其总和都相等。 输入: nums = [4, 3, 2, 3, 5,

福大大架构师每日一题

福大大架构师每日一题

ARTS 打卡 第二周,按部就班

三掌柜

ARTS 打卡计划

【Y 新闻】YMatrix 成立三周年,三岁的我们还真是“不简单”

YMatrix 超融合数据库

数据库 超融合数据库 YMatrix

马斯克回应盖茨;谷歌反垄断案开庭;苹果发布 3nm 芯片的 iPhone 15丨RTE开发者日报 Vol.48

声网

分布式锁的三种实现方式!

树上有只程序猿

乐观锁 悲观锁 分布式锁

永续合约交易所搭建,合约平台开发

西安链酷科技

合约交易所开发

ARTS 打卡 第三周,渐入佳境

三掌柜

ARTS 打卡计划

推动长期成功:NFT 推广机构如何制定可持续战略

区块链软件开发推广运营

数字藏品开发 dapp开发 区块链开发 链游开发 NFT开发

AITO问界M9工信部申报信息曝光,或将是理想L9的最大对手?

Geek_2d6073

分布式架构和微服务架构的区别

这我可不懂

分布式 微服务 服务器

Docker和Kubernetes:各自的优势和适用场景

树上有只程序猿

Docker Kubernetes

一次性全讲透GaussDB(DWS)锁的问题

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号9月PK榜

区块链dapp开发团队,快速搭建区块链dapp系统

V\TG【ch3nguang】

DAPP系统开发

你知道Golang的模板怎么用吗?带你了解动态文本的生成!

王中阳Go

DAPP系统开发(NFT平台搭建,去中心化应用开发)

西安链酷科技

dapp开发 开发软件 区块链开发DAPP开发

解锁 Postman 接口测试:完整指南

Liam

Java 程序员 Postman 接口测试 测试工具

无代码编程时代的到来:新兴工具和平台的前瞻展望

互联网工科生

低代码 数据可视化 JNPF

2024深圳国际气凝胶材料与技术装备展览会

吹吹晚风

TuGraph Analytics 流图计算之行为路径归因

TuGraphAnalytics

实时计算 图计算 归因分析 行为分析

区块链Dapp系统开发定制

V\TG【ch3nguang】

区块链搭建

《玩转鲲鹏DevKit系列》第四期:如何基于鲲鹏平台高效开发?

华为云开发者联盟

后端 开发 华为云 华为云开发者联盟 企业号9月PK榜

Zebec 生态 AMA 回顾:Nautilus 以及 $ZBC 的未来

大瞿科技

矩视云平台SDK可以支持本地检测吗

矩视智能

机器视觉 深度学习、

「DAPP」双币拆分理财项目系统开发 拆分盘系统开发

V\TG【ch3nguang】

智能语音技术,让我们“动口不动手”_百度_Lucien_InfoQ精选文章