在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

百度技术沙龙第 36 期回顾:语音技术现状与趋势(含资料下载)

  • 2013-03-18
  • 本文字数:2303 字

    阅读完需:约 8 分钟

在 3 月 16 日由 @百度主办、 @InfoQ 负责策划组织和实施的第 36 期百度技术沙龙活动上,百度多媒体部门的语音技术研发工作的负责人贾磊和 IBM 中国研究院信息和用户技术(IUT)部的高级经理秦勇分享了在语音技术的的经验与实践,话题涉及“语音技术的发展与应用”,以及“利用数据做聪明的决定”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

主题一:语音技术的发展与应用(下载讲稿

百度多媒体部门的语音技术研发工作的负责人贾磊首先结合百度通用语音识别服务介绍了在互联网下的语音识别的技术特色:

  1. 网络化的识别构架
  2. 海量语言模型训练玉莲和语音层信息的快速更新
  3. 海量的来自各种平台的语音特征
  4. 庞大的计算资源和服务平台

目前百度使用一套网络架构支持包括掌上百度、百度搜索、Ting! 等多样化的产品,所有的产品通过统一的接入接口经过解码器由垂直领域模型进行解析,语音通过使用类语言模型、Grammer 模型、Ngram 模型和深度神经网络模型,进行一遍解码,进行文字结果识别、指令内容解析。

然后他对声学建模和语音识别中的深度神经网络进行了介绍,主要针对传统 SDG 训练等的不足指出深度神经网络在语音识别方面的优势:

  1. 在 1000 小时数据的训练上,相对于 mpe 和 fmpe 的区分度系统而言,实现了相对误识别率的降低超过 20%。
  2. 训练后的 DNN 网络最终是稀疏的,经过优化后,可以适应 CPU 的线上服务要求。最后的概率计算打分在 12 核 12 线的条下满足时时解码要求。
  3. 有希望克服了 SGD 缓慢训练的问题,使用异步混乱梯度法或者是基于二阶优化信息的优化算法,有希望实现了 DNN 的并行海量数据训练,解决了 DNN 训练时间过长的难题。
  4. DNN 在百度已经取代了 GMM!

虽然深度神经网络作为一种强力的模式识别分类工具,广泛成功的应用于语音、图像等多媒体领域。而在文本分类领域,其应用并未获得压倒性的优势。他对这个问题践行了简单的解释。

最后他提到了 Deep Brain 的构想,希望能够通过这一个技术平台的搭建彻底解决 DNN 训练练的时间过长的技术瓶颈和网络结构和权重共同学习问题。

主题二:利用数据做聪明的决定(下载讲稿

IBM 中国研究院信息和用户技术(IUT)部的高级经理秦勇第二个为大家分享,他主要围绕如何通过数据来进行决策支持,主要涉及四个方面的内容:语音翻译、社交网络分析、深度问答和图像分析。

秦勇首先回顾了 IBM 的语音识别技术历史,IBM 自 1961 年进行语音技术研究以来,一直在相关技术领域处于领先地位,IBM 的语音识别解决方案是将内容通过 iTrans 转化成文本,通过不同的分析平台根据其用途进行解析,他对 iTrans 的架构进行了讲解。

在随后谈到社交网络分析时,他引用了这样一句话:

网络的社会化不会朝生暮死,也不回昙花一现。网络的社会化将逐渐的影响到每个人,每家公司,每个国家,深入到世界的各个角落。

IBM 目前针对公共事业、金融投资、消费品等领域进行针对性的社会化分析,通过面向领域的情感分析和观点总结能够迅速了解到相关领域的社会化网络现状。

对于深度问答,IBM 最显而易见的成果是 Watson,当然,这只是背后庞杂技术的具体展示,Watson 的实现涉及了语料分析、证据索引、假设推断以及决策制定等复杂的理论技术支持。

最后,他谈到了视觉分析,用户能够通过元数据处理以后的数据挖掘,在不同层面上对处理后的结果进行可视化的展示,在内容管理、健康管理、智慧地球等领域都能看到其运用场景。

Open Space(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

贾磊:今天和大家分享了百度的语音技术现状,同时也和不同行业的朋友对于语音识别的未来有了一次深入交流,对我的启发也很大;

秦勇:我们看到了 Siri 等语音技术正在改变大家的交互方式,因此谈到了语音在未来的下一个热点,如呼叫中心、多媒体内容管理等,还有就是大家也谈到了 IBM Watson 的未来;

郑鑫:我们讨论了语音技术在银行业的应用,同时还讨论了语音导航、客服来电语音分析等,也获得了很多灵感;

董鑫:我们组主要围绕语音合成技术的应用进行讨论,包括语音合成在未来将会扮演的角色、目前的一些语音合成技术现状等;

会后,一些参会者也通过新浪微博分享了他们的参会感受:

Pan 小月:正在聊语音识别的话题,我一直在想把语音识别技术应用到 @下厨房 里,可结合的点很多,不光是菜谱步骤"下一步"这么简单(其实我们已经做过语音搜索了,可做的还有许多)。还有豆瓣电台,对于大量把豆瓣电台当背景音乐的人来说,能用语音控制会更实用吧。

double_ 刘佳:下午去参加百度技术沙龙,太火爆了,比场面更火的还是语音识别,我这门外汗是开眼界了,之前的好些想法 IBM 都搞出模型了,只是 IBM 没提供给互联网用户使用:iTrans 视频提取文本做内容搜索,播放时可选择包含关键词的时间点;从电视台广播台的多媒体内容中抽出文本;男女声识别;个性化发声,好多好多。

Yang-Hsiao-Tung :百度「技术沙龙」真是不错,可以为国内 IT 行业塑造一种时尚文化。

Yourtion : iTranS 果然很厉害~ 对于音频与视频中的语音进行识别,然后可以使用文字对其内容进行搜索,还能根据关键词打标签。

有假熊出没:IBM 的演讲更大程度上是一些 idea,一种别样的感受

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往 35 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第37 期百度技术沙龙将在4 月20 日,在北京举行,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。

2013-03-18 05:523394
用户头像

发布了 89 篇内容, 共 36.8 次阅读, 收获喜欢 4 次。

关注

评论

发布
暂无评论
发现更多内容

Activity显示界面——说说View的那些理不清的关系,移动端h5页面适配

android 程序员 移动开发

30w字+的Android技术类校招面试题汇总(附答案,Android框架体系架构的知识

android 程序员 移动开发

35岁以上员工就要被辞退?你知道互联网行业的“中年,android面试40题

android 程序员 移动开发

35岁后程序员自救指南(1),写给1-3年安卓程序员的几点建议

android 程序员 移动开发

3个月8个Offer!2020字节跳动+京东,移动应用开发框架

android 程序员 移动开发

606页Android最新面试题含答案,助力成为offer收割机,已开源

android 程序员 移动开发

8年老Android开发谈;简化UI都没弄明白凭什么拿高薪?,android路由框架

android 程序员 移动开发

30多个超赞的Android开发者工具,android开发框架开源登录界面

android 程序员 移动开发

37岁老码农现身说法:那些年,我走过的弯路,手把手教你5G时代Webview的正确使用姿势

android 程序员 移动开发

Android - AndroidStudio的下载、安装与配置,android开发艺术探索下载

android 程序员 移动开发

30岁转行程序员,阿里10年老码农表示:可以转,《Android面试题及解析》分享给大家

android 程序员 移动开发

4年Android开发13K,刷完这份1307页Android-面试全套真题解析,跳槽涨薪15K

android 程序员 移动开发

3-5年以上的Android原生开发如何深入进阶?高级工程师必须要掌握哪些?

android 程序员 移动开发

35岁后程序员自救指南,我拿到了梦寐以求的字节跳动和腾讯双offer

android 程序员 移动开发

35岁教师下岗,自学编程能给我的生活带来多大变化,android指纹识别开发

android 程序员 移动开发

8年老司机教你,如何写出一份“有理有据使人信服,Android开发者必看避坑指南

android 程序员 移动开发

@Android程序员:不是安卓不行了,handler内存泄露

android 程序员 移动开发

@Android程序员:到底是Android不行了,1-3年的Android开发工程师看过来

android 程序员 移动开发

35岁以上的Android开发,都去了哪儿?,安卓开发

android 程序员 移动开发

95-后程序员一出校门就拿年薪-30多万?,android开发文档百度云

android 程序员 移动开发

Activity切换效果,androidwifi密码

android 程序员 移动开发

50w字+的Android技术类校招面试题汇总(附答案,kotlin枚举反射

android 程序员 移动开发

5G时代已经到来了,你还觉得Android行业凉了嘛?,Android面试官

android 程序员 移动开发

5年内被辞退3次,35岁程序员该何去何从?百度,这些年Android面试的那些套路

android 程序员 移动开发

Android - singleTask启动模式详解(1),kotlinnative原理

android 程序员 移动开发

30岁程序员:深圳,我终究要来了这座年轻的城市,移动开发者社区

android 程序员 移动开发

4轮字节面试后杳无音信,自己是在了备胎池了吗?感觉我的Android开发要凉了呀

android 程序员 移动开发

5月份,京东 Android开发面经分享!,kotlin协程并发

android 程序员 移动开发

6年老Android2019面经总结,2021年抓住金三银四涨薪好时机

android 程序员 移动开发

8年老Android开发谈;Context都没弄明白凭什么拿高薪?

android 程序员 移动开发

Android - singleTask启动模式详解,腾讯Android面试

android 程序员 移动开发

百度技术沙龙第36期回顾:语音技术现状与趋势(含资料下载)_IBM_水羽哲_InfoQ精选文章