写点什么

百度技术沙龙第 36 期回顾:语音技术现状与趋势(含资料下载)

  • 2013-03-18
  • 本文字数:2303 字

    阅读完需:约 8 分钟

在 3 月 16 日由 @百度主办、 @InfoQ 负责策划组织和实施的第 36 期百度技术沙龙活动上,百度多媒体部门的语音技术研发工作的负责人贾磊和 IBM 中国研究院信息和用户技术(IUT)部的高级经理秦勇分享了在语音技术的的经验与实践,话题涉及“语音技术的发展与应用”,以及“利用数据做聪明的决定”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

主题一:语音技术的发展与应用(下载讲稿

百度多媒体部门的语音技术研发工作的负责人贾磊首先结合百度通用语音识别服务介绍了在互联网下的语音识别的技术特色:

  1. 网络化的识别构架
  2. 海量语言模型训练玉莲和语音层信息的快速更新
  3. 海量的来自各种平台的语音特征
  4. 庞大的计算资源和服务平台

目前百度使用一套网络架构支持包括掌上百度、百度搜索、Ting! 等多样化的产品,所有的产品通过统一的接入接口经过解码器由垂直领域模型进行解析,语音通过使用类语言模型、Grammer 模型、Ngram 模型和深度神经网络模型,进行一遍解码,进行文字结果识别、指令内容解析。

然后他对声学建模和语音识别中的深度神经网络进行了介绍,主要针对传统 SDG 训练等的不足指出深度神经网络在语音识别方面的优势:

  1. 在 1000 小时数据的训练上,相对于 mpe 和 fmpe 的区分度系统而言,实现了相对误识别率的降低超过 20%。
  2. 训练后的 DNN 网络最终是稀疏的,经过优化后,可以适应 CPU 的线上服务要求。最后的概率计算打分在 12 核 12 线的条下满足时时解码要求。
  3. 有希望克服了 SGD 缓慢训练的问题,使用异步混乱梯度法或者是基于二阶优化信息的优化算法,有希望实现了 DNN 的并行海量数据训练,解决了 DNN 训练时间过长的难题。
  4. DNN 在百度已经取代了 GMM!

虽然深度神经网络作为一种强力的模式识别分类工具,广泛成功的应用于语音、图像等多媒体领域。而在文本分类领域,其应用并未获得压倒性的优势。他对这个问题践行了简单的解释。

最后他提到了 Deep Brain 的构想,希望能够通过这一个技术平台的搭建彻底解决 DNN 训练练的时间过长的技术瓶颈和网络结构和权重共同学习问题。

主题二:利用数据做聪明的决定(下载讲稿

IBM 中国研究院信息和用户技术(IUT)部的高级经理秦勇第二个为大家分享,他主要围绕如何通过数据来进行决策支持,主要涉及四个方面的内容:语音翻译、社交网络分析、深度问答和图像分析。

秦勇首先回顾了 IBM 的语音识别技术历史,IBM 自 1961 年进行语音技术研究以来,一直在相关技术领域处于领先地位,IBM 的语音识别解决方案是将内容通过 iTrans 转化成文本,通过不同的分析平台根据其用途进行解析,他对 iTrans 的架构进行了讲解。

在随后谈到社交网络分析时,他引用了这样一句话:

网络的社会化不会朝生暮死,也不回昙花一现。网络的社会化将逐渐的影响到每个人,每家公司,每个国家,深入到世界的各个角落。

IBM 目前针对公共事业、金融投资、消费品等领域进行针对性的社会化分析,通过面向领域的情感分析和观点总结能够迅速了解到相关领域的社会化网络现状。

对于深度问答,IBM 最显而易见的成果是 Watson,当然,这只是背后庞杂技术的具体展示,Watson 的实现涉及了语料分析、证据索引、假设推断以及决策制定等复杂的理论技术支持。

最后,他谈到了视觉分析,用户能够通过元数据处理以后的数据挖掘,在不同层面上对处理后的结果进行可视化的展示,在内容管理、健康管理、智慧地球等领域都能看到其运用场景。

Open Space(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

贾磊:今天和大家分享了百度的语音技术现状,同时也和不同行业的朋友对于语音识别的未来有了一次深入交流,对我的启发也很大;

秦勇:我们看到了 Siri 等语音技术正在改变大家的交互方式,因此谈到了语音在未来的下一个热点,如呼叫中心、多媒体内容管理等,还有就是大家也谈到了 IBM Watson 的未来;

郑鑫:我们讨论了语音技术在银行业的应用,同时还讨论了语音导航、客服来电语音分析等,也获得了很多灵感;

董鑫:我们组主要围绕语音合成技术的应用进行讨论,包括语音合成在未来将会扮演的角色、目前的一些语音合成技术现状等;

会后,一些参会者也通过新浪微博分享了他们的参会感受:

Pan 小月:正在聊语音识别的话题,我一直在想把语音识别技术应用到 @下厨房 里,可结合的点很多,不光是菜谱步骤"下一步"这么简单(其实我们已经做过语音搜索了,可做的还有许多)。还有豆瓣电台,对于大量把豆瓣电台当背景音乐的人来说,能用语音控制会更实用吧。

double_ 刘佳:下午去参加百度技术沙龙,太火爆了,比场面更火的还是语音识别,我这门外汗是开眼界了,之前的好些想法 IBM 都搞出模型了,只是 IBM 没提供给互联网用户使用:iTrans 视频提取文本做内容搜索,播放时可选择包含关键词的时间点;从电视台广播台的多媒体内容中抽出文本;男女声识别;个性化发声,好多好多。

Yang-Hsiao-Tung :百度「技术沙龙」真是不错,可以为国内 IT 行业塑造一种时尚文化。

Yourtion : iTranS 果然很厉害~ 对于音频与视频中的语音进行识别,然后可以使用文字对其内容进行搜索,还能根据关键词打标签。

有假熊出没:IBM 的演讲更大程度上是一些 idea,一种别样的感受

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往 35 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第37 期百度技术沙龙将在4 月20 日,在北京举行,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。

2013-03-18 05:523150
用户头像

发布了 89 篇内容, 共 34.6 次阅读, 收获喜欢 4 次。

关注

评论

发布
暂无评论
发现更多内容

联想小新潮7000安装CentOS后重装Windows10

笑春风

架构实战训练营 - 模块二课后作业

Johnny

架构实战营

python 异常处理

若尘

异常 异常处理 Python编程

智能小车系列-NODE版SBUS飞控协议解析历程

波叽波叽啵😮一口盐汽水喷死你

SBUS 飞控协议 SBUSReceiver S.BUS SBUSUART

架构实战营-模块2作业

夏日

架构训练营

【AI全栈SOTA综述 】这些你都不知道,怎么敢说会AI?【语音识别原理+实战】

cv君

AI 算法 音视频 引航计划

架构实战营模块2作业

阿体

模块二作业:微信朋友圈高性能复杂度分析

@oo?金樱子

架构实战营 模块二 课后作业

Lingjun

架构训练营

面试总结-Java-2年

U2647

Java 面试 4月日更

架构实战营——作业二: 朋友圈架构分析

开拓纪

微信朋友圈 #架构实战营

Toolkit 大更新:UI 更美观,用起来更方便!

程序员小航

Java IDEA idea插件 IntelliJ IDEA JSON格式化

Oozie平台调度

大数据技术指南

oozie 4月日更

架构师实战营-模块二作业

大可

最详细的 K8S 学习笔记总结(2021最新版)!建议收藏

民工哥

Kubernetes 容器 运维 后端

听说你们写毕业设计没有动态数据?Python教你一步完成!

大数据老哥

最新、最全、最详细的 MySQL 数据库学习笔记总结(2021最新版)

民工哥

MySQL 数据库 Linux 后端 运维工程师

volatile 关键字需要知道的几点

lich0079

Java volatile Disruptor unsafe false sharing

架构实战营 - 模块 02 作业

架构实战营

让孩子爱上阅读(三)

箭上有毒

读书笔记 4月日更

架构训练营模块 2 作业 - 张动动

张大彪

架构训练营

爬虫IP代理池代码记录

空城机

Python 爬虫 代理IP 4月日更

工作中的设计模式 —— 建造者模式

程序员小航

Java 设计模式 建造者模式

数据仓库为什么要分层

五分钟学大数据

数据仓库 4月日更

Prometheus counter 四大 query 函数详解

Grafana 爱好者

云原生 Prometheus 可观察性 PromQL

架构实战营模块2作业

竹林七贤

架构实战营

模块二作业

Chris Cheng

架构实战营

模块二 分析微信朋友圈的高性能复杂度

ifc177

架构师实战营 模块二作业 微信朋友圈高性能架构分析

好吃不贵

PHP异常处理

Sakura

4月日更

Sqlserver2008参数化踩的坑

风翱

SqlServer 4月日更

百度技术沙龙第36期回顾:语音技术现状与趋势(含资料下载)_IBM_水羽哲_InfoQ精选文章