写点什么

百度技术沙龙第 36 期回顾:语音技术现状与趋势(含资料下载)

  • 2013-03-18
  • 本文字数:2303 字

    阅读完需:约 8 分钟

在 3 月 16 日由 @百度主办、 @InfoQ 负责策划组织和实施的第 36 期百度技术沙龙活动上,百度多媒体部门的语音技术研发工作的负责人贾磊和 IBM 中国研究院信息和用户技术(IUT)部的高级经理秦勇分享了在语音技术的的经验与实践,话题涉及“语音技术的发展与应用”,以及“利用数据做聪明的决定”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

主题一:语音技术的发展与应用(下载讲稿

百度多媒体部门的语音技术研发工作的负责人贾磊首先结合百度通用语音识别服务介绍了在互联网下的语音识别的技术特色:

  1. 网络化的识别构架
  2. 海量语言模型训练玉莲和语音层信息的快速更新
  3. 海量的来自各种平台的语音特征
  4. 庞大的计算资源和服务平台

目前百度使用一套网络架构支持包括掌上百度、百度搜索、Ting! 等多样化的产品,所有的产品通过统一的接入接口经过解码器由垂直领域模型进行解析,语音通过使用类语言模型、Grammer 模型、Ngram 模型和深度神经网络模型,进行一遍解码,进行文字结果识别、指令内容解析。

然后他对声学建模和语音识别中的深度神经网络进行了介绍,主要针对传统 SDG 训练等的不足指出深度神经网络在语音识别方面的优势:

  1. 在 1000 小时数据的训练上,相对于 mpe 和 fmpe 的区分度系统而言,实现了相对误识别率的降低超过 20%。
  2. 训练后的 DNN 网络最终是稀疏的,经过优化后,可以适应 CPU 的线上服务要求。最后的概率计算打分在 12 核 12 线的条下满足时时解码要求。
  3. 有希望克服了 SGD 缓慢训练的问题,使用异步混乱梯度法或者是基于二阶优化信息的优化算法,有希望实现了 DNN 的并行海量数据训练,解决了 DNN 训练时间过长的难题。
  4. DNN 在百度已经取代了 GMM!

虽然深度神经网络作为一种强力的模式识别分类工具,广泛成功的应用于语音、图像等多媒体领域。而在文本分类领域,其应用并未获得压倒性的优势。他对这个问题践行了简单的解释。

最后他提到了 Deep Brain 的构想,希望能够通过这一个技术平台的搭建彻底解决 DNN 训练练的时间过长的技术瓶颈和网络结构和权重共同学习问题。

主题二:利用数据做聪明的决定(下载讲稿

IBM 中国研究院信息和用户技术(IUT)部的高级经理秦勇第二个为大家分享,他主要围绕如何通过数据来进行决策支持,主要涉及四个方面的内容:语音翻译、社交网络分析、深度问答和图像分析。

秦勇首先回顾了 IBM 的语音识别技术历史,IBM 自 1961 年进行语音技术研究以来,一直在相关技术领域处于领先地位,IBM 的语音识别解决方案是将内容通过 iTrans 转化成文本,通过不同的分析平台根据其用途进行解析,他对 iTrans 的架构进行了讲解。

在随后谈到社交网络分析时,他引用了这样一句话:

网络的社会化不会朝生暮死,也不回昙花一现。网络的社会化将逐渐的影响到每个人,每家公司,每个国家,深入到世界的各个角落。

IBM 目前针对公共事业、金融投资、消费品等领域进行针对性的社会化分析,通过面向领域的情感分析和观点总结能够迅速了解到相关领域的社会化网络现状。

对于深度问答,IBM 最显而易见的成果是 Watson,当然,这只是背后庞杂技术的具体展示,Watson 的实现涉及了语料分析、证据索引、假设推断以及决策制定等复杂的理论技术支持。

最后,他谈到了视觉分析,用户能够通过元数据处理以后的数据挖掘,在不同层面上对处理后的结果进行可视化的展示,在内容管理、健康管理、智慧地球等领域都能看到其运用场景。

Open Space(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

贾磊:今天和大家分享了百度的语音技术现状,同时也和不同行业的朋友对于语音识别的未来有了一次深入交流,对我的启发也很大;

秦勇:我们看到了 Siri 等语音技术正在改变大家的交互方式,因此谈到了语音在未来的下一个热点,如呼叫中心、多媒体内容管理等,还有就是大家也谈到了 IBM Watson 的未来;

郑鑫:我们讨论了语音技术在银行业的应用,同时还讨论了语音导航、客服来电语音分析等,也获得了很多灵感;

董鑫:我们组主要围绕语音合成技术的应用进行讨论,包括语音合成在未来将会扮演的角色、目前的一些语音合成技术现状等;

会后,一些参会者也通过新浪微博分享了他们的参会感受:

Pan 小月:正在聊语音识别的话题,我一直在想把语音识别技术应用到 @下厨房 里,可结合的点很多,不光是菜谱步骤"下一步"这么简单(其实我们已经做过语音搜索了,可做的还有许多)。还有豆瓣电台,对于大量把豆瓣电台当背景音乐的人来说,能用语音控制会更实用吧。

double_ 刘佳:下午去参加百度技术沙龙,太火爆了,比场面更火的还是语音识别,我这门外汗是开眼界了,之前的好些想法 IBM 都搞出模型了,只是 IBM 没提供给互联网用户使用:iTrans 视频提取文本做内容搜索,播放时可选择包含关键词的时间点;从电视台广播台的多媒体内容中抽出文本;男女声识别;个性化发声,好多好多。

Yang-Hsiao-Tung :百度「技术沙龙」真是不错,可以为国内 IT 行业塑造一种时尚文化。

Yourtion : iTranS 果然很厉害~ 对于音频与视频中的语音进行识别,然后可以使用文字对其内容进行搜索,还能根据关键词打标签。

有假熊出没:IBM 的演讲更大程度上是一些 idea,一种别样的感受

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往 35 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第37 期百度技术沙龙将在4 月20 日,在北京举行,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。

2013-03-18 05:523377
用户头像

发布了 89 篇内容, 共 36.7 次阅读, 收获喜欢 4 次。

关注

评论

发布
暂无评论
发现更多内容

YAPI接口管理平台使用基础入门(一)

Man

DevOps 最佳实践 YAPI API接口管理

OOP面向对象编程(Object-Oriented Programming)概述

奈学教育

面向对象编程

OOP面向对象编程(Object-Oriented Programming)概述

古月木易

面向对象 oop

2020技能排名:Python增速爆炸,SQL和Java老当益壮,AWS大吃一惊

程序猿黑哥

Java Python sql

【DevCloud·敏捷智库】如何利用用户故事了解需求

华为云开发者联盟

敏捷开发 需求管理 需求 故事 华为云

腾讯员工每天在岗不足 8 小时被辞?背后原因可能不止你看到的这些!

程序员生活志

腾讯 辞退

阿里巴巴取消周报?别高兴太早,也不见得是一件好事

非著名程序员

阿里巴巴 程序员 职场成长 职场误区

全球区块链专利排行榜中国52家企业上榜

CECBC

编程核心能力之复用

顿晓

编程 复用 编程日课 技术思维

为什么编译原理被称为龙书?

苹果看辽宁体育

编译原理 编译优化

调薪

池建强

团队管理 薪酬

从IT建设模式变化看客户中心发展

环信

分析师的进阶与升华:努力把自己做“没”

金松(李博源)

方法论 数据模型 数据分析师 指标体系 商业模型

信创舆情一线--台积电宣布9月14日断供华为

统小信uos

华为 芯片 半导体

上班摸鱼,可以玩一整天,哈哈哈!!!

诸葛小猿

上班 摸鱼

推荐一些学习MySQL的资源

Simon

MySQL

细数2020上半年PC端十大“黑恶势力”,一起康康是谁在“兴风作浪”

360安全卫士

我成功转行做了java程序猿!

诸葛小猿

Java 程序员 转行

定义@WeClub

WeClub

WeClub

犯罪黑客线上拉人入伙,流窜多地网吧植马,仅为盗取游戏账号

360安全卫士

高价值干货:这可能是你见过最全的网络爬虫总结

华为云开发者联盟

Python Web 爬虫 python 爬虫 内存数据库

【写作群星榜】7.11~7.17 写作平台优秀作者 & 文章排名

InfoQ写作社区官方

写作平台 排行榜 热门活动

小白教程——基于阿里云快速搭建自己的网站

诸葛小猿

阿里云 视频 网站搭建 小白

Rust多线程之数据共享

编号94530

rust 多线程 数据共享 什么是多线程

分布式事务解决方案Seata源码解析

Java 分布式 分布式事务

案例研究之聊聊 Mybatis 源码 (三)

小诚信驿站

学习 开源 刘晓成 源码解析 小诚信驿站

计算机网络基础(五)---网络层-IP地址的子网划分

书旅

laravel 计算机网络 网络协议 计算机基础

字节跳动的ToB生意经

ToB行业头条

智算中心开启智慧时代,浪潮信息迎来新发展

Geek_116789

项目管理:如何显性管理并提升Story分解能力

华为云开发者联盟

项目管理 DevOps 故事 用户研究 华为云

尝鲜刚发布的 SpringFox 3.0.0,以前造的轮子可以不用了...

程序猿DD

Spring Boot

百度技术沙龙第36期回顾:语音技术现状与趋势(含资料下载)_IBM_水羽哲_InfoQ精选文章