百度技术沙龙第三十六期:语音技术现状与趋势

人与人之间的交流主要是通过语言的方式进行,而现在我们正逐渐将这种沟通方式应用在人与计算机的交流场景中,如Siri、百度语音搜索。与此同时,通过语音技术还可以对音频资料进行检索,极大的扩充了人类知识库的可用范围。语音技术源于20世纪50年代AT&T贝尔实验室的Audry系统,此后研究者们已经逐步突破了大词汇量、连续语音和非特定人这三大障碍。在3月16日的百度技术沙龙上,我们邀请了百度多媒体部门的语音技术研发工作负责人贾磊等和大家一同分享“语音技术的现状与趋势”。

本期讲师介绍

  • 贾磊

    长期从事第一线的科研产品研发工作,在语音识别领域,机器学习领域,自然语言处理领域和多机并行计算领域有深刻的实践和技术产品创新。负责百度多媒体部门的语音技术研发工作。具体研发了百度的语音搜索产品,百度的语音输入产品和百度手机语音助手产品。在语音识别的互联网产品应用、基于海量语料的深度神经网络的机器学习技术和基于海量语料的语音识别技术方面有突出的贡献和成绩。

  • 秦勇

    IBM中国研究院信息和用户技术(IUT)部的高级经理,IUT研发活动包括语音处理、文本分析、可视化分析、情报协作和用户体验技术。除了提高基本语音技术的成熟性和基础质量外,团队正在探索如何利用先进语音技术来解决困难的商业问题。

内容回顾

  • Pan小月:正在聊语音识别的话题,我一直在想把语音识别技术应用到@下厨房 里,可结合的点很多,不光是菜谱步骤"下一步"这么简单(其实我们已经做过语音搜索了,可做的还有许多)。还有豆瓣电台,对于大量把豆瓣电台当背景音乐的人来说,能用语音控制会更实用吧。

  • double_刘佳:下午去参加百度技术沙龙,太火爆了,比场面更火的还是语音识别,我这门外汗是开眼界了,之前的好些想法IBM都搞出模型了,只是IBM没提供给互联网用户使用:iTrans视频提取文本做内容搜索,播放时可选择包含关键词的时间点;从电视台广播台的多媒体内容中抽出文本;男女声识别;个性化发声,好多好多。

  • Yang-Hsiao-Tung:百度「技术沙龙」真是不错,可以为国内IT行业塑造一种时尚文化。

  • Yourtion: iTranS果然很厉害~ 对于音频与视频中的语音进行识别,然后可以使用文字对其内容进行搜索,还能根据关键词打标签。

  • 有假熊出没:IBM的演讲更大程度上是一些idea,一种别样的感受


现场图片展示

  • 百度讲师贾磊被大家围堵咨询问题

  • Open Space环节,与讲师贾磊近距离接触

  • 获奖小组组员与秦勇合影留念