人与人之间的交流主要是通过语言的方式进行,而现在我们正逐渐将这种沟通方式应用在人与计算机的交流场景中,如Siri、百度语音搜索。与此同时,通过语音技术还可以对音频资料进行检索,极大的扩充了人类知识库的可用范围。语音技术源于20世纪50年代AT&T贝尔实验室的Audry系统,此后研究者们已经逐步突破了大词汇量、连续语音和非特定人这三大障碍。在3月16日的百度技术沙龙上,我们邀请了百度多媒体部门的语音技术研发工作负责人贾磊等和大家一同分享“语音技术的现状与趋势”。
Pan小月:正在聊语音识别的话题,我一直在想把语音识别技术应用到@下厨房 里,可结合的点很多,不光是菜谱步骤"下一步"这么简单(其实我们已经做过语音搜索了,可做的还有许多)。还有豆瓣电台,对于大量把豆瓣电台当背景音乐的人来说,能用语音控制会更实用吧。
double_刘佳:下午去参加百度技术沙龙,太火爆了,比场面更火的还是语音识别,我这门外汗是开眼界了,之前的好些想法IBM都搞出模型了,只是IBM没提供给互联网用户使用:iTrans视频提取文本做内容搜索,播放时可选择包含关键词的时间点;从电视台广播台的多媒体内容中抽出文本;男女声识别;个性化发声,好多好多。
Yang-Hsiao-Tung:百度「技术沙龙」真是不错,可以为国内IT行业塑造一种时尚文化。
Yourtion: iTranS果然很厉害~ 对于音频与视频中的语音进行识别,然后可以使用文字对其内容进行搜索,还能根据关键词打标签。
有假熊出没:IBM的演讲更大程度上是一些idea,一种别样的感受