写点什么

搜狗 AI 交互技术部总经理陈伟:未来 AI 语音交互产品将会走向多模态

2020 年 6 月 04 日

搜狗 AI 交互技术部总经理陈伟:未来AI语音交互产品将会走向多模态

受限于人工同传或速记人员费用高、记忆力及翻译/速记速度有限等因素,搜狗 AI 录音笔逐渐出现在越来越多会议场景中,AI 录音笔可以将演讲者的语音实时转成文本,并且进行同步翻译,很大程度上取代了人工同传和速记人员,帮助人们实现了不同语言间的低成本交流。那么,这背后又有哪些智能语音技术作为支撑?在 AICon 大会召开前夕,InfoQ 有幸采访了搜狗 AI 交互技术部总经理陈伟,听他分享搜狗 AI 交互技术的发展历程及应用实践。


背景


随着深度学习技术的兴起,人们已经看到了 AI 在感知识别层面如语音、视觉等领域取得的惊人成果,AI 智能语音技术也正在快速走向实用。搜狗近年来一直在 AI 领域持续布局,语音识别在搜狗输入法的大规模应用也呈现出渐行渐好的趋势。


借此契机,陈伟于 2012 年 8 月加入搜狗,负责带领搜狗 AI 交互技术团队,围绕搜狗“自然交互+知识计算”的 AI 战略,重点布局搜狗多模态人机交互技术的研发和产品化工作,研究的领域覆盖了多模态人机交互系统的各项技术,同时重点研究如何结合感知和认知方向的技术打造出自然的人机交互体验,期间还带领团队研发了搜狗分身、机器同传、个性化合成、变声等前沿性的 AI 创新能力,目前研发的技术重点服务于搜狗的输入法、搜索、AI 硬件等核心产品,同时也在以搜狗 AI 开放平台的方式对外输出。


搜狗 AI 交互技术的发展历程


近年来,搜狗在智能语音交互上取得了一定成绩,在车载、智能家居、可穿戴移动设备上都有规模化落地。但在智能语音交互技术的推进过程中,搜狗也是在不断的尝试和探索中蜿蜒前行。


通常,语音录入和转写的准确率要依赖于真实场景而定,受限于噪声、口音、讲话方式等因素的影响,准确率会有一定的差异。但是目前搜狗在转写上已经具备了较强的鲁棒性,针对不同场景的识别效果波动性已经有明显减小。广义的语音识别不仅限于内容的识别,还包括了语音分析等核心技术,例如搜狗的同传 3.0 技术以“多模态”和“自主学习“为核心,加入视觉(OCR)和思维能力(知识图谱),让机器同传不仅会听,还首次具备了会看、能理解会推理的能力。


在采访中,陈伟表示,搜狗在智能语音交互技术的发展,主要分为以下几个阶段:


1、语音搜索阶段


语音搜索方便了用户在搜狗搜索上快捷的检索,早期识别准确率不够高,但是搜索可以返回多个检索结果,很大程度可以降低识别错误带来的影响。目前搜狗识别准确率已经达到较高的水平,搜狗搜索已经可以根据用户语音搜索请求直接给出答案,用户体验感有了较大提升。


2、语音输入阶段


搜狗语音输入能帮助用户更高效、快捷地输入内容,语音输入的最高输出效率目前能达到每分钟 300~400 个字,特别是伴随着数据、算法和算力的不断提升,语音输入识别准确率也得到了大幅提升,近几年,搜狗每年的识别字错误率都能保持 30%以上的下降,语音输入的日 PV 已经达到 10 亿+。但是,快速发展的背后也让搜狗发现通用的语音输入无法解决用户个性词的识别,比如通讯录、工作领域的词汇等,所以去年搜狗发布了个性化语音识别能力,能够基于用户在搜狗输入法的用户词库,实时优化语音识别效果,针对个性化词的识别错误率下降了 40%。


3、语音翻译阶段


语音翻译能够方便用户进行实时跨语言的交流,结合搜狗在语音识别、机器翻译、语音合成领域的技术积累,2016 年搜狗推出了首款商用 AI 同传系统—搜狗同传,能够实时查看或收听同传译文,目前已经支持了大会演讲、线上直播、远程会议等多个场景,同时在输入法、录音笔等产品上也上线了同传的功能。此外,搜狗还推出了搜狗翻译机,这是业内较早地将语音翻译能力进行离线化的尝试,不联网也可以实时进行跨语言交流。产品背后,是搜狗智能语音团队在模型压缩、低算力推理、知识提纯等方面的不断探索。


4、语音交互阶段


2011 年的 Siri 和 2014 年的 Ehco 有效推动了语音助手类产品的快速成熟,也带动了国内一大批语音交互类产品的发布。在通用语音交互上的研发过程中,研究团队逐渐发现目前智能语音交互的产品,核心在于对话能力仍无法满足用户的预期,无法做到自然地对话。因此,搜狗 AI 团队的研究重点主要放在了面向于垂直刚需场景的任务型对话研究上,语音交互侧重于车载、智能家居、可穿戴移动设备等领域,提供全双工的语音交互能力,并在 2016 年发布了自有的语音交互 VUI-知音 OS。


5、多模态交互阶段


搜狗的人机交互主张是自然交互,如何做到自然交互,搜狗认为这一问题的答案,一定是多模态交互。不局限于语音,而是语言、视觉等多种模态信息相结合,共同提升交互体验。因此,搜狗在多模态感知、多模态人机交互、多模态表达等方向都在持续研发,特别是其发布的搜狗分身,实现了以数字人的形象和人进行对话和交互,形成了搜狗在交互领域最具差异化和代表性的交互产品。


结语


据陈伟介绍,未来 AI 语音交互产品将会走向多模态,搜狗同传也不例外。就搜狗同传产品而言,在经过多重“感官”的调用后,搜狗同传不仅可以做到翻译更加快速和准确,而且会更加自然、专业、智能。数据显示,在“听”“看”“思考”三位一体的作用下,搜狗多模态同传系统针对 PPT 内容的识别准确率提升 21.7%,翻译正确率提升 40.3%。


嘉宾介绍:


陈伟,搜狗 AI 交互技术部总经理,主要负责搜狗多模态人机交互技术的研发和产品化工作,研究方向涵盖语音、图像、自然语言等多模态领域,带领团队实现了行业中最前沿的人机交互技术,并重点推动了搜狗人机交互核心能力在输入法、AI 录音笔、AI 翻译机的全面应用。同时还主导推出了搜狗分身、搜狗同传、搜狗变声等前沿性的 AI 创新产品,不断带领团队探索人机交互产品和技术的未来。


2020 年 6 月 04 日 14:594067
用户头像

发布了 264 篇内容, 共 70.6 次阅读, 收获喜欢 322 次。

关注

评论 1 条评论

发布
用户头像
666
2020 年 06 月 04 日 20:26
回复
没有更多了
  • AI+ 城市智能体:聚焦新一代智慧城市的 PISC 架构

    演讲嘉宾齐国君 华为美国研究所 技术副总裁&城市智能体首席科学家内容介绍城市作为人类文明高度发展的产物,为人类活动提供了一个进行高效分工协作的平台。随着现代技术和文明的发展,高效地运营和管理城市,优化城市基础设施,越来越成为一个全新的、跨领域的重要的课题,特别是研究如何利用新一代人工智能技术的飞速进步,从设计规划、智能设施布局到运营,以此最大化城市的效率,提高市民的工作、出行和生活体验,建立智慧型的新一代城市。在本讲座中,我将从城市智能体的角度,并以智能交通为例,系统地介绍基于人工智能技术的PISC架构在交通态势感知(Perception)、推理(Inference) 到决策(Strategy)和控制(Control)上的应用。我们将详细介绍基于胶囊投影的深度学习算法(Capsule Projection Networks)、交通图计算(Graph Computing)以及各种交通策略以及控制算法的实现。内容大纲 智慧城市的发展和现状; 城市智能体的基本架构PISC; 智能交通态势感知; 智能交通推理; 智能交通决策和控制。

    2019 年 1 月 7 日

  • 开篇词 | 为什么说每个软件工程师都应该懂大数据技术?

    2012年,我从阿里跳槽到Intel做大数据开发。当时很多人不理解,我为什么从如日中天的互联网公司跳槽到“传统”IT公司

    2018 年 10 月 29 日

  • 除了输入法,移动端 AI 还有哪些想象空间?

    提到端 AI,大家一定会想到手机上的键盘。输入法已成为移动端 AI 最为成熟,也最为有成效的应用之一。在这一领域,触宝是最早的先行者之一。

  • 智能聊天机器人在汽车领域的应用实践

    演讲嘉宾雷涛,汽车之家高级算法工程师内容介绍基于业内最大最全的汽车专业数据构建领域知识图谱,并结合NLP、深度学习等人工智能技术,实现智能聊天机器人“家家小秘”,提供真正智能化的服务,覆盖用户看车、买车、用车全流程,并已成为汽车之家的顶级入口之一。然而,汽车领域数据的多样化和非标准化,以及所需答案精细化和专业化等特点,都为语义理解和知识图谱的构建带来了挑战。本次演讲中,我们首先介绍聊天机器人的相关知识;然后分享我们在汽车领域的应用实践,包括实体识别、意图识别、多轮对话管理和答案生成等相关技术,并介绍应用过程中遇到的挑战和解决方案;最后展示我们具体的应用案例。内容大纲 智能聊天机器人背景介绍 汽车领域落地的主要框架 语义理解 实体识别 意图识别 多轮会话管理 答案生成 汽车领域知识图生成答案 阅读理解生产答案 检索式问答 应用实例 未来展望

    2019 年 1 月 7 日

  • 解读智能语音技术的 2020:跨语种语音技术成高频关键词,商业化“加速度”落地

    智能语音技术在2020年的发展是“加速度”的,在突破性的技术创新之外,很多之前还在研究阶段的语音技术也已经在商业系统中得到落地。

  • 更精准、专业,夸克智能问答系统的构架与实践

    夸克是阿里巴巴旗下智能搜索 APP。聚焦智能化信息服务,夸克以智能、高效的搜索体验和创新的功能场景,打造智能化内容+服务的分发平台,目前已服务千万级用户。技术研发层面,夸克算法技术团队持续升级智能问答体系,面向未来探索下一代智能搜索。

  • AI Challenger 全球 AI 挑战赛开幕,公布千万级数据集

    2017年8月14日,创新工场、搜狗、今日头条在北京召开联合发布会,宣布举办首届AI Challenger全球AI挑战赛。

  • 阿里 KAN-TTS 技术和落地实践

    在 AICon 北京 2019 大会上,雷鸣讲师做了《阿里KAN-TTS技术和落地实践》主题演讲。

  • 百度输入法在启动速度、智能手写、语音输入上所做的技术优化

    输入法,一个从我们开始接触计算机就陪伴我们的编码输入方式,经历多年的升级迭代,已经变得更加智能化。随着移动智能设备的普及,算法模型和语义分析技术的成熟,语音输入法越来越符合用户的使用习惯。本期百度技术沙龙,我们将邀请到百度输入法团队的工程师们,从三个方面解析百度输入法当前的进展,包括对iOS输入法启动速度和内存的优化措施;人工智能在手写引擎中的应用,输入体验的提升;以及智能语音输入的技术核心,实现方式,优化细节等等。

  • 快手结合知识图谱进行多模态内容理解

    随着媒体传播形式转向多媒体为主流,在多模态内容理解AI技术开始显示出重要的作用。然而,目前AI展示的诸多能力,还停留在图像、语音等感知层面,多媒体内容理解却是多方面的叠加,相对于单一图像、语音的理解来说更加困难。在多媒体内容理解方面,快手在技术和应用层面,有不少经验值得借鉴。

    AI
  • 百度技术沙龙第 65 期回顾:百度语音识别和唤醒技术解析(含资料下载)

    随着人工智能的普及,语音已成为了重要的交互方式,尤其是百度语音识别和语音唤醒技术一经推出,便受到了开发者的广泛关注。 在8月6号由百度开发者中心和InfoQ联合举办的第65期“百度语音识别和语音唤醒技术解析及实践”沙龙上,百度语音开放平台资深产品经理何荡,分享了百度语音技术最新进展及最新解决方案。同时,百度语音开放平台资深研发工程师魏力凯和唐立亮,也分别介绍了百度语音识别&百度语音唤醒技术细节以及具体实践。最后还设置了演示分享环节,以便与开发者更好地互动。

  • 第 205 讲 | 邵浩:人工智能新技术如何快速发现及落地(上)

    作为技术管理者,一个重要的能力就在于如何快速发现技术,并且落地到实际产品中。

    2019 年 4 月 16 日

  • 以搜狗为例,谈语音输入如何影响你的生活

    搜狗、科大讯飞、百度等国内巨头公司在语音输入上,从技术到产品行业应用,都做了很多探索。那么,如何从技术上理能语音输入?智能语音给日常生活带来了怎样的影响? InfoQ在10月份的时候联系了搜狗公司桌面事业部高级总监,桌面研究部和语音交互技术中心负责人,王砚峰。他同时负责搜狗智能语音业务,带领语音和语义技术团队实现了业内顶尖的语音交互能力,目前致力于智能语音技术的产品化创新。本文由采访资料整理而来。

  • 多次问鼎 NuerIPS、MRQA 等国际顶级比赛,百度 NLP 技术到底有多强?

    NLP 在 2019 年有哪些最新技术进展和落地应用?未来,NLP 又将怎样发展?我们有幸邀请到了百度 NLP 首席科学家吴华博士,来给大家就 NLP 相关技术点分享宝贵经验。

  • 百度计划发布 BROAD 数据集,PaddlePaddle 公布三大功能升级

    2017年11月16日,一上午的新品轰炸之后,百度世界大会分论坛于下午两点正式开始。InfoQ记者前往AI技术平台分论坛,从最前方为各位读者带来论坛的实况报道。

  • 行业背景:AI 新零售是什么?

    2020 年 6 月 18 日

  • 智能音箱的战斗:谷歌的杀入

    谷歌对于智能家居市场的觊觎由来已久,在亚马逊占据两年先发优势之后,它终于杀入智能音箱市场,开启一次“势均力敌”的较量。

    2017 年 12 月 15 日

  • 小团队怎么跟百人研发团队 PK 智能交互?这份秘籍可以告诉你

    在最近由百度开发者中心主办、极客邦科技承办的74期百度技术沙龙上,百度理解与交互技术UNIT技术负责人孙珂分享了有关《UNIT:语言理解与交互技术》的演讲。除他之外,百度AI技术生态部高级运营顾问张扬、百度语音技术部架构师李超、百度AI技术生态部高级产品经理吴延宇,也分别从语音和语义理解应用实践、远场语音识别方案、百度开放平台使用指南这几个维度,对百度智能交互技术进行全方位解读。

  • 微软小冰实时感官系统与未来发展趋势

    本次分享介绍小冰智能助手目前的现状和未来的发展方向。其中小冰的感官可以分为初级感官。

  • 腾讯云小微激活硬件生态,携合作产品正式亮相

    腾讯云小微此次发布的不仅仅是此前内测上线的三大平台,更重要的是腾讯云小微与大量合作伙伴也在此次专场上登台亮相。

发现更多内容

极客时间架构 1 期:第 11 周 安全稳定 - 学习总结

Null

Week7 性能优化学习总结

evildracula

学习 架构

第 7 周 系统架构作业

心在那片海

架构师训练营第一期第十一周总结

Leo乐

极客大学架构师训练营

一文彻底搞懂前端监控

执鸢者

前端 前端监控

架构师训练营第十一周课程笔记及心得

Airs

11 安全稳定课后作业

ABS

安全稳定

wing

极客大学架构师训练营

LeetCode题解:55. 跳跃游戏,贪心,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

第十一周作业

Meow

第十一周 架构方法学习总结 —— 安全稳定

兵长

安全架构 高可用架构

架构师 01 期,第十一周课后作业

子文

架构师训练营第七周作业一

韩儿

第 7 周 系统架构总结

心在那片海

架构师训练营第 7 周学习总结

菜青虫

极客大学架构师训练营

架构师训练营第 1 期 week11

张建亮

极客大学架构师训练营

架构师训练营第2期 第7周命题作业

月下独酌

极客大学架构师训练营

第 11 周 怎么又翻车了???

Pyr0man1ac

架构师训练营第七周小结

韩儿

架构师第二期 第7周总结

月下独酌

极客大学架构师训练营

架构师训练营第一期第十一周作业

Leo乐

极客大学架构师训练营

极客时间架构 1 期:第 11 周 安全稳定 - 命题作业

Null

架构词典:逻辑

lidaobing

架构 逻辑

nodejs事件和事件循环简介

程序那些事

事件驱动 nodejs 事件循环 异步编程 程序那些事

第十一周学习总结

Meow

架构师训练营1期 -- 第十一周作业

曾彪彪

极客大学架构师训练营

架构师训练营第十一周总结

月殇

极客大学架构师训练营

冰河开源了全网首个完全开源的分布式全局有序序列号(分布式ID)框架!

冰河

分布式架构 雪花算法 分布式ID 全局序列号 全局唯一ID

【第十一周】课后作业

云龙

架构师训练营 - 第 11 周课后作业(1 期)

阿甘

Week7 作业

evildracula

学习 架构

搜狗 AI 交互技术部总经理陈伟:未来AI语音交互产品将会走向多模态-InfoQ