提前锁票 InfoQ 最具价值感的视频栏目 | InfoQ 大咖说 了解详情
写点什么

做好语音翻译无捷径:语音识别是前提,实时翻译亟待攻破

2019 年 5 月 10 日

做好语音翻译无捷径:语音识别是前提,实时翻译亟待攻破

在人工智能领域,语音翻译已经不是一个新鲜词汇,这门技术已经广泛应用于我们的日常生活和会议等场景中,且仍具有巨大的应用潜力等待挖掘。现在,语音翻译技术的发展现状如何?此前面临的难点有所突破了吗?今天,AI 前线将通过科大讯飞 AI 研究院副院长王士进,来深入了解这一领域的进步。


语音翻译技术现状

“目前业内语音翻译主流技术路线还是以语音识别+机器翻译的级联方式为主,在部分场景下已经达到了实用的门槛,”王士进在采访中透露。但用过语音翻译产品的人应该都了解,在实际应用场景中,语音翻译技术并不总是让人满意。王士进也坦诚,语音翻译技术想要进一步发展,口语的不规范性、口音、方言的识别,专业领域的翻译效果、翻译的实时性等问题还亟待解决。


在产品层面上,目前的语音翻译产品主要有交替传译和同声传译两种形态。交替传译类有各类翻译机、同声传译类产品,如讯飞的听见同传,能够实现同步文字直播和实时翻译。


同样地,市面上的语音翻译产品并不总能让用户满意。以讯飞翻译机为例,虽然据科大讯飞称这个产品的用户满意度为 99%,但在同声传译等场景下,目前只能做到帮助用户更方便地理解内容,但有时识别效果和翻译效果还会出现一些问题。当然,这也是目前所有同传产品所面临的实际问题。


另外,在语音翻译领域还有一种现象:一些公司宣称在重大比赛项目中获得很好的成绩,准确率再创新高,等等,但当在实际场景中一应用,往往会发现效果并不是很理想,甚至会出现低级错误,比如在英翻中任务中,翻译准确率会大打折扣。那么,这是否意味着仅技术层面的完善并不代表实际应用效果一定会好?


对此,王士进表示,不同语种的翻译效果确实会根据公司的业务发展需要进行侧重优化,最终的效果也是识别、翻译等技术共同决定的。


当然,技术可能只是一方面,另一个很重要的是“涟漪效应”。(注:“涟漪效应”是互联网思维在核心技术研究中的应用,用户一旦使用,数据会送到云计算服务器,云计算服务器可以立即学习更新,利用涟漪效应,可以把不熟的、需要在真实环境中训练出来的系统,真正培养出来)。这是互联网思维在核心技术研究中的应用。为什么现在的实验室,不能提出最好的算法,主要是没有大数据和涟漪效应。在移动互联网下,因为软件免费,用户愿意花时间用这些产品,且不会产生抱怨或反抗。当推出一个不好的人工智能算法(包括图像、语音、自然语言理解)时,就像水滴滴在水面,只有一小部分人才会用到。一旦使用,数据会送到云计算服务器,云计算服务器可以立即学习更新。当水波扩大到更广泛的人群时,系统的性能已经提高。水波的振幅就是系统的误差。当水波扩散,振幅越来越低。当水波纹扩散到第 1000 万人时,10000001 个人是第一次使用这一系统,他会觉得系统很好。利用涟漪效应,可以把不熟的、需要在真实环境中训练出来的系统,真正培养出来。在实验室中,可以做人工智能的算法。


由此可见,高超的技术对于一个完善的用户产品来说必不可少,但技术高超并不意味着产品体验一定好,还需要经过不断的涟漪效应持续迭代达到好用。


循序渐进和里程碑式突破

回首语音翻译技术从研究到应用的过程,从最初实验室中的设想到走进寻常百姓家,这门技术的发展实际上历经了几个重要的里程碑式突破,才达到如今的效果。


王士进认为,从语音识别上来说,从上世纪 80 年代的 GMM-HMM 框架,到 10 年前的 DNN-HMM 框架,再到这两年的 Encoder-Decoder 框架,语音识别效果实现了阶跃式的提升,使得语音翻译具备了很好的前提条件;而从机器翻译上来说,从最初的规则翻译,到后来开始产业化的统计机器翻译,再到现在的神经机器翻译,特别是神经机器翻译技术,给机器翻译带来了巨大的提升,使得在日常口语、新闻等场景下,机器翻译已经达到了实用的门槛。


难点和突破口

然而,语音翻译和机器翻译的发展并非一帆风顺,即使是现在,这一领域仍然面临着很多待啃的“硬骨头”。


首先是识别错误带来的级联影响,包括方言、口语化等会影响识别的输出展示和翻译的输入;其次是同声传译中的实时性问题,如何能平衡翻译效果和翻译实时性是目前的一大难题。


知道问题在哪是第一步,第二步就是如何克服这些问题。这需要从这个链条上寻找相对薄弱的突破口。


对此,王士进认为,做好语音识别是前提,包括方言识别、对口音的容错、对口语化识别结果的后处理规整等。其次是渐进式解码技术,解决翻译实时性的问题。


案例研究:讯飞最新翻译引擎 TNMT 分析

一个好的语音翻译产品离不开一个好的翻译引擎。现在,我们以科大讯飞最新一代语音翻译引擎 TNMT 为例,来了解语音翻译背后的技术。


据王士进介绍,TNMT 采用最强大的语音识别技术和神经机器翻译技术,主要有语音识别-> 语音后处理-> 机器翻译-> 语音合成级联方式组成,目前使用业内主流的识别与翻译级联方式完成最终的能力输出。


更重要的是,讯飞基于目前的语音翻译产品形成了产品优化到技术更新的迭代闭环,有了可以依托的数据涟漪效应平台,能够使得效果不断迭代优化,也是讯飞语音翻译效果能够不断优化的重要保障。


上述因素加上讯飞积累的大规模训练数据,讯飞在口语旅游等场景达到较好的水平,为出国旅游辅助交流提供了便利。


未来趋势

王士进认为,语音翻译技术未来的发展趋势,一方面是在复杂环境下的语音识别,语音翻译如果想进一步扩大应用场景,这点首先要解决好;另外,如何解决低资源语音翻译技术难题也是一个重点,很多语种有很大的价值和前景,但是目前的资源是比较少的;最后,是端到端的语音翻译技术,实现直接从原始语音到目标译文的翻译,相信这将会是未来语音翻译的发展方向。端到端语音翻译技术路线,是通过构造一个完整的神经网络模型,联合优化语音识别、识别后处理和机器翻译,建立源语言语音信号到目标语言文字的映射关系,进而实现从原始语音到目标译文的翻译。这提供了一种解决语音翻译的新思路,而且从目前看是初步可行的。一旦技术研究成功,理论上可以让语音翻译更准更快,未来也将为翻译机器性能的提升带来极大促进。


采访嘉宾

王士进,科大讯飞北京研究院院长、AI 研究院副院长。2003 年毕业于中国科学技术大学,获电子科学与技术工学学士学位,2008 年获得中科院自动化所模式识别与智能系统博士学位。研究兴趣包括语音信号处理、自然语言处理、智慧教育等人工智能技术,在 ICASSP、Interspeech、ACL、COLING、NAACL、Computer Speech and Language 等期刊会议发表数十篇论文,目前还担任中国人工智能产业发展联盟专家委员会委员、技术与产业工作组副组长。


另外,王士进博士将在 QCon 全球软件开发大会(广州站)分享题为「语音翻译技术进展及应用」的演讲,对 NLP 和语音技术感兴趣的同学可以重点关注下。


活动推荐

QCon 广州站日程上线,部分精彩内容提前剧透:


  • 语音翻译技术进展及应用

  • 从 Darknet 到 Tensorfow: 图像识别一站式平台的工程实践

  • 计算机视觉赋能无界零售(Empowering Retailing Experiences with Computer Vision)


更多人工智能、架构设计等相关实践领域尽在QCon广州2019,另外大会特设 NLP 相关的深度培训课程,感兴趣的同学抓紧时间向 Boss 申请报名,有任何问题请联系小助手鱼丸,电话:13269078023 (微信同)。扫描下方二维码,提前 get 干货信息!



2019 年 5 月 10 日 08:004320
用户头像

发布了 42 篇内容, 共 10.3 次阅读, 收获喜欢 51 次。

关注

评论

发布
暂无评论
发现更多内容

渴望提升自己技术能力的程序员的必备宝典!这份在阿里内部被封神的《Java技术成长笔记》真的太牛了!

Java成神之路

Java 程序员 架构 面试 编程语言

程序员因重复记录日志撑爆ELK被辞退!

Java架构师迁哥

阿里华为等大厂如何处理数值精度/舍入/溢出问题

Java架构师迁哥

Alibaba最新《Java架构核心宝典》限时开放下载,互联网主流技术详解总结,提升技术能力的必备宝典!

Java成神之路

Java 程序员 架构 面试 编程语言

佛萨奇Forsage系统开发,智能合约dapp技术

薇電13242772558

智能合约 dapp

女朋友突然问我DNS是个啥....

乱敲代码

计算机网络 DNS DNS服务器

几款Java开发者必备常用的工具,准点下班不在话下

华为云开发者社区

Java 工具 开发

LeetCode题解:127. 单词接龙,双向BFS,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

阿里云容器服务入选云原生边缘「领导力企业TOP3」,推动「原生云边」基础设施标准建立

阿里巴巴云原生

阿里云 容器 开发者 云原生 边缘计算

15年华为云视频架构师采访实录:揭秘未来音视频行业的科技趋势!

华为云开发者社区

直播 视频 华为云

90分钟10个手写案例,从源码底层给你讲解7种线程池创建方式

996小迁

Java 源码 架构 资料 笔记

OpenKruise v0.7.0 版本发布:新增周期任务分发控制器

阿里巴巴云原生

阿里云 容器 开发者 运维 云原生

“深入内核,拒绝蒙圈”,阿里巴巴一位P7级架构师总结整理的这份《Java架构成长笔记》彻底火了。

Java成神之路

Java 程序员 架构 面试 编程语言

一文详解激活函数

书豪

涨薪神作!华为内部操作系统与网络协议笔记爆火,这也太香了吧

Java成神之路

Java 程序员 架构 面试 编程语言

架构师训练营第 13 周学习总结

netspecial

极客大学架构师训练营

滴滴DoKit阶段性成果汇报之一机多控

工具 滴滴开源 DoKit

Mysql中,1=1和 1=1=1 和 -1=-1 和 -1=-1=-1 和 5=5 和 5=5=5 有什么区别

Geek_de9857

MySQL sql 返回值 1=1=1 -1=1=1

eCharts -- 如何修改柱状图中相关数据的顺序?如何在鼠标悬浮时增加百分比信息?如何为柱状图设置分组?

Geek_de9857

柱状图 eCharts 修改数据顺序 百分比提示信息 设置分组

原创 | 使用JPA实现DDD持久化-O/R映射元数据-关联属性映射

编程道与术

Java hibernate 编程 mybatis jpa

架构师 3 期 3 班 -week4- 作业

zbest

作业 week4

flink 使用curl,通过RESTful api,上传和删除jar包

Geek_de9857

flink RESTful curl 上传jar 删除jar

【涂鸦物联网足迹】用煲仔饭来说明IaaS/PaaS/SaaS的区别

IoT云工坊

云计算 IaaS PaaS SaaS 云平台

原创 | 使用JPA实现DDD持久化-O/R映射元数据-值属性映射

编程道与术

Java hibernate 编程 mybatis jpa

扩招1W人,字节跳动内部公开12月份Java岗71道面试题

比伯

Java 编程 架构 面试 程序人生

从面试角度分析LinkedList源码

Java旅途

Java List 集合 linkedlist

Hive中,同时存在map、array、struct这三种格式,应如何在建表语句中指定分隔符?

Geek_de9857

hive struct map array 分隔符

JavaScript中,if判断未生效的一些特殊情况

Geek_de9857

js 1 if 0 不生效

第九周作业

Griffenliu

等保数据备份和恢复关键点,这些你该知道!

华为云开发者社区

数据 容灾 恢复

有了这份“Java神级面试资料”,奉劝各位耗子尾汁赶紧扔掉你在网上找的那些千篇一律的面试题

Java成神之路

Java 程序员 架构 面试 编程语言

打造 VUCA 时代的 10 倍速 IT 团队

打造 VUCA 时代的 10 倍速 IT 团队

做好语音翻译无捷径:语音识别是前提,实时翻译亟待攻破-InfoQ