实现“信、达、雅”的机器翻译还有多远?

  • 薛梁

2016 年 9 月 18 日

话题:Google百度DevOps语言 & 开发架构深度学习AI

之前一个朋友去德国旅游,虽然一句德语也不会,但是通过手机上的百度翻译,旅途中基本没有遇到语言障碍。

不经意间这可能看上去没什么特别的,但是这一切都得益于机器翻译技术。那么什么是机器翻译呢?机器翻译(Machine Translation)又称为自动翻译,是利用计算机把一种自然语言转变为另一种自然语言的过程。

机器翻译的实现方法

随着科技和社会经济的快速发展,全世界的互联互通已经成为不可阻挡的发展趋势,那么不同国家之间如何实现低成本的有效交流呢?也许最好的解决方法就是:充分利用机器翻译技术提供智能自动翻译服务。机器不会累、学习快,一个系统同时掌握十几种语言互译也不是问题,也许永远不会像人一样出现翻译盲点。

目前机器翻译的主流方式叫“统计翻译”,其基本原理是:从语料库大量的翻译实例中自动学习翻译知识,然后利用这些翻译知识自动翻译其他句子。比如,为了让机器顺利实现中英文之间的翻译,首先需要收集大量中英文双语句对,然后使用计算机从这些双语句对中统计并学习翻译知识。这一实现方式很复杂。首先,很多用词和表达方式是多义的、模糊的、跟特定应用环境相关的。即使是同一个句子,在不同语境下的意思也不相同。例如,碰到这样的情况,不仅仅是老外,机器估计也会“迷茫”。

机器翻译的优势与不足

机器翻译是随着计算机技术而成长起来的翻译应用。与传统的人工翻译相比,机器翻译的反馈速度更快、成本更低,能同时处理大数量级的翻译请求,帮助很多有翻译需求的用户解决了难题。机器翻译在不断扩大的国际交流中扮演着无法取代的角色。

当然,机器翻译也存在一些劣势,最主要的就是翻译质量,正如同计算机无法替代人脑一样,机器翻译在很长一段时间内还是无法达到人工翻译的质量水平。如果有时候机器翻译的结果让你哭笑不得,也请你原谅它哦!机器翻译还是个孩子,还在成长的路上。

中国数学家、语言学家周海中曾在《机器翻译五十年》中指出:在人类尚未明了“人脑是如何进行语言的模糊识别和逻辑判断”的情况下,机译要想达到“信、达、雅”的程度是不可能的。

也有人对此有不同的意见,美国发明家、未来学家雷·科兹威尔在接受《赫芬顿邮报》采访时预言,到 2029 年机器翻译的质量将达到人工翻译的水平。对于这一论断,学界和业界都还存在很多争议,机器翻译的质量改进,还有赖于学界和业界长期的共同研究和不断实践。

国内机器翻译技术一览

为了实现机器翻译的梦想,以 IBM、谷歌、微软、百度、科大讯飞为代表的国内外科研机构和企业均相继成立机器翻译团队,专门从事智能翻译研究,矢志打破语言障碍。

百度——2010 年初,百度组建了机器翻译核心研发团队,目前支持 27 种语言互译。其所研发的深度学习与多种主流翻译模型相融合的在线翻译系统以及基于“枢轴语言”等技术在国际上获得了广泛认可。同时在 2015 年度国家科学技术奖励大会上,由百度与中国科学院自动化所等单位共同研发的“基于大数据的互联网机器翻译核心技术及产业化”项目获得了国家科学技术进步奖二等奖。

除此之外,国内还有很多像有道、科大讯飞、语智云帆这样的公司在通过深度学习、机器算法、大数据、语义识别等先进技术研究机器翻译,旨在打造更出色、精准的翻译服务,满足用户对翻译结果“信达雅”的质量要求,为互联网用户提供实时在线的人工翻译服务。

机器翻译的未来

随着机器翻译技术的进步,另一种担心也在悄然蔓延:“机器会抢同声传译的饭碗吗?会让从事这一行业的人类失业吗?

哈尔滨工业大学的李生教授表示,机器翻译在生活服务、学习等领域正逐渐替代人工翻译,成为个人翻译助手。不过目前的翻译技术手段还无法完全达到“信、达、雅”的标准。但随着信息技术的推动,实现及时的全世界信息共享,单靠人工翻译显然很难完成,但机器翻译也不会完全替代人工翻译,二者需要融合发展。

关于第 66 期“机器翻译技术深度解析”主题沙龙

本期沙龙将邀请来自百度的专注于机器翻译核心算法的技术负责人,以及为企业用户提供语言智能技术服务的语智云帆的技术专家,结合具体的实践和优秀案例,共同探讨互联网机器翻译核心技术及人机结合的智能翻译应用。报名链接http://form.mikecrm.com/YpekvS

Google百度DevOps语言 & 开发架构深度学习AI