阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

微信翻译闹笑话吴亦凡躺枪,AI 翻译为何总“翻车”?

  • 2019-03-05
  • 本文字数:2241 字

    阅读完需:约 7 分钟

微信翻译闹笑话吴亦凡躺枪,AI翻译为何总“翻车”?

昨天,有细心的网友发现,微信翻译出现故障,得出了很多让人啼笑皆非的翻译结果。比如流量明星们的名字被翻译成各种风马牛不相及的字眼,Cai Xukun 被翻译成“傻蛋”也真是非常尴尬了。



相比之下,谷歌翻译的同四个句子虽然效果也一言难尽,但是基本句式还是有据可循的:



但粉丝可就不干了,直接把这个话题顶上了微博热搜。截至今日,“微信翻译是认真的吗”这个话题仍然挂在微博热搜榜上,热度不减。



网友的评论区重点也是有点偏,俨然变成大型“反黑”现场,大量粉丝蜂拥而来表示“搬走”自家爱豆,众网友则是看热闹不嫌事大。当然,也有少数人没有偏离主题,把重点放在了翻译本身,有人对机器翻译水平表示担忧,有人给程序员小哥哥打气~


微信回应:翻译引擎误翻

事件发生后,微信团队迅速做出回应,称这是微信翻译引擎在翻译一些没有进行过训练的非正式英文词汇时出现误翻,导致部分语句翻译出现问题,目前正在紧急修复中。 ​​​​



经 AI 前线测试,目前正常的句式以及单词是可以正常翻译的,但是遇到不认识的词语,微信翻译干脆就“罢工”了,不知道仍然是故障状态还是说这是一个临时的解决方案?


全新神经网络翻译引擎

我们来看一下这里提到的微信翻译引擎。在早些时候,有消息称微信的英译汉功能由有道实现,其他语种则由微软负责。而据微信相关方面说法,目前微信聊天对话及朋友圈的英中、中英翻译已经替换成其自行开发的全新神经网络翻译引擎,但该神经网络的具体信息无从得知,AI 前线只找到关于它的零星信息。



据知乎一位自称是微信翻译引擎开发团队一员的用户透露,微信翻译功能是由一个不到 10 人的小团队开发,但是上线之时非常低调,甚至很多人不知道这个隐藏小彩蛋的存在。


当初上线之时,这位工程师就承认产品是有一定局限性的,很多翻译还不完善。


而在“如何评价微信翻译功能”这一话题之下,大部分评论对微信翻译功能的评价都不太友好,尤其是在姓名的翻译上,微信甚至会给你起一个英文名…



当然,也有人表示对微信翻译功能的支持,并真诚提出希望微信团队可以改善,甚至有人认为比百度、有道的翻译水平高。



虽然我们无从得知微信所使用的机器翻译引擎具体信息,但是可以通过机器学习翻译引擎的基本工作原理,了解一下为什么微信会在翻译一些没有进行过训练的非正式英文词汇时出现误翻,导致部分语句翻译出现问题。


机器翻译的原理可以看作是如下这张图:



翻译机器就是其中带有问号的黑箱,它的作用就是能够将一个语言的序列(如 Economic growth has slowed down in recent years)转化成目标语言序列(如 La croissance economique sest ralentie ces dernieres annees)。其中翻译机器在正式工作之前可以利用已有的语料库(Corpora)来进行学习和训练。


所谓的神经网络机器翻译就是利用神经网络来实现上述的黑箱翻译机器。它的架构如下图所示:



其中,我们用一个神经网络替换了上图中的黑箱。在神经网络中存在着大量的链接权重,这些权重就是我们要通过数据训练、学习的参数。训练好的神经网络可以将输入的源语言转换为输出的目标语言。我们要让神经网络学习的目标就是要能准确的翻译。(来源:知乎 ID:人工智能学习笔记)


我们是如何编写代码,让计算机翻译人类的语言呢?最简单的方法,就是把句子中的每个单词,都替换成翻译后的目标语言单词。下面是西班牙语-英语互译的例子,只需要逐字替代,就能够得到一个完整的翻译句子。但是由于上下文语境的关系,翻译结果并不完美。



为了解决这个问题,机器翻译系统需要使用了不同的方法,通过分析大量文本来分配文本中的规则,以改进结果。也就是教会计算机语法规则,然后让它根据规则翻译句子。


可惜事情并不是这么简单,饱受学习外语之苦的你肯定知道,规则总是有很多例外。当我们尝试为程序描写所有这些规则及其特例以及特例的特例时,翻译的质量就无从保证。


深度神经网络可以在非常复杂的任务(语音/视觉对象识别)中取得优异结果,但尽管它们具有灵活性,却只能用于输入和目标具有固定维数的任务。


在这个过程中,训练的重要性不言而喻,训练数据的多样性、完整性,以及数量、质量、时间等各种维度都会对系统最后产生的结果产生重要影响。



微信的翻译引擎出现误翻,按照官方的回应,是因为原文中出现没有进行过训练的非正式英文词汇,也就是说引擎系统“看到”了以前从未看到过的训练数据,因此影响了翻译的准确性也就不难理解了。

翻车不止一次

实际上,腾讯在翻译上不止翻过一次车。去年博鳌论坛期间,腾讯的翻译君就曾在会上闹过乌龙,AI 前线对此做过报道:《腾讯AI同传博鳌会上闹乌龙,技术界和翻译界怎么看?》。当时,翻译错误的地方多为常见的专用术语,如“一带一路”、“道路”等词汇,翻译还出现乱码结果,现场不得不再次聘请人工翻译“接盘”。



事件后腾讯承认,面对博鳌亚洲论坛复杂的语言环境和高大上的专业内容,“腾讯同传”确实出现了错误,答错了几道题。腾讯表示,作为创新孵化和落地的 AI 产品,“腾讯同传”还在不断学习和成长当中,但是不足就是不足,不足的地方就要继续加强学习。


不止腾讯,科大讯飞也曾深陷“AI 同传造假”事件,但事后以双方都确认误会的原因是同声传译人员在工作中把“讯飞听见”的转写功能错当成“机器同传”而告终。


不得不承认,虽然 AI 技术在不断进步,相关的自然语言处理技术也在不断取得突破,但仍然改变不了 AI 的智商不及四岁小孩的现实,尤其是在应用场景要求比较高的翻译领域,目前的技术水平还十分有限,不过,我们不应否认 AI 技术在翻译领域的成果,不积跬步,无以至千里,没有不断试错,就不会有成功。



公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-03-05 08:005399
用户头像

发布了 98 篇内容, 共 62.5 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

GitHub获120w+star的JDK源码剖析手册,竟出自Alibaba高管之手?

Java 架构 面试 程序人生 Alibaba

Linux之last命令

入门小站

Linux

在线JSON转MySQL建表语句工具

入门小站

工具

网络攻防学习笔记 Day122

穿过生命散发芬芳

网络安全 8月日更

区块链技术发展趋势与银行业探索实践

CECBC

架构设计-模块一

逝水流

架构

AlphaFold2“登陆”北鲲云平台,云计算助力科研大放异彩

北鲲云

netty系列之:自建客户端和HTTP服务器交互

程序那些事

Java Netty 程序那些事

细思极恐!Alibaba新产SpringBoot深度历险(嵩山版)开源

Java 编程 架构 面试 架构师

07. 图灵测试与第一次AI浪潮

数据与智能

人工智能

Zookeeper集群搭建

Mike

你知道 ES6~ES12等叫法是怎么来的吗?

编程三昧

JavaScript ecmascript 8月日更

融云 X-Live 系列直播启动,遇见通信的无限可能

融云 RongCloud

开发者 音视频 通信 融云 即时通信

Tapdata Cloud 版本上新!率先支持数据校验、类型映射等6大新功能

tapdata

MySQL nosql schema

跨越AI天堑时:行动代号“盘古大模型”

脑极体

数字化时代商业银行客户触达策略研究 从数据到服务 由场景到生态

CECBC

快手平台严管售卖“仿黄金类饰品”,直播带货在收割消费者

石头IT视角

中证协组织专题座谈会,加快推进区块链技术在证券行业应用

CECBC

C#多线程开发-线程同步02

Andy阿辉

C# 多线程 多线程并发 8月日更

百分点感知智能实验室:语音识别技术发展阶段探究

百分点科技技术团队

语音识别 百分点科技 感知智能

深入了解 RocketMQ 之ACL

邱学喆

签名 白名单 资源权限校验

算法毕业总结

Geek_Gu

我遇到的那些工长

escray

生活记录 8月日更

SharingSphere 源码解析 -- 真实SQL生成探索

数据库 源码

区块链盲盒游戏app软件开发|盲盒游戏软件介绍

量化系统19942438797

区块链 智能合约 盲盒

百分点大数据技术团队:BI嵌入式分析实践

百分点科技技术团队

BI 百分点科技 嵌入式分析

不用手机,如何让猫给你打视频电话丨日常小技

声网

物联网 目标检测 目标跟踪

读书笔记 -《数据密集型应用系统设计》- 数据编码

KayTin

模块1-作业

笑看风雨情

RTD 比率式温度测量传感器设计思路

不脱发的程序猿

学习 嵌入式 电路设计 硬件开发 ADI

Lua 入门到精通( 02 Lua 基本语法)《做一个脚本高手》

陈皮的JavaLib

lua Linux 运维 8月日更

微信翻译闹笑话吴亦凡躺枪,AI翻译为何总“翻车”?_AI&大模型_Debra_InfoQ精选文章