阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

微信翻译闹笑话吴亦凡躺枪,AI 翻译为何总“翻车”?

  • 2019-03-05
  • 本文字数:2241 字

    阅读完需:约 7 分钟

微信翻译闹笑话吴亦凡躺枪,AI翻译为何总“翻车”?

昨天,有细心的网友发现,微信翻译出现故障,得出了很多让人啼笑皆非的翻译结果。比如流量明星们的名字被翻译成各种风马牛不相及的字眼,Cai Xukun 被翻译成“傻蛋”也真是非常尴尬了。



相比之下,谷歌翻译的同四个句子虽然效果也一言难尽,但是基本句式还是有据可循的:



但粉丝可就不干了,直接把这个话题顶上了微博热搜。截至今日,“微信翻译是认真的吗”这个话题仍然挂在微博热搜榜上,热度不减。



网友的评论区重点也是有点偏,俨然变成大型“反黑”现场,大量粉丝蜂拥而来表示“搬走”自家爱豆,众网友则是看热闹不嫌事大。当然,也有少数人没有偏离主题,把重点放在了翻译本身,有人对机器翻译水平表示担忧,有人给程序员小哥哥打气~


微信回应:翻译引擎误翻

事件发生后,微信团队迅速做出回应,称这是微信翻译引擎在翻译一些没有进行过训练的非正式英文词汇时出现误翻,导致部分语句翻译出现问题,目前正在紧急修复中。 ​​​​



经 AI 前线测试,目前正常的句式以及单词是可以正常翻译的,但是遇到不认识的词语,微信翻译干脆就“罢工”了,不知道仍然是故障状态还是说这是一个临时的解决方案?


全新神经网络翻译引擎

我们来看一下这里提到的微信翻译引擎。在早些时候,有消息称微信的英译汉功能由有道实现,其他语种则由微软负责。而据微信相关方面说法,目前微信聊天对话及朋友圈的英中、中英翻译已经替换成其自行开发的全新神经网络翻译引擎,但该神经网络的具体信息无从得知,AI 前线只找到关于它的零星信息。



据知乎一位自称是微信翻译引擎开发团队一员的用户透露,微信翻译功能是由一个不到 10 人的小团队开发,但是上线之时非常低调,甚至很多人不知道这个隐藏小彩蛋的存在。


当初上线之时,这位工程师就承认产品是有一定局限性的,很多翻译还不完善。


而在“如何评价微信翻译功能”这一话题之下,大部分评论对微信翻译功能的评价都不太友好,尤其是在姓名的翻译上,微信甚至会给你起一个英文名…



当然,也有人表示对微信翻译功能的支持,并真诚提出希望微信团队可以改善,甚至有人认为比百度、有道的翻译水平高。



虽然我们无从得知微信所使用的机器翻译引擎具体信息,但是可以通过机器学习翻译引擎的基本工作原理,了解一下为什么微信会在翻译一些没有进行过训练的非正式英文词汇时出现误翻,导致部分语句翻译出现问题。


机器翻译的原理可以看作是如下这张图:



翻译机器就是其中带有问号的黑箱,它的作用就是能够将一个语言的序列(如 Economic growth has slowed down in recent years)转化成目标语言序列(如 La croissance economique sest ralentie ces dernieres annees)。其中翻译机器在正式工作之前可以利用已有的语料库(Corpora)来进行学习和训练。


所谓的神经网络机器翻译就是利用神经网络来实现上述的黑箱翻译机器。它的架构如下图所示:



其中,我们用一个神经网络替换了上图中的黑箱。在神经网络中存在着大量的链接权重,这些权重就是我们要通过数据训练、学习的参数。训练好的神经网络可以将输入的源语言转换为输出的目标语言。我们要让神经网络学习的目标就是要能准确的翻译。(来源:知乎 ID:人工智能学习笔记)


我们是如何编写代码,让计算机翻译人类的语言呢?最简单的方法,就是把句子中的每个单词,都替换成翻译后的目标语言单词。下面是西班牙语-英语互译的例子,只需要逐字替代,就能够得到一个完整的翻译句子。但是由于上下文语境的关系,翻译结果并不完美。



为了解决这个问题,机器翻译系统需要使用了不同的方法,通过分析大量文本来分配文本中的规则,以改进结果。也就是教会计算机语法规则,然后让它根据规则翻译句子。


可惜事情并不是这么简单,饱受学习外语之苦的你肯定知道,规则总是有很多例外。当我们尝试为程序描写所有这些规则及其特例以及特例的特例时,翻译的质量就无从保证。


深度神经网络可以在非常复杂的任务(语音/视觉对象识别)中取得优异结果,但尽管它们具有灵活性,却只能用于输入和目标具有固定维数的任务。


在这个过程中,训练的重要性不言而喻,训练数据的多样性、完整性,以及数量、质量、时间等各种维度都会对系统最后产生的结果产生重要影响。



微信的翻译引擎出现误翻,按照官方的回应,是因为原文中出现没有进行过训练的非正式英文词汇,也就是说引擎系统“看到”了以前从未看到过的训练数据,因此影响了翻译的准确性也就不难理解了。

翻车不止一次

实际上,腾讯在翻译上不止翻过一次车。去年博鳌论坛期间,腾讯的翻译君就曾在会上闹过乌龙,AI 前线对此做过报道:《腾讯AI同传博鳌会上闹乌龙,技术界和翻译界怎么看?》。当时,翻译错误的地方多为常见的专用术语,如“一带一路”、“道路”等词汇,翻译还出现乱码结果,现场不得不再次聘请人工翻译“接盘”。



事件后腾讯承认,面对博鳌亚洲论坛复杂的语言环境和高大上的专业内容,“腾讯同传”确实出现了错误,答错了几道题。腾讯表示,作为创新孵化和落地的 AI 产品,“腾讯同传”还在不断学习和成长当中,但是不足就是不足,不足的地方就要继续加强学习。


不止腾讯,科大讯飞也曾深陷“AI 同传造假”事件,但事后以双方都确认误会的原因是同声传译人员在工作中把“讯飞听见”的转写功能错当成“机器同传”而告终。


不得不承认,虽然 AI 技术在不断进步,相关的自然语言处理技术也在不断取得突破,但仍然改变不了 AI 的智商不及四岁小孩的现实,尤其是在应用场景要求比较高的翻译领域,目前的技术水平还十分有限,不过,我们不应否认 AI 技术在翻译领域的成果,不积跬步,无以至千里,没有不断试错,就不会有成功。



公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-03-05 08:005401
用户头像

发布了 98 篇内容, 共 62.5 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

深入垂直业务场景,SaaS版供应商业务协同管理系统促进企业与供应商高效协同

数商云

数字化转型 供应链系统

软件定义存储厂商大道云行加入龙蜥社区

OpenAnolis小助手

生态 存储技术 龙蜥社区 大道云行 CLA

数字医疗时代的数据安全如何保障?

CECBC

服务器防渗透--信息收集

喀拉峻

网络安全

Facebook 开源 Golang 实体框架 Ent 现已支持 TiDB

Geek_2d6073

云时代,租电脑还是初创型企业最好的选择吗?

阿里云弹性计算

远程办公 无影云电脑 初创型企业

OceanBase 开源负责人纪君祥聊 社区版 2022 Roadmap

OceanBase 数据库

oceanbase OceanBase 开源

墨天轮访谈 | 华为云温云博:从客户视角出发,GaussDB(for Redis)究竟“香”在哪里?

墨天轮

数据库 redis 华为云 国产数据库 键值数据库

华为云GaussDB专家走进课堂,跟莘莘学子聊聊数据库

华为云数据库小助手

GaussDB GaussDB(for openGauss) GaussDB(for MySQL)

一文带你了解 Python 中的迭代器

踏雪痕

Python 3月程序媛福利 3月月更

春暖花开,等你而来!4月月更挑战开始啦!

InfoQ写作社区官方

热门活动 4月月更

VuePress 博客搭建系列 33 篇正式完结!

冴羽

JavaScript Vue 前端 vuepress 博客搭建

区块链架构下 智慧城市发展加速

CECBC

“中本聪岛”加密乌托邦

CECBC

如何快速实现持续交付

阿里云云效

云计算 阿里云 软件开发 CI/CD 持续交付

《LeetCode 刷题报告》题解内容Ⅱ

謓泽

3月月更

JS Array数组几个循环实用方法总结

MegaQi

JavaScrip 测试发开 web前端开发

深入浅出 Java FileChannel 的堆外内存使用

Apache IoTDB

基于微信小程序的实验室预约小程序平台详细设计

CC同学

异构注册中心机制在中国工商银行的探索实践

SOFAStack

GitHub 开源 分布式架构 注册中心 工商银行

前端食堂技术周刊第 30 期:Vercel 支持零配置部署使用 pnpm 项目、React 新文档更新、Angular Roadmap、Remix Stacks

童欧巴

JavaScript 编程 前端 周刊 资讯

360大数据技术专家 程建云:IoTDB在360的落地实践 | Apache IoTDB Talk

Apache IoTDB

时序数据库 IoTDB Apache IoTDB

高层次人才一站式服务平台系统开发

a13823115807

加密货币监控和区块链分析如何帮助避免加密货币欺诈?

CECBC

Flutter 路由及路由拦截跳转404

岛上码农

flutter ios Android开发 移动端 3月月更

kubeadm工作原理-kubeadm init原理分析-kubeadm join原理分析

良凯尔

容器 云原生 kubeadm #Kubernetes# Kubernetes 集群

week4作业

Asha

明天直播:如何测试硬件设备与龙蜥操作系统的兼容性?

OpenAnolis小助手

硬件 直播 开源社区 sig 兼容性

从二十年开源经历出发,70 后大龄程序员谈成长、困境与突围

TDengine

数据库 tdengine 开源

区块链等技术助力北京海关监管

CECBC

Paxos vs. Raft:我们对共识算法达成共识了吗?

多颗糖

分布式系统 raft PAXOS

微信翻译闹笑话吴亦凡躺枪,AI翻译为何总“翻车”?_AI&大模型_Debra_InfoQ精选文章