写点什么

微软的汉英机器翻译达到人类水平

  • 2018-03-21
  • 本文字数:896 字

    阅读完需:约 3 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

微软设计了一个翻译算法,把中文句子翻译成英文,其译文达到了人工翻译的水平

长久以来,把中文句子翻译成英文一直是个难题。有些语言和英语的相似度很高,翻译起来比较容易。由于中文的句子结构不同,所以,对于许多传统的翻译算法来说,中文翻译都是一项挑战。借助在过去几年里屡创佳绩的神经机器翻译技术,微软让机器翻译出的句子可以媲美人类翻译出的句子。

微软研究人员在神经机器翻译中使用了两种现有的方法:对偶学习推敲网络。借助对偶学习,系统从中文翻译生成的英文译文会被重新翻译成中文,从而保证结果的意思相同。在人工翻译过程中,为了验证翻译结果的正确性,人类也是这样做的,而机器似乎也得益于这一项技术。推敲网络是一种对生成的句子进行修改的方法。这项技术也是受人类的工作方式所启发:在翻译句子的时候,我们不是立即写下完整的翻译,而是修改再修改,找出最好的一个。

为了改进翻译算法,微软还开发了两项新技术。他们的联合训练技术会把英文句子翻译成中文,然后再译回英文,扩展训练集。两个翻译系统都使用这项技术进行了改进。他们还创建了“一致性原则(agreement regularization)”:他们让两个算法从右向左读取中文句子,然后再从左向右。如果两个算法都给出了相同的翻译,那么这就被视为翻译正确的有力证明。

需要注意,他们达到“媲美人类的里程碑”这一结论是通过双语顾问对比机器翻译和“黄金翻译”得出的。语言翻译评价会对比机器生成的结果和人工翻译给出的单个句子。这种方法的缺点是,没有完美的算法可以比较翻译结果的内在意义,从而确保他们的意思一致。这是所有翻译研究人员都面临的问题,包括谷歌在内,他们选用的算法在算法评价上效果较差,但在人类对比评估方面效果更好。

过去几年来,借助强大的神经网络,机器翻译社区在翻译算法方面取得了大量的成果。谷歌 Facebook 和微软都争相开发最好的算法。微软在这里对比了传统翻译算法和神经翻译算法,但还没有把他们可以媲美人类的系统放在里面。

查看英文原文 Microsoft Achieved Human Parity on Chinese-English Machine Translation

2018-03-21 19:002791
用户头像

发布了 1008 篇内容, 共 421.5 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

GPT-4 全面开放,首部 AIGC 监管法规出台,字节入局大模型 | AIGC 月报速览

码上跃见

AI AIGC GPT #科技 GPT-4

中型敏捷GenAI模型:面向企业垂直领域应用的实用型AI

Baihai IDP

AI AIGC LLM 白海科技 敏捷AI

Android 组件化神器之Arouter

java易二三

Java 程序员 计算机

Kafka 开飙了!5分钟,带你体验一把“速度与激情”

java易二三

Java Docker 计算机

IPD(集成产品开发)与CMMI的对比

禅道项目管理

稳定高效!NineData x SelectDB 完成产品兼容互认证

NineData

数据管理 大数据分析 SelectDB NineData 产品兼容互认证

在探索的道路上持续“做对”,火山引擎A/B测试成为这家企业数字基建

字节跳动数据平台

大数据 A/B 测试 企业号 8 月 PK 榜

使用Dubbo这么久,才知道这些功能竟如此“亮眼”

java易二三

程序员 dubbo 计算机

我可能开发了世界上最快的通用排序算法,比快排快 60%

java易二三

Java 程序员 计算机

Java中的常量:让程序更加稳定和可维护

java易二三

Java 程序员 常量 计算机

应用管理平台Walrus开源,构建软件交付新范式

SEAL安全

开源软件 企业号 8 月 PK 榜 Walrus

Snagit 中文for mac(强大的屏幕截图工具) 2023.2.2

胖墩儿不胖y

Mac软件 截图工具 屏幕截图

2023上海国际智慧停车展览会

AIOTE智博会

城博会 智慧停车展 智慧停车展会 智慧停车博览会

我们招聘啦!(Java、测试、后端)

数新网络官方账号

大数据 数据仓库 企业招聘

加强预算管理一体化,走进全面预算管理的数智化时代

智达方通

全面预算管理 预算管理 预算管理一体化

软件测试/测试开发丨Vuetify框架的使用

测试人

vue.js 程序员 软件测试 vuetify

开启AI创新之旅!“华为云杯”2023人工智能应用创新大赛

科技热闻

校源行丨开放原子开源基金会赴南大和南理工走访交流

开放原子开源基金会

开源

代码随想录Day46 - 动态规划(八)

jjn0703

手机直播源码开发,协议讨论篇(三):RTMP实时消息传输协议

山东布谷科技

软件开发 RTMP 源码搭建 手机直播源码 实时消息传输协议

软件测试/测试开发丨Pytest结合数据驱动

测试人

Python 程序员 软件测试 数据驱动 pytest

GC的前置工作,聊聊GC是如何快速枚举根节点的

Java随想录

Java JVM

MySQL : 好好学习一下InnoDB中的页

java易二三

Java MySQL 数据库 程序员 计算机

Python爬虫实战:根据关键字爬取某度图片批量下载到本地(附上完整源码)

袁袁袁袁满

Python 爬虫案例

MySQL运行时的可观测性

GreatSQL

数据库 greatsql

微软的汉英机器翻译达到人类水平_AI&大模型_Roland Meertens_InfoQ精选文章