阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

微软的汉英机器翻译达到人类水平

  • 2018-03-21
  • 本文字数:896 字

    阅读完需:约 3 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

微软设计了一个翻译算法,把中文句子翻译成英文,其译文达到了人工翻译的水平

长久以来,把中文句子翻译成英文一直是个难题。有些语言和英语的相似度很高,翻译起来比较容易。由于中文的句子结构不同,所以,对于许多传统的翻译算法来说,中文翻译都是一项挑战。借助在过去几年里屡创佳绩的神经机器翻译技术,微软让机器翻译出的句子可以媲美人类翻译出的句子。

微软研究人员在神经机器翻译中使用了两种现有的方法:对偶学习推敲网络。借助对偶学习,系统从中文翻译生成的英文译文会被重新翻译成中文,从而保证结果的意思相同。在人工翻译过程中,为了验证翻译结果的正确性,人类也是这样做的,而机器似乎也得益于这一项技术。推敲网络是一种对生成的句子进行修改的方法。这项技术也是受人类的工作方式所启发:在翻译句子的时候,我们不是立即写下完整的翻译,而是修改再修改,找出最好的一个。

为了改进翻译算法,微软还开发了两项新技术。他们的联合训练技术会把英文句子翻译成中文,然后再译回英文,扩展训练集。两个翻译系统都使用这项技术进行了改进。他们还创建了“一致性原则(agreement regularization)”:他们让两个算法从右向左读取中文句子,然后再从左向右。如果两个算法都给出了相同的翻译,那么这就被视为翻译正确的有力证明。

需要注意,他们达到“媲美人类的里程碑”这一结论是通过双语顾问对比机器翻译和“黄金翻译”得出的。语言翻译评价会对比机器生成的结果和人工翻译给出的单个句子。这种方法的缺点是,没有完美的算法可以比较翻译结果的内在意义,从而确保他们的意思一致。这是所有翻译研究人员都面临的问题,包括谷歌在内,他们选用的算法在算法评价上效果较差,但在人类对比评估方面效果更好。

过去几年来,借助强大的神经网络,机器翻译社区在翻译算法方面取得了大量的成果。谷歌 Facebook 和微软都争相开发最好的算法。微软在这里对比了传统翻译算法和神经翻译算法,但还没有把他们可以媲美人类的系统放在里面。

查看英文原文 Microsoft Achieved Human Parity on Chinese-English Machine Translation

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2018-03-21 19:002408
用户头像

发布了 1008 篇内容, 共 373.9 次阅读, 收获喜欢 340 次。

关注

评论

发布
暂无评论
发现更多内容

【架构设计】你真的理解软件设计中的SOLID原则吗?

JAVA旭阳

Java 架构

架构训练营-模块三作业

Sam

架构实战营

PyCharm创建Jupyter Notebook

IT蜗壳-Tango

Python

tinyrpc源码阅读

骑牛上青山

golang 源码 RPC

David Murray 加入 VeraViews 担任需求总监

鳄鱼视界

架构训练营第10期模块四作业

Geek_4db2d5

模块九-设计电商秒杀系统

李某人

架构训练营

一个比一个牛皮的5个杨辉三角特性!

风铃架构日知录

Java 程序员 算法 IT 杨辉三角

【Redis实战专题】「性能监控系列」全方位探索Redis的性能监控以及优化指南

洛神灬殇

redis监控 Redis优化 redis性能

兼容东西,贯通南北:超聚变的“四水归堂”

脑极体

科技 算力 超聚变

Pytorch 基础-tensor 数据结构

嵌入式视觉

Tensor ndarray 张量的基本操作 view函数 reshape

系统风险处置

agnostic

风险系统 业务风险 操作风险

天翼云第八代云主机助力企业攻克上云“大象流”加密处理业务难题

Geek_2d6073

GEAR框架: Tractian的敏捷工程文化

俞凡

敏捷 大厂实践

2023-01-14:给定一个二维数组map,代表一个餐厅,其中只有0、1两种值 map[i][j] == 0 表示(i,j)位置是空座 map[i][j] == 1 表示(i,j)位置坐了人 根据防

福大大架构师每日一题

算法 rust Solidity 福大大

PowerShell 中运行 maven 参数无法识别

HoneyMoose

SAP 交货单与HU指派关系数据不一致问题的解决方案

SAP虾客

SAP 公司间STO 外向交货单 HU DEBUG改表

Tapdata Cloud 场景通关系列:将数据导入阿里云 Tablestore,获得毫秒级在线查询和检索能力

tapdata

photozoompro2023下载激活教程

茶色酒

PhotoZoom photozoompro

Tapdata 杨庆麟:实时数据如何赋能制造业,实现业务卓越与持续发展?

tapdata

2022年终总结:今年学完的付费课程

石云升

学习 知识付费 年终总结 1月月更

总结一下经典机器学习算法

风铃架构日知录

Java 程序人生 算法 后端 IT

WEB开发人员应该知道 10 个 Docker 命令

devpoint

Docker 前端开发 docker image Docker 镜像

Alluxio 2022技术干货年终大赏

Alluxio

大数据 分布式 案例 Alluxio 数据编排

Date & Time组件(上)

二哈侠

Android Studio DATE类型 time

#45 A002-B端产品经理小A故事-走进客户2

非典型产品经理笔记

个人成长 产品经理 b端产品经理

#46 A003-B端产品经理小A故事-你是在画猫吗?

非典型产品经理笔记

个人成长 产品经理 b端产品经理

【架构设计】你真的理解软件设计中的SOLID原则吗?

小小怪下士

Java 程序员 架构设计

详解ThreadLocal

threedayman

Tapdata Cloud 场景通关系列:数据入湖仓之 MySQL → Doris,极简架构,更实时、更简便

tapdata

读懂深度学习,走进“深度学习+”阶段

脑极体

深度学习 百度 #飞桨#

微软的汉英机器翻译达到人类水平_AI&大模型_Roland Meertens_InfoQ精选文章