2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

微软的汉英机器翻译达到人类水平

  • 2018-03-21
  • 本文字数:896 字

    阅读完需:约 3 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

微软设计了一个翻译算法,把中文句子翻译成英文,其译文达到了人工翻译的水平

长久以来,把中文句子翻译成英文一直是个难题。有些语言和英语的相似度很高,翻译起来比较容易。由于中文的句子结构不同,所以,对于许多传统的翻译算法来说,中文翻译都是一项挑战。借助在过去几年里屡创佳绩的神经机器翻译技术,微软让机器翻译出的句子可以媲美人类翻译出的句子。

微软研究人员在神经机器翻译中使用了两种现有的方法:对偶学习推敲网络。借助对偶学习,系统从中文翻译生成的英文译文会被重新翻译成中文,从而保证结果的意思相同。在人工翻译过程中,为了验证翻译结果的正确性,人类也是这样做的,而机器似乎也得益于这一项技术。推敲网络是一种对生成的句子进行修改的方法。这项技术也是受人类的工作方式所启发:在翻译句子的时候,我们不是立即写下完整的翻译,而是修改再修改,找出最好的一个。

为了改进翻译算法,微软还开发了两项新技术。他们的联合训练技术会把英文句子翻译成中文,然后再译回英文,扩展训练集。两个翻译系统都使用这项技术进行了改进。他们还创建了“一致性原则(agreement regularization)”:他们让两个算法从右向左读取中文句子,然后再从左向右。如果两个算法都给出了相同的翻译,那么这就被视为翻译正确的有力证明。

需要注意,他们达到“媲美人类的里程碑”这一结论是通过双语顾问对比机器翻译和“黄金翻译”得出的。语言翻译评价会对比机器生成的结果和人工翻译给出的单个句子。这种方法的缺点是,没有完美的算法可以比较翻译结果的内在意义,从而确保他们的意思一致。这是所有翻译研究人员都面临的问题,包括谷歌在内,他们选用的算法在算法评价上效果较差,但在人类对比评估方面效果更好。

过去几年来,借助强大的神经网络,机器翻译社区在翻译算法方面取得了大量的成果。谷歌 Facebook 和微软都争相开发最好的算法。微软在这里对比了传统翻译算法和神经翻译算法,但还没有把他们可以媲美人类的系统放在里面。

查看英文原文 Microsoft Achieved Human Parity on Chinese-English Machine Translation

2018-03-21 19:003002
用户头像

发布了 1008 篇内容, 共 441.8 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

程序员专属“灯谜”大挑战,答对六题算你赢!

京东科技开发者

编程语言 集群

程序员之禅(一)

每天读本书

读书笔记

【LeetCode】区域和检索 - 数组不可变Java题解

Albert

算法 LeetCode 28天写作

MySQL字段默认值设置详解

Simon

MySQL 数据库

刷屏洗脑的“吗咿呀嘿”,到底是个啥?

架构精进之路

商业模式 28天写作 3月日更

QA视角看数据匿名化

BY林子

数据安全 测试右移 用户数据 数据脱敏

OS命令--shell中数组的操作

cloudcoder

数组 Shell 循环引用

华为云原生数据仓库GaussDB(DWS)深度技术解读:融、快、大、稳、易

华为云开发者联盟

数据库 云原生 华为云 GaussDB 数仓

GaussDB(DWS):非侵入式备份及其在NBU上的应用

华为云开发者联盟

架构 GaussDB 集群 备份 NBU

技术解析 | Doris Compaction机制解析

百度开发者中心

百度 apache doris

Wiki.js 配置 LDAP 认证

东风微鸣

wiki

海豚调度dolphinscheduler SQL脚本初始化流程

cloudcoder

海豚调度 调度引擎 分布式任务调度

技术案例 | 云原生微服务落地难?百度自用CRM这样做

百度开发者中心

微服务 CRM #百度智能云#

EEPROM CAT24CXX实现分页读、写数据

不脱发的程序猿

28天写作 CAT24C08 EEPROM 嵌入式软件 单片机

华为云举办AI经典论文复现活动,打造领先AI开发者学习社区

华为云开发者联盟

AI 华为云 modelarts 论文 AI Gallery

搭建一个 802.1x 的 web 测试服务

冯骐

网络 监控系统 Open-Falcon radius eduroam

山东青岛推进平安小区建设!源中瑞智慧社区平台解决方案

源中瑞-龙先生

解决方案 山东 源中瑞 青岛 智慧社区

Linux入门篇 —— Linux 磁盘管理之磁盘理论篇

若尘

Linux linux编程 磁盘

树莓派上的温湿度环境监控

冯骐

运维 树莓派 物联网 监控告警

树莓派上的家庭监控中心

冯骐

运维 树莓派 监控系统 Open-Falcon 物联网,

MongoDB 在评论中台的实践

vivo互联网技术

数据库 mongodb 分布式 集群

国产芯片WiFi物联网智能插座—电耗采集功能设计

不脱发的程序猿

28天写作 国产芯片 电耗检测 电压电流 华大MCU

LeetCode题解:123. 买卖股票的最佳时机 III,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

极限编程技术实践

Teobler

敏捷 敏捷开发 TDD 重构 极限编程

元宵节元宵钱,不买元宵买云资源! | 2核4G低至0.79元/天

京东科技开发者

云主机 云服务器 云存储 云硬盘

构建一套适合微服务的高可用架构

环信

工作两三年了,整不明白架构图都画啥?

小傅哥

Java 后端 小傅哥 架构设计 画架构图

使用 pyVmomi 采集 vSphere 监控指标

冯骐

Python 运维 监控 Open-Falcon vpshere

从0到1建立数据分析指标体系底层逻辑

小飞象@木木自由

数据分析 数据指标 数据分析体系

看完你就明白什么是图神经网络

华为云开发者联盟

神经网络 深度学习 节点 图神经网络 图结构

Git学习游戏化,从Learn Git Branching 开始

程序老王

git 学习 学习方法 git 学习

微软的汉英机器翻译达到人类水平_AI&大模型_Roland Meertens_InfoQ精选文章