写点什么

微软的汉英机器翻译达到人类水平

  • 2018-03-21
  • 本文字数:896 字

    阅读完需:约 3 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

微软设计了一个翻译算法,把中文句子翻译成英文,其译文达到了人工翻译的水平

长久以来,把中文句子翻译成英文一直是个难题。有些语言和英语的相似度很高,翻译起来比较容易。由于中文的句子结构不同,所以,对于许多传统的翻译算法来说,中文翻译都是一项挑战。借助在过去几年里屡创佳绩的神经机器翻译技术,微软让机器翻译出的句子可以媲美人类翻译出的句子。

微软研究人员在神经机器翻译中使用了两种现有的方法:对偶学习推敲网络。借助对偶学习,系统从中文翻译生成的英文译文会被重新翻译成中文,从而保证结果的意思相同。在人工翻译过程中,为了验证翻译结果的正确性,人类也是这样做的,而机器似乎也得益于这一项技术。推敲网络是一种对生成的句子进行修改的方法。这项技术也是受人类的工作方式所启发:在翻译句子的时候,我们不是立即写下完整的翻译,而是修改再修改,找出最好的一个。

为了改进翻译算法,微软还开发了两项新技术。他们的联合训练技术会把英文句子翻译成中文,然后再译回英文,扩展训练集。两个翻译系统都使用这项技术进行了改进。他们还创建了“一致性原则(agreement regularization)”:他们让两个算法从右向左读取中文句子,然后再从左向右。如果两个算法都给出了相同的翻译,那么这就被视为翻译正确的有力证明。

需要注意,他们达到“媲美人类的里程碑”这一结论是通过双语顾问对比机器翻译和“黄金翻译”得出的。语言翻译评价会对比机器生成的结果和人工翻译给出的单个句子。这种方法的缺点是,没有完美的算法可以比较翻译结果的内在意义,从而确保他们的意思一致。这是所有翻译研究人员都面临的问题,包括谷歌在内,他们选用的算法在算法评价上效果较差,但在人类对比评估方面效果更好。

过去几年来,借助强大的神经网络,机器翻译社区在翻译算法方面取得了大量的成果。谷歌 Facebook 和微软都争相开发最好的算法。微软在这里对比了传统翻译算法和神经翻译算法,但还没有把他们可以媲美人类的系统放在里面。

查看英文原文 Microsoft Achieved Human Parity on Chinese-English Machine Translation

2018-03-21 19:002719
用户头像

发布了 1008 篇内容, 共 412.4 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

2021最新百度/平安/蚂蚁金服/腾讯/拼多多面经总结(附答案解析)

比伯

Java 编程 架构 面试 计算机

电影台词反向搜索视频片段,这个工具也太好用了吧|33 台词

彭宏豪95

效率 效率工具 电影

为图片添加Emoji,微信这隐藏功能让你不花冤枉钱

彭宏豪95

微信 效率 效率工具 emoji

泰山版震撼来袭!阿里巴巴2021年Java程序员面试指导小册已开源

Java架构追梦

Java 架构 面试 金三银四 跳槽

Java岗四面字节跳动成功之前,我都刷了那些面试题以及做了那些准备!

Java架构之路

Java 程序员 架构 面试 编程语言

使用doom-emacs三个月后, 春节期间从零配置一份自己的emacs(附详细文档)

lmymirror

算力蜂系统开发|算力蜂软件APP开发

系统开发

翻译:《实用的Python编程》02_03_Formatting

codists

Python 人工智能 后端 数据结构与算法 格式化

有赞 Flink 实时任务资源优化探索与实践

Apache Flink

flink

电力行业区块链技术应用和产业布局

CECBC

区块链

话题讨论 | 程序员是做前端开发好,还是后端开发好呢?

xcbeyond

程序人生 话题讨论

区块链电子证照应用平台,区块链电子证照平台建设方案

13530558032

微信十年,弹指一挥间

彭宏豪95

微信 产品 互联网 写作

窝家恶补三月,字节跳动三面,终于喜提offer!分享面试感受

Java架构之路

Java 程序员 架构 面试 编程语言

一文读懂区块链产业最新发展趋势

CECBC

大数据

架构设计篇之微服务实战笔记(三)

小诚信驿站

架构师 刘晓成 小诚信驿站 28天写作 架构师成长笔记

2021阿里总监最新手码BAT等大厂面经!GitHub已标星86.2K

比伯

Java 编程 架构 面试 程序人生

话题讨论 | mongodb拥有十大核心优势,为何国内知名度不是很高?

杨亚洲(专注MongoDB及高性能中间件)

MySQL 数据库 mongodb 话题讨论 分布式数据库mongodb

人人矿场APP开发|人人矿场系统软件开发

系统开发

流媒体传输协议之 RTMP

阿里云CloudImagine

TCP 音视频 RTMP 传输协议 流媒体;

话题讨论 | 比特币攻击重现江湖,你准备好了吗?

程序员架构进阶

话题讨论 28天写作 2月春节不断更 话题王者 勒索攻击

什么!?金三银四,2021年阿里最新面试题惨遭泄露?

Java架构之路

Java 程序员 架构 面试 编程语言

程序员成长第十一篇:弄懂需求

石云升

需求 28天写作 2月春节不断更

少儿学编程系列---如何使用turtle画风车

cloudcoder

区块链药品溯源平台-区块链医药追踪溯源

13530558032

话题讨论 | 现实中程序员是怎样飞快敲代码的?

xcbeyond

程序人生 话题讨论

Laravel来信|Event

LeastCoding

laravel Event 观察者模式

GitHub上已获赞百万!阿里架构师10年磨一剑打造的Java面试小抄(2021版)开源分享

Java架构师迁哥

颠覆技术-智能合约的说明文

CECBC

区块链

阿里巴巴云原生应用安全防护实践与 OpenKruise 的新领域

阿里巴巴云原生

容器 运维 云原生 k8s 调度

什么是供应链,供应链有哪些核心指标

学志

技术 指标体系 供应链 电商平台

微软的汉英机器翻译达到人类水平_AI&大模型_Roland Meertens_InfoQ精选文章