写点什么

WMT 2022 国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军

  • 2022-11-15
    北京
  • 本文字数:1061 字

    阅读完需:约 3 分钟

WMT 2022国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军

InfoQ 获悉,近日,WMT 2022 国际机器翻译大赛的榜单停止提交结果并发布排名。其中,微信翻译团队在对话翻译和生物医学领域翻译领域共获得三项冠军,分别是对话翻译比赛的英德和德英翻译冠军,以及生物医学领域翻译比赛中的中英翻译冠军。

 

WMT(Workshop on Machine Translation)由国际计算语言学协会 (ACL) 举办,是全球学术界公认的国际顶级机器翻译比赛之一。自 2006 年创办至今,WMT 已经成功举办 17 届。

 

在往届的 WMT 2020 和 WMT 2021,微信翻译团队先后挑战了新闻赛道的中英翻译、英中翻译、日英翻译、英日翻译和英德翻译任务,并相继夺冠。今年,微信翻译团队探索双人(多人)对话场景和垂直领域场景的翻译技术,参加了新赛道,即对话翻译和生物医学领域翻译,并获得了三项冠军。其中,在对话翻译赛道(联合校企合作团队--北京交通大学)中获得了英德翻译和德英翻译冠军,在生物医学领域翻译赛道中获得中英翻译冠军。



据介绍,WMT 2022 的对话翻译赛道融合了自然语言对话和机器翻译两大任务,旨在让不同母语的两人或多人进行无障碍地对话沟通,最终模型需要考虑两个人的对话内容、风格,保障信息交流更加顺畅和准确。华为、腾讯、知名 AI 翻译平台 Unbabel、印度电子商务公司(IITP-Flipkart)、海外研究机构 Naver Labs、爱丁堡大学在内的等众多顶尖团队角逐于该赛道。

 

生物医学领域翻译赛道旨在评估翻译系统在生物医学领域文件的翻译效果。这种垂直跨领域翻译相较于微信翻译此前涉及的歌词翻译、字幕翻译等日常场景更为复杂,训练数据少、术语翻译多等难点更需要专业领域的数据进行训练。该赛道也吸引了包括华为、腾讯、NVIDIA、巴塞罗那超级计算中心、剑桥大学等来自全球的企业、科研机构和高校所组成的顶尖团队参与此赛道的研究。

 

在本次 WMT 2022 的对话翻译和生物医学领域翻译任务的竞赛中,微信翻译团队采用了性能与多样性俱佳的 Mix-AAN Transformers 架构,并在训练数据增强、训练优化、模型集成方面也探索并验证了多项技术,实现了优异的翻译效果,并最终获得冠军。


 

具体而言,在数据增强方面,微信翻译团队通过前向翻译、迭代回译、知识蒸馏来生产高质量的伪数据,并在源端加入不同粒度的人工噪声以及采用动态 Top-p 采样来提高伪数据的多样性。同时,在训练优化中加入目标端抗噪训练、Speaker-aware 模型训练、基于 Prompt 的对话历史建模、基于梯度调度的多任务训练等多种训练方式提升翻译效率和精度。模型集成方面,微信翻译团队基于 WMT 2020 和 WMT 2021 的竞赛经验,利用 Self-BLEU 去衡量模型间的多样性,有效地改进了集成搜索算法的效率,并针对任务特定的评估指标进行了适配。


2022-11-15 12:173808
用户头像
刘燕 InfoQ高级技术编辑

发布了 1123 篇内容, 共 608.3 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

比 Xshell 还好用的 SSH 客户端,MobaXterm 太酷了!

源字节1号

小程序 开源 后端

1688代采集运系统搭建:实现订单处理自动化

tbapi

1688代采系统 1688代采 逆向海淘系统 逆向海淘

客户在哪儿AI——做真正管用的大客户获客方案

客户在哪儿AI

ToB营销 活动营销 大客户营销

LLM 应用可观测性:从 Trace 视角展开的探索与实践之旅

阿里巴巴云原生

阿里云 云原生 可观测

爱回收平台API:关键词搜索商品列表数据接口|爱回收平台数据采集

tbapi

爱回收 爱回收API 爱回收商品数据接口 爱回收商品列表数据接口 爱回收商品列表数据采集

记录一次Linux服务器被人使用SSH字典爆破

我再BUG界嘎嘎乱杀

Linux 网络安全 SSH 字典爆破

(已封装)电商API解析指南:深入理解店铺商品搜索结果

代码忍者

API Explorer API 编排 api 货币化 API 接口

演播室如何合理使用LED显示屏

Dylan

技术 活动 综艺节目 LED display LED显示屏

初阶技能:Android 应用异常如何丰富线索

iofomo

android 移动端 开发技能

Oracle JDK 8无缝更换为 Amazon Corretto 8

源字节1号

小程序 开源 后端

PIRF-405

Echo!!!

English

全网热议!GitHub发布的最简单的黑客入门教程,你值得拥有!

我再BUG界嘎嘎乱杀

黑客 网络安全 安全 网安

2024-07-27:用go语言,给定一个正整数数组,最开始可以对数组中的元素进行增加操作,每个元素最多加1。 然后从修改后的数组中选出一个或多个元素,使得这些元素排序后是连续的。 要求找出最多可以选

福大大架构师每日一题

福大大架构师每日一题

供配电学习笔记 day6

万里无云万里天

电力 工厂运维

硅纪元视角 | 摩根大通拥抱AI:LLM Suite开启金融行业新篇章!

硅纪元

图解自定义 Dialog 对话框

chasel

什么是 CSRF?如何防止 CSRF 攻击?

我再BUG界嘎嘎乱杀

网络安全 安全 CSRF WEB安全 漏洞

基于RAG构建专业可信营销垂域大模型

东信营销科技

AI大模型 多模态大模型 检索增强技术RAG

Spring高手之路21——深入剖析Spring AOP代理对象的创建

砖业洋__

Java spring aop

供配电学习笔记 day5

万里无云万里天

电力 工厂运维

ETH现货ETF流入量估算:会重演BTC现货ETF走势吗?

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 公链开发 公链钱包开发

《Programming from the Ground Up》阅读笔记:p88-p94

codists

assembly 编程人

WMT 2022国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军_AI&大模型_刘燕_InfoQ精选文章