写点什么

WMT 2022 国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军

  • 2022-11-15
    北京
  • 本文字数:1061 字

    阅读完需:约 3 分钟

WMT 2022国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军

InfoQ 获悉,近日,WMT 2022 国际机器翻译大赛的榜单停止提交结果并发布排名。其中,微信翻译团队在对话翻译和生物医学领域翻译领域共获得三项冠军,分别是对话翻译比赛的英德和德英翻译冠军,以及生物医学领域翻译比赛中的中英翻译冠军。

 

WMT(Workshop on Machine Translation)由国际计算语言学协会 (ACL) 举办,是全球学术界公认的国际顶级机器翻译比赛之一。自 2006 年创办至今,WMT 已经成功举办 17 届。

 

在往届的 WMT 2020 和 WMT 2021,微信翻译团队先后挑战了新闻赛道的中英翻译、英中翻译、日英翻译、英日翻译和英德翻译任务,并相继夺冠。今年,微信翻译团队探索双人(多人)对话场景和垂直领域场景的翻译技术,参加了新赛道,即对话翻译和生物医学领域翻译,并获得了三项冠军。其中,在对话翻译赛道(联合校企合作团队--北京交通大学)中获得了英德翻译和德英翻译冠军,在生物医学领域翻译赛道中获得中英翻译冠军。



据介绍,WMT 2022 的对话翻译赛道融合了自然语言对话和机器翻译两大任务,旨在让不同母语的两人或多人进行无障碍地对话沟通,最终模型需要考虑两个人的对话内容、风格,保障信息交流更加顺畅和准确。华为、腾讯、知名 AI 翻译平台 Unbabel、印度电子商务公司(IITP-Flipkart)、海外研究机构 Naver Labs、爱丁堡大学在内的等众多顶尖团队角逐于该赛道。

 

生物医学领域翻译赛道旨在评估翻译系统在生物医学领域文件的翻译效果。这种垂直跨领域翻译相较于微信翻译此前涉及的歌词翻译、字幕翻译等日常场景更为复杂,训练数据少、术语翻译多等难点更需要专业领域的数据进行训练。该赛道也吸引了包括华为、腾讯、NVIDIA、巴塞罗那超级计算中心、剑桥大学等来自全球的企业、科研机构和高校所组成的顶尖团队参与此赛道的研究。

 

在本次 WMT 2022 的对话翻译和生物医学领域翻译任务的竞赛中,微信翻译团队采用了性能与多样性俱佳的 Mix-AAN Transformers 架构,并在训练数据增强、训练优化、模型集成方面也探索并验证了多项技术,实现了优异的翻译效果,并最终获得冠军。


 

具体而言,在数据增强方面,微信翻译团队通过前向翻译、迭代回译、知识蒸馏来生产高质量的伪数据,并在源端加入不同粒度的人工噪声以及采用动态 Top-p 采样来提高伪数据的多样性。同时,在训练优化中加入目标端抗噪训练、Speaker-aware 模型训练、基于 Prompt 的对话历史建模、基于梯度调度的多任务训练等多种训练方式提升翻译效率和精度。模型集成方面,微信翻译团队基于 WMT 2020 和 WMT 2021 的竞赛经验,利用 Self-BLEU 去衡量模型间的多样性,有效地改进了集成搜索算法的效率,并针对任务特定的评估指标进行了适配。


2022-11-15 12:173558
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 567.6 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

openLooKeng助力中移在线获“ICT优秀案例”

LooK

【笔记】学《郭东白的架构课》:访谈|对话于冰(中)

术子米德

架构师成长笔记

建木持续集成平台v2.2.1发布

Jianmu

DevOps 持续集成 CI/CD

(1-24/24)awesome「结构」

mtfelix

300天创作 2022Y300P

第六节:SpingBoot基本配置一

入门小站

springboot java

openLooKeng基于选择率的动态过滤优化

LooK

大数据

openLooKeng | Oracle update和delete支持简介及实现

LooK

Spark合并Iceberg小文件内存溢出问题定位和解决方案

漫长的白日梦

spark iceberg 小文件

【笔记】学《郭东白的架构课》:访谈|对话于冰(下)

术子米德

架构师成长笔记

快递,菜鸟驿站,直播购物:老年人的电商之墙

脑极体

在线时间戳计算时间差

入门小站

工具

左手2021, 右手2022 | 社区征文

soolaugust

技术 云原生 新春征文

Microchip宣布标准非混合型宇航级电源转换器系列 已新增28伏输入耐辐射选项

极客天地

Microchip发布具有强大编程和调试功能的新型在线仿真器(ICE)

极客天地

如何系统分析项目的干系人?

石云升

项目管理 1月月更

并发不是并行

en

再见,Microsoft Academic——你好,开放式研究基础设施?

吴脑的键客

搜索引擎

【笔记】学《郭东白的架构课》:访谈|对话于冰(上)

术子米德

架构师成长笔记

模块六作业

黄秀明

「架构实战营」

ReactNative进阶(四十):应用 ListView 实现分组列表

No Silver Bullet

ListView React Native 1月月更

开源机器学习数据库OpenMLDB v0.4.0产品介绍

第四范式开发者社区

人工智能 机器学习 大数据 OpenMLDB

模块六

撿破爛ぃ

架构训练营

虎虎生威新春大吉,2月更文挑战来袭!

InfoQ写作社区官方

2月月更 热门活动

Hoo虎符研究院 | 币圈后浪 BreederDAO区块链游戏的NFT工厂

区块链前沿News

虎符 Hoo 虎符交易所

openLooKeng算子接口和执行流程

LooK

建一座国际连锁「商场」:openEuler 的雄心与蓝图 | 开源访谈《源创者说》首播

科技热闻

双龙贺岁,龙蜥 LoongArch GA 版正式发布

OpenAnolis小助手

Linux 开源 新年

电商系统微服务化

皓月

「架构实战营」

云智慧智能研究院:2022年智能运维发展八大趋势

云智慧AIOps社区

趋势 AIOPS 智能运维 云智慧 运维发展

基于OpenMLDB v0.4.0快速搭建全流程线上AI应用

第四范式开发者社区

人工智能 机器学习 OpenMLDB 特征平台

虎年就要玩虎符 春节就要瓜分虎符虎年大礼包

区块链前沿News

Hoo虎符 Hoo 虎年 春节活动

WMT 2022国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军_AI&大模型_刘燕_InfoQ精选文章