阿里云飞天发布时刻,领先大模型限免,超7000万 tokens免费体验 了解详情
写点什么

WMT 2022 国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军

  • 2022-11-15
    北京
  • 本文字数:1061 字

    阅读完需:约 3 分钟

WMT 2022国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军

InfoQ 获悉,近日,WMT 2022 国际机器翻译大赛的榜单停止提交结果并发布排名。其中,微信翻译团队在对话翻译和生物医学领域翻译领域共获得三项冠军,分别是对话翻译比赛的英德和德英翻译冠军,以及生物医学领域翻译比赛中的中英翻译冠军。

 

WMT(Workshop on Machine Translation)由国际计算语言学协会 (ACL) 举办,是全球学术界公认的国际顶级机器翻译比赛之一。自 2006 年创办至今,WMT 已经成功举办 17 届。

 

在往届的 WMT 2020 和 WMT 2021,微信翻译团队先后挑战了新闻赛道的中英翻译、英中翻译、日英翻译、英日翻译和英德翻译任务,并相继夺冠。今年,微信翻译团队探索双人(多人)对话场景和垂直领域场景的翻译技术,参加了新赛道,即对话翻译和生物医学领域翻译,并获得了三项冠军。其中,在对话翻译赛道(联合校企合作团队--北京交通大学)中获得了英德翻译和德英翻译冠军,在生物医学领域翻译赛道中获得中英翻译冠军。



据介绍,WMT 2022 的对话翻译赛道融合了自然语言对话和机器翻译两大任务,旨在让不同母语的两人或多人进行无障碍地对话沟通,最终模型需要考虑两个人的对话内容、风格,保障信息交流更加顺畅和准确。华为、腾讯、知名 AI 翻译平台 Unbabel、印度电子商务公司(IITP-Flipkart)、海外研究机构 Naver Labs、爱丁堡大学在内的等众多顶尖团队角逐于该赛道。

 

生物医学领域翻译赛道旨在评估翻译系统在生物医学领域文件的翻译效果。这种垂直跨领域翻译相较于微信翻译此前涉及的歌词翻译、字幕翻译等日常场景更为复杂,训练数据少、术语翻译多等难点更需要专业领域的数据进行训练。该赛道也吸引了包括华为、腾讯、NVIDIA、巴塞罗那超级计算中心、剑桥大学等来自全球的企业、科研机构和高校所组成的顶尖团队参与此赛道的研究。

 

在本次 WMT 2022 的对话翻译和生物医学领域翻译任务的竞赛中,微信翻译团队采用了性能与多样性俱佳的 Mix-AAN Transformers 架构,并在训练数据增强、训练优化、模型集成方面也探索并验证了多项技术,实现了优异的翻译效果,并最终获得冠军。


 

具体而言,在数据增强方面,微信翻译团队通过前向翻译、迭代回译、知识蒸馏来生产高质量的伪数据,并在源端加入不同粒度的人工噪声以及采用动态 Top-p 采样来提高伪数据的多样性。同时,在训练优化中加入目标端抗噪训练、Speaker-aware 模型训练、基于 Prompt 的对话历史建模、基于梯度调度的多任务训练等多种训练方式提升翻译效率和精度。模型集成方面,微信翻译团队基于 WMT 2020 和 WMT 2021 的竞赛经验,利用 Self-BLEU 去衡量模型间的多样性,有效地改进了集成搜索算法的效率,并针对任务特定的评估指标进行了适配。


2022-11-15 12:173569
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 569.4 次阅读, 收获喜欢 1979 次。

关注

评论

发布
暂无评论
发现更多内容

直播APP的技术难点

北京木奇移动技术有限公司

直播app 直播APP开发 软件外包公司

日本房产中介龙头为何放弃 Salesforce,转向开源平台 NocoBase?

NocoBase

开源 CRM Salesforce 人力资源管理系统 日本房地产

Windows 11 23H2 中文版、英文版 (x64、ARM64) 下载 (2025 年 5 月更新)

sysin

windows 11

AI招聘APP的主要功能

北京木奇移动技术有限公司

AI应用 AI招聘 软件外包公司

Veeam ONE 13 之初见 - Web 控制台和 Veeam 监控的未来

sysin

veeam

Windows Server 2022 中文版、英文版下载 (2025 年 5 月更新)

sysin

Windows Server

Oracle Linux 9.6 正式版发布 - Oracle 提供支持 RHEL 兼容发行版

sysin

oracle

Windows Server 2025 中文版、英文版下载 (2025 年 5 月更新)

sysin

Windows Server

NocoBase 本周更新汇总:优化及缺陷修复

NocoBase

开源 低代码 零代码 无代码 版本更新

京东拍立淘图片搜索API接口指南

tbapi

京东API 京东图片搜索接口 京东拍立淘接口

动态判断:如何用"群体智慧"优化AI数据标注流程?

澳鹏Appen

动态判断 dynamic judgements

im即时通讯软件BeeWorks:流程审批助力企业高效管理

BeeWorks

即时通讯 IM 私有化部署

科学智能赋能空间科学研究(1):中国空间站空间科学实验的数据生态构建

ModelWhale

大模型 科学智能 AI4S 空间科学

怎么选择合适的高防IP

网络安全服务

CDN 服务器 宽带 高防IP DDoS 攻击

华为云云应用引擎CAE,重塑企业AI Agent最佳运行态

华为云开发者联盟

华为云

CST软件PCB热仿真2--直流热源(IR drop)+ 元件热源

思茂信息

cst CST软件 CST Studio Suite

纯前端实现图片伪3D视差效果

vivo互联网技术

前端 WebGL pixi.js

【干货】手把手教你把Trae改造成你的专属AI写作助手

田威AI

AI AI工具 AI工具推荐

Windows 11 24H2 中文版、英文版 (x64、ARM64) 下载 (2025 年 5 月更新)

sysin

windows 11

Cisco Nexus 9000v Switch, NX-OS Release 10.5(3)F | 10.4(5)M

sysin

nexus

二级域名怎么申请?二级域名申请费免费吗?

国科云

天翼云HBlock重磅发布快照克隆功能

科技热闻

工程级提示词攻防,注意这5点

阿星AI工作室

产品 AI 大模型 AI教程 提示词

618购机选什么?七彩虹带来全能王者iGame M15 Origo和旗舰强者iGame M16 Origo

E科讯

Veeam Backup & Replication 13 之初见 - 基于 Linux 和 Web 控制台

sysin

veeam

论文解读 - 统一的多模态理解和生成模型综述(上)

合合技术团队

人工智能 算法 #大数据

鸿蒙5开发宝藏案例分享---一多断点开发实践

莓创技术

【 HGDD 荣耀开发者日】系列活动丨荣耀应用市场联合维科网,推动应用分发“数智化”赋能

荣耀开发者服务平台

生态 荣耀开发者服务平台 应用市场 荣耀HONOR HGDD

天翼云,用息壤智能体打通AI“最后一公里”

脑极体

AI

Windows 10 on ARM, version 22H2 ARM64 中文版、英文版下载 (2025 年 5 月更新)

sysin

Windows 10

Windows 10 version 22H2 中文版、英文版下载 (2025 年 5 月更新)

sysin

Windows 10

WMT 2022国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军_AI&大模型_刘燕_InfoQ精选文章