2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

WMT 2022 国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军

  • 2022-11-15
    北京
  • 本文字数:1061 字

    阅读完需:约 3 分钟

WMT 2022国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军

InfoQ 获悉,近日,WMT 2022 国际机器翻译大赛的榜单停止提交结果并发布排名。其中,微信翻译团队在对话翻译和生物医学领域翻译领域共获得三项冠军,分别是对话翻译比赛的英德和德英翻译冠军,以及生物医学领域翻译比赛中的中英翻译冠军。

 

WMT(Workshop on Machine Translation)由国际计算语言学协会 (ACL) 举办,是全球学术界公认的国际顶级机器翻译比赛之一。自 2006 年创办至今,WMT 已经成功举办 17 届。

 

在往届的 WMT 2020 和 WMT 2021,微信翻译团队先后挑战了新闻赛道的中英翻译、英中翻译、日英翻译、英日翻译和英德翻译任务,并相继夺冠。今年,微信翻译团队探索双人(多人)对话场景和垂直领域场景的翻译技术,参加了新赛道,即对话翻译和生物医学领域翻译,并获得了三项冠军。其中,在对话翻译赛道(联合校企合作团队--北京交通大学)中获得了英德翻译和德英翻译冠军,在生物医学领域翻译赛道中获得中英翻译冠军。



据介绍,WMT 2022 的对话翻译赛道融合了自然语言对话和机器翻译两大任务,旨在让不同母语的两人或多人进行无障碍地对话沟通,最终模型需要考虑两个人的对话内容、风格,保障信息交流更加顺畅和准确。华为、腾讯、知名 AI 翻译平台 Unbabel、印度电子商务公司(IITP-Flipkart)、海外研究机构 Naver Labs、爱丁堡大学在内的等众多顶尖团队角逐于该赛道。

 

生物医学领域翻译赛道旨在评估翻译系统在生物医学领域文件的翻译效果。这种垂直跨领域翻译相较于微信翻译此前涉及的歌词翻译、字幕翻译等日常场景更为复杂,训练数据少、术语翻译多等难点更需要专业领域的数据进行训练。该赛道也吸引了包括华为、腾讯、NVIDIA、巴塞罗那超级计算中心、剑桥大学等来自全球的企业、科研机构和高校所组成的顶尖团队参与此赛道的研究。

 

在本次 WMT 2022 的对话翻译和生物医学领域翻译任务的竞赛中,微信翻译团队采用了性能与多样性俱佳的 Mix-AAN Transformers 架构,并在训练数据增强、训练优化、模型集成方面也探索并验证了多项技术,实现了优异的翻译效果,并最终获得冠军。


 

具体而言,在数据增强方面,微信翻译团队通过前向翻译、迭代回译、知识蒸馏来生产高质量的伪数据,并在源端加入不同粒度的人工噪声以及采用动态 Top-p 采样来提高伪数据的多样性。同时,在训练优化中加入目标端抗噪训练、Speaker-aware 模型训练、基于 Prompt 的对话历史建模、基于梯度调度的多任务训练等多种训练方式提升翻译效率和精度。模型集成方面,微信翻译团队基于 WMT 2020 和 WMT 2021 的竞赛经验,利用 Self-BLEU 去衡量模型间的多样性,有效地改进了集成搜索算法的效率,并针对任务特定的评估指标进行了适配。


2022-11-15 12:173728
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 598.8 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

拿下全球终端AI和AI Phone定义权,为什么是荣耀Magic8?

脑极体

AI

征程 6 | 工具链如何支持 Matmul/Conv 双 int16 输入量化?

地平线开发者

自动驾驶; 算法工具链 地平线征程6

YashanDB的高速缓存机制:提升响应速度的关键

数据库砖家

Claude 新发布的 Agent Skills 到底是啥?居然比 MCP 还厉害?

hepingfly【gzh:和平本记】

agent Claude

联想:筑牢智算网络“坚实底座”,开启AI算力“极速时代”

科技大数据

从 ClickHouse 到 StarRocks 存算分离: 携程 UBT 架构升级实践

StarRocks

Clickhouse 存算分离 StarRocks Compaction UBT 架构

吼吼科技:以工业互联网之力,点燃制造业智能化新引擎

极客天地

YashanDB的备份与恢复策略确保数据安全

数据库砖家

YashanDB的国际化策略及其对企业的影响

数据库砖家

YashanDB的负载均衡策略及其对业务的影响

数据库砖家

Claude Code 插件系统来了

Immerse

YashanDB的存储压缩技术及性能提升经验

数据库砖家

YashanDB的服务级别协议

数据库砖家

HarmonyOS6 应用升级经验分享

万少

HarmonyOS

YashanDB的负载均衡技术解析及应用

数据库砖家

YashanDB的核心架构:了解其设计理念

数据库砖家

YashanDB的存储引擎架构及优势

数据库砖家

YashanDB的多租户架构如何支持企业发展

数据库砖家

YashanDB的多租户架构优势解析

数据库砖家

终结机器人评测混战时代,RoboChallenge带来大规模真机测评基准

脑极体

AI

新版 perf 文件解读与性能分析

地平线开发者

自动驾驶; 算法工具链 地平线征程6

大数据-129 - Flink CEP详解:实时流式复杂事件处理(Complex Event Processing)全解析

武子康

Java 大数据 flink spark 分布式

YashanDB的API接口与开发者支持策略

数据库砖家

YashanDB的不同部署选项及选择指南

数据库砖家

【AI绘画】你有多久没有打开SD了?

卷福同学

AI绘画 Stable Diffusion SD

从课堂到产业:是什么让学生也能成为开源鸿蒙的共建者

最新动态

YashanDB的多维数据处理能力解析

数据库砖家

YashanDB的多云支持特性:企业数字化转型的助力

数据库砖家

实时调度36万真人医生,百度健康AI管家有医靠更可信

科技大数据

YashanDB的安全性评估及应对策略解析

数据库砖家

YashanDB的多功能性及其对行业的影响

数据库砖家

WMT 2022国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军_AI&大模型_刘燕_InfoQ精选文章