写点什么

WMT 2022 国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军

  • 2022-11-15
    北京
  • 本文字数:1061 字

    阅读完需:约 3 分钟

WMT 2022国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军

InfoQ 获悉,近日,WMT 2022 国际机器翻译大赛的榜单停止提交结果并发布排名。其中,微信翻译团队在对话翻译和生物医学领域翻译领域共获得三项冠军,分别是对话翻译比赛的英德和德英翻译冠军,以及生物医学领域翻译比赛中的中英翻译冠军。

 

WMT(Workshop on Machine Translation)由国际计算语言学协会 (ACL) 举办,是全球学术界公认的国际顶级机器翻译比赛之一。自 2006 年创办至今,WMT 已经成功举办 17 届。

 

在往届的 WMT 2020 和 WMT 2021,微信翻译团队先后挑战了新闻赛道的中英翻译、英中翻译、日英翻译、英日翻译和英德翻译任务,并相继夺冠。今年,微信翻译团队探索双人(多人)对话场景和垂直领域场景的翻译技术,参加了新赛道,即对话翻译和生物医学领域翻译,并获得了三项冠军。其中,在对话翻译赛道(联合校企合作团队--北京交通大学)中获得了英德翻译和德英翻译冠军,在生物医学领域翻译赛道中获得中英翻译冠军。



据介绍,WMT 2022 的对话翻译赛道融合了自然语言对话和机器翻译两大任务,旨在让不同母语的两人或多人进行无障碍地对话沟通,最终模型需要考虑两个人的对话内容、风格,保障信息交流更加顺畅和准确。华为、腾讯、知名 AI 翻译平台 Unbabel、印度电子商务公司(IITP-Flipkart)、海外研究机构 Naver Labs、爱丁堡大学在内的等众多顶尖团队角逐于该赛道。

 

生物医学领域翻译赛道旨在评估翻译系统在生物医学领域文件的翻译效果。这种垂直跨领域翻译相较于微信翻译此前涉及的歌词翻译、字幕翻译等日常场景更为复杂,训练数据少、术语翻译多等难点更需要专业领域的数据进行训练。该赛道也吸引了包括华为、腾讯、NVIDIA、巴塞罗那超级计算中心、剑桥大学等来自全球的企业、科研机构和高校所组成的顶尖团队参与此赛道的研究。

 

在本次 WMT 2022 的对话翻译和生物医学领域翻译任务的竞赛中,微信翻译团队采用了性能与多样性俱佳的 Mix-AAN Transformers 架构,并在训练数据增强、训练优化、模型集成方面也探索并验证了多项技术,实现了优异的翻译效果,并最终获得冠军。


 

具体而言,在数据增强方面,微信翻译团队通过前向翻译、迭代回译、知识蒸馏来生产高质量的伪数据,并在源端加入不同粒度的人工噪声以及采用动态 Top-p 采样来提高伪数据的多样性。同时,在训练优化中加入目标端抗噪训练、Speaker-aware 模型训练、基于 Prompt 的对话历史建模、基于梯度调度的多任务训练等多种训练方式提升翻译效率和精度。模型集成方面,微信翻译团队基于 WMT 2020 和 WMT 2021 的竞赛经验,利用 Self-BLEU 去衡量模型间的多样性,有效地改进了集成搜索算法的效率,并针对任务特定的评估指标进行了适配。


2022-11-15 12:173769
用户头像
刘燕 InfoQ高级技术编辑

发布了 1123 篇内容, 共 604.6 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

Databend 源码阅读: Meta-service 数据结构

Databend

IPQ6010 vs. IPQ4019: The battle of Qualcomm chips and WIFI 6 vs WIFI 5

wallysSK

LLAMA预训练:大模型的潜力与挑战

百度开发者中心

人工智能 深度学习 大模型

名企私教服务加盟全栈开发与自动化测试班,成就你的技术梦想

霍格沃兹测试开发学社

玩转Spring状态机 | 京东云技术团队

京东科技开发者

spring 设计模式 状态机 状态模式 spring状态机

IPQ8072A and IPQ8074A processors: performance comparison and innovation diff

wallysSK

硬件 嵌入式 IPQ8074A wifi solution IPQ8072A

【最佳实践】京东小程序-LBS业务场景的性能提升 | 京东云技术团队

京东科技开发者

小程序 性能优化 前端 LBS

淘宝商品评论数据接口(Taobao.item_review)

tbapi

淘宝API接口 淘宝商品评论接口 天猫商品评论接口 淘宝评论内容接口 天猫评论内容接口

软件测试/测试开发|测试开发线下高薪私教班助力你的职场晋升

霍格沃兹测试开发学社

从西工大安全事件浅谈特权账号管理系统

尚思卓越

数据库 网络安全

怀念一代传奇,陈皓与他的《左耳听风:传奇程序员练级攻略》

博文视点Broadview

喜讯!云起无垠斩获“东升杯”国际创业大赛“优秀奖”

云起无垠

实时湖仓技术选型,企业如何借实时湖仓赢在“数据驱动”时代

袋鼠云数栈

大数据 数据湖 湖仓一体 实时湖仓

未来LED小间距显示屏竞争的焦点在哪里

Dylan

中国 产业‘’ LED LED显示屏 市场

如何优化 RAG 系统的性能表现?10 条实用策略

Baihai IDP

深度学习 程序员 AI 白海科技 rag

2023 年中国金融级分布式数据库市场报告:TiDB 位列领导者梯队,创新能力与增长指数表现突出

编程猫

一键生成PPT!让AI成为您的最佳帮手!

飞桨PaddlePaddle

人工智能 深度学习 PPT

ApeCoin DAO猿岛质押游戏系统开发:APE开岛屿-质押藏宝箱获得代币

l8l259l3365

百度搜索创新大赛,一场2800人的技术狂欢

百度Geek说

人工智能 企业号12月PK榜 百度搜索技术大赛

In-depth comparison of QCN9074, QCN9024 and QCN9274 Qualcomm Wi-Fi chip families

wallysSK

WMT 2022国际机器翻译大赛发榜,微信翻译获对话翻译和生物医学领域翻译共三项冠军_AI&大模型_刘燕_InfoQ精选文章