NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

减少谷歌翻译中性别偏见的可扩展方法

  • 2020-04-30
  • 本文字数:2055 字

    阅读完需:约 7 分钟

减少谷歌翻译中性别偏见的可扩展方法

本文最初发布于谷歌 AI 博客, InfoQ 中文站经授权翻译并分享。


用于语言翻译的机器学习(ML)模型可能会因为模型训练数据中潜藏的社会偏见而生成同样带有倾向的结果。性别偏见就是一个典型的例子,主要体现在性别特定(语言中有他/她这样区分性别的语素)语言和非性别特定语言之间的翻译结果上。例如,谷歌翻译曾将土耳其语中的“他/她是医生”都翻译成了"他是医生",而将土耳其语中的“他/她是护士”都翻译成了"她是护士"。


谷歌的AI原则强调了 AI 技术应当避免产生或加强不公平的偏见。根据这一原则,谷歌于 2018 年 12 月发布了性别特定的翻译功能。当翻译源语言是性别中立的表述时,这项功能会分别输出女性与男性化的翻译结果。


针对这项工作谷歌开发了一个三步方法,具体分为检测出性别中立的查询内容,生成针对特定性别的翻译,并检查准确度这几个步骤。随后谷歌使用这种方法,在土耳其语到英语的短语和句子翻译中启用了性别特定的翻译功能;如今,谷歌将这种方法扩展到了英语到西班牙语的翻译上,这也是谷歌翻译应用中最受欢迎的语言对。



左:将性别中立的英语短语翻译成性别特定的西班牙语对应词,早期示例。在这个例子中,软件只给出了一个带偏见的结果。右:新的翻译功能提供了女性化和男性化两种翻译结果


但在这种方法被应用于更多语言的过程中,谷歌发现它存在着很明显的扩展问题。具体来说,使用神经机器翻译(NMT)系统独立生成男性化和女性化的翻译结果时会导致很低的召回率,在多至 40%的有效查询上无法显示性别特定的翻译结果,因为这两种翻译结果一般是不完全相同的,除非内容是与性别相关的事物。此外,为了检测每种源语言中的性别中立内容需要构建一个分类器,而这是需要大量数据的。


如今,谷歌在发布新的英语到西班牙语的性别特定翻译功能时还宣布了一种改进的方法,这种方法使用了全新的范式,通过重写或后期编辑初始的翻译结果来解决性别偏见问题。这种方法的可扩展能力更强,尤其在从性别中立语言翻译成英语时表现更出色,因为它不需要性别中立检测器。


有了这种方法后,谷歌将性别特定的翻译功能扩展到了芬兰语、匈牙利语和波斯语到英语的三个语言对上。谷歌还使用了这一全新的基于重写的方法替换了以前的土耳其语到英语的翻译机制。

基于重写的性别特定翻译

基于重写的方法的第一步是生成初始翻译。然后系统会审核翻译结果,找出是否有性别中立的源语言短语生成性别特定翻译结果的实例。如果存在,系统将使用一个句子级重写器来生成另一个性别特定翻译结果。最后,初始翻译和重写翻译都会经过审查,以确保它们之间唯一的区别就是性别。



上:原始方法。下:基于重写的新方法。

重写器

构建一个重写器需要生成由数百万个成对短语组成的训练示例集,其中每对短语都包含一个男性化和一个女性化的翻译结果。由于这类数据很难获取,因此谷歌为这个目的生成了一个新的数据集。首先谷歌做了一个庞大的单语数据集,然后以编程方式生成了候选的重写结果,方法是将性别代词从男性转换为女性,反之亦然。由于一个翻译结果可以有多个有效候选者,具体则取决于上下文(例如,女性代词“她”可以映射到“他”或“他的”,而男性代词“他”可以映射到“她”或“她的”)——所以需要一种机制来选出正确的候选结果。要解决这个问题,可以使用语法解析器语言模型。因为语法解析模型需要使用针对每种语言的带标签数据集进行训练,所以它的可扩展性小于语言模型(后者能够以无监督的方式学习)。因此,谷歌使用了经过数百万个英语句子训练的内部语言模型来选出最佳候选结果。



上表展示了具体的数据生成过程。首先分析输入内容,然后生成候选结果,最后使用语言模型选出合适的结果


上述数据生成流程会将训练数据从男性化的输入转换为女性化的输出,反之亦然。然后谷歌合并了两种输出数据,并在其上训练了一个单层的的基于transformer的序列到序列模型。谷歌在训练数据中引入了标点符号和大小写变体,以提高模型的鲁棒性。最终模型可以可靠地在 99%的时间内生成所需的男性化或女性化重写结果。

评 估

谷歌还设计了一种新的评估方法,称为"偏见减少",用于衡量新的翻译系统与现有系统之间的相对偏见减少水平。这里,“偏见”的定义是在源语言未指定性别的情况下做出性别选择。例如,如果当前系统有 90%的时间出现偏见,而新系统有 45%的时间出现偏见,那么计算出的相对偏见减少水平就是 50%。基于这个度量标准,新方法可将匈牙利语、芬兰语和波斯语到英语的翻译偏见减少≥90%。与现有的土耳其语到英语系统相比,新方法将偏见减少水平从 60%提高到了 95%。谷歌的系统在触发性别特定的翻译结果时,平均精度为 97%(也就是说,当应用决定显示性别特定的翻译结果时,有 97%的时间是正确的)。



自最初发布以来,谷歌已经在这一领域取得了重大进展,不仅提高了性别特定的翻译质量,还将其扩展到了另外 4 种语言对上。谷歌还在努力,试图进一步解决谷歌翻译应用中的性别偏见,并计划将这项工作扩展到文档级翻译上。


原文链接:https://ai.googleblog.com/2020/04/a-scalable-approach-to-reducing-gender.html


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-04-30 07:001765
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 494.3 次阅读, 收获喜欢 1967 次。

关注

评论

发布
暂无评论
发现更多内容

从0到1:校园生活圈小程序开发笔记(一)

CC同学

适应多样化需求:WASM 插件在全链路灰度发布中的应用

阿里巴巴云原生

阿里云 微服务 云原生

JavaScript中exec()方法详解

百度搜索:蓝易云

JavaScript Linux 运维 hashmap 云服务器

vue项目中package.json的个人见解

百度搜索:蓝易云

Linux 运维 Vue 云服务器 package.json

如何选择性价比高的国外云主机服务?

一只扑棱蛾子

云主机 国外云主机

在 nginx 中使用 JavaScript

这我可不懂

苹果头显产品年内中国上市;「美版贴吧」Reddit 苦熬 19 年终上市丨 RTE 开发者日报 Vol.170

声网

关于 ASP.NET Core 内置的依赖注入

雄鹿 @

ASP.NET Core

uniapp的u-album组件自定义删除功能

百度搜索:蓝易云

uni-app 云计算 Linux 运维 云服务器

《自动机理论、语言和计算导论》阅读笔记:p28-p48

codists

分布式数据库技术的演进和发展方向

华为云开发者联盟

数据库 分布式数据库 后端 华为云 华为云开发者联盟

怎么制作iOS证书

雪奈椰子

Orangedx:引领新一轮 BTCFi 浪潮

股市老人

事业-最佳实践-编码-单一职责判断

南山

设计模式 设计原则 单一职责 类职责 方法职责

轻松搞定企业管理:这10个免费模板值得收藏!

彭宏豪95

企业管理 在线白板 企业管理软件 办公软件 效率软件

电源缓启动(软起动)原理

智趣匠

芯片 电源 热插拔

论低代码开与AI时代的适配性

不在线第一只蜗牛

人工智能 AI 低代码

数据分析:低代码平台助力大数据时代的飞跃发展

快乐非自愿限量之名

数据库 数据分析 低代码

使用Docker搭建MySQL数据库服务

霍格沃兹测试开发学社

node.js这些常用命令,你都会了吗?

霍格沃兹测试开发学社

Orangedx:引领新一轮 BTCFi 浪潮

股市老人

在 ASP.NET Core 中引入 Serilog 记录日志

雄鹿 @

ASP.NET Core

拓展 Amazon S3 技术边界: Amazon S3 Express One Zone 的创新之路

亚马逊云科技 (Amazon Web Services)

#人工智能

Docker搭建持续集成平台Jenkins最简教程

霍格沃兹测试开发学社

ConcurrentHashMap是如何保证线程安全的

百度搜索:蓝易云

Java Linux hashmap ConcurrentHashMap 云服务器

mysql超出最大连接数解决方法

百度搜索:蓝易云

MySQL 云计算 Linux 运维 云服务器

利用PSR,三步实现业务快速加载

鲸品堂

实践 运营商

8个 C++ 开源项目,帮初学者快速进阶

这我可不懂

“产研六力”模型:引领企业创新发展的新路径

凌晞

研发管理 产品管理 #研发

事业-最佳实践-编码-提升团队代码质量

南山

团队管理 代码质量 编码质量

XPath定位如何在App自动化测试中大显神威

霍格沃兹测试开发学社

减少谷歌翻译中性别偏见的可扩展方法_AI&大模型_谷歌AI_InfoQ精选文章