你在使用哪种编程语言?快来投票,亲手选出你心目中的编程语言之王 了解详情
写点什么

减少谷歌翻译中性别偏见的可扩展方法

2020 年 4 月 30 日

减少谷歌翻译中性别偏见的可扩展方法

本文最初发布于谷歌 AI 博客, InfoQ 中文站经授权翻译并分享。


用于语言翻译的机器学习(ML)模型可能会因为模型训练数据中潜藏的社会偏见而生成同样带有倾向的结果。性别偏见就是一个典型的例子,主要体现在性别特定(语言中有他/她这样区分性别的语素)语言和非性别特定语言之间的翻译结果上。例如,谷歌翻译曾将土耳其语中的“他/她是医生”都翻译成了"他是医生",而将土耳其语中的“他/她是护士”都翻译成了"她是护士"。


谷歌的AI原则强调了 AI 技术应当避免产生或加强不公平的偏见。根据这一原则,谷歌于 2018 年 12 月发布了性别特定的翻译功能。当翻译源语言是性别中立的表述时,这项功能会分别输出女性与男性化的翻译结果。


针对这项工作谷歌开发了一个三步方法,具体分为检测出性别中立的查询内容,生成针对特定性别的翻译,并检查准确度这几个步骤。随后谷歌使用这种方法,在土耳其语到英语的短语和句子翻译中启用了性别特定的翻译功能;如今,谷歌将这种方法扩展到了英语到西班牙语的翻译上,这也是谷歌翻译应用中最受欢迎的语言对。



左:将性别中立的英语短语翻译成性别特定的西班牙语对应词,早期示例。在这个例子中,软件只给出了一个带偏见的结果。右:新的翻译功能提供了女性化和男性化两种翻译结果


但在这种方法被应用于更多语言的过程中,谷歌发现它存在着很明显的扩展问题。具体来说,使用神经机器翻译(NMT)系统独立生成男性化和女性化的翻译结果时会导致很低的召回率,在多至 40%的有效查询上无法显示性别特定的翻译结果,因为这两种翻译结果一般是不完全相同的,除非内容是与性别相关的事物。此外,为了检测每种源语言中的性别中立内容需要构建一个分类器,而这是需要大量数据的。


如今,谷歌在发布新的英语到西班牙语的性别特定翻译功能时还宣布了一种改进的方法,这种方法使用了全新的范式,通过重写或后期编辑初始的翻译结果来解决性别偏见问题。这种方法的可扩展能力更强,尤其在从性别中立语言翻译成英语时表现更出色,因为它不需要性别中立检测器。


有了这种方法后,谷歌将性别特定的翻译功能扩展到了芬兰语、匈牙利语和波斯语到英语的三个语言对上。谷歌还使用了这一全新的基于重写的方法替换了以前的土耳其语到英语的翻译机制。


基于重写的性别特定翻译

基于重写的方法的第一步是生成初始翻译。然后系统会审核翻译结果,找出是否有性别中立的源语言短语生成性别特定翻译结果的实例。如果存在,系统将使用一个句子级重写器来生成另一个性别特定翻译结果。最后,初始翻译和重写翻译都会经过审查,以确保它们之间唯一的区别就是性别。



上:原始方法。下:基于重写的新方法。


重写器

构建一个重写器需要生成由数百万个成对短语组成的训练示例集,其中每对短语都包含一个男性化和一个女性化的翻译结果。由于这类数据很难获取,因此谷歌为这个目的生成了一个新的数据集。首先谷歌做了一个庞大的单语数据集,然后以编程方式生成了候选的重写结果,方法是将性别代词从男性转换为女性,反之亦然。由于一个翻译结果可以有多个有效候选者,具体则取决于上下文(例如,女性代词“她”可以映射到“他”或“他的”,而男性代词“他”可以映射到“她”或“她的”)——所以需要一种机制来选出正确的候选结果。要解决这个问题,可以使用语法解析器语言模型。因为语法解析模型需要使用针对每种语言的带标签数据集进行训练,所以它的可扩展性小于语言模型(后者能够以无监督的方式学习)。因此,谷歌使用了经过数百万个英语句子训练的内部语言模型来选出最佳候选结果。



上表展示了具体的数据生成过程。首先分析输入内容,然后生成候选结果,最后使用语言模型选出合适的结果


上述数据生成流程会将训练数据从男性化的输入转换为女性化的输出,反之亦然。然后谷歌合并了两种输出数据,并在其上训练了一个单层的的基于transformer的序列到序列模型。谷歌在训练数据中引入了标点符号和大小写变体,以提高模型的鲁棒性。最终模型可以可靠地在 99%的时间内生成所需的男性化或女性化重写结果。


评 估

谷歌还设计了一种新的评估方法,称为"偏见减少",用于衡量新的翻译系统与现有系统之间的相对偏见减少水平。这里,“偏见”的定义是在源语言未指定性别的情况下做出性别选择。例如,如果当前系统有 90%的时间出现偏见,而新系统有 45%的时间出现偏见,那么计算出的相对偏见减少水平就是 50%。基于这个度量标准,新方法可将匈牙利语、芬兰语和波斯语到英语的翻译偏见减少≥90%。与现有的土耳其语到英语系统相比,新方法将偏见减少水平从 60%提高到了 95%。谷歌的系统在触发性别特定的翻译结果时,平均精度为 97%(也就是说,当应用决定显示性别特定的翻译结果时,有 97%的时间是正确的)。



自最初发布以来,谷歌已经在这一领域取得了重大进展,不仅提高了性别特定的翻译质量,还将其扩展到了另外 4 种语言对上。谷歌还在努力,试图进一步解决谷歌翻译应用中的性别偏见,并计划将这项工作扩展到文档级翻译上。


原文链接:https://ai.googleblog.com/2020/04/a-scalable-approach-to-reducing-gender.html


2020 年 4 月 30 日 07:001003
用户头像
刘燕 InfoQ记者

发布了 636 篇内容, 共 199.8 次阅读, 收获喜欢 1225 次。

关注

评论

发布
暂无评论
发现更多内容

人生算法:找到可复制的最小内核

石云升

读书笔记 5月日更 人生算法

禁欲28天!一宅男居然肝出如此详细Web安全学习笔记,学妹看完直接抽搐了!(第二弹)

Machine Gun

Java Python 网络安全 Web linux运维

MPP大规模并行处理架构详解

五分钟学大数据

大数据 MPP 5月日更

膜拜!阿里技术团队倾力打造2021最新大厂面试参考指南,提前布局规划,助你进大厂拿高薪!

程序员小毕

Java 程序员 架构 面试 分布式

获5项大奖,发布《云计算开放应用架构标准》,阿里云持续领航云原生

阿里巴巴中间件

云计算 最佳实践 云原生 案例 白皮书

盘点golang中的开发神器

捉虫大师

golang

智能IP先锋:从园区网络智能变革,到数字化转型新突破

脑极体

太顶了,阿里P8大牛分享的这份Java10W字面试复盘笔记,保证让你和面试官对答如流

神奇小汤圆

Java 程序员 架构 面试

TcaplusDB :承诺戒烟,从你我做起!

TcaplusDB

数据库 nosql 后端 TcaplusDB

🔎【Java 源码探索】深入浅出的分析ThreadLocal

李浩宇/Alex

Java 多线程 ThreadLocal 5月日更 ThreadLocalMap

python脚本编写——自动剪切移动文件夹

是鱼头啊啊啊

AI年中钜惠来袭—全场低至6折 企业新客1元优享福利翻倍

百度大脑

福利 Iphone12

列举出常见的Java面试题,我靠这个在春招拿到了阿里的offer

???

Java 面试 Java面试手册 Java面经 java真题分享

100W点击 10w人获取,阿里Java高级面试题及答案 到底有多强

???

Java 面试 java面试 java真题分享

云原生加速落地,金融行业应用上云来打样儿

BoCloud博云

云原生

域前置,水太深,偷学六娃来隐身

Machine Gun

Java Python 网络安全 信息安全

发展农村数字普惠金融的问题及对策分析

CECBC区块链专委会

使用Docker运行DataX定时全量备份关键数据表

白粥

DataX 数据表备份

【得物技术】得物App分发平台的探索建设历程

得物技术

效率 平台 实践 心路历程 迭代

5分钟速读之Rust权威指南(十二)

码生笔谈

rust

拼搏24天吃透了阿里大神的高并发系统设计实录,拿到了月薪28K的offer

神奇小汤圆

Java 程序员 架构 面试

ipfs矿机有哪些品牌?做ipfs挖矿的公司有哪些?

投资矿机v:IPFS1234

ipfs矿机有哪些品牌 做ipfs挖矿的公司有哪些

脉脉3小时转发65w次!这份Java面试宝典发生了什么?

Java架构师迁哥

OKR 八问 —— 关于 OKR 的常见问题与思考

CODING DevOps

团队管理 OKR CODING DevOps

TcaplusDB君 · 行业新闻汇编(5月25日)

TcaplusDB

数据库 nosql 分布式 后端 TcaplusDB

fil大跌对矿工有什么影响?fil币可以长期持有吗?

v:IPFS456

fil大跌对矿工有什么影响 fil币可以长期持有吗?

极光开发者周刊【No.0528】

极光开发者

程序员 开发者 开发者工具

全国首创“区块链+信用”平台即将上线

CECBC区块链专委会

重磅!阿里p7大佬首次分享Spring Retry不为人知的技巧,我粉了

java专业爱好者

Java spring

限时免费!GitHub标星78.9K的算法宝典,更有“左神”精讲视频加持,面试字节毫无压力

互联网架构师小马

Java 程序员 面试 算法

区块链与数字化转型的关系

CECBC区块链专委会

技术为帆,纵横四海- Lazada技术东南亚探索和成长之旅

技术为帆,纵横四海- Lazada技术东南亚探索和成长之旅

减少谷歌翻译中性别偏见的可扩展方法-InfoQ