AICon日程100%就绪,9折倒计时最后一周 了解详情
写点什么

减少谷歌翻译中性别偏见的可扩展方法

  • 2020-04-30
  • 本文字数:2055 字

    阅读完需:约 7 分钟

减少谷歌翻译中性别偏见的可扩展方法

本文最初发布于谷歌 AI 博客, InfoQ 中文站经授权翻译并分享。


用于语言翻译的机器学习(ML)模型可能会因为模型训练数据中潜藏的社会偏见而生成同样带有倾向的结果。性别偏见就是一个典型的例子,主要体现在性别特定(语言中有他/她这样区分性别的语素)语言和非性别特定语言之间的翻译结果上。例如,谷歌翻译曾将土耳其语中的“他/她是医生”都翻译成了"他是医生",而将土耳其语中的“他/她是护士”都翻译成了"她是护士"。


谷歌的AI原则强调了 AI 技术应当避免产生或加强不公平的偏见。根据这一原则,谷歌于 2018 年 12 月发布了性别特定的翻译功能。当翻译源语言是性别中立的表述时,这项功能会分别输出女性与男性化的翻译结果。


针对这项工作谷歌开发了一个三步方法,具体分为检测出性别中立的查询内容,生成针对特定性别的翻译,并检查准确度这几个步骤。随后谷歌使用这种方法,在土耳其语到英语的短语和句子翻译中启用了性别特定的翻译功能;如今,谷歌将这种方法扩展到了英语到西班牙语的翻译上,这也是谷歌翻译应用中最受欢迎的语言对。



左:将性别中立的英语短语翻译成性别特定的西班牙语对应词,早期示例。在这个例子中,软件只给出了一个带偏见的结果。右:新的翻译功能提供了女性化和男性化两种翻译结果


但在这种方法被应用于更多语言的过程中,谷歌发现它存在着很明显的扩展问题。具体来说,使用神经机器翻译(NMT)系统独立生成男性化和女性化的翻译结果时会导致很低的召回率,在多至 40%的有效查询上无法显示性别特定的翻译结果,因为这两种翻译结果一般是不完全相同的,除非内容是与性别相关的事物。此外,为了检测每种源语言中的性别中立内容需要构建一个分类器,而这是需要大量数据的。


如今,谷歌在发布新的英语到西班牙语的性别特定翻译功能时还宣布了一种改进的方法,这种方法使用了全新的范式,通过重写或后期编辑初始的翻译结果来解决性别偏见问题。这种方法的可扩展能力更强,尤其在从性别中立语言翻译成英语时表现更出色,因为它不需要性别中立检测器。


有了这种方法后,谷歌将性别特定的翻译功能扩展到了芬兰语、匈牙利语和波斯语到英语的三个语言对上。谷歌还使用了这一全新的基于重写的方法替换了以前的土耳其语到英语的翻译机制。

基于重写的性别特定翻译

基于重写的方法的第一步是生成初始翻译。然后系统会审核翻译结果,找出是否有性别中立的源语言短语生成性别特定翻译结果的实例。如果存在,系统将使用一个句子级重写器来生成另一个性别特定翻译结果。最后,初始翻译和重写翻译都会经过审查,以确保它们之间唯一的区别就是性别。



上:原始方法。下:基于重写的新方法。

重写器

构建一个重写器需要生成由数百万个成对短语组成的训练示例集,其中每对短语都包含一个男性化和一个女性化的翻译结果。由于这类数据很难获取,因此谷歌为这个目的生成了一个新的数据集。首先谷歌做了一个庞大的单语数据集,然后以编程方式生成了候选的重写结果,方法是将性别代词从男性转换为女性,反之亦然。由于一个翻译结果可以有多个有效候选者,具体则取决于上下文(例如,女性代词“她”可以映射到“他”或“他的”,而男性代词“他”可以映射到“她”或“她的”)——所以需要一种机制来选出正确的候选结果。要解决这个问题,可以使用语法解析器语言模型。因为语法解析模型需要使用针对每种语言的带标签数据集进行训练,所以它的可扩展性小于语言模型(后者能够以无监督的方式学习)。因此,谷歌使用了经过数百万个英语句子训练的内部语言模型来选出最佳候选结果。



上表展示了具体的数据生成过程。首先分析输入内容,然后生成候选结果,最后使用语言模型选出合适的结果


上述数据生成流程会将训练数据从男性化的输入转换为女性化的输出,反之亦然。然后谷歌合并了两种输出数据,并在其上训练了一个单层的的基于transformer的序列到序列模型。谷歌在训练数据中引入了标点符号和大小写变体,以提高模型的鲁棒性。最终模型可以可靠地在 99%的时间内生成所需的男性化或女性化重写结果。

评 估

谷歌还设计了一种新的评估方法,称为"偏见减少",用于衡量新的翻译系统与现有系统之间的相对偏见减少水平。这里,“偏见”的定义是在源语言未指定性别的情况下做出性别选择。例如,如果当前系统有 90%的时间出现偏见,而新系统有 45%的时间出现偏见,那么计算出的相对偏见减少水平就是 50%。基于这个度量标准,新方法可将匈牙利语、芬兰语和波斯语到英语的翻译偏见减少≥90%。与现有的土耳其语到英语系统相比,新方法将偏见减少水平从 60%提高到了 95%。谷歌的系统在触发性别特定的翻译结果时,平均精度为 97%(也就是说,当应用决定显示性别特定的翻译结果时,有 97%的时间是正确的)。



自最初发布以来,谷歌已经在这一领域取得了重大进展,不仅提高了性别特定的翻译质量,还将其扩展到了另外 4 种语言对上。谷歌还在努力,试图进一步解决谷歌翻译应用中的性别偏见,并计划将这项工作扩展到文档级翻译上。


原文链接:https://ai.googleblog.com/2020/04/a-scalable-approach-to-reducing-gender.html


2020-04-30 07:001962
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 534.5 次阅读, 收获喜欢 1977 次。

关注

评论

发布
暂无评论
发现更多内容

程序员之禅(五)十条准则

每天读本书

读书笔记 每天读本书

springboot 2.4.0 knife4j 3.0.1接口文档框架

黄敏

springboot SpringBoot 2 Knife4j

学大数据应该怎么入门--大数据学习之路

大数据技术指南

大数据 3月日更

laravel的生命周期

一个大红包

28天写作 3月日更

工具软件与开源

行人23

开源 SaaS

使用Android版VMware Horizon Client连接到云桌面

梅花鹿鹿

正则表达式.02 - 量词与贪婪

insight

正则表达式 3月日更

Dubbo 进行一次微服务调用的时序图

跳蚤

翻译:《实用的Python编程》04_01_Class

codists

Python

SpringBoot启用HTTPS

黄敏

jdk https openssh springboot

浅淡python中with的用法,上下文管理器

极客新人

Vue3源码 | 深入理解响应式系统上篇-reactive

梁龙先森

大前端 Vue3 源码解析

能源区块链研究|中国内蒙古自治区为减少能源消耗 禁止比特币采矿

CECBC

比特币

Linux时间同步-NTP服务器

黄敏

Linux ntp

Hbase详解

Fong

大数据 运维 概念

中台建设落地浅谈

Man

中台 数字化转型

需要深入的技术领域,方向正确是成功的关键

杨明越

《精通比特币》学习笔记(第三章)

棉花糖

区块链 学习 3月日更

微服务实践之分布式定时任务

万俊峰Kevin

微服务 定时任务 延迟任务 Go 语言

产品经理是个很务虚的岗位吗?

涛哥 数字产品和业务架构

产品经理

《撬动星球的头部效应-绝非偶然》读书笔记

SilentMacUser

极客时间 读书笔记 产品经理 知识星球 极客大学产品经理训练营

设计模式的5个常见问题及解决办法

乐天

设计模式

Java安装教程

Sakura

28天写作 3月日更

如何让别人访问到你的本地项目? Ngrok免费实现内网穿透

xiezhr

ngrok 内网穿透 3月日更

JVM笔记 -- JVM的发展以及基于栈的指令集架构

秦怀杂货店

JVM JVM笔记

HBase分布式部署

Fong

大数据 运维 部署

Centos7 systemctl 启动Java应用

黄敏

Java Linux Centos 7 部署

开课啦基于 dubbo-go 的服务端技术升级实战

apache/dubbo-go

微服务 云原生 dubbo dubbo-go dubbogo

IDEA 敏捷开发技巧——实时模版

程序员小航

IDEA IntelliJ IDEA

浅谈微服务架构

跳蚤

ARTS - week 1

steve_lee

减少谷歌翻译中性别偏见的可扩展方法_AI&大模型_谷歌AI_InfoQ精选文章