10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

机器学习如何引入偏见

  • 2017-01-21
  • 本文字数:2503 字

    阅读完需:约 8 分钟

在今天以大数据、人工智能为代表的科技发展的日益成熟,人类将面临着从进化到智人以来最大的一次改变。现在人类看到了另一种力量的崛起,这就是机器。人工智能今年的突飞猛进不断地敲打着人类的神经,全面超越人类将指日可待。既然人类的一切行动都是由生物的算法所掌控的,那么在这一点上,人工智能和人类没有本质的区别,而人工智能会比人类有更高效的计算。人类将不可避免被机器代替的命运。

随着人工智能的发展,人类将会把越来越多的决策权交给机器。但是,从目前的一些事例看,基于机器学习的决策并非那么公正完美,相反,那些决策也渗透着偏见。机器学习一直缺乏防止这类偏见,而且是基于敏感属性的审核方法。目前仍然缺乏一种可靠的方法,来避免机器学习可能产生的偏见。

Jesse Emspak 科学美国人上发表了一篇文章,表示了他对机器学习的偏见问题:人工智能会引入人类创造者的偏见,而不是冰冷的逻辑。

InfoQ 翻译、整理 Jesse Emspak 这篇文章,将他的观点分享出来,以飨广大所有关心人工智能的读者。

如果人工智能接管我们的生活,人类与机器人之间可能不会发生战争,因为机器人像(星际迷航的)外星人混血儿斯波克那样无情奴役人类。相反,为你推荐电影、人脸识别等的机器学习算法可能有一天,拒绝你的贷款申请、把警察叫到你家附近、或者告诉医生你需要节食……既然是人类创造的机器学习算法,如果创建算法的人带有某种偏见,就有可能使算法导致错误的决定,以及更槽的结果。 这些偏见使我们对日益依赖的人工智能基础产生了严重的关切,因为人类设计的人工智能系统哪怕是绝对“公正”的,也会逐渐积累人类的偏见思维。例如,某个人工智能程序并未特别考虑种族,但程序却将黑人标记为在未来更有可能犯罪的人

主要问题有两个:首先,用于训练机器学习算法的数据有时不够;其次,算法本身可能设计不合理。机器学习是软件开发人员使用大量与手头任务相关的数据来训练人工智能算法的过程。最终,算法基于最初提供的数据形成模式集,以识别新数据中的类似模式。但是算法并不总按计划运行,导致可怕的结果。例如,2015 年6 月,Google 的照片分类系统将两位非裔美国人误判为“大猩猩”。尽管该公司迅速解决了这个问题,但微软人工智能研究员Kate Crawford在纽约时报指出,这种错误反映了人工智能的一大问题:“白人问题”。也就是说,用于训练软件的数据过于依赖白人的照片,导致系统无法准确识别具有不同特征的人。

最近,一系列不实报道向Facebook 用户的动态消息(News Feeds)潮水般涌来,凸显了人工智能的偏见问题。Facebook 的热门新闻(Trending News)算法是基于用户参与度(用户点击率或分享率)来确定新闻优先级,根本没有考虑新闻的真实性。11 月初,一些新闻媒体透露,在美国大选期间,一群Macedonian 青少年愚弄了Facebook 的动态消息算法,公然传播不实报道,呼吁右翼选民投票。Facebook 表示,已修改算法,并宣布计划,将同 Snopes Factcheck.org ABC News PolitiFact 将帮助共同验证每一条新闻的真实性。

Maryland 大学计算机科学系副教授 HalDaumé三世表示,“这有点像‘俄罗斯坦克问题’”。这个传说是杜撰的,但是有代表性,因此常常被计算机科学的老师们引述:这个传说讲的是 20 世纪 80 年代早期,美国军队试图训练计算机来区分照片中的俄罗斯坦克和美国坦克。“算法的分类精度很高,但所有的训练照片中,俄罗斯坦克的照片是模糊的,而美国坦克的照片是高清的。”Daumé解释道。算法学会了区分模糊照片和高清照片,而非识别坦克。

尽管存在这样的已知限制,最近,一组研究人员还是发布了一项研究报告,指出算法可以通过评估人脸特征来推断某人是否为罪犯。中国上海交通大学的研究员 Xiaolin Wu 和 Xi Zhang 基于 1856 张人脸照片(其中 730 张犯罪分子照片、1126 张非犯罪分子照片)的数据集训练人脸识别算法。在看完数据集中 90% 的图片后,人工智能可以正确判断剩下的 10% 图片中,哪些是罪犯。

根据这项研究报告的说法,该算法将特定人脸特征与犯罪相关联。Xiaolin Wu 表示,罪犯的眼角、嘴唇和鼻尖更可能存在特殊的空间关系。虽然,有这样的特征的人不一定表示就是罪犯,但可能性比较高。Wu 还发现,犯罪分子的人脸特征差异比较大,而非犯罪分子往往具有相似的特征。

Wu 继续使用一组新的照片来测试算法,发现多数时候,算法能正确标识出罪犯。为了避免引入偏见,研究人员只使用面部无毛发、无疤痕的青中年中国男性照片来训练和测试算法。

Wu 表示:“我准备开始反驳那些反对者的观点,我们对这个结果都感到惊讶。”尽管这项研究可能验证了骨相学的某些观点,但是他承认,直接用这种技术来判断罪犯太“疯狂”了,而且还表示,不打算将其用于执法部门。

另一些科学家认为,Wu 和 Zhang 的研究发现,可能只是增强了人工智能系统的现有偏见。Google 的首席科学家 BlaiseAgüeray Arcas 指出,受试者的犯罪行为,是由人类的司法系统来决定的,可能存在潜在的偏见。Agüera y Arcas 补充道,该报告的核心问题是,罪犯的依据是人类涉及的系统本身,然后不带人类偏见的机器学习给出该结论。

“Wu 和他的同事直接跳到结论:他们发现人脸结构特征可以预测犯罪,这是非常鲁莽的结论。”Washington 学院数学系助理教授 Kyle Wilson 如此道。他还表示:这种算法可能只是在某个司法系统反映了人类的偏见,在其他任何国家也可能会出现这种情况。他说:恰恰相反,他们只是教会了计算机重现人类相同的偏见。

还有人认为,可以通过解决计算机学习模式中的错误来改进该算法,避免人为的偏见。瑞士人工智能实验室 Dalle Molle Institute 的科学总监 Jürgen Schmidhuber 表示:人工智能系统在学习时会犯错误实际上,它一定会犯错,这也是为什么称之为“学习”。他补充道,计算机只能学习给予的数据中所包含的信息。“你不能消除所有这些偏见的源头,就像你不能消除这些人类的源头,”我们得承认这一点,然后确保使用的数据和算法的设计相对“公正”,或者记住老程序员的话:一步错,步步错。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-01-21 18:002249
用户头像

发布了 376 篇内容, 共 204.4 次阅读, 收获喜欢 949 次。

关注

评论

发布
暂无评论
发现更多内容

几纳米间风云:手机摄影的制高点争夺战

脑极体

视频图像色彩增强的主要方法与落地实践

声网

Dev for Dev 视频技术 色彩增强

【ELT.ZIP】OpenHarmony啃论文俱乐部——综述视角解读压缩编码

ELT.ZIP

鸿蒙 OpenHarmony 数据压缩

实践GoF的23种设计模式:SOLID原则

元闰子

设计模式 SOLID

架构实战营模块八作业

Jude

架构实战营

阿里云资深专家李国强:云原生的一些趋势和新方向

阿里巴巴云原生

阿里云 容器 微服务 云原生 趋势

要做需求管理?看这篇就够了。

石云升

产品经理 需求管理 需求分析 2月月更

关于SaaS的内容营销策略(15/100)

hackstoic

营销 SaaS平台

java商城源码(servlet,springboot,html,vue,uniapp,小程序,android)一套任意组合

清风

计算机毕业设计 java商城 java商城源码 商城毕业设计源码

网络安全必学渗透测试流程

网络安全学海

黑客 网络安全 信息安全 渗透测试 安全漏洞

学生管理系统详细架构设计

Geek_8d5fe5

架构实战营

如何防止Arp攻击

喀拉峻

网络安全

Vue Router 手把手教你搭 Vue3 路由 - 卡拉云

蒋川

Vue Vue 3 vue cli

最好用的 7 款 Vue admin 后台管理系统测评 - 卡拉云

蒋川

Vue Vue 3 vue cli

过完年了, 为明年设计一个春联自动生成器, 给大家助助兴

DS小龙哥

2月月更

2022中国化妆品行业发展趋势洞察

易观分析

化妆品行业

异步请求积压可视化|如何 1 分钟内快速定位函数计算积压问题

阿里巴巴云原生

阿里云 Serverless 云原生 函数计算 FC

系统学习 TypeScript(四)——变量声明的初步学习

编程三昧

typescript 前端 2月月更

这么写简历,offer拿到手软,从业5年的软件测试工程师手把手教你写出满分简历

程序员暴龙

软件测试 简历优化 简历 就业 软件测试工程师

掌握这20个JS技巧,做一个不加班的前端人

华为云开发者联盟

JavaScript 数组 箭头函数 逻辑运算符 计数器对象

Hoo 交易所虎符研究院 ∣ 如何对NFT进行估值

区块链前沿News

NFT 虎符 Hoo 虎符交易所 虎符研究院

存储高性能、传输如闪电,焱融科技携手瑞云科技给你带来不一样的体验

焱融科技

云计算 分布式 云原生 高性能 文件存储

模块八作业

whoami

「架构实战营」

亿级数据量场景下,如何优化数据库分页查询方法

华为云开发者联盟

MySQL 缓存 查询 数据表 分页查询

权威可信 | 华为云云测通过中国电子技术标准院软件测试工具能力评价

华为云开发者联盟

软件测试 测试 华为云 测试工具 华为云云测

梦幻联动!金蝶&华为云面向大企业发布数据库联合解决方案

华为云开发者联盟

数据库 华为云 数据管理 GaussDB(for openGauss) 金蝶

建木持续集成平台v2.2.3发布

Jianmu

DevOps CI/CD 开源项目

微服务用户为什么要用云原生网关

阿里巴巴云原生

阿里云 Kubernetes 微服务 云原生网关

安全开采数据“富矿”:隐私计算基建的融合与进击

脑极体

如何在 Vue 中使用 Chart.js - 手把手教你搭可视化数据图表

蒋川

Vue Vue 3

机器学习如何引入偏见_语言 & 开发_刘志勇_InfoQ精选文章