书评:Cathy O'Neil 著 Weapons of Math Destruction

阅读数:1273 2016 年 10 月 31 日

要点

  • “数学毁灭性武器”指大数据或机器学习模型,包含三个确切的元素:不透明性、规模和伤害。
  • 总体来讲,O'Neil 认为,这些模型对贫穷与占劣势的人有负面的影响,并同时让富裕的人过得更轻松。
  • 这些模型的不透明性使得我们难以理解或争辩它们的行为,或是去发现其中的问题。
  • 当一个被训练以解决某个特定问题的模型横跨到其他领域时,风险会随着规模提高。
  • 有关审查模型的尝试当下仍处在学术研究阶段,但已经有些进展。同时可能需要政府出台规章制度来进行干预。

Cathy O'Neil 写道:“大数据有很多推崇者,但我不是。”O'Neil 是一个博主 (mathsbabe.org),也是 DE Shaw 对冲基金的量化策略分析师,而后她对她的对冲基金模型大失所望,因而参加了 Occupy 运动。

Weapons of Math Destruction一书的前面部分中,她描述了 Sarah Wysocki 的案例。Wysocki 是华盛顿 MacFarland 中学中一位很受欢迎的五年级教师。她在 IMPACT 评估中得到了很低的分数。IMPACT 是一个教师评估工具,开发 IMPACT 的目的是找到表现不佳的教师并解雇他们。

Wysocki 的低分是出自一个称为增值模型的新评分系统,由位于普林斯顿的咨询公司 Mathematica Policy Research 开发。但是,正如 Wysocki 所说:“评估因素涉及到学习与教学,想要评估所有的因素太难了。”O'Neil 补充说:“还有,想通过分析二十五到三十个学生的测试成绩来给一位教师的效率打分在统计学上是不合理的,甚至是可笑的。考虑到所有可能的因素,数据量实在太小了。”

但是还有一个问题:统计系统需要一个反馈机制,能在出现偏差时给出反馈。

当 Mathematica 的评分系统将 Sarah Wysocki 和另外 205 位教师标记为失败时,当区就会解雇他们。但这个系统如何知道它是正确的呢?它不知道。这个系统一旦决定哪些教师是不合格的,他们就会被当做不合格教师来看待。206 个“不合格”教师离开了。这个事实表面上表现出增值模型很高效,它能帮助所在地区清除表现不佳的教师。但这个系统没有去寻找事实,而是直接象征着事实。

O'Neil 使用“数学毁灭性武器”(WMD)来描述最差的数学模型的特性,IMPACT 就是一个例子。当一个模型有三个确切的元素,即不透明性、规模与伤害时,就可以算作 WMD。在书中她分析了许多不同的系统,它们在影响着许多人的生活的方方面面,包括升学、贷款、被判入狱或是找工作与保住饭碗。她还给出了一些例子:信用评分被用于评估受雇可能性,但这是基于一个错误假设,即较低的信用评分与较差的工作表现相关;美国的营利性大学使用数据与进攻性访客找回技术,通过线上广告寻找那些想要提升生活水平但易受伤害的年轻人,使他们常常陷入债务;预测犯罪的软件让警察只关注贫穷地区的小而麻烦的犯罪,却忽略了富裕地区的更加严重的犯罪。

普遍而言,O'Neil 认为这些模型对贫穷与占劣势的人有负面的影响,并同时让富裕的人过得更轻松。她的理论的核心在于人们倾向于盲目地相信算法,以为既然模型是基于数学的,那么以某种方式一定是客观的、公平的。但当然这不对。首先,算法可能被设计的很差。而且,对于机器学习系统而言,那些用于训练模型的数据可能会有固有的偏见。举例而言,如果硅谷的一家新兴企业历史上没有解雇过或是解雇过很少的女工程师,那么如果要创造一种算法,能根据公司的历史数据,即哪些员工在公司有较好的表现,来尝试雇佣员工。得到的算法自然会倾向于不雇佣女性。

在我们的估计算法雇佣系统中,性别偏见是无意中产生的。但将算法的目标定为雇到聪明的工程师,能在公司工作两年以上,那么公司可能就意识不到问题了。拿 IMPACT 来说,在其自己定义的规则下,系统会表现得运转正常。而且,如果模型本身难以争辩(比如许多机器学习模型),公司可能并不知道其模型有固有的性别偏见。除非专门用相同的男性女性估计数据去测试,否则自然发现不了问题。

O'Neil 在书中反复说到判断算法有效性的问题。比如在后面,她引出了一个员工时间规划软件,这个软件已经得到星巴克、麦当劳与沃尔玛的应用。软件所使用的模型针对效率与盈利进行了最优化调优,并未充分考虑司法与员工的利益,以至于:

美国大公司的员工最近提出了一个新的动词:关开(clopening),意为一个员工在深夜关闭店或咖啡厅,而在仅仅几个小时后,在破晓前,又回来开门营业。

这些混乱的时间规划越来越常见,而且常常是临时通知,对低工薪的工人与他(她)们的家庭产生极坏的影响。

这个软件还导致许多孩子在成长的过程中没有生活节奏。他(他)们看到母亲在早餐时睡眼惺忪,或是没有吃晚饭就匆匆出门,或是与奶奶争论谁要在星期天的上午照顾孩子。这种混乱的生活对孩子产生很深的影响。根据一个宣传组 Economic Policy Institue 的研究,“当父母的工作时间不在白天或是难以预测时,子女在幼年与青年时期倾向于拥有较差的认知与行为。”那些父母可能会因为孩子在学校的不佳表现责怪自己,但许多情况下真正的原因是贫穷。贫穷使得工人接受时间规划不定的工作,而且规划模型会让那些苦苦挣扎的家庭生活更加艰难。

O'Neil 认为,问题在于模型对于目标的选择:在这里是效率和盈利。因为这种模型会提高每一个员工带来的盈利,只有当使用这种模型的公司受到公众谴责时,这种方式才会有所改变。

O'Neil 也探讨了一些细节化的不透明性问题。其中最引人注目的案例是有关一家名为 Sense Networks 的纽约数据公司的成果。十年前 Sense 开始分析匿名的电话数据,能展示人们去了哪里。

这家公司将纽约的通话记录数据输入其机器学习系统但只给出了微小的额外引导。他们没有让程序去孤立乡村数据与千禧世代或是创建不同的购物者群体。软件会自己发现相似点。许多相似点很愚蠢,比如哪些人的名字是 J 开头,而且会花白天的一半时间在街上,或是哪些人中午吃饭休息时间最长。但如果系统探索了百万量级的数据,就会有一些模式浮现出来。相关性也会浮现出来,其中很多可能是人们不会考虑到的...“我们不会发现这些人的共同点是什么,”Sense 的联合创始人与前 CEO,Grey Skibiski 说:“它们无法融入我们所能提出的传统的群体。”

...Sense 在 2014 年被卖给了 YP,后者是一家从 AT&T 剥离的移动广告公司。所以就现在而言,其分类会用于对不同的群体投放广告。但是你可以想象,这些拥有许多不同数据源与行为数据的机器学习系统很快会将我们放在成百甚至上千的群体中,而不是一个。

换句话说,如果一个训练以解决特定问题的模型横跨到其他领域,风险会随着规模提高。O'Neil 提出,数据科学家的薪水并不包括与此相关的思考。而且,“在这个机器智能的时代,大多数变量只会是个谜...(这些模型) 会很高效,看起来很主观,并且完全不可靠。”

本书从普遍情况与具体案例两个角度,对无处不在的大数据使用所可能产生的问题进行了很好的描述。但我认为本书没能很好地给出解决方案。O'Neil 强有力地提出,需要出台规章制度,而且首先要规范建模工程师的工作。但要构建一个监管模型也是极具挑战性的,正如 O'Neil 自己所强调的,这意味着需要评估隐藏的成本。

这就像其他类型的规章一样。尽管经济学家会尝试计算烟尘或农田径流、或是斑林鸮灭绝的代价,但数字从来就不能表达出它们的价值。评估数学模型的公正性与集体利益也是这样,这些概念只存在于人类的思维中,是难以量化的。而且因为人类要负责开发模型,他们很少会做这些多余的工作,甚至连试都不试。

同时还需要审核。O'Neil 指出:

在深入软件代码之前,第一步是进行学术研究。首先要把 WMD 当做黑盒看待,给出数据输入,看输出情况。比如这个人再次犯罪的可能性为中等,这个人有 73% 的可能会投票给共和党,这位老师排名处在倒数前十名。通过检查其输出,我们就可以整理模型背后的预期结果,并对其公平性打分。

我希望能在这里看到更多的细节,哪怕是概念上的证明,但是没有很多细节,可能这也表现出这个领域相对新兴。话虽如此,O'Neil 还是指出学术群体中的确开始出现审查算法的相关技术。

举例说,在普林斯顿,研究者启动了互联网透明性与可靠性项目。他们创造出软件机器人,在网上伪装成各类人——富人、穷人、男性、女性、或是精神不健康的人。通过研究这些机器人所得到的待遇,学者就可以在自动化的系统中探测偏好,从搜索引擎到任务部署站点。

事实上,O'Neil 从写书开始,就创办了一家公司,提供审查模型的服务,并在其他方面取得了一定进展

这本书只关注了美国的案例研究。我希望能看到一些来自欧洲或是其他地区的案例,以明确这个问题是只存在于美国,还是也存在于那些已经倾向于出台更多规章制度的市场中。

但是也有一些批评的声音。虽然她所描述的模型偏好与一些其他问题也在其他地方讨论过,这是我所知道的第一本能给出这些问题的潜在规模的书,兼有详尽的研究与具体的案例。O'Neil 行文清晰而有激情,这是一本我们迫切需要的重要的书。

关于作者

Cathy O'Neilmathbabe.org的博主。她曾在哥伦比亚大学新闻学院 Tow Center 担任数据实践项目 Lede 的主管,也曾受雇于 Johnson Research Labs 担任数据科学顾问。Cathy 在哈佛大学获得了数学博士学位,现居纽约。

查看英文原文Book Review: Cathy O’Neil’s Weapons of Math Destruction

关于译者:程大治,微博程大治 DEV


感谢冬雨对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。

收藏

评论

微博

发表评论

注册/登录 InfoQ 发表评论