写点什么

数据公民:为什么我们这么关心数据道德

2018 年 7 月 14 日

关键要点

  • 数据公民受到由数据科学家创建的模型、方法和算法的影响,但他们能够对这些工具施加影响的方式却非常有限。
  • 数据科学伦理可以利用现有领域的概念框架来指导如何处理道德问题,比如公民学。
  • 数据科学家也是数据公民。他们也会受到数据科学工具的影响,但同时也在构建这些工具。通常情况下,这些角色发生冲突的地方,正是人们了解发展道德体系重要性的突破口。
  • 确保数据公民权利的一种模式可能是为数据科学寻求与律师和立法者同等水平的道德实践透明度。
  • 与之前的其他道德运动一样,寻求更好的环境保护或更公平的工作条件、大规模实现新的权利和责任需要进行大量的游说和宣传。

我不是数据科学家,但我仍然关心数据科学道德。我关心它的原因与我关心公民学的原因相同:我不是律师或立法者,但法律正影响着我的生活,让我想知道该如何有效地成为一个公民。数据公民正受到由数据科学家创建的模型、方法和算法的影响,但他们能够对这些工具施加影响的方式却非常有限。数据公民必须向数据科学家提出严正声明,以确保他们的数据得到合乎道德的利用。数据科学伦理学是一个新领域,我们似乎需要重新发明所有的工具和方法,以便从头开始开发这个领域。事实是,我们可以利用现有领域的概念框架——比如公民学——来创建构建数据伦理所需的一些新工具、方法、流程和程序。

“法律”和“数据科学”都是具有不确定边界和层次结构的概念。我已经意识到了这一点,但在本文中,我会假设它们属于同一概念,而不是由不同部分拼凑在一起的东西。

在公民生活中,公民有影响立法者和律师决策的权利。尽管这些系统并不完美,反映了不平等的社会权力结构,但公民的这些权利确实是存在的。在公民生活中,我们可以为我们认为最能代表我们的政党和个人(他们代表了我们对如何制定和实施法律的看法)投票。我们可以请愿和游说,表达我们的意见。如果这些都不奏效了,我们可以进行抗议游行,还可以通过调查和诉讼来寻求补救。

然而,在数据公民的世界中,这些权利没有明确的定义。即使想要发现偏见也可能极具挑战性,因为很多数据科学成果都是专有知识。对于那些没有资源进行大规模研究的人来说,这些情况可能没有那么明显,比如招聘算法会在无意中导致恶性贫乏循环,或者犯罪风险评估软件在评估风险方面表现很差,但在区分人类种族方面却很擅长,或者翻译软件会在翻译中暗示性别倾向,但原文可能并不包含任何性别倾向。

当然,这些都是被公开发现和研究过的例子,还有很多其他例子没有引起注意或没有受到质疑。在“ Weapons of Math Destruction ”一书中,作者 Cathy O’Neil 描述了一个年轻人,他因为无法通过性格测试而一直被雇主拒绝。O’Neil 指出,这些测试认为候选人不合适,但它们从未得到关于被拒绝候选人是否可以胜任其他岗位的反馈,也就是说,并没有确凿的证据表明这类测试是否有效。所幸的是,这位年轻人的父亲是一名律师,他对在招聘中使用这类性格测试提出了质疑。通过这样一个不公平的案例,这位律师就能够为所有人争取更平等的待遇。要认识到这种反复出现的障碍(未能通过性格测试)可能是歧视的证据,需要具备专业的知识,但这不是每个人都具备的。

O’Neil 在她的书出版后不久参加了 InfoQ 的播客节目,她明确指出,量刑算法“等同于一种法律”,它们可被视为一种“数字算法法律”。与法律的其他部分不同,因为人们根本无法了解这些算法的工作原理。即使人们明确知道这些“法律细则”,但他们却不知道该如何追索这些算法对他们进行的“审判”或对他们做出的预测。O’Neil 认为,作为数据公民,我们都应该得到“……与法律相同的保护,基本上这是符合宪法精神的。我们应该有权利知道规则是什么,对于这些强大的算法来说也是一样的“。对于在判决、招聘及其他方面应用由偏见的算法,O’Neil 指出,”机器学习算法不会问’为什么’……它只会寻找模式并重复它们……如果我们有一个不完美的系统,并且把它自动化,我们就会重复过去的错误“。数字系统并不会让一切更加公平,但数据公民(通常是数据科学家)通常认为系统化的结果会更客观。但事实不是这样的,O’Neil 说。

这个三角模型中的角色存在重叠:立法者也是公民,数据科学家也可能被糟糕的算法错误分类。通常情况下,在这些角色发生冲突的地方,正是人们对发展数据科学道德实以及发展数据科学道德所需手段做出充分理解的突破口。在播客中,O’Neil 指出,“数据科学家在工作期间必须做出道德决定,即使他们不承认这一点(他们通常不会承认)”。帮助数据科学家认识到他们的责任对于协商数据公民与数据科学之间的关系来说至关重要,或许我们可以以数据科学家本身也会受到自动化决策影响为例,因为他们其实也是数据公民。

那么,作为数据公民,我们如何让影响我们的“数据科学”更有效更公平呢?第一步可能是要为数据科学争取与律师和立法者同等水平的透明度。 GDPR 在某种程度上将数据公民的权利编入法典,并惩罚违反这些权利的组织。而对于数据科学,有四个关键的条款。它们是:

  • 首先,数据访问权利,数据主体有权了解如何以及基于什么样的目的处理他们的个人数据,并有权获得数据的副本。
  • 第二,被遗忘的权利,个人可以要求删除他们的数据,不再与第三方共享。
  • 第三,数据可移植性,个人可能会要求将其数据传输到另一个处理器上。
  • 最后,隐私设计不再只是一个行业上的设计概念,而是法律提出的要求。

这些权利将影响数据科学家设计模型的方式。数据可能发生变更,因为人们会要求删除其数据或者使用最少量的数据来构建模型,所以在开发数据科学工具时需要考虑这些新的因素。

除了 GDPR 之外,数据科学界也对编撰道德法则进行过很多尝试。开放数据研究所的数据伦理画布就是一个例子,Gov.uk 的数据科学伦理框架是另一个例子,公共科学图书馆的“可靠大数据研究的十个简单规则”是第三个例子。Cathy O’Neil 的 ORCAA 咨询服务现在也提供算法审计,微软和 Facebook 等大型技术公司也正致力于开发审计工具包。埃森哲是最早推出公平原型工具的公司之一,该工具旨在识别和修复存在于算法中的偏见。然而,要让工具真正发挥作用,“你的公司还需要有一种道德文化”,埃森哲道德AI 主管Rumman Chowdhury 说。否则公司会很容易就忽视该工具提出的建议,并继续施行有偏见的做法。

大多数数据公民都不是数据科学家,当数据科学家决定使用特定代码库或调整某个变量的权重时,我们也并非能够对此作出道德审判的人。在开发模型时,我们不会选择要包含哪些信息以及要忽略哪些信息。但我们能做的就是让自己熟悉错误的例子,并找出原因,以及那些进展顺利的例子。我们可以基于这些例子批判性地审视我们与数据的交互方式,特别是当数据被用于制定有关我们的决策时。但是有些人扮演着两种角色:数据科学家知道由其他人在他们的领域所做出的道德决策将如何影响他们自己、他们的家人、他们的朋友,以及使用他们服务的数据公民。作为这些系统的创建者,数据科学家有责任和手段用好这些数据。

与之前的其他道德运动一样,寻求更好的环境保护或更公平的工作条件、大规模实现新的权利和责任需要进行大量的游说和宣传。所幸的是,像 doteveryone Coed:Ethics 这样的团体正在努力向政府和公司施加压力,以便创建一个拥有更公平算法的世界。

Caitlin McDonald 将在 7 月份于伦敦举行的 Coed:Ethics 大会上讨论算法对公民的影响,这是第一次从开发人员的角度讨论技术伦理的会议。

关于作者

****Caitlin E McDonald博士是一位屡获殊荣的学者,也是一位数字社区和数据科学方面的作家。她拥有定性和定量研究方法的经验,专注于人类想象力与数字系统的交叉研究。Caitlin 于 2011 年获得了埃克塞特大学博士学位,专注于研究文化和艺术社区如何适应日益全球化的世界。

查看英文原文 Data Citizens: Why We All Care About Data Ethics

2018 年 7 月 14 日 08:541142
用户头像

发布了 731 篇内容, 共 368.6 次阅读, 收获喜欢 1860 次。

关注

评论

发布
暂无评论
发现更多内容

日入斗金,稳赚不赔?小心泛滥网络的兼职刷单让你钱尽财空

360安全卫士

EasyDL的数据集、模型与代码的版本管理:灵活管理效率提升

百度大脑

人工智能 模型训练 百度大脑

如果不懂编程,请看这里!!!

代码制造者

学习 编程 低代码 零代码

浙江上线市场监管区块链电子取证平台,武汉出台“区块链八条”,

CECBC区块链专委会

区块链 行业资讯 产业落地

NIO的组成有哪些——奈学

古月木易

nio

计算之美(1/12)

我的偶像是木子

数据结构 算法

环信大学:模型的边界!

环信

充分释放数据价值:安全、可信6到飞起

华为云开发者社区

区块链 数据共享 华为云 可信安全计算 数据价值

原创 | 使用JPA实现DDD持久化- O:对象的世界(2/3)

编程道与术

Java hibernate DDD JDBC jpa

NIO的组成有哪些——奈学

奈学教育

nio

微服务架构下的核心话题 (二):微服务架构的设计原则和核心话题

xcbeyond

架构 微服务 设计原则

【DevOps】Jenkins持续集成流水线(中)

Man

DevOps jenkins CI/CD JACOCO FINDBUG

影调:光影交响曲

北风

摄影 风光 影调 光影 人像

什么是深度强化学习?

华章IT

学习 智能体

女博士年薪156万入职华为!网友:实力演绎美貌与智慧并存

程序员生活志

华为 少年天才

Week09作业

熊威

为Z3 Air-赋能,十代酷睿引领游戏5GHz新时代!

最新动态

.net core快速开发平台,learun自主工作流引擎设计规范

力软.net/java开发平台

中国四大银行正在大规模内测数字货币APP|可凭手机号完成转账

CECBC区块链专委会

数字货币 DCEP 中国人民银行

详解GaussDB(for MySQL)服务:复制策略与可用性分析

华为云开发者社区

数据 路径 可用性 华为云 GaussDB

打造高转化率网站不得不遵循的3条规范

姜奋斗

网站架构 网站 网站搭建 高转化率 转化

Flag: 给自己定个小目标

Fen9Pi

个人感悟

对于容器技术的看法

倾心煎蛋

架构师训练营第九周

WW

华为云的研究成果又双叒叕被MICCAI收录了!

华为云开发者社区

学习 AI 计算机视觉 医疗 华为云

第九周作业

Geek_a327d3

英特尔十代酷睿携手机械革命X3-S 纵享顺畅游戏之巅

最新动态

Gitlab 部署配置

wong

gitlab

直播平台在贝壳找房中的实践与运用

陈威威

架构 分层架构 直播 分层思维 多元场景应用

百度大脑人脸离线识别SDK升级盘点,Linux ARM版本上线

百度大脑

人工智能 人脸识别 百度大脑 sdk

当百度遇上新基建:开放是基本原则 做智能时代的赋能者

百度大脑

人工智能 百度 AI 新基建 百度大脑

演讲经验交流会|ArchSummit 上海站

演讲经验交流会|ArchSummit 上海站

数据公民:为什么我们这么关心数据道德-InfoQ