AICon全球人工智能与机器学习技术大会周四开幕,点击查看完整日程>> 了解详情
写点什么

如何有效地从 AI 训练模型中删除记录?

  • 2020 年 2 月 28 日
  • 本文字数:2212 字

    阅读完需:约 7 分钟

如何有效地从AI训练模型中删除记录?

无论用户是否知情,人工智能算法都在收集用户信息。全世界的公司、大学都在使用不知情民众的病例、购物历史和社交媒体的使用情况来训练机器学习软件。他们的目标可能是汲取科学见解,抑或是关注可疑人员。即使 AI 模型是从人们的数据中抽象出来得到一般性结论的,也能设法从模型中重构出输入的个体数据信息,匿名性已经不复存在。



为了找回一部分隐私权,最近诸如《欧洲通用数据保护条例》《加州消费者隐私法案》等法律赋予了用户一些权力。但是,如果想让训练过的 AI 模型删除记录,通常需要从头开始,使用不包含这个人的数据再训练一次,而新开始的训练过程会花费几周的时间。


有两篇新论文提供了有效从 AI 模型中删除记录的方法,同时也许还能节省上兆瓦的能源开销,使其看上去很有吸引力。“我们或许需要一些新的算法来让公司之间的合作变得更加容易,也让他们再也没有不遵守规定的借口。”斯坦福计算机学家,同时也是第一份论文的作者之一,Melody Guan如是说。


因为关于有效删除数据方面的文章很少,斯坦福的作者首先定义了这个问题,并描述了改良的四项设计原则。第一原则是“线性”,简单的 AI 模型所做的仅仅是数字的加法和乘法,规避了所谓的非线性数学函数,也更容易部分解码。


第二原则是“懒惰”,在需要预测之前,延迟大量的计算。第三是“模块化”,尽可能将模型分成几部分进行训练,最后再将结果进行整合。第四是“量化”,将均值锁定在附近的离散值上,这样即使删除一个贡献数也不太可能会使均值偏移。


斯坦福的研究者在其中两个设计原则应用到了一种叫做 K-均值聚类的机器学习算法,这种算法将数据点归类为自然聚类,可用于分析相似种群之间的遗传差异。聚类的这项应用已经在UK Biobank的医学数据库中得到了实现,而论文的作者之一也收到过一些患者想要将他们的数据移出数据库的消息。


研究员使用量化技术开发了一种被称为 Q-k 均值的算法,并将其在六个数据集中进行了测试,对细胞类型、手写数字、手势、森林覆盖以及被黑客入侵的互联网连接的设备进行了分类。以每次一个的频率从每组中删除 1000 个数据点,Q-k 均值的运算速度是常规 k 均值的 2 到 584 倍,同时几乎没有精度损失。


通过模块化原则,他们开发了 DC-k-均值算法,DC 是分治算法(Divide and Conquer)的缩写。数据集中的点被随机分为多个子集,然后在每个子集中进行独立的聚类,最终将这些集群聚类,循环往复。从每个子集删除一个数据点,其余点不变,此时的速度倍数是从 16 到 71,同样,这种算法几乎没有损失精度。此项研究于去年底(2019 年 12 月)在加拿大温哥华的神经信息处理系统(NeurIPS)会议上发布。


多伦多大学向量学院的计算机专家Nicolas Papernot的评价是“这篇论文的优点在于他们能够利用该算法(k-均值聚类)的一些潜在好处。”但有些小技巧在其他种类的算法,例如深度学习中的人工神经网络上并不会起效。


上个月(2019 年 12 月),Papernot 及其合作者在 arXiv 上发布的的论文,提出了一种神经网络也可以使用的训练方法,将其命名为SISA训练,SISA 是分片(Sharded)、隔离(Isolated)、切片(Sliced)以及聚合(Aggregated)的缩写。


SISA 对模块化的应用分了两种不同的方法。第一种是将数据集分片,在所有子集上分别使用模型进行训练。当模型进行预测时,将模型的预测进行汇总。这样,一个数据的删除只需要重新训练一个模型。第二种方法,切片则对子集进一步分割,用于训练该子集的模型继续训练子集的分片 1,然后是分片 1 和 2,然后是 1,2,3,以此类推,在每步结束后封闭训练模型。如果从分片 3 中删除一个数据点,那么就可以直接回到第三步再重新进行训练。分片和切片“给了我们微调训练模型的机会,”Papernot 如是说。Guan 称赞他们的方法很直观,但这种记录删除的标准非常宽松。


多伦多的研究团队在两个大型数据集上测试了这种训练方法,两个数据集一个包含 60 多万家庭地址数字的图片,另一个包含 30 多万购物历史记录。在删除 0.001%的数据后,20 个分片的重新训练在地址数据中速度提升了 3.75 倍,在购物历史数据中则提升了 8.31 倍,在速度提升的同时精度也几乎没有损失。对比对象是在常规情况下训练的模型,删除数据点之后再重新开始训练。进一步分块之后为地址数据提速 18%,为购物历史数据提速 43%,同样没有精度损失。


仅仅删除 0.001%的数据可能看起来不算什么,但是 Papernot 认为,根据公开发布的数据显示,这样的数量级已经远远超过了像谷歌搜索等服务所需求的,而 18%的加速可能看起来也不是很有吸引力。但是,对于巨型模型来说,这样的提升可以节省大量时间和金钱。进一步来说,如果你已经知道某些数据很有可能在后期被要求移除,可以将这类数据归于同一个分层或是分片,这能让删除更加有效。Papernot 表示,正在寻求利用关于数据集的相关知识去更好的调整 SISA 算法。


Guan 说,这些人工智能方法是要让记录匿名,但是也会出现隐私之外的需求来让 AI 遗忘某些特定数据。可能是人们不想为厌恶的公司贡献利润,或者是科学家们在训练结束之后才发现有的数据有问题,后者可能是由于黑客添加了虚假记录而污染了数据集。在这些情况下,能有效地进行数据删除是非常必要的。


“当然,我们还没有完全的解决方案,”Guan 说,“但是我们认为成功定义数据删除这个问题会带来非常大的帮助。希望人们在设计算法的时候能够记得数据保护。”


原文链接:


https://spectrum.ieee.org/tech-talk/computing/software/researchers-can-make-ai-forget-you


2020 年 2 月 28 日 15:03847

评论

发布
暂无评论
发现更多内容

程序员成长第十九篇:要不要转管理岗?

石云升

程序员 28天写作 职场经验 管理经验 3月日更

9.hooks源码(想知道Function Component是怎样保存状态的嘛)

全栈潇晨

源码分析 React React Hooks

【回溯算法】经典题:求目标和的组合方案 ...

宫水三叶的刷题日记

面试 LeetCode 数据结构与算法

2021程序员春招必备:Java面试知识点+答案(7大分类 5000字解析)

比伯

Java 编程 架构 面试 程序人生

MySQL数据库的安装与使用

若尘

MySQL 数据库

科技强国梦的百度式注脚:扎根土壤、拥抱变局、眺望星空

脑极体

科学的互联网思想 指引我国网络强国建设稳步前行

Geek_987812

网络安全

12.手写迷你react(短小精悍就是我)

全栈潇晨

源码分析 React React Hooks

一场关于代码注释的争执,引发的三点思考

架构精进之路

编码 经验分享 七日更 3月日更

Mysql安装

Sakura

真香!Github一夜爆火,阿里性能优化不传之秘终于开源

程序员小毕

Java 程序员 架构 面试 性能优化

三十而已

ES_her0

28天写作 3月日更

2021抖音面经分享:Java进阶核心知识集/算法刷题宝典(金三银四必备)

比伯

Java 编程 架构 面试 程序人生

一桶食用油的数字化

吴俊宇

数字化转型 鲁花

白话Go内存模型&Happen-Before

Gopher指北

Go

(28DW-S8-Day13) 在线教育班型和角色

mtfelix

28天写作

无线网络的用户隔离功能

Wireshark数据包分析学习笔记Day1

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

windows 搭建ftp服务

xiezhr

vsftpd ftp ftp服务 文件服务 3月日更

11.react concurrent mode(并发模式是什么样的)

全栈潇晨

React React Hooks

10.scheduler&lane模型(来看看react是暂停、继续和插队的)

全栈潇晨

源码分析 React React Hooks

迎战大厂!“金三银四”和春招通过率达95%的Java面试要点集锦

Java 程序员 架构 面试

Kubelet从入门到放弃系列:GPU加持

DCOS

AI gpu Kubernetes 云原生

dubbo 源码 v2.7 分析:通信过程及序列化协议

程序员架构进阶

架构 RPC 七日更 dubbo源码 3月日更

区块链电子合同--电子合同区块链签约平台

13530558032

git 教程 --git cherry-pick 命令

生之欢愉,时间同行

git 程序员 git cherry-pick

区块链产业革命:解决融资租赁之谜

Geek_987812

区块链

项目汇报会复盘

Geek_XOXO

Elasticsearch Index Management 索引管理

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试 3月日更

Docker的三言两语-基础篇

一个大红包

Docker 28天挑战 3月日更

通俗易懂!看了不会忘的网络面试知识点

编程 架构 面试

数据cool谈(第2期)寻找下一代企业级数据库

数据cool谈(第2期)寻找下一代企业级数据库

如何有效地从AI训练模型中删除记录?-InfoQ