写点什么

人工智能正在造成无法预料的麻烦

  • 2019 年 7 月 02 日
  • 本文字数:2037 字

    阅读完需:约 7 分钟

人工智能正在造成无法预料的麻烦

正如我们所知,人工智能将会改变世界。但对抗性数据(adversarial data)带来了一系列问题。


近年来,人工智能已经取得了长足的进步,但是,正如许多使用这项技术的人们所证明的那样,人工智能仍然会犯下令人惊讶的错误,而这些错误是人类观察者不会犯的。虽然这些错误有时可能是人工智能所需的学习曲线的结果,但事情正在变得明显的是,一个更严重的问题正在造成越来越大的风险:对抗性数据。


对于外行来讲,对抗性数据描述了这么一种情况,在这种情况下,人类用户故意提供含有破坏信息的算法,破坏的数据会打乱机器学习过程,欺骗算法得出虚假的结论或错误的预测。


本文《If you’re a developer transitioning into data science, here are your best resources 》最初由 Jordan French 发布于 TNW网站,经 TNW 网站授权由 InfoQ 中文站翻译并分享。


作为一名生物医学工程师,我认为对抗性数据是一个值得公众关注的重要原因。加州大学伯克利分校的 Dawn Song 教授特别欺骗了一辆自动驾驶汽车,让这辆汽车误认为停车标志上写的是限速每小时 45 英里。


这种性质的恶意攻击很容易造成致命事故。同样的,被破坏的算法可能会导致错误的生物医学研究,危机生命或延迟挽救生命的创新。


直到最近,人们才开始认识到对抗性数据的危险性,它不能再像以前那样被忽视了。


对抗性数据是如何产生的?

有意思的是,即使主观上没有恶意,对抗性数据的输出也有可能会发生。这在很大程度上是因为算法能够“看到”我们人类无法识别的数据中的东西。由于这种“可见性”,麻省理工学院最近的一项案例研究 将对抗性样本描述为“特征”,而不是 bug。


在这项研究中,研究人员将人工智能学习过程中的“强健性”和“非强健性”的特征区分开来。强健性的特征是人类通常能感知到的,而非强健性的特征只能由人工智能检测到。尝试使用算法来识别猫咪的图片,结果显示出,系统根据观察到的图像中的真实模式,得出了错误的结论。


之所以出现这种误判,是因为人工智能看到了一组明显无法感知的像素,导致它未能正确地识别照片。这就导致系统无意中被训练成在其识别算法中使用了误导模式。


这些非强健性的特征起到了一种干扰“噪声”的作用,导致算法产生有缺陷的结果。因此,黑客要想干扰人工智能的话,他们通常只需引入一些非强健性的特征,即不容易被人类识别出来的特征,但却能显著改变人工智能的输出。


对抗性数据和暗黑人工智能的潜在后果

正如 Moazzam Khan 在《Security Intelligence》(《安全情报》)中指出的那样,依靠对抗性数据的攻击主要有两种:药饵攻击(poisoning attacks)和逃避攻击(evasion attacks)。在药饵攻击中,“攻击者提供输入样本,使决策边界偏向对攻击者有利的方向”。而在逃避攻击中,“攻击者会导致模型对样本进行错误的分类”。


例如,在我所熟悉的生物医学环境中,这些攻击可能会导致算法错误地将有害或受污染的样本标记为干净和良性的样本。这可能会导致错误的研究结果,或者不正确的医学诊断。


学习算法也可能被用来驱动专门为帮助骇客而设计的恶意人工智能程序。正如《The Malicious Use of Artificial Intelligence》(《恶意人工智能的报告》)所指出的那样,骇客可以利用人工智能来助攻他们他们对各种组织发起的攻击,从而实施更广泛的攻击面。


机器学习在绕过不安全的物联网设备等方面尤为高效,骇客由此可以更轻松地窃取机密数据,错误操纵企业数据库等等。从本质上来说,“暗黑人工智能”工具可以用来感染或操纵其他人工智能程序的对抗性数据。通常中小型企业受到此类攻击的风险更高,因为他们不具备先进的网络安全指标


保护措施

尽管存在这些问题,但对抗性数据也可以用于好的方面。实际上,许多开发人员已经开始使用对抗性数据来发现自己的系统漏洞,从而使他们能够在骇客利用这些漏洞之前实施安全升级。其他开发人员正在使用机器学习来创建更擅长识别和消除潜在数字威胁的人工智能系统。


正如 Joe Dysart 在《Genetic Engineering & Biotechnology News》(《基因工程与生物技术新闻》)的一篇文章所解释的那样,“许多人工智能工具能够在计算机网络上寻找可疑的活动,在几毫秒内就能够完成可疑活动的分析,并在造成任何损害之前就消除其原因——通常是流氓文件或程序。”


他接着说道,“这种方法不同于传统的 IT 安全方式,传统 IT 安全更侧重于识别已知的具有威胁的特定文件和程序,而不是研究这些文件和程序的行为。”


当然,机器学习算法本身的改进也有助于减少对抗性数据带来的一些风险。然而,最重要的是,这些系统并不是完全独立运行的。依靠人工输入和人工监督来识别强健性特征和非强健性特征之间的差异仍然至关重要,以确保错误的读取不会导致有缺陷的结果。利用真实相关性的额外训练可以进一步降低人工智能的脆弱性。


很显然,在不久的将来,对抗性数据将会继续构成挑战。但在人工智能被用来帮助我们更好地理解人类大脑并解决各种世界问题的时代,解决这种数据驱动型的威胁的重要性不容低估。处理对抗性数据并采取措施对抗暗黑人工智能,应该成为科技世界的首要任务之一。



2019 年 7 月 02 日 08:003799
用户头像

发布了 450 篇内容, 共 153.6 次阅读, 收获喜欢 1369 次。

关注

评论

发布
暂无评论
发现更多内容

Lamda(拉姆达)表达式演化过程

叫练

jdk8 JDK1.8新特性

博睿数据亮相2021中国互联网大会,践行数字政府新路径

博睿数据

博睿数据 数据链DNA

百分点数据科学实验室:智慧应急安全生产智能决策方案建设实践

百分点科技技术团队

5分钟速读之Rust权威指南(四十二)高级函数

码生笔谈

rust

【入门必读】TcaplusDB数据库常见问题解决及诊断技巧集锦-信息咨询类-1

tcaplus

TcaplusDB

Web UI自动化的设计和实践

GrowingIO技术专栏

【得物技术】零拷贝

得物技术

io 网络 零拷贝 流程 传输

终于学完了阿里P8大牛推荐的527页Java性能优化实践文档

Java 编程 架构 面试

模块二作业:微信朋友圈高性能复杂度架构设计

Felix

Magician 1.1.16 is released, the handler adopts annotation configuration

Magician网络编程包

Java nio

便捷赔付,自在出行!亚马逊云科技助力车险业务因“云”而变

亚马逊云科技 (Amazon Web Services)

Python OpenCV 基于图像边缘提取的轮廓发现函数

梦想橡皮擦

7月日更

百分点大数据技术团队:ClickHouse国家级项目性能优化实践

百分点科技技术团队

阿里“保姆级”教程,这份SpringBoot应用到实战手册,满满的精华

Java架构师迁哥

模块二作业

VE

架构实战营

高阶的产品经理是什么样的?

石云升

产品经理 职场经验 7月日更

北鲲云超算:以HPC解决方案助力生命科学领域研究发展

北鲲云

Python 实战(五)| 字符串

JavaFish

极光开发者周刊【No.0716】

极光JIGUANG

利用亚马逊云科技的 Cloudify 实施 5G 网络切片

亚马逊云科技 (Amazon Web Services)

亚马逊云科技携手 Vodafone Business 向欧洲企业推广边缘计算

亚马逊云科技 (Amazon Web Services)

Magician 1.1.16 发布,handler采用注解配置

Magician网络编程包

Java 网络编程 nio

B 站崩了:事情不大,影响不小

Java架构师迁哥

phabricator + gitlab 强制code review

阿呆

gitlab Code Review phabricator

我佛了!花重金求来的并发编程笔记,颠覆了我以往“正确“的认知

Java 编程 程序员

『假如我是面试官』RabbitMQ我会这样问

互联网架构师小马

智能合约DAPP系统开发技术搭建

薇電13242772558

区块链 智能合约

作为程序员,遇到问题时你的解决手段是什么?

阿杰

程序员

昇腾AI的三级跳

脑极体

第四周作业-知识星球加入星球的用例文档

小夏

产品经理训练营 邱岳

架构实战营模块二作业

Clarke

架构实战营

人工智能正在造成无法预料的麻烦_AI_Jordan French_InfoQ精选文章