写点什么

AI 犯错谁之过?切勿盲目相信之

  • 2018-11-30
  • 本文字数:2663 字

    阅读完需:约 9 分钟

AI犯错谁之过?切勿盲目相信之

AI 前线导读:


人工智能、机器学习,在这个智能当道的时代,你几乎可以在任何地方看到 AI 的身影,小到你手里的智能手机,大到工厂的超大型生产设备,人们相信人工智能,甚至在某些领域,人们已经开始对 AI 产生了依赖。但是,AI 的判断一定是准确的吗?如果 AI 出现了失误,那么这个责任应该是谁的呢?本文作者 Cassie Kozyrkov 对这一问题提出了他的想法。


更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)


别误会,我其实很喜欢机器学习和人工智能,但我不会盲目地相信它们,你应该也是吧,因为建立有效的、可信任的人工智能或机器学习解决方案是一个建立信任的过程。



图:盲目信任是件可怕的事情


在你开始臆想任何有关机器人或科幻小说的故事之前,先打断一下!


人工智能系统


并不像人类那样,它们只是被赋予了诗意般名字的贴标机。它们之所以不值得信任,是因为一些其他原因。正所谓事实胜于雄辩,让我们来看几个


熟悉的例子


吧。

设定场景

欢迎吸猫。在之前的文章中我们建立了一个分类器将以下这六张图片分为两组。



图:《[揭秘无监督学习(http://bit.ly/quaesita_unsupervisedimg)》中的原始数据集,两只不同的猫的图片。


之前,我们建立的


机器学习系统


成功地返回了我所期望的结果!



图:这个例子是为了说明有监督学习和无监督学习模型成功地将两只猫分开了,并且达到了 100%的训练准确率。


这些图像中共有两只猫,并且模型成功地返回了他们的标签。这意味着我成功地建立了一个Tesla和Huxley分类器,对吗?

我们的想法欺骗了我们

还没这么快!其实我们的期望欺骗了我们!仔细观察这些图片,你会发现,在所有 Tesla 的图片背景中都有散热器,而 Huxley 的则没有。



图:这个系统其实不是一个猫咪检测器。由于确认偏差的存在,我选择性地注意到了我喜欢的结果,而并没有注意到实际上我设计的系统是一个散热器检测器

猫咪检测器还是散热器检测器?

很不幸,实验结果表明,这的确是一个散热器检测器。使用新样本进行测试可能会有所帮助,所以让我们看看是否以这种方式解决问题……



图:事实证明,使用来自同一数据集的更多样本对于解决问题并没有太大帮助。


即使我使用新数据(这些新图片)来测试它,也不会有太多的错误,所以我们的分类器到底有问题吗?


假设 Tesla 总是和散热器一起而 Huxley 总是不和散热器一起,那么谁会在乎它是如何工作的?它总能奏效。它每次都会给出合适的分类,如果是这样就没有问题了。


但这真的是一个很大的假设。如果猫搬到另一间公寓了会怎样?如果你直接使用我的分类器对你的图片进行分类会怎样?


在这些情况下,返回的标签将是“Huxley”,依赖了我的检测器的任意一个关键任务系统都会发生崩溃。

这到底是谁的错?

让我们先分析一下:


  • 将像素转换为标签的方法太过复杂,搞得我一头雾水。

  • 我观察到的只是输入(像素)和输出(Hux / Tes 标签)。

  • 因为我是人,我没有注意到眼皮底下的一些细节(散热器和 Tes 总是一起出现)。

  • 我告诉自己关于输入如何与输出相关的故事不仅被简化了,而且还一厢情愿地偏离了对散热器的解释。

  • 只要我确信过它确实有效,就不必理解它的工作原理的。

  • 检查它是否有效的方法是评估它如何处理以前没有见过的一组相关样本。


到现在为止还挺好,实际上还没有什么问题。你相信很多东西,却不知道它们是如何起作用的,例如我们许多人因为头痛而服用扑热息痛。它的确有效,但科学也无法解释为什么。重要的是,你可以验证扑热息痛确实有效。



图:不知道这种流行了 100 多年的药物在分子水平上如何起作用?科学也不知道。


把复杂的AI系统想成头痛治疗一样。只有确保它们有效,你就会没事。那么是不是这个系统就没有问题了?


可惜的是,我检查了一些样本,这些样本与我希望系统使用的样本不同。


这一次,它出了大问题。只要我们使用适当的样本适当地测试系统,其他就不会有问题。所以答案是:这是我的人为错误



图:如果针对一个任务测试了该系统,然后将其用于其他任务,你期望得到怎样的结果呢?


如果教学的时候我不按考点来教学生,那么他们考试成绩很差不应该是理所当然的吗?如果我的所有样本都来自Tes和散热器总是在一起的世界,那么我只能期望我的分类器只能在那个世界中是有效的。当我把它移到另一个世界,就等于把它放在一个不属于它的地方。应用程序最好是低风险的,因为“我不知道它在超出预设时就不奏效”这样的借口是不存在的。如果你以前不明白,那么现在应该知道了吧。


这就是为什么从一开始就要考虑到你的目标和用户,这点很重要。开始之前一定要指定规格和设置。起一个成年人的责任,否则你只能开发一些玩具一样的应用程序。



图:在涉及更大的事情时,不要只是在不相关的数据集上抛出很酷的流行语。


如果没有熟练和负责任的领导力,我希望你的应用程序永远不要涉及任何人的健康、安全、尊严或未来的事情......

是常识,不是魔术

我一直在使用“样本”这个词而不是“数据”(实际上它们是同样的东西)来提醒你这不是魔术。 ML / AI的要点是,你使用样本而不是描述来表达你所期望的结果 。为了使它起作用,这些样本必须是相关的。并且,任务越复杂,你所需要的样本就越多。你每天都使用样本进行交流,因此你已经知道了这些内容。也许你想知道数学是否表达了不一样的东西,实际上它没有。请放心,常识是你最好的算法。



图:如果你想用样本进行教学,那么这些样本必须是好样本。如果你想要信任你的学生,那么测验必须是好测验。


### 盲目的信任是一件可怕的事情


在你规定的条件之外,你对系统的安全性一无所知,因此请注意:


  • 如果你没有测试它,不要相信它。

  • 如果你没有在【环境】中测试它,请不要相信它在【环境】中的结果。

  • 如果你没有使用【用户群】进行测试,请不要相信【用户群】使用它得到的结果。

  • 如果你没有使用【数据组】进行测试,请不要相信系统在【数据组】上的结果。

  • 如果输入异常,请不要相信你的系统输出是合理的。考虑使用异常值检测和安全网。


如果你使用的工具尚未经过测试,那么你的工具导致的错误应该算到你头上。A 也只是一种工具而已。


查看原文:https://towardsdatascience.com/dont-trust-ai-10a7df520925



链接:http://t.cn/E28YBT9


2018-11-30 18:331563

评论 1 条评论

发布
暂无评论
发现更多内容

JVM C1、C2编译器

FunTester

用友与厦国会联合培训,探索智能会计时代业财融合成功模式

用友BIP

智能会计

重磅签约!美团携手用友推进数智化升级

用友BIP

企业数智化

关于Nuxt.js 服务端组件的使用

秃头小帅oi

如何实现高效代码审查,赋能大规模开发

龙智—DevSecOps解决方案

代码审查

优化开发者体验,推动API测试行业发展,SmartBear收购API设计和文档领域领导者Stoplight

龙智—DevSecOps解决方案

API

深度探索E3PO:360° 视频传输平台的前沿技术与应用

数字扫地僧

E3PO

一键自动修改和翻新OC源码,解决苹果审核4.3和马甲问题

HarmonyOS振动效果开发指导

HarmonyOS开发者

HarmonyOS

MYSQL EXPLAIN 执行计划 | 京东物流技术团队

京东科技开发者

MySQL 数据库 EXPLAIN EXPLAIN执行计划

给 Web 前端工程师看的用 Rust 开发 wasm 组件实战 | 京东云技术团队

京东科技开发者

rust 前端 webassembly 前端组件

Dapp燃烧铸币模式系统开发丨智能合约技术开发

l8l259l3365

法律情境扮演、逆向推理文字游戏、AIGC创作……见证AI极致生产力!

飞桨PaddlePaddle

人工智能 AIGC

喜讯!华秋荣获2023中国产业数字化百强榜企业

华秋电子

走进厦航,体验智能会计时代的业财融合

用友BIP

智能会计 业财融合

07 | 链表(下):如何轻松写出正确的链表代码?

鲁米

Amazon CodeWhisperer 正式发布可免费供个人使用

亚马逊云科技 (Amazon Web Services)

人工智能 Amazon Lambda 云上探索实验室 Amazon CodeWhisperer Amazon Cloud9

2024深圳电子展,加快粤港澳电子信息发展,重点打造湾区经济

AIOTE智博会

电子展 深圳电子展 电子信息展 电博会

对标世界一流!用友已与74家中央企业达成集团级合作!

用友BIP

DDD学习与感悟——总是觉得自己在CRUD怎么办? | 京东云技术团队

京东科技开发者

架构 DDD 软件设计 curd

【高效视频处理】体验火山引擎多媒体处理框架 BMF

数字扫地僧

BMF

京东面试:说说Cookie、Session和Token的区别?

王磊

Java 面试

【FAQ】运动健康服务端侧数据常见问题及解答

HarmonyOS SDK

HMS Core

GPU深度学习性能的三驾马车:Tensor Core、内存带宽与内存层次结构

Baihai IDP

人工智能 程序员 AI gpu LLM

深入理解HarmonyOS UIAbility:生命周期、WindowStage与启动模式探析

华为云开发者联盟

鸿蒙 操作系统 华为云 HarmonyOS 华为云开发者联盟

紫龙游戏解锁Jira与Perforce的游戏开发行业实践

龙智—DevSecOps解决方案

紫龙游戏

拼版不合理案例详解

华秋电子

服务器集群技术有哪几种类型

Geek_f19a80

服务器

08 | 栈:如何实现浏览器的前进和后退功能

鲁米

一次讲清楚京东科技百亿级用户画像平台的探索和实践 | 京东云技术团队

京东科技开发者

数据库 Clickhouse 用户画像 用户画像平台

AI犯错谁之过?切勿盲目相信之_AI&大模型_Cassie Kozyrkov_InfoQ精选文章