写点什么

人工智能面临着“可复现性”危机

  • 2019-10-09
  • 本文字数:3148 字

    阅读完需:约 10 分钟

人工智能面临着“可复现性”危机


神经网络是一种技术,这种技术让我们制造出了 Go-mastering 机器人,以及能创作中国古典诗歌的文本生成机器人,但这种技术通常被称作黑盒子,因为它们运转的原理非常神秘。想让它们运作良好可谓是一门艺术,它涉及许多媒体没有报道的微调操作。网络也在变得越来越大、越来越复杂,加上庞大的数据集和庞大的计算机阵列,使得复现和研究这些模型变得非常昂贵,只有资金最充足的实验室才能承担这样的研究。来自麦吉尔大学(McGill)的计算机科学教授若埃尔·皮诺(Joelle Pineau)正试图改变这种局面。本文介绍了当前深度学习领域的一个主要问题,即研究内容的可复现性,可复现性好的研究,这对于技术发展是很重要的,并介绍了学术界对此所做的努力和讨论。



Facebook 的研究人员表示,他们发现要复现 DeepMind 的 AlphaGo 程序 ‘就算能做到,也是非常困难的’ 。图片制作:GETTY IMAGES


几年前,麦吉尔大学(McGill)的计算机科学教授若埃尔·皮诺(Joelle Pineau)在帮助学生设计新的算法,她的学生们当时陷入了困境。她的实验室研究强化学习,这是人工智能的一种,用于帮助虚拟角色(“半猎豹”和“蚂蚁”的虚拟角色很受欢迎)自学如何在虚拟世界中移动。这是制造自动机器人和汽车的先决技术条件。皮诺的学生希望改进实验室的另一个系统。但首先他们必须重建它;不知道出于什么原因,他们的设计未能达到预期的效果,直到学生们尝试了一些其他实验室的论文中没有提过的“创造性的操作”。


瞧,这个系统开始像宣传的那样运行了。皮诺表示,这种幸运的突破是一种让人困扰的趋势的征兆。神经网络是一种技术,这种技术让我们制造出了 Go-mastering 机器人,以及能创作中国古典诗歌的文本生成机器人,但这种技术通常被称作黑盒子,因为它们运转的原理非常神秘。想让它们运作良好可谓是一门艺术,它涉及许多媒体没有报道的微调操作。网络也在变得越来越大、越来越复杂,加上庞大的数据集和庞大的计算机阵列,使得复现和研究这些模型变得非常昂贵,只有资金最充足的实验室才能承担这样的研究——如果能够承担的话。


“那还算是研究吗?”马萨诸塞大学机器学习研究员安娜·罗杰斯(Anna Rogers)问道。“也搞不清楚你是在展示模型的优越性,还是在展示你预算的优越性。”


皮诺正试图改变这种局面。她是顶级人工智能会议 NeurIPS 的可复现性主席。在她的监督下,会议现在要求研究人员提交一份“可复现性清单”,其中包括一些经常从论文中省略的信息,比如在选出“最佳”模型之前训练过的模型数量、使用的计算能力,以及代码和数据集的链接。这是该领域的一次变革——这个领域的参与者声誉建立在排行榜的基础之上(排行榜决定了谁的系统是某项特定任务的“最先进水平”),并提供了大量激励,让人们掩盖得出这些惊人结果背后他们所经历的曲折。


皮诺说,这个想法是为了鼓励研究人员为其他人提供一个复制自己工作的路线图。新文本生成器的口才或电子游戏机器人的“超人”敏捷性的确令人惊讶,但即使是最老练的研究人员也对它们的工作原理知之甚少。复现这些人工智能模型不仅对找出研究的新途径很重要,而且也是一种研究算法的方式,这类算法能够增强,并且在某些情况下能够取代人类做出决策,例如决定谁呆在监狱,多长时间批准抵押贷款等。


其他人也在着手解决这个问题。谷歌的研究人员提出了所谓的“model cards”,来详细说明机器学习系统是如何被测试的,包括指出具有潜在偏差的结果。其他人则试图证明”最先进“这个表述有多脆弱,因为针对排行榜中使用的数据集而进行优化的系统,换到其他环境中就变得非常不可靠。上周,艾伦人工智能研究所 的研究人员发表了一篇论文,旨在将皮诺的可复现性清单扩展到实验过程的其他部分。他们称之为“展示你的作品”。


“从一个人停下的地方开始是如此痛苦,因为我们从来没有完整地描述过实验设置,”AI2 研究员杰西道奇(Jesse Dodge)说,他是这项研究的合著者之一。“如果我们不谈论我们所做的事情,人们就无法复现我们所做的事情。他补充说,当人们公开系统构建过程的基本细节时,大家都会感到惊讶。去年一项关于强化学习论文的调查发现,只有大约一半的论文包含代码。


有时基本信息会丢失,因为它是私有的——这对工业界的实验室来说尤其是个问题。但道奇说,这更多是表明该领域未能跟上不断变化的方法。研究人员为了改善他们的研究结果而做了哪些改变,这在十年前是能比较直观的看到的。相比之下,神经网络则比较讲究;要获得最佳效果,通常需要调节数千个节点,道奇称之为是一种“黑魔法”。选出最佳模型往往需要大量的实验。这种魔法成本变高,速度也变得更快了。


就连大型工业界实验室也发出了警报,它们拥有着设计最大和最复杂系统的资源。当 Facebook 试图复制 AlphaGo 时,研究人员似乎被这项任务搞得筋疲力尽。AlphaGo 是 Alphabet 旗下 DeepMind 开发的一个系统,用来让机器掌握古老的围棋游戏。Facebook 在 5 月份发表的一篇论文中写道,庞大的计算需求——在数千台设备上运行数百万次的实验,加上不可获得的源代码,使得该系统“即使不是不可能,也很难复制、研究、改进和扩展”。(Facebook 团队最终成功了。)


AI2 的研究为这个问题提出了一个解决方案。这个想法就是提供更多的实验数据。你仍然可以报告你在 100 个实验之后得到的最佳模型——这个结果可能被声称为“最先进的”——但是你也可以说明,如果你只有尝试 10 次或者仅仅一次的预算时,你所期望的性能范围会是怎样的。


道奇说,复现性的重点不是准确地复现结果,因为考虑到神经网络代码中的随机因素,以及具体硬件和代码运行的不同,这几乎是不可能的。相反,这个想法是提供一个路线图,以达到与原版的研究相同的结论,特别是涉及到决定哪个机器学习系统最适合某一特定任务时,复现性就尤为重要。


道奇解释说,这可能有助于提高研究效率。当他的团队重建一些流行的机器学习系统时,他们发现在预算约束下,较为陈旧的方法比更酷炫的方法更有意义。这一想法旨在帮助规模较小的学术实验室,让他们大致了解如何让他们的资金得到最大回报。他补充说这样做的一个附带好处是,考虑到训练大型模型可能需要的能源相当于一辆汽车的终生排放量(https://twitter.com/strubell/status/1129408199478661120?lang=en),这种方法还会促使研究变得更为环保。


皮诺说,她很高兴看到其他人试图“开放模型”,但她不确定是否大多数实验室会利用这些节省成本的好处。许多研究人员在压力下还是会使用更多的计算机来保持领先地位,之后才会考虑效率这件事。她还补充说,要为研究人员报告结果的方式做出规范也是很棘手的。AI2 的“展示你的作品”方法可能掩盖了研究人员选择最佳模型过程的复杂性。


这些方法上的差异,部分地解释了为什么 NeurIPS 复现性检查表需要是一个自愿的行为。尤其对工业实验室来说,一个绊脚石是其代码和数据的私有性。比如说,如果 Facebook 正在对你的 Instagram 照片进行研究,那么公开分享这些数据就会有问题。涉及健康数据的临床研究是另一个症结所在。“我们不想切断研究人员与社区的联系,”她说。


换句话说,很难在不限制研究人员的情况下开发出可复现性的标准,尤其是在方法快速发展的情况下难度更大。但皮诺很乐观。NeurIPS 可复现性工作的另一个挑战是要求其他研究人员复现已接受的论文。与其他领域相比(如生命科学,其中旧的方法会持续使用很久),这个领域中的研究人员更习惯于身处那种灵敏而快速变化的环境中。她表示:“无论是从人才还是技术角度来看,这个领域都很年轻,挡在路上的惯性思维更少。”

作者介绍

Gregory Barber 是 WIRED 网站的一位专职作家,撰写区块链,AI 和技术策略方面的文章。他是哥伦比亚大学计算机科学和英语文学专业的学士,现居于旧金山。


原文链接:


https://www.wired.com/story/artificial-intelligence-confronts-reproducibility-crisis


2019-10-09 09:002026
用户头像

发布了 61 篇内容, 共 26.5 次阅读, 收获喜欢 135 次。

关注

评论

发布
暂无评论
发现更多内容

【T1543.003】利用 ACL 隐藏恶意 Windows 服务

比伯

Java 大数据 编程 架构 计算机

cglib入门后篇

Rayjun

Java cglib

「Java并发编程」从源码分析几道必问线程池的面试题?

Java架构师迁哥

当代开发者的六大真实现状,你被哪一个场景“戳中”了?

华为云开发者联盟

开发者 调研 报告

JVM真香系列:轻松掌握JVM运行时数据区

田维常

JVM

涨薪神作!华为内部操作系统与网络协议笔记爆火,Java程序员有福了

Java架构之路

Java 程序员 面试 编程语言

Java垃圾回收GC概览

Java JVM GC

京东技术中台Flutter实践之路(二)

京东科技开发者

开源 中台 大前端 Web UI

把最新JAVA面试真题(阿里/字节跳动/美团)整理出来,却被自己菜哭了,赶紧去刷题了

Java架构追梦

Java 阿里巴巴 架构 面试

TCP性能分析与调优策略

程序员 计算机网络 网络协议

数字人民币都来了 黄金还有什么用?

CECBC

数字货币

5G为数字化转型插上翅膀

CECBC

5G网络安全

anyRTC Flutter SDK :全面实现跨平台音视频互动

anyRTC开发者

音视频 WebRTC RTC sdk 安卓

简要分析近几年商业软件开发平台的现状

Philips

敏捷开发 快速开发 企业应用

LeetCode题解:剑指 Offer 22. 链表中倒数第k个节点,使用数组,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

云计算简史(完整版)

明道云

从一场“众盟科技云滇之播”,我们发现了美食直播的商业与公益价值

人称T客

从零到千万用户,我是如何一步步优化MySQL数据库的?

冰河

数据库 架构 性能优化 分布式数据库 分布式存储

IPFS云算力挖矿系统开发技术

薇電13242772558

区块链 IPFS

马士兵老师首推Java七条自学路线,自学到底能不能行?自学也能拿到40W年薪?

Java架构追梦

Java 架构 面试 马士兵 项目实战

【算法题目解析】杨氏矩阵数字查找

程序员架构进阶

算法 二分查找 杨氏矩阵

区块链产业,怎样“链”住未来?

CECBC

区块链

完美!阿里P8都赞不绝口的世界独一份489页SQL优化笔记

Java~~~

Java 数据库 程序员 架构师 SQL优化

《迅雷链精品课》第二课:区块链核心技术框架

迅雷链

区块链

Docker

可以解除程序员中年危机的职业规划

Java架构师迁哥

非线性声学回声如何破解?华为云硬核技术为你解决

华为云开发者联盟

算法 音视频

Redis基础—了解Redis是如何做数据持久化的

数据库 redis 编程 计算机

阿里云视频云实时字幕技术,助力英雄联盟S10全球总决赛

阿里云CloudImagine

游戏开发 直播 语音识别 字幕

Java程序员必备,Github上星标55.9k的微服务神级笔记简直太香了,学完感觉自己又行了!

Java架构之路

Java 程序员 架构 面试 编程语言

Pulsar Summit Asia 2020 中文专场议题出炉!

Apache Pulsar

大数据 开源 Apache Pulsar

人工智能面临着“可复现性”危机_AI&大模型_Gregory Barber_InfoQ精选文章