【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

人工智能面临着“可复现性”危机

  • 2019-10-09
  • 本文字数:3148 字

    阅读完需:约 10 分钟

人工智能面临着“可复现性”危机


神经网络是一种技术,这种技术让我们制造出了 Go-mastering 机器人,以及能创作中国古典诗歌的文本生成机器人,但这种技术通常被称作黑盒子,因为它们运转的原理非常神秘。想让它们运作良好可谓是一门艺术,它涉及许多媒体没有报道的微调操作。网络也在变得越来越大、越来越复杂,加上庞大的数据集和庞大的计算机阵列,使得复现和研究这些模型变得非常昂贵,只有资金最充足的实验室才能承担这样的研究。来自麦吉尔大学(McGill)的计算机科学教授若埃尔·皮诺(Joelle Pineau)正试图改变这种局面。本文介绍了当前深度学习领域的一个主要问题,即研究内容的可复现性,可复现性好的研究,这对于技术发展是很重要的,并介绍了学术界对此所做的努力和讨论。



Facebook 的研究人员表示,他们发现要复现 DeepMind 的 AlphaGo 程序 ‘就算能做到,也是非常困难的’ 。图片制作:GETTY IMAGES


几年前,麦吉尔大学(McGill)的计算机科学教授若埃尔·皮诺(Joelle Pineau)在帮助学生设计新的算法,她的学生们当时陷入了困境。她的实验室研究强化学习,这是人工智能的一种,用于帮助虚拟角色(“半猎豹”和“蚂蚁”的虚拟角色很受欢迎)自学如何在虚拟世界中移动。这是制造自动机器人和汽车的先决技术条件。皮诺的学生希望改进实验室的另一个系统。但首先他们必须重建它;不知道出于什么原因,他们的设计未能达到预期的效果,直到学生们尝试了一些其他实验室的论文中没有提过的“创造性的操作”。


瞧,这个系统开始像宣传的那样运行了。皮诺表示,这种幸运的突破是一种让人困扰的趋势的征兆。神经网络是一种技术,这种技术让我们制造出了 Go-mastering 机器人,以及能创作中国古典诗歌的文本生成机器人,但这种技术通常被称作黑盒子,因为它们运转的原理非常神秘。想让它们运作良好可谓是一门艺术,它涉及许多媒体没有报道的微调操作。网络也在变得越来越大、越来越复杂,加上庞大的数据集和庞大的计算机阵列,使得复现和研究这些模型变得非常昂贵,只有资金最充足的实验室才能承担这样的研究——如果能够承担的话。


“那还算是研究吗?”马萨诸塞大学机器学习研究员安娜·罗杰斯(Anna Rogers)问道。“也搞不清楚你是在展示模型的优越性,还是在展示你预算的优越性。”


皮诺正试图改变这种局面。她是顶级人工智能会议 NeurIPS 的可复现性主席。在她的监督下,会议现在要求研究人员提交一份“可复现性清单”,其中包括一些经常从论文中省略的信息,比如在选出“最佳”模型之前训练过的模型数量、使用的计算能力,以及代码和数据集的链接。这是该领域的一次变革——这个领域的参与者声誉建立在排行榜的基础之上(排行榜决定了谁的系统是某项特定任务的“最先进水平”),并提供了大量激励,让人们掩盖得出这些惊人结果背后他们所经历的曲折。


皮诺说,这个想法是为了鼓励研究人员为其他人提供一个复制自己工作的路线图。新文本生成器的口才或电子游戏机器人的“超人”敏捷性的确令人惊讶,但即使是最老练的研究人员也对它们的工作原理知之甚少。复现这些人工智能模型不仅对找出研究的新途径很重要,而且也是一种研究算法的方式,这类算法能够增强,并且在某些情况下能够取代人类做出决策,例如决定谁呆在监狱,多长时间批准抵押贷款等。


其他人也在着手解决这个问题。谷歌的研究人员提出了所谓的“model cards”,来详细说明机器学习系统是如何被测试的,包括指出具有潜在偏差的结果。其他人则试图证明”最先进“这个表述有多脆弱,因为针对排行榜中使用的数据集而进行优化的系统,换到其他环境中就变得非常不可靠。上周,艾伦人工智能研究所 的研究人员发表了一篇论文,旨在将皮诺的可复现性清单扩展到实验过程的其他部分。他们称之为“展示你的作品”。


“从一个人停下的地方开始是如此痛苦,因为我们从来没有完整地描述过实验设置,”AI2 研究员杰西道奇(Jesse Dodge)说,他是这项研究的合著者之一。“如果我们不谈论我们所做的事情,人们就无法复现我们所做的事情。他补充说,当人们公开系统构建过程的基本细节时,大家都会感到惊讶。去年一项关于强化学习论文的调查发现,只有大约一半的论文包含代码。


有时基本信息会丢失,因为它是私有的——这对工业界的实验室来说尤其是个问题。但道奇说,这更多是表明该领域未能跟上不断变化的方法。研究人员为了改善他们的研究结果而做了哪些改变,这在十年前是能比较直观的看到的。相比之下,神经网络则比较讲究;要获得最佳效果,通常需要调节数千个节点,道奇称之为是一种“黑魔法”。选出最佳模型往往需要大量的实验。这种魔法成本变高,速度也变得更快了。


就连大型工业界实验室也发出了警报,它们拥有着设计最大和最复杂系统的资源。当 Facebook 试图复制 AlphaGo 时,研究人员似乎被这项任务搞得筋疲力尽。AlphaGo 是 Alphabet 旗下 DeepMind 开发的一个系统,用来让机器掌握古老的围棋游戏。Facebook 在 5 月份发表的一篇论文中写道,庞大的计算需求——在数千台设备上运行数百万次的实验,加上不可获得的源代码,使得该系统“即使不是不可能,也很难复制、研究、改进和扩展”。(Facebook 团队最终成功了。)


AI2 的研究为这个问题提出了一个解决方案。这个想法就是提供更多的实验数据。你仍然可以报告你在 100 个实验之后得到的最佳模型——这个结果可能被声称为“最先进的”——但是你也可以说明,如果你只有尝试 10 次或者仅仅一次的预算时,你所期望的性能范围会是怎样的。


道奇说,复现性的重点不是准确地复现结果,因为考虑到神经网络代码中的随机因素,以及具体硬件和代码运行的不同,这几乎是不可能的。相反,这个想法是提供一个路线图,以达到与原版的研究相同的结论,特别是涉及到决定哪个机器学习系统最适合某一特定任务时,复现性就尤为重要。


道奇解释说,这可能有助于提高研究效率。当他的团队重建一些流行的机器学习系统时,他们发现在预算约束下,较为陈旧的方法比更酷炫的方法更有意义。这一想法旨在帮助规模较小的学术实验室,让他们大致了解如何让他们的资金得到最大回报。他补充说这样做的一个附带好处是,考虑到训练大型模型可能需要的能源相当于一辆汽车的终生排放量(https://twitter.com/strubell/status/1129408199478661120?lang=en),这种方法还会促使研究变得更为环保。


皮诺说,她很高兴看到其他人试图“开放模型”,但她不确定是否大多数实验室会利用这些节省成本的好处。许多研究人员在压力下还是会使用更多的计算机来保持领先地位,之后才会考虑效率这件事。她还补充说,要为研究人员报告结果的方式做出规范也是很棘手的。AI2 的“展示你的作品”方法可能掩盖了研究人员选择最佳模型过程的复杂性。


这些方法上的差异,部分地解释了为什么 NeurIPS 复现性检查表需要是一个自愿的行为。尤其对工业实验室来说,一个绊脚石是其代码和数据的私有性。比如说,如果 Facebook 正在对你的 Instagram 照片进行研究,那么公开分享这些数据就会有问题。涉及健康数据的临床研究是另一个症结所在。“我们不想切断研究人员与社区的联系,”她说。


换句话说,很难在不限制研究人员的情况下开发出可复现性的标准,尤其是在方法快速发展的情况下难度更大。但皮诺很乐观。NeurIPS 可复现性工作的另一个挑战是要求其他研究人员复现已接受的论文。与其他领域相比(如生命科学,其中旧的方法会持续使用很久),这个领域中的研究人员更习惯于身处那种灵敏而快速变化的环境中。她表示:“无论是从人才还是技术角度来看,这个领域都很年轻,挡在路上的惯性思维更少。”

作者介绍

Gregory Barber 是 WIRED 网站的一位专职作家,撰写区块链,AI 和技术策略方面的文章。他是哥伦比亚大学计算机科学和英语文学专业的学士,现居于旧金山。


原文链接:


https://www.wired.com/story/artificial-intelligence-confronts-reproducibility-crisis


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-10-09 09:001713
用户头像

发布了 61 篇内容, 共 23.8 次阅读, 收获喜欢 135 次。

关注

评论

发布
暂无评论
发现更多内容

高规格、高并发、即开即用:和鲸携手北中医,打造 AI 人才选拔的最佳实践

ModelWhale

人工智能 大数据 高等教育 人才选拔 实践考核

CODING 界面全新升级,代码仓库 Rebase 变基合并、批量复制事项等功能上线!

CODING DevOps

如何通过 NFTScan API 按照 NFT 合约地址检索数据?

NFT Research

NFT NFT\ NFTScan

是否拥有具身智能,是扫地机器人能否打破“内卷”的关键

脑极体

AI 智能扫地机器人

智能量化合约跟单系统开发技术/量化交易/合约跟单交易

V\TG【ch3nguang】

文本识别工具 TextSniper 免激活最新版

胖墩儿不胖y

OCR截图文字识别工具 OCR识别

一文吃透零代码、低代码和aPaaS系统

这我可不懂

低代码 零代码 aPaaS

蓝易云:介绍Nginx、正向代理和实现反向代理的两个实例

百度搜索:蓝易云

nginx 云计算 Linux 运维 Web

低代码平台为企业应用开发提速

树上有只程序猿

低代码

统一观测丨使用 Prometheus 监控 SQL Server 最佳实践

阿里巴巴云原生

阿里云 云原生 Prometheus

Grafana 10 新特性解读:体验与协作全面提升

阿里巴巴云原生

阿里云 云原生 Grafana

蓝易云:ubuntu编译安装pcl教程。

百度搜索:蓝易云

云计算 Linux ubuntu 运维 PCL

秒合约丨永续合约丨交易所系统开发方案

V\TG【ch3nguang】

鹅厂练习 13 年 Coding 后,我悟了

CODING DevOps

苹果上架常见问题-appstore开发者名称修改

雪奈椰子

Python 集合(Sets)3

小万哥

Python 程序员 软件 后端 开发

手把手带你用Python和文心一言搭建《AI看图写诗》网页项目

袁袁袁袁满

Python 人工智能

音频技术团队空降直播间,揭秘小红书语音技术创新探索与落地实践

小红书技术REDtech

音频 #人工智能

Cloud Kernel SIG 月度动态:发布多个 ANCK 版本,引入多个第三方硬件驱动

OpenAnolis小助手

Linux 龙蜥社区 anck kernel 龙蜥sig

Chrome 118 版本中的新功能

南城FE

CSS chrome 前端 浏览器

Linux桌面环境(桌面系统)

智趣匠

VR虚拟现实:技在医疗行业的具体应用

3DCAT实时渲染

VR虚拟现实

现货期权合约量化/量化合约/秒合约/永续合约/交易所系统开发(开发案例及源码)

V\TG【ch3nguang】

Apache Dubbo 首个 Node.js 3.0-alpha 版本正式发布

阿里巴巴云原生

阿里云 云原生 dubbo

多功能记事本 Notebooks for Mac激活最新版

mac大玩家j

Mac软件 笔记软件 笔记本工具

PPT制作软件哪个好?各种类型的10款好用PPT软件盘点!

彭宏豪95

效率 PPT PPT模板 办公软件 效率办公

低代码:避免重复造轮子的高效工具

互联网工科生

低代码 造轮子 JNPF

1000字扫盲RTC

X2Rtc

开源 音视频 CDN RTC

全力以赴,火山引擎边缘云代表团出战亚运会

火山引擎边缘云

电竞 边缘云 边缘云原生 亚运会

golang面试基础-sync.map

Quincy

golang 数据结构 面试 后端

永续杠杆合约交易/系统程序开发/合约策略跟单/秒合约交易源码模型

V\TG【ch3nguang】

人工智能面临着“可复现性”危机_AI&大模型_Gregory Barber_InfoQ精选文章