研究了50篇论文后，他发现AI领域的某些进步其实就是炒作_AI&大模型_Matthew Hutson



 写点什么

研究人员评估了 81 种剪枝算法、程序，它们通过对不需要的连接进行剪枝来提高神经网络的效率。这些方法差别不大，但所有人都宣称自己具有优越性。然而，很少有人对它们进行恰当的比较——当研究人员设法把它们放在一起评估时，并没有明确的证据可以表明近 10 年来它们的性能有什么改善。

本文最初发布于科学杂志，由 InfoQ 中文站翻译并分享。

人工智能（AI）似乎变得越来越聪明。每一部 iPhone 都比上一部更了解你的脸、声音和习惯，人工智能对隐私的威胁也在不断增加，职位也在不断增加。这种激增反映了更快的芯片、更多的数据和更好的算法。但是，麻省理工学院的计算机科学研究生 Davis Blalock 说，有一些改进是来自微调，而不是发明者声称的核心创新，而有些改进可能根本就不存在。Blalock 和他的同事比较了几十种改进神经网络的方法（大致模仿大脑的软件架构）。他说，“在研究了 50 篇论文之后，事情已经变得很清晰，当时的技术水平到底如何并不是一件显而易见的事情。”

研究人员评估了 81 种剪枝算法、程序，它们通过对不需要的连接进行剪枝来提高神经网络的效率。这些方法差别不大，但所有人都宣称自己具有优越性。然而，很少有人对它们进行恰当的比较——当研究人员设法把它们放在一起评估时，并没有明确的证据可以表明近 10 年来它们的性能有什么改善。今年 3 月，在机器学习与系统大会上公布的这一结果让 Blalock 的博士生导师、麻省理工学院的计算机科学家 John Guttag 感到意外，他指出，这种无规则的对比本身就说明了技术发展的停滞。Guttag 说，“老话说得好，无法度量就无法改进，对吧？”

研究人员逐渐意识到，人工智能的许多子领域的进展都出现了问题。2019 年开展的一项针对搜索引擎中使用的信息检索算法的元分析表明，“最高点……实际上出现在 2009 年。”2019 年的另一项研究再现了 7 个神经网络推荐系统，这类系统主要用于流媒体服务。研究发现，有六种算法的性能没有超过多年前开发的简单许多的非神经算法（这些早期的技术当时都经过了调优），揭示了该领域的“进展幻象”。

今年 3 月，来自康奈尔大学的计算机科学家 Kevin Musgrave 在 arXiv 网站上发表了一篇论文，他研究了损失函数，这是这类算法的一部分，从数学上明确了算法的目标。Musgrave 在一项涉及图像检索的任务中，基于同样的标准对其中的 12 种方法进行了比较，结果发现，与开发人员的说法相反，准确性自 2006 年以来就再没有提高。Musgrave 说：“这一直以来都是炒作。”

机器学习算法的性能增强可以来自其架构、损失函数或优化策略（如何使用反馈进行改进）的根本性变化。来自卡耐基梅隆大学的计算机科学家 Zico Kolter 表示，对上述任何一种技术进行细微的调整都可以提高性能。Kolter 的研究内容是经过训练后能够对黑客的“对抗性攻击”免疫的图像识别模型。一种被称为投影梯度下降（PGD）的早期对抗性训练方法（该方法会同时在真假样例上进行简单的训练），似乎已经被更复杂的方法所超越。但在今年 2 月 arXiv 发表的一篇论文中，Kolter 和他的同事们发现，当使用一个简单的技巧来对它们进行增强时，所有方法的效果都差不多。

在经过适度调整后，旧的图像检索算法和新算法的性能一样好，这表明，实际的创新很少。

“这非常令人惊讶，这一点我们以前没有发现，”Kolter 的博士生 Leslie Rice 说。而 Kolter 表示，他的发现表明，像 PGD 这样的创新很难做到，而且很少有实质性的改进。“很明显，PGD 实际上就是一种正确的算法，”他说，“这显而易见，而人们希望找到更为复杂的解决方案。”

其他主要算法的进步似乎也经受住了时间的考验。1997 年，一种被称为长短时记忆（LSTM）的架构在语言翻译方面取得了重大突破。在经过适当的训练后，LSTM的性能可以与20年后开发的更先进的架构相媲美。另一个机器学习的突破出现在 2014 年的生成对抗网络（GAN）中，举例来说，它可以将网络以生成-判别循环的方式进行配对，以提高它们生成图像的能力。据2018年的一篇论文报道，只要计算能力足够，原始的 GAN 方法就可以与后续几年的方法相媲美。

Kolter 说，与调整现有算法相比，研究人员更愿意去创造一种新的算法，并对其进行调整，直到达到最先进的水平。他指出，调整现有算法可能显得不那么新颖，使得“发表论文的难度大大增加”。

Guttag 说，算法的发明者不希望与他人的算法进行彻底的性能比较，结果却发现他们的突破性进展并不是他们所认为的那样。“比较太仔细是有风险的。”同时，那也是一项艰苦的工作：人工智能研究人员使用不同的数据集、调优方法、性能指标和基线。“完全的横向对比是不现实的。”

一些夸大性能的说法可以归因于该领域的爆炸性增长，该领域的论文数量超过了有经验的审稿人。Blalock 说，“这似乎是成长的烦恼”。他敦促审稿人，要坚持与基准进行更好地比较，并表示，更好的工具将有所帮助。今年早些时候，Blalock 的合著者、麻省理工学院研究员 Jose Gonzalez Ortiz 发布了一款名为 ShrinkBench 的软件，它可以让人们更轻松地比较剪枝算法。

研究人员指出，即使新方法在本质上并不比旧方法更好，但他们所实现的调整也可以应用到之前的算法上。每隔一段时间，就会有一个新的算法出现。“这几乎就像一个风险投资组合，”Blalock 说，“其中一些业务并没有真正发挥作用，但有些却非常成功。”

查看英文原文：

https://www.sciencemag.org/news/2020/05/eye-catching-advances-some-ai-fields-are-not-real

评论 1 条评论

发布

Earth_Polarbear

大多数AI仍旧是基于既定逻辑的判断，虽然也有很多可以在交互过程中“学习”，但是仍旧很难将所“学”的转化为既定逻辑的补充。神经网络需要在特定边界内有自我完善的能力才能够成为真正的AI。

2020-06-13 00:34

 1 回复

没有更多了

创作场景

研究了 50 篇论文后，他发现 AI 领域的某些进步其实就是炒作

评论 1 条评论

寻找被遗忘的勇气（二十五）

管理者如何应对员工离职

聊一聊 Vue 3 双向绑定是如何工作的

聊聊LiteOS中生成的Bin、HEX、ELF三种文件格式

要求输出事故报告，线上日志文件却不见了！！

Java后端开发面试题之MySQL上篇（含答案）

作为后端开发人员应该懂的TCP、HTTP、Socket、Socket连接池，一文详解丨Linux后端开发

常见Http响应码

JVM疑难情况分析

你不知道的 Proxy

Python基础之:Python中的IO

风暴眼中的“以太坊”堪比堵车的北京东三环，NA公链(Nirvana)NAC公链对垒胜算几何?

智慧公安一键扫描二维码报警定位系统

9种常用便捷的Java异常处理方法，帮你脱身繁琐

架构师训练营第一课学习笔记

坚持输出文字

17张图带你搞懂ZooKeeper一致性原理！

金三银四了！必知必会，HTTP面试题！漫画图解超硬核！

另类数据：投资中的怪咖

区块链产品宗谱链，一款记录族谱的APP

智能化软件开发微访谈·第十六期：低代码/无代码开发

发展数字经济要因地制宜

设计与思考，关于资源和生命周期（二）

为什么很多工程师不了解Serverless

35岁了，还不知道，TCP为什么会粘包？【硬核图解】

初识Golang之函数及方法的多返回值

Wireshark数据包分析学习笔记Day22

Redis - 替换策略：LRU和LFU

Python OpenCV 图像缩放 cv2.resize 方法

这个 29.7 K 的剪贴板 JS 库有点东西！

JSP中Vue.js的使用受限

创作场景

研究了 50 篇论文后，他发现 AI 领域的某些进步其实就是炒作

评论 1 条评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载