大规模学习该如何权衡得失？解读NeurIPS 2018时间检验奖获奖论文-InfoQ

AI 前线导读：机器学习进展飞速，有时甚至觉得，超过 2 年的想法或算法就过时了，或者就被其他更好的东西所取代。然而有时候，有些旧想法，即使科学界的大部分人已经远离它们，它们仍然很重要。这通常是个上下文的问题：一个在特定的上下文中看起来已经穷途末路的想法也许在另一个上下文中变得极其成功。在深度学习的特定情况下，可用数据和计算能力的增长重新引起了人们对该领域的兴趣，并显著地影响了研究方向。

更多干货内容请关注微信公众号“AI 前线”（ID：ai-front）

NIPS 2007 年的论文《大规模学习的权衡（The Trade-Off of Large Scale Learning）》是由 Léon Bottou（当时在 NEC 实验室工作，现在在 Facebook AI 研究中心工作）和 Olivier Bousquet（就职于苏黎世谷歌 AI研究中心）共同完成的，该论文是这种现象的绝佳实例。作为 NeurIPS 2018 经典论文奖的获奖论文，这项开创性的工作研究了机器学习中的数据和计算之间的相互作用。研究结果显示，即使受到计算能力的限制，仍然可以使用大型数据集，在多个独立训练样本上进行少量的计算比在数据的子集上进行大量的计算更有效率。这证明了随机梯度下降法这个旧算法的强大，如今，几乎所有的深度学习应用都使用了该算法。本文是 AI 前线第 62 篇论文导读，我们将带大家一起回顾这篇经典论文。

优化和扩展挑战

很多机器学习算法都可以看成是以下两个要素的组合：

模型：一个可以用于拟合数据的函数集合。
优化算法：指明如何在该函数集合中找到最佳函数。

回望 90 年代，机器学习中使用的数据集比如今使用的要小很多，尽管人工神经网络已经取得一些成功，但它们仍然被认为难以训练。在 2000 年初，随着“核机器（Kernel Machines）”（特别是 SVM）的引入，神经网络逐渐落伍。同时，大家的注意力从一直用于训练神经网络的优化算法（随机梯度下降法）转移到了用于核机器的那些算法上（quadratic programming，二次规划）。一个重要的区别是，在前一种情况下，一次使用一个训练样本执行梯度步骤（这被称为“随机”），而在后一种情况下，每次迭代时都会用到所有训练样本（这被称为“批处理”）。

随着训练集规模的增长，优化算法处理大量数据的效率成为瓶颈。比如，在二次规划的情况下，运行时间至少是样本数量的二次方。换句话说，如果训练集的规模翻倍，那么训练时间至少要增加 4 倍。因此，为了把这些算法扩展到更大的训练集，人们花费了大量的精力（请参看大规模核机器）。

具有神经网络训练经验的人都知道，随机梯度下降法相对更容易扩展到大型数据集，但是，遗憾的是，它的收敛速度非常慢（要进行大量迭代才能达到与批处理算法的精度），因此，还不清楚这是否是扩展问题的解决方案。

随机算法扩展性更好

事实上，在机器学习的背景中，优化成本函数所需的迭代次数不是主要问题：把模型优化至完美是没有意义的，因为基本上都会“过拟合”训练数据。那么，为什么不减少优化模型所需的计算量，而把精力投入到处理更多的数据呢？

Léon 和 Olivier 的工作是对该现象的正式研究：他们考虑访问大量的数据，并假设限制因素是计算，研究结果表明，最好对每个独立训练样本进行最少量的计算（因而可以处理更多样本），而不是对较少量的数据进行大量的计算。

在这个过程中，他们还证明，在各种可能的优化算法中，随机梯度下降法是最佳算法。这已被很多实验所证实，并引起了人们对在线优化算法的兴趣。如今，在线优化算法已广泛应用在机器学习中。

未解之谜

在随后的几年中，随机梯度下降法在凸优化和非凸优化（特别适合于深度学习）场景中发展出了许多变体。现在最常见的变体是所谓的“小批量（mini-batch）”随机梯度下降法，每次迭代只考虑少量的训练样本（大概是 10 到 100 个之间），在训练集上执行多遍，并利用一些聪明的技巧来适当地扩展梯度。大多数机器学习库提供这类算法的默认实现，它被认为是深度学习的支柱之一。

尽管该分析为理解这个算法的特性提供了坚实的基础，但是，深度学习令人难忘甚至有时令人惊讶的成功不断地向科学界提出更多的问题。具体来说，尽管该算法在泛化深度网络特性中的作用已经被反复证明，但我们仍然未能充分理解。这意味着，还有很多有趣的问题等待我们探索，这些问题有助于我们更好地理解目前在使用的算法，并在未来开发出更高效的算法。

10 年前，Léon 和 Olivier 在合作中提出的观点显著推动了现如今已成为机器学习系统主力、造福我们日常生活的算法的发展。我们衷心祝贺两位作者获得这一当之无愧的奖项。

原文链接：

https://ai.googleblog.com/2018/12/the-neurips-2018-test-of-time-award.html

活动推荐

说到人工智能的应用，你还只停留在围棋和自动驾驶？现阶段的人工智能是否在前一代成果的基础上实现突围？12 月 20 日上午，AICon 人工智能与机器学习解决方案专场，将由腾讯技术大咖带队，从智能问答算法原理、图数据库引擎、高效文本标注工具的实现等维度进行研讨与展示，与大家聊聊 AI 新探索与新应用。报名链接：http://t.cn/EUYzWd5

评论 1 条评论

发布

暂无评论

大规模学习该如何权衡得失？解读NeurIPS 2018时间检验奖获奖论文

优化和扩展挑战

随机算法扩展性更好

未解之谜

活动推荐

评论 1 条评论

第十周作业

第10周微服务&DDD 命题作业

week10

Week10总结

Week 10 命题作业

极客大学架构师训练营 0 期 week 10 学习笔记

第十周课程总结

架构师训练营第10周作业

记一次生产环境tomcat线程数打满情况分析

RPC框架-Dubbo调用过程

DDD

极客大学架构师训练营 0 期 week 10 作业

Week10-Homework

第十周微服务

架构师训练营 Week 10 总结

架构师训练营第 0 期第 10 周作业

架构师训练营 - 第十周 - 总结

第十周作业

week10 作业

微服务架构一点思考和认识

架构师培训 -10 微服务、秒杀

Android | okhttp细枝篇

第十周作业

【架构师训练营】第十期作业

Week10

微服务架构的思考

一次AI使能体系与产业应用的会师：HAI 2020上的华为故事新解

Week 10 作业

架构师训练营 week10

架构师训练营第十周作业

Week 10 学习总结

大规模学习该如何权衡得失？解读NeurIPS 2018时间检验奖获奖论文

优化和扩展挑战

随机算法扩展性更好

未解之谜

活动推荐

评论 1 条评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载