ImageNet Training in Minutes_语言 & 开发_Alex-zhai_InfoQ精选文章



 写点什么

登录/注册

ImageNet Training in Minutes

摘要与介绍

目前，缩短 DNN 的训练时间是一个热点，通用的方法聚焦于开发一种新的训练算法可在保证不损失精确性的前提下增大 batch 的大小，当然这些方法基本都基于数据并行的同步 SGD 进行参数更新。这其中经历了 batch_size 从 1K 到 8K，再增大到 32K 的过程。本文通过 LARS 算法使用 1000 个 cpu 在 11 分钟内完成了 100 个 epoch 的 Imagenet 训练集的训练，模型是 AlexNet，batch 设的是 32K，取的了 58.6%的 accuracy。另外在 resnet50 模型上，通过 64 个 epoch 的训练，在 14 分钟之内取得了 74.9% top-1 test 集的 accuracy 。另外，当 batch_size 大于 16K 时，通过 LARS 算法训练的准确率要高于 Facebook 的一小时训练 imagenet 那篇文章中的结果。如下图：

本文提出的算法使用了两个硬件：Intel Skylake CPU 和 Intel KNL（通用的深度学习加速器）。看到这心凉了，又是硬件在支撑。。。

计算通信比是指模型的计算代价/通信代价，一般计算通信比越高，越容易通过分布式来进行加速。如下表：ResNet50 的计算通信比要高于 AlexNet，所以 ResNet50 的分布式训练加速效果要好。另外大的 batch_size 可以减小通信代价，因为大的 batch 意味着更少轮次的迭代。

本文使用的方法是：LARS + Warmup。

下面具体介绍下 LARS 算法：

标准的 SGD 对于网络的每一层都使用相同的学习率 LR，当学习率很大时，更新的幅度会很大，容易导致发散的情况。这就使得模型在最初阶段对于 weight 的初始化和学习率设置显得十分重要。另外权重与梯度的 L2-norm 比在不同 weight、layer 见变动很大。

warm-up 方法会在一开始先从小的学习率开始，然后逐步增大到大的学习率。LARS 则会对于每一层使用一个 local 学习率 [公式] ：

其中 [公式] 是整体的学习率，[公式]是每一层的学习率，计算方法为：

如果加上 weight decay 参数 [公式] 后，上式可写成：

完整的 LARS 算法为：

实验结果：

这里就贴一个 resnet50 的结果吧，可以看出使用 LARS 算法可以将 batch size 扩展到 32k，另外还可以使用更廉价的芯片进行计算。使用 512 个 Intel KNL 可在 1 个小时内完成训练。512 个 KNL 按照市场价是 120 万美金，远远低于之前 Facebook 的 410 万美金 (32 台 NVIDIA DGX 工作站)。

与其它方法的对比：

参考文献：

https://arxiv.org/pdf/1709.05011.pdf

https://arxiv.org/pdf/1708.03888.pdf

本文转载自 Alex-zhai 知乎账号。

原文链接：https://zhuanlan.zhihu.com/p/81243154

评论

发布

暂无评论

阿里云可观测 2025 年 5 月产品动态

阿里巴巴云原生

AI 技术在图书馆业务中的应用

北京木奇移动技术有限公司

软件外包公司 AI技术应用图书馆信息化

IPv6检测指标中的IPv6授权体系是什么意思？（国科云）

TTS走向拟人化时代：数据堂高质量语音资源全面支撑模型升级

人工智能数据语音合成语言模型语音数据

飞书多维表格利用 Amazon Bedrock AI 能力赋能业务

亚马逊云科技 (Amazon Web Services）

从 AI Agent 到模型推理：端到端 AI 可观测实践

阿里巴巴云原生

如何使用CAD看图软件放大图纸文字？

cad cad看图 CAD看图王

简单了解一下数据安全定义以及意义

网络安全数据安全堡垒机

2025校招/社招Java八股文面试题库，横扫大厂后端岗

Java 程序员 java面试 Java面试题

让通义灵码越用越懂你？使用记忆功能，打造你的专属编程搭档

阿里云云效

中东AI迷雾里的中美棋局

HPE SPP 2025.05.00.00 - HPE 服务器固件、驱动程序和系统软件包

什么是低代码（Low Code）？低代码平台的组成要素包含有哪些？

低代码低代码开发低代码平台

【JeecgBoot AIGC】AI知识库实战应用与搭建

AI大模型 AI应用 AIGC JeecgBoot

感谢艾瑞白皮书“点名”，但网易的挖掘机器人真不是“打游戏送的”

数字孪生人机协作网易伏羲工程机械

火热报名中丨暨2025第三届中国SRE大会，将于6月26日在上海召开

AI 可观测性 2025SRE大会

Java集合必会14问（精选面试题整理）

Java 程序员 java面试 Java面试题

聚焦科学智能|第412期双清论坛“AI for Science：战略与行动”在京召开

科学智能 AI4S

鸿蒙Next仓颉语言开发实战教程：订单列表

流批一体向量化引擎Flex

大数据 flink 流批一体

这几道Java集合框架面试题在面试中几乎必问

Java 程序员 java面试 Java面试题

让通义灵码越用越懂你？使用记忆功能，打造你的专属编程搭档

阿里巴巴云原生

超实用！手把手教你Dify版本升级

现代财务——智能技术背景下的企业变革

全面预算管理财务管理

四维图新与阿里云达成战略合作,联合打造汽车行业一揽子解决方案

梁汝波：字节跳动要以持续智能突破，坚定服务产业应用

新消费日报

电线电缆行业MES系统：实现智能制造与全流程追溯

万界星空科技

制造业 mes 万界星空科技mes 电线电缆行业电线电缆mes

动漫与游戏产业用到堡垒机的必要性你知道吗？

网络安全等保堡垒机游戏行业

24届软件开发-华为OD面经（Java开发岗）！

程序员高级码农

Java 程序员面试

ZAB 与 Paxos：分布式一致性算法的工程实践与深度对比

zookeeper 分布式 ZAB PAXOS Java.

当AI学会"看图说话"：人类专家如何为视频描述生成器把关？

AI 视频处理