2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

ImageNet Training in Minutes

  • 2019-11-29
  • 本文字数:995 字

    阅读完需:约 3 分钟

ImageNet Training in Minutes

摘要与介绍


目前,缩短 DNN 的训练时间是一个热点,通用的方法聚焦于开发一种新的训练算法可在保证不损失精确性的前提下增大 batch 的大小,当然这些方法基本都基于数据并行的同步 SGD 进行参数更新。这其中经历了 batch_size 从 1K 到 8K,再增大到 32K 的过程。本文通过 LARS 算法使用 1000 个 cpu 在 11 分钟内完成了 100 个 epoch 的 Imagenet 训练集的训练,模型是 AlexNet,batch 设的是 32K,取的了 58.6%的 accuracy。另外在 resnet50 模型上,通过 64 个 epoch 的训练,在 14 分钟之内取得了 74.9% top-1 test 集的 accuracy 。另外,当 batch_size 大于 16K 时,通过 LARS 算法训练的准确率要高于 Facebook 的一小时训练 imagenet 那篇文章中的结果。如下图:



本文提出的算法使用了两个硬件:Intel Skylake CPU 和 Intel KNL(通用的深度学习加速器)。看到这心凉了,又是硬件在支撑。。。


计算通信比是指模型的计算代价/通信代价,一般计算通信比越高,越容易通过分布式来进行加速。如下表:ResNet50 的计算通信比要高于 AlexNet,所以 ResNet50 的分布式训练加速效果要好。另外大的 batch_size 可以减小通信代价,因为大的 batch 意味着更少轮次的迭代。



本文使用的方法是:LARS + Warmup。


下面具体介绍下 LARS 算法:


标准的 SGD 对于网络的每一层都使用相同的学习率 LR,当学习率很大时,更新的幅度会很大,容易导致发散的情况。这就使得模型在最初阶段对于 weight 的初始化和学习率设置显得十分重要。另外权重与梯度的 L2-norm 比 在不同 weight、layer 见变动很大。



warm-up 方法会在一开始先从小的学习率开始,然后逐步增大到大的学习率。LARS 则会对于每一层使用一个 local 学习率 [公式] :



其中 [公式] 是整体的学习率,[公式]是每一层的学习率,计算方法为:



如果加上 weight decay 参数 [公式] 后,上式可写成:



完整的 LARS 算法为:



实验结果:


这里就贴一个 resnet50 的结果吧,可以看出使用 LARS 算法可以将 batch size 扩展到 32k,另外还可以使用更廉价的芯片进行计算。使用 512 个 Intel KNL 可在 1 个小时内完成训练。512 个 KNL 按照市场价是 120 万美金,远远低于之前 Facebook 的 410 万美金 (32 台 NVIDIA DGX 工作站)。



与其它方法的对比:



参考文献:


https://arxiv.org/pdf/1709.05011.pdf


https://arxiv.org/pdf/1708.03888.pdf


本文转载自 Alex-zhai 知乎账号。


原文链接:https://zhuanlan.zhihu.com/p/81243154


2019-11-29 08:00766

评论

发布
暂无评论
发现更多内容

架构实战营 - 模块五作业

满心

架构实战营

抓包神器wireshark安装保姆级教程

霍格沃兹测试开发学社

二维码使用技巧:自动填充信息,提高表单填写效率

草料二维码

二维码 草料二维码

软件测试学习笔记丨什么是装箱和拆箱

测试人

软件测试

如何在 Pytest 中添加日志记录

霍格沃兹测试开发学社

合合信息分享数据资产管理经验,释放数据要素价值,发展新质生产力

合合技术团队

合合信息 大数据场景实践 数据资产管理

五大“数据安全咨询服务能力”,让数据安全建设不再迷茫!

极盾科技

数据安全

如何使用pgvector为RDS PostgreSQL构建专属ChatBot?

阿里云瑶池数据库

数据库 阿里云 数据库开发 ChatGPT

云手机运营TikTok需要流量吗?

Ogcloud

云手机 海外云手机 tiktok云手机 云手机海外版 tiktok运营

碳实践 | 你真的会做碳数据收集么?入门必看!

AMT企源

碳管理 碳实践 碳资产

如何选购IPv6+IPv4的双栈美国云服务器

景博

服务器 ipv6 ipv4

海外云手机提供的当地IP有什么好处?

Ogcloud

云手机 海外云手机 云手机海外版 海外原生IP 海外IP

智能推送SDK,你知道的东西太多了!

MobTech袤博科技

知识图谱的演进与基于 OpenSPG+TuGraph 的推理实践

可信AI进展

参与 PenPad Season 2 获得勋章,还有海量 Scroll 生态稀缺权益

加密眼界

得物 Zookeeper SLA 也可以 99.99%!|得物技术

得物技术

Linux 运维 内存 SRE 企业号 4 月 PK 榜

海外云手机怎样助力Tik Tok运营

Ogcloud

云手机 海外云手机 tiktok云手机 云手机海外版 tiktok运营

电商新宠:淘宝拍立淘API接口助力精准搜索商品信息

技术冰糖葫芦

API Explorer api 货币化

从零基础到精通,抓包神器fiddler保姆级使用教程(一)

霍格沃兹测试开发学社

深入了解 Docker:革命性的容器化技术

霍格沃兹测试开发学社

从IoTDB的发展回顾时序数据库演进史

Apache IoTDB

构建只涨不跌的DApp代币合约系统:LP分红项目开发详解

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

ETL中如何运用好MQ消息集成

RestCloud

数据同步 ETL 数据集成工具 mq消息集成

汇点成线,连接世界——福田区点线世界综合服务平台打造投资推广与企业服务新标杆

极客天地

深度解析大模型推理框架:原理、应用与实践

百度开发者中心

人工智能 深度学习 大模型

自定义对象池在Caffeine框架中实践

FunTester

ios ipa包上传需要什么工具

ImageNet Training in Minutes_语言 & 开发_Alex-zhai_InfoQ精选文章