NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

CPU 上运算比 GPU 还快?美国莱斯大学最新研究克服硬件障碍

  • 2020-03-11
  • 本文字数:2773 字

    阅读完需:约 9 分钟

CPU上运算比GPU还快?美国莱斯大学最新研究克服硬件障碍

美国莱斯大学的计算机科学家们发明了一种在 CPU 上比 GPU 更快地训练深度神经网络的算法 SLIDE,克服了人工智能产业迅速发展的一个主要障碍,证明了在不依赖于图形处理单元(GPU)等专业级加速硬件的情况下,也能够实现对深度学习技术的加速。


根据外媒报道,莱斯大学的计算机科学家们已经克服了人工智能产业迅速发展的一个主要障碍,他们证明了在不依赖于图形处理单元(GPU)等专业级加速硬件的情况下,也能够实现对深度学习技术的加速。这个名为 SLIDE 的算法是第一个在 CPU 上比 GPU 更快地训练深度神经网络的算法。


在奥斯汀召开的 2020 机器学习系统会议MLSys上,来自莱斯大学的计算机科学家们,在来自英特尔公司的合作伙伴的支持下,于 3 月 2 日在奥斯汀会议中心展示了他们的最新研究成果。


当下,为了实现深度学习,许多公司正大力投资图形处理单元(GPU)和其他专业级硬件。如今,亚马逊 Alexa 和苹果 Siri 等智能助理、面部识别、产品推荐系统和其他技术都有深度学习在背后作为支撑。深度学习炙手可热的程度可以举一例说明,作为一手打造该行业金字招牌“特斯拉V100 Tensor Core GPU”芯片的制造商,Nvidia 公司最近的财务报告显示,其 2019 第四季度收入同比增长了 41%。


莱斯大学的研究人员创造了一种可替代 GPU 的节省成本的算法,称为“次线性深度学习引擎”(sub-linear deep learning engine,简称 SLIDE),这种算法只需使用一般通用的中央处理器(CPU),而无需专业级的加速硬件。


“我们的测试表明,SLIDE 是第一个基于 CPU 实现的深度学习智能算法,它的性能可以超越那些依照产业规模的建议采用大型全连接架构,使用 GPU 硬件加速的方法”,Anshumali Shrivastava这样说。这位莱斯大学布朗工程学院的助理教授与研究生Beidi ChenTharun Medini一起开发了该 SLIDE 算法。


SLIDE 不需要依赖于 GPU,因为这种算法从根本上采用了一种完全不同的深度学习方法。深度神经网络训练技术标准的“反向传播”算法需要矩阵乘法,如此繁重的计算量正是适合 GPU 发挥性能的理想场所。然而,通过 SLIDE 算法,Shrivastava、Chen 和 Medini 把神经网络训练转变成为一个可以用哈希表来解决的搜索问题。


与反向传播训练技术相比,这种 SLIDE 算法可以从根本上减少大量的计算开销。Shrivastava 举例说,诸如亚马逊、谷歌以及其他公司使用 GPU 打造的基于云的深度学习服务的顶级平台,一般会使用 8 块“特斯拉 V100”芯片,其费用约为 10 万美元。


莱斯大学计算机科学研究生 Beidi Chen 和 Tharun Medini 参与开发了 SLIDE,这是一种无需依赖图形处理单元对深度神经网络进行训练的算法。


“我们有一个在实验室运行的测试用例,它完全能承载一块 V100 芯片的工作负荷,即一个适用于 GPU 内存的,运行在大型全连接网络中超过 1 亿个参数的计算量”,Shrivastava 说,“我们用谷歌的 TensorFlow 软件包来训练该算法,它只花了 3 个半小时就完成了训练。”


“我们随后证明,新算法甚至可以在一小时内完成该训练,而且并不是运行在 GPU 上,而是运行在 44 核的 xeon-class CPU 上,” Shrivastava 说。


深度学习网络的灵感来自生物学,其核心特征是人工神经元,这些神经元是一小段可以学习并执行特定任务的计算机代码。一个深度学习网络可能包含数百万甚至数十亿这种人工神经元,只要通过对海量数据的学习,这些神经元共同工作就有可能学习并做出与人类水平相当的专家决策。例如,如果一个深度神经网络被训练来识别照片中的物体,当识别一张猫的照片或是识别一辆校车时,它将使用不同的神经元来进行学习。


“你不需要对每个用例的所有神经元都进行训练,” Medini 解释说,“我们是这样想的,如果只挑选相关的神经元,那这就变成了一个搜索问题。因此,从算法上讲,我们的想法就是使用局部敏感哈希算法来避免矩阵乘法的复杂性。”


哈希算法是 20 世纪 90 年代为互联网搜索发明的一种数据索引方法。它使用数字方法将大量信息,例如整个网站所有网页或一本书的所有章节,编码为一串称为哈希散列的数字。哈希表就是记录这些哈希散列值并可以实现快速搜索的列表。


“在 TensorFlow 或 PyTorch 上实现我们的算法是毫无意义的,因为这些软件执行的第一件事就是不管三七二十一先把你正在做的事情转换成一个矩阵乘法问题,” Chen 说。“而这正是我们的算法想要避免的。所以我们是从零开始写我们自己的 C++代码的。”


Shrivastava 说,SLIDE 相对于反向传播的最大优势在于它采用了数据并行的方式。


“我的意思是,通过数据并行,如果我想要训练两个数据实例,比方说一个是一只猫的形象,另一个是公共汽车,他们可能会激活不同的神经元,该 SLIDE 算法可以对这两个实例分别独立地进行更新或训练,” 他说,“这就大大地提高了 CPU 并行性的利用率。”


“另一方面,与 GPU 相比,我们需要更大的存储空间,” 他说,“在主存储器中有一个缓存层次结构,如果你使用时不够小心,可能会遇到一个叫做内存颠簸(cache thrashing)的问题,那样就会发生大量缺页中断。”


Shrivastava 说,他的团队第一次使用SLIDE进行实验时,就发生了严重的内存颠簸,但他们的训练时间仍然与 GPU 的训练时间相当,甚至更快。于是,他、Chen 和 Medini 于 2019 年 3 月在arXiv上发布了初步实验结果,并将他们的代码上传到 GitHub。几周后,英特尔公司主动联系了他们。


“来自英特尔的合作伙伴注意到了我们实验中的缓存问题,” 他说,“他们告诉我们,他们可以与我们进行合作,让这个算法更快地完成训练,之后的事实证明他们是正确的。在他们的帮助下,我们的实验性能又提高了约 50%。”


Shrivastava 说,SLIDE 还远远未达到其最大潜力。


“我们只能算是初尝甜头而已,” 他说,“我们还可以做很多事情来对这个算法进行优化。例如,我们还没有使用矢量化,也没有在 CPU 中使用内置的加速器,比如 Intel Deep Learning Boost 技术。我们还有很多其他的技巧可以让这个算法变得更快。”


Shrivastava 说,SLIDE 的重要性在于,它证明了还有其他方式来实现深度学习。


“我们想要传达的整个信息是,不要被矩阵乘法和 GPU 内存这两个瓶颈所限制住,” Chen 说,“我们的算法可能是第一个击败 GPU 的算法,但我希望它不是最后一个。这个领域需要新的想法,而这正是这次 MLSys 机器学习系统会议的重要意义所在。”


该算法的其他共同作者包括 James Farwell、Sameh Gobriel 和 Charlie Tai,他们都是来自英特尔实验室的成员。该研究还得到了美国国家科学基金会(NSF-1652131, NSF-BIGDATA 1838177)、空军科研办公室(FA9550-18-1-0152)、亚马逊和海军研究办公室的支持。


相关链接和资源:


MLSys 机器学习系统会议文件:


https://www.cs.rice.edu/~as143/Papers/SLIDE_MLSys.pdf


作者介绍:


Jade Boyd,莱斯大学公共事务办公室的科学编辑和新闻与媒体关系副主任。


英文原文:


Deep learning rethink overcomes major obstacle in AI industry


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-03-11 09:001895
用户头像
赵钰莹 InfoQ 主编

发布了 875 篇内容, 共 605.6 次阅读, 收获喜欢 2671 次。

关注

评论

发布
暂无评论
发现更多内容

Docker搭建Hadoop集群教程。

百度搜索:蓝易云

Docker hadoop Linux 运维 运维云计算

WebSocket是什么,怎么用?

百度搜索:蓝易云

云计算 Linux TCP 运维 websocket

高性价比的轻量应用服务器

Hanson

JixiPix Rip Studio for mac(照片拼接合成工具)v1.1.18激活版

iMac小白

Donemax DMmenu for mac(Windows风格的MacOS开始菜单)v1.9激活版

iMac小白

Topaz Photo AI for Mac(图像处理AI软件) 2.1.2激活版

iMac小白

Modern CSV for mac(适用于Mac的CSV文件编辑器)

iMac小白

CnosDB有主复制演进历程

CnosDB

开源 时序数据库 CnosDB

专业核磁数据处理软件MestReNova 14破解版

iMac小白

2.5A、3MHz开关充电器解决方案

智趣匠

物联专栏丨云边协同技术加速AloT能力向边缘侧快速演进

inBuilder低代码平台

物联网

intellij idea 2023最新破解版下载

影影绰绰一往直前

Photo Image Editor Pixelstyle for Mac(图像编辑器)v4.3.0激活版

iMac小白

捆绑销售商业环境中,SaaS初创企业面临采购行为习惯转变

B Impact

向量数据库—加速大模型训练推理

不叫猫先生

大模型 向量数据库

万字长文:从 C# 入门学会 RabbitMQ 消息队列编程

快乐非自愿限量之名

C# 编程语言

vmware fusion pro 13破解版下载 支持MacOS14

iMac小白

WordPress 基于亚马逊云的部署实践(二)- 资源申请

王坤祥

Amazon EC2 亚马逊云 EFS

JixiPix PuzziPix Pro for mac(强大的拼图软件)v1.0.18激活版

iMac小白

OpenAI 治理结构为什么可以罢免CEO Sam Altman面临怎样管理问题

B Impact

INFINI Labs 产品更新 | 发布 Easysearch Java 客户端,Console 支持 SQL 查询等功能

极限实验室

console Gateway 客户端 easysearch 极限科技

低代码平台技术分享官 | 漫话iGIX前端设计模式

inBuilder低代码平台

前端

边缘计算平台如何助力元宇宙实现?

3DCAT实时渲染

边缘计算平台

PDF Expert for Mac(PDF编辑阅读转换器)v3.7.1中文激活版

影影绰绰一往直前

WordPress 基于亚马逊云的部署实践(三)- 服务部署

王坤祥

AWS WordPress Amazon EC2 亚马逊云

阿里云智能集团不再推进分拆,并加大投入

B Impact

纯CSS动态渐变文本特效

南城FE

CSS 前端 动画 css3渐变 渐变

WordPress 基于亚马逊云的部署实践(四)- 负载均衡+弹性伸缩

王坤祥

AWS 亚马逊云 弹性伸缩 负载均衡器

Wirecast Pro for Mac(视频直播制作工具)v16.0.3中文免激活版

iMac小白

NCH PhotoPad for Mac(照片编辑软件)v11.87注册版

iMac小白

基于 DAG 任务编排实现

Bingo

Java DAG 任务编排

CPU上运算比GPU还快?美国莱斯大学最新研究克服硬件障碍_AI&大模型_JADE BOYD_InfoQ精选文章