生成式AI领域的最新成果都在这里!抢 QCon 展区门票 了解详情
写点什么

CPU 上运算比 GPU 还快?美国莱斯大学最新研究克服硬件障碍

  • 2020-03-11
  • 本文字数:2773 字

    阅读完需:约 9 分钟

CPU上运算比GPU还快?美国莱斯大学最新研究克服硬件障碍

美国莱斯大学的计算机科学家们发明了一种在 CPU 上比 GPU 更快地训练深度神经网络的算法 SLIDE,克服了人工智能产业迅速发展的一个主要障碍,证明了在不依赖于图形处理单元(GPU)等专业级加速硬件的情况下,也能够实现对深度学习技术的加速。


根据外媒报道,莱斯大学的计算机科学家们已经克服了人工智能产业迅速发展的一个主要障碍,他们证明了在不依赖于图形处理单元(GPU)等专业级加速硬件的情况下,也能够实现对深度学习技术的加速。这个名为 SLIDE 的算法是第一个在 CPU 上比 GPU 更快地训练深度神经网络的算法。


在奥斯汀召开的 2020 机器学习系统会议MLSys上,来自莱斯大学的计算机科学家们,在来自英特尔公司的合作伙伴的支持下,于 3 月 2 日在奥斯汀会议中心展示了他们的最新研究成果。


当下,为了实现深度学习,许多公司正大力投资图形处理单元(GPU)和其他专业级硬件。如今,亚马逊 Alexa 和苹果 Siri 等智能助理、面部识别、产品推荐系统和其他技术都有深度学习在背后作为支撑。深度学习炙手可热的程度可以举一例说明,作为一手打造该行业金字招牌“特斯拉V100 Tensor Core GPU”芯片的制造商,Nvidia 公司最近的财务报告显示,其 2019 第四季度收入同比增长了 41%。


莱斯大学的研究人员创造了一种可替代 GPU 的节省成本的算法,称为“次线性深度学习引擎”(sub-linear deep learning engine,简称 SLIDE),这种算法只需使用一般通用的中央处理器(CPU),而无需专业级的加速硬件。


“我们的测试表明,SLIDE 是第一个基于 CPU 实现的深度学习智能算法,它的性能可以超越那些依照产业规模的建议采用大型全连接架构,使用 GPU 硬件加速的方法”,Anshumali Shrivastava这样说。这位莱斯大学布朗工程学院的助理教授与研究生Beidi ChenTharun Medini一起开发了该 SLIDE 算法。


SLIDE 不需要依赖于 GPU,因为这种算法从根本上采用了一种完全不同的深度学习方法。深度神经网络训练技术标准的“反向传播”算法需要矩阵乘法,如此繁重的计算量正是适合 GPU 发挥性能的理想场所。然而,通过 SLIDE 算法,Shrivastava、Chen 和 Medini 把神经网络训练转变成为一个可以用哈希表来解决的搜索问题。


与反向传播训练技术相比,这种 SLIDE 算法可以从根本上减少大量的计算开销。Shrivastava 举例说,诸如亚马逊、谷歌以及其他公司使用 GPU 打造的基于云的深度学习服务的顶级平台,一般会使用 8 块“特斯拉 V100”芯片,其费用约为 10 万美元。


莱斯大学计算机科学研究生 Beidi Chen 和 Tharun Medini 参与开发了 SLIDE,这是一种无需依赖图形处理单元对深度神经网络进行训练的算法。


“我们有一个在实验室运行的测试用例,它完全能承载一块 V100 芯片的工作负荷,即一个适用于 GPU 内存的,运行在大型全连接网络中超过 1 亿个参数的计算量”,Shrivastava 说,“我们用谷歌的 TensorFlow 软件包来训练该算法,它只花了 3 个半小时就完成了训练。”


“我们随后证明,新算法甚至可以在一小时内完成该训练,而且并不是运行在 GPU 上,而是运行在 44 核的 xeon-class CPU 上,” Shrivastava 说。


深度学习网络的灵感来自生物学,其核心特征是人工神经元,这些神经元是一小段可以学习并执行特定任务的计算机代码。一个深度学习网络可能包含数百万甚至数十亿这种人工神经元,只要通过对海量数据的学习,这些神经元共同工作就有可能学习并做出与人类水平相当的专家决策。例如,如果一个深度神经网络被训练来识别照片中的物体,当识别一张猫的照片或是识别一辆校车时,它将使用不同的神经元来进行学习。


“你不需要对每个用例的所有神经元都进行训练,” Medini 解释说,“我们是这样想的,如果只挑选相关的神经元,那这就变成了一个搜索问题。因此,从算法上讲,我们的想法就是使用局部敏感哈希算法来避免矩阵乘法的复杂性。”


哈希算法是 20 世纪 90 年代为互联网搜索发明的一种数据索引方法。它使用数字方法将大量信息,例如整个网站所有网页或一本书的所有章节,编码为一串称为哈希散列的数字。哈希表就是记录这些哈希散列值并可以实现快速搜索的列表。


“在 TensorFlow 或 PyTorch 上实现我们的算法是毫无意义的,因为这些软件执行的第一件事就是不管三七二十一先把你正在做的事情转换成一个矩阵乘法问题,” Chen 说。“而这正是我们的算法想要避免的。所以我们是从零开始写我们自己的 C++代码的。”


Shrivastava 说,SLIDE 相对于反向传播的最大优势在于它采用了数据并行的方式。


“我的意思是,通过数据并行,如果我想要训练两个数据实例,比方说一个是一只猫的形象,另一个是公共汽车,他们可能会激活不同的神经元,该 SLIDE 算法可以对这两个实例分别独立地进行更新或训练,” 他说,“这就大大地提高了 CPU 并行性的利用率。”


“另一方面,与 GPU 相比,我们需要更大的存储空间,” 他说,“在主存储器中有一个缓存层次结构,如果你使用时不够小心,可能会遇到一个叫做内存颠簸(cache thrashing)的问题,那样就会发生大量缺页中断。”


Shrivastava 说,他的团队第一次使用SLIDE进行实验时,就发生了严重的内存颠簸,但他们的训练时间仍然与 GPU 的训练时间相当,甚至更快。于是,他、Chen 和 Medini 于 2019 年 3 月在arXiv上发布了初步实验结果,并将他们的代码上传到 GitHub。几周后,英特尔公司主动联系了他们。


“来自英特尔的合作伙伴注意到了我们实验中的缓存问题,” 他说,“他们告诉我们,他们可以与我们进行合作,让这个算法更快地完成训练,之后的事实证明他们是正确的。在他们的帮助下,我们的实验性能又提高了约 50%。”


Shrivastava 说,SLIDE 还远远未达到其最大潜力。


“我们只能算是初尝甜头而已,” 他说,“我们还可以做很多事情来对这个算法进行优化。例如,我们还没有使用矢量化,也没有在 CPU 中使用内置的加速器,比如 Intel Deep Learning Boost 技术。我们还有很多其他的技巧可以让这个算法变得更快。”


Shrivastava 说,SLIDE 的重要性在于,它证明了还有其他方式来实现深度学习。


“我们想要传达的整个信息是,不要被矩阵乘法和 GPU 内存这两个瓶颈所限制住,” Chen 说,“我们的算法可能是第一个击败 GPU 的算法,但我希望它不是最后一个。这个领域需要新的想法,而这正是这次 MLSys 机器学习系统会议的重要意义所在。”


该算法的其他共同作者包括 James Farwell、Sameh Gobriel 和 Charlie Tai,他们都是来自英特尔实验室的成员。该研究还得到了美国国家科学基金会(NSF-1652131, NSF-BIGDATA 1838177)、空军科研办公室(FA9550-18-1-0152)、亚马逊和海军研究办公室的支持。


相关链接和资源:


MLSys 机器学习系统会议文件:


https://www.cs.rice.edu/~as143/Papers/SLIDE_MLSys.pdf


作者介绍:


Jade Boyd,莱斯大学公共事务办公室的科学编辑和新闻与媒体关系副主任。


英文原文:


Deep learning rethink overcomes major obstacle in AI industry


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-03-11 09:001888
用户头像
赵钰莹 InfoQ 主编

发布了 874 篇内容, 共 603.0 次阅读, 收获喜欢 2670 次。

关注

评论

发布
暂无评论
发现更多内容

龙蜥白皮书精选:云原生混部资源隔离技术

OpenAnolis小助手

开源 云原生 白皮书 内核 龙蜥社区

优化重复冗余代码的8种方式

java易二三

Java 编程 程序员 计算机

【腾讯云 TDSQL-C Serverless 产品体验】 使用 Python 向 TDSQL-C 添加读取数据 实现词云图

全栈若城

Python 腾讯云 Serverless 词云图 tdsql

ECMAScript 2023新增特性

数新网络官方账号

带你读论文丨S&P2019 HOLMES Real-time APT Detection

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 8 月 PK 榜

企业数字化转型,财务规划与分析(FP&A)团队应该如何应对

智达方通

数字化转型 智达方通EPM 财务规划与分析

pycharm pro v2023.2最新中文+激活码安装

胖墩儿不胖y

代码编辑器 代码编辑 编辑代码 代码编辑工具

Mac软件推荐:ZBrush v2023.2.2中文激活版+可用补丁

mac大玩家j

数字雕刻软件 绘画工具 Mac软件推荐

从头到尾说一次 Spring 事务管理(器) | 京东云技术团队

京东科技开发者

spring spring事务管理 事务管理 企业号 8 月 PK 榜

大规模块存储 EC 系统构建

Baidu AICLOUD

分布式存储 块存储 纠删码

MongoDB中国用户大会北京站及深圳站火热报名中

Geek_2d6073

阿里云大语言模型(LLM)实战训练营,火热开营中!

阿里云大数据AI技术

LLM模型

GC面临的困境,JVM是如何解决跨代引用的?

Java随想录

Java JVM

库存预占架构升级方案设计-交易库存中心 | 京东物流技术团队

京东科技开发者

架构设计 库存系统 架构升级 企业号 8 月 PK 榜

一文搞懂MySQL 数据库 MongoDB

java易二三

Java MySQL 数据库 程序员 计算机

途牛科技与火山引擎数智平台合作 打造企业大数据系统“降本”新范式

字节跳动数据平台

大数据 云服务 企业号 8 月 PK 榜 数据支持

小灯塔系列-中小企业数字化转型系列研究——BI测评报告

向量智库

“产业应用创新奖2023”启动征集

飞桨PaddlePaddle

人工智能 百度飞桨 文心大模型

千万级数据深分页查询SQL性能优化实践 | 京东云技术团队

京东科技开发者

MySQL 性能优化 sql 分页查询 企业号 8 月 PK 榜

当小白遇到FullGC | 京东云技术团队

京东科技开发者

企业号 8 月 PK 榜 Full GC TP99

基于开源IM即时通讯框架MobileIMSDK:RainbowChat-iOS端v7.0版已发布

JackJiang

网络编程 即时通讯 即时通讯IM

我的心血全在这了,这种方式讲@Async原理,你别再不懂Spring了

java易二三

Java spring 程序员 计算机

一次性搞清楚,Java并发编程在各主流框架中的应用,保证看懂

java易二三

Java spring 程序员 计算机

昨晚做梦面试官问我三色标记算法

Java随想录

Java JVM

使用秘籍|如何实现图数据库 NebulaGraph 的高效建模、快速导入、性能优化

NebulaGraph

图数据库 NebulaGraph

科技新秀巅峰决战,百度商业AI技术创新大赛圆满收官

百度Geek说

人工智能 企业号 8 月 PK 榜

用友BIP重磅升级,发布新品:用友BIP|商业网络

用友BIP

2023全球商业创新大会

蓝易云:python使用HTTP教程。

百度搜索:蓝易云

Python Linux HTTP requests urllib

蓝易云:云服务器和专用服务器之间的区别?

百度搜索:蓝易云

云计算 服务器 云服务器 ECS 专用服务器

多款国产服务器、操作系统与摩斯隐私计算完成兼容性互认

科技热闻

【专家观点】数智化组织模型大力驱动全球化

用友BIP

CPU上运算比GPU还快?美国莱斯大学最新研究克服硬件障碍_AI&大模型_JADE BOYD_InfoQ精选文章