阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

RoCE 技术助力微信深度学习框架 Amber 加速

  • 2017-08-23
  • 本文字数:2032 字

    阅读完需:约 7 分钟

RDMA,其全称为 Remote Direct Memory Access(远程内存直接访问),是新一代数据中心高速网络互联的基础协议之一。RDMA 协议来自于高性能计算领域,它改进了传统的 TCP/IP 协议栈在高速网络下的诸多缺点,使得网络通信数据传输不再经过内核或 CPU,取而代之的则是直接通过网卡读写内存来进行,从而在应用上能够充分利用万兆以上的网络带宽。

随着模型复杂度和数据规模的快速增长,深度学习系统需要越来越多的 GPU(多机多卡)进行并行训练。时至今日,GPU 往往使用高吞吐量、低延迟的 RDMA 网络传输技术,而大规模、高拓展性的深度学习系统,则需要基于以太网的 RDMA (RDMA over Converged Ethernet) 技术,即 RoCE。

通常,在大规模数据中心使用 RDMA 有两种技术选择,Infiniband 或 RoCE。两者相比,RoCE 更适用于目前的数据中心网络架构,因现有的互联网数据中心本身就是使用以太网建设的,所以在运营难度、人力安排及成本控制等方面,RoCE 具有明显优势。RoCE 被认为是可以支持大规模网络 RDMA 的技术,因此也同样适用于 Amber。

与业界相流行的 TensorFlow、MXNET 相同,Amber 也是一种深度学习计算框架,它是由微信-香港科技大学人工智能联合实验室 (WHAT Lab) 所研发,支持大规模分布式并行深度学习计算。其数据传输模块中的 RDMA 功能,由香港科技大学陈凯教授开发的 RoCE 提供技术支持,使得 Amber 能够充分使用硬件 RDMA 性能,实现低延迟、高吞吐量的模型传输。

在现有的多机学习任务中,性能瓶颈主要表现在计算和网络上,而对于网络密集型的任务,网络传输则往往成为整个系统的瓶颈点,因此追求更高效的网络传输方式,便成为当前机器学习多机任务的一个主要关注点。分布式计算需要将数据或者模型在参与计算的机器之间传输,所以 Amber 希望能够使用低延迟、高带宽、高效率的 RDMA 作为网络传输协议。另需指出,Amber 将会部署在腾讯现有的 IDC 数据中心之中。

以下对测试方法和对应结果做一个简单介绍。

为了对使用 RoCE 技术的 Amber(Amber/RoCE)和使用 TCP 的 Amber(Amber/TCP)进行一系列性能对比,我们主要就三个重要的深度学习应用进行了测试,它们分别是朋友圈分类(ego_network)、对话模型(deep_conversation)、图像识别模型(VGG 和 AlexNet)。

整体性能

测试目标是 Amber 作为分布式计算框架的处理能力,使用的度量标准是每秒钟处理数据样本的个数(Samples per second)。每秒钟处理的数据样本越多,表明计算框架的处理能力越强。在测试中,我们使用了 localps 和 default 两种参数服务器配置模式。

从上图可见,整体来说,在多种模式和多种应用下,使用 RoCE 技术的 Amber 都表现出更高性能:使用 localps 的平均加速倍数(Amber/RoCE 的任务完成时间与 Amber/TCP 的任务完成时间的比值)为 1.93 倍,而使用 default 的更高达 3.072 倍,这是因为 default 模式需要的网络传输量更大,因此更快的网络技术会得到更明显的体现。

网络带宽

分布式应用的一个重要微观指标是网络带宽的利用率,它可以用一个应用的平均吞吐量来衡量。吞吐量越高,则表明一个应用可以更有效地使用网络资源在单位时间内可以完成更多的任务。下图中标识了 Amber/RoCE 和 Amber/TCP 在各个任务中的的平均网络吞吐量。

可见,与 Amber/TCP 相比,Amber/RoCE 能更有效利用网络资源,达到平均 3.07 倍的吞吐量。这也对应了 Amber/RoCE 在整体性能上的优势。

系统扩展性

在并行计算领域,加速比表示当并行算法与对应的顺序执行算法相比较时速度快了多少,而理想加速比则是系统所能达到的最优扩展性。当某一并行算法达到理想加速比时,若将处理器数量加倍,执行速度也会加倍,即称为具有“优秀的可扩展性”。下表以效率为指标,对比了 Amber/TCP 和 Amber/RoCE 的可扩展性。效率为加速比和参与计算的节点数目的比值,越接近 1 代表多机性能的线性扩展性越好。图像识别应用往往会使用比较深的神经网络,所以其模型也较大,多个机器在训练中的模型同步对于网络传输系统的可扩展性也更为敏感。因此,为了体现 Amber/RoCE 的可扩展性,我们采用了三个著名的用于图像识别的深度学习模型, CNN、VGG16 和 AlexNet。

从上表可以看出,Amber/RoCE 表现出优异的可扩展性。此外,基本上可以认为,多机性能是单机性能的线性扩展,这也有利于更大规模的模型并行跑在不同机器上而不用担心网络带来较大的性能损耗。

综上所述,RoCE 技术适用于大规模数据中心的 RDMA 网络传输,而对于需要在类似数据中心环境内部署的 Amber 深度学习框架,我们为之开发了相应的网络传输系统。实验表明,使用 RoCE 可以大大加快深度学习任务的完成时间,提高网络的利用率,并且能够达到近似最优的可扩展性。RoCE 网络技术也适用与其他深度学习计算框架,WHAT Lab 的并行计算团队也在对其他的框架进行 RoCE 传输层的开发。

作者简介

陈力,香港科技大学计算机科学与工程系的博士四年级。他的研究领域为数据中心网络,主要课题有:光网络,传输层协议,软件定义网络,以及大数据系统。

钟轶,微信技术架构部后台开发工程师。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2017-08-23 19:004147

评论

发布
暂无评论
发现更多内容

PullTube for Mac(在线视频下载工具)

展初云

视频下载 Mac软件

CSS 新特性,建议收藏!

秃头小帅oi

CSS 前端

SynVision AI: 虚拟助手的革命

Synvision.AI

人工智能 AI 智能助手 问答助手 聊天助手

Navicat 基于 GaussDB 主备版的快速入门

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

关注潜在的整数越界问题 | 京东物流技术团队

京东科技开发者

spring 企业号11月PK榜 整数越界

ON1 Photo RAW 2024 for Mac(RAW照片编辑软件)

展初云

Mac 照片编辑软件

向量数据库——AI时代的基座

陈老老老板

#人工智能

Amazon EC2 新手初探:更多实例连接方式

王强

Amazon EC2 亚马逊云服务

NFTScan | 11.13~11.19 NFT 市场热点汇总

NFT Research

NFT\ NFTScan nft工具

Mac电脑屏幕录像推荐:Iris激活最新版

mac大玩家j

屏幕录制 录屏软件 Mac软件

Keyboard Maestro for mac(苹果键盘热键软件) v11.0.1完美激活版

mac

苹果mac Windows软件 Keyboard Maestro 键盘快捷键工具

高效开发与设计:提效Spring应用的运行效率和生产力 | 京东云技术团队

京东科技开发者

spring 性能优化 SpringBoot启动流程 企业号11月PK榜

解锁未来:通过数字孪生和区块链进行物联网管理

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

在你购买小间距led显示屏时需要注意这些事项

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家 户内led显示屏

使用1688开放平台API接口获取商品详情信息

Noah

达达埋点迁移京东子午线实践 | 京东云技术团队

京东科技开发者

埋点设计 企业号11月PK榜 埋点迁移 架构迁移

Wireshark网络工具是什么?

小魏写代码

使用 VuePress 和 Vercel 打造个人技术博客:实现自动化部署

小白Coding日志

GitHub 个人博客 自动部署 Vuepress2.X Vercel

Amazon EC2 新手初探:操作我们的实例

王强

Amazon EC2 亚马逊云服务器

无服务器开发实例|微服务向无服务器架构演进的探索

亚马逊云科技 (Amazon Web Services)

Serverless 微服务 API Amazon Lambda Amazon API Gateway

软件测试/测试开发/人工智能丨视觉与图像识别自动化测试

测试人

人工智能 软件测试

00后如何组织双十一大促看这一篇就够了! | 京东云技术团队

京东科技开发者

监控 电商大促 容灾备份 企业号11月PK榜 大促备战

一文看懂:5分钟玩转容器云,彻底化解业务上云烦恼

统信软件

AWS向量数据库Amazon OpenSearch Service使用测评

i查拉图斯特拉如是说

亚马逊云科技 向量数据库 opensearch service

BetterDisplay Pro for Mac(显示器校准软件)

展初云

Mac软件 BetterDisplay

AWS云服务器EC2实例实现ByConity快速部署

乌龟哥哥

AWS

Mac电脑视频剪辑Final Cut Pro激活版中文最新

胖墩儿不胖y

Mac软件 视频处理工具 视频剪辑软件 视频编辑器

现身说法:2023中级程序员进阶之路

伤感汤姆布利柏

程序员 程序员成长

Xmind for Mac(思维导图软件) 24.01中文版

加油,小妞!

思维导图 mac软件下载

RoCE技术助力微信深度学习框架Amber加速_语言 & 开发_陈力_InfoQ精选文章