高性能网络通信框架释放 AI 算力的实践

2019 年 9 月 02 日

高性能网络通信框架释放 AI 算力的实践

相比于 MapReduce 等传统数据处理做法,大规模分布式 AI 场景下的网络通信面临着不一样的挑战。对于处理大规模离散特征的算法,如逻辑回归(LR),消息吞吐量将直接影响到整个训练任务的性能。对于处理稠密特征的深度学习算法或者是树模型(GBDT),网络延迟很容易成为性能瓶颈。 不同的 AI 算法面临不一样的性能瓶颈,我们设计了自己的 RPC 框架——PRPC,以求能在多变的 AI 场景下,都能实现优秀的性能。 通过 Zerocopy 和自研事件调度系统降低通信延迟;通过 RDMA 技术优化机器学习离线训练和线上预估。PRPC 的定位是尽可能的适应不同的机器学习的场景,最大化分布式计算的性能,所以我们让他与应用层进行了适当的耦合,从而使的整个过程都是 Zerocopy 的,同时上层算法也尽可能进行原地计算,使的整个机器学习任务的性能达到极致。 对于 LR 算法和 GBDT 算法,RDMA 模式下的 PRPC 有数倍性能提升。与 ZMQ,BPRC 和 GRPC 对比 PRPC 在大部分机器学习场景下有较大性能优势。 第四范式基础架构负责人刘一鸣即将在 QCon 全球软件开发大会(上海站)2019 分享《高性能网络通信框架释放 AI 算力的实践

听众受益

  1. 了解大规模分布式机器学习场景下不同算法的性能瓶颈和解决思路;
  2. 高性能组件 RDMA 在大规模分布式机器学习场景下的应用和网络性能优化经验;
  3. RPC 的接口设计以及 Linux 事件调度的优化。

嘉宾介绍

刘一鸣,2012 级上海交通大学 ACM 班成员,现就职于第四范式,任基础架构负责人,是第四范式先知平台独有的大规模分布式机器学习框架 GDBT 的设计者 ,现在专注于机器学习系统的高性能计算和软硬一体优化,主导落地了分布式大规模参数服务器和 RDMA 网络框架。主要领域为机器学习分布式系统设计及高性能优化。

更多人工智能应用与实践的相关分享请访问 QCon 上海 2019 官网。

2019 年 9 月 02 日 00:00 194

评论

发布
暂无评论
发现更多内容

猿灯塔:spring Boot Starter开发及源码刨析(四)

猿灯塔

Java 猿灯塔 spring Boot Starter

《中国区块链产业园15强名录》

CECBC区块链专委会

IDC2020 Q1通用服务器数据发布,浪潮信息成绩喜人

Geek_116789

抢滩新基建,百度还会输给阿里和腾讯吗?

ToB行业头条

为什么单元测试不是持续交付的唯一答案

陈琦

持续集成 单元测试

Worktile完成新一轮融资,将发力研发管理赛道

Worktile

融资

啃碎并发(10):内存模型之内部原理

猿灯塔

吴恩达推荐笔记:22张图总结深度学习全部知识

程序员生活志

深度学习 学习笔记 吴恩达

你有认真了解过自己的“Java对象”吗

海星

JVM Java Virtual Machine

数据库周刊32丨Oracle自治数据库大动作;腾讯云MySQL 8.0上线;华为数据库工程师认证发布;update引起业务卡顿;PostgreSQL安全加固;openGauss单机安装;中国DBA联盟"ACDU"邀您加入……

墨天轮

MySQL 数据库 oracle postgresql

话题讨论|在编程中,有哪些好习惯是应该一直坚持下去的?

InfoQ写作平台

写作平台 话题讨论 话题

企业的数字化转型探索

松子(李博源)

企业架构 数字化 企业数字化转型

MobTech袤博与百度战略签约 携手布局数据智能产业新蓝图

Geek_116789

三大 OSS 缓存加速系统巅峰对决

苏锐

hadoop cache JuiceFS JindoFS Performance

讲烂了的mysql,今天再给大家重温一下

爱嘤嘤嘤斯坦

Java MySQL 数据库 编程 mysql事务

2020,是中国SaaS行业的机遇之年?

ToB行业头条

火焰图:全局视野的Linux性能剖析

Marionxue

为什么我们需要制品管理?

Man

DevOps nexus 制品库管理 Artifactory

​中国SaaS处在什么阶段?

ToB行业头条

【融云分析】融云实时音视频 SDK 对智能硬件的视频适配

Geek_116789

计算机网络基础(一)---计算机网络概览篇

书旅

php laravel 计算机网络

女员工被阿里录取工资二万六,辞职时被领导挽留:给你4万留下

程序员生活志

阿里 女程序员

如何把百万级别的订单根据金额排序

码哥字节

数据结构 排序算法

将设计模式应用到日常的curd中—分离关联查询

LSJ

Java 设计

laravel redis队列不执行

kaer

laravel redis Queue

阿里拍卖,能不能拍到点儿上?

ToB行业头条

腾讯的ToB梦想

ToB行业头条

在前端如何玩转 Word 文档

阿宝哥

html markdown word

微信小程序使用GoEasy实现websocket实时通讯

GoEasy消息推送

小程序 websocket 即时通讯

Spring Boot 2.3.0正式发布:优雅停机、配置文件位置通配符新特性一览

YourBatman

spring springboot

MySql的Dockerfile编写

玏佾

高性能网络通信框架释放 AI 算力的实践-InfoQ