相比于 MapReduce 等传统数据处理做法，大规模分布式 AI 场景下的网络通信面临着不一样的挑战。对于处理大规模离散特征的算法，如逻辑回归（LR），消息吞吐量将直接影响到整个训练任务的性能。对于处理稠密特征的深度学习算法或者是树模型（GBDT），网络延迟很容易成为性能瓶颈。不同的 AI 算法面临不一样的性能瓶颈，我们设计了自己的 RPC 框架——PRPC，以求能在多变的 AI 场景下，都能实现优秀的性能。通过 Zerocopy 和自研事件调度系统降低通信延迟；通过 RDMA 技术优化机器学习离线训练和线上预估。PRPC 的定位是尽可能的适应不同的机器学习的场景，最大化分布式计算的性能，所以我们让他与应用层进行了适当的耦合，从而使的整个过程都是 Zerocopy 的，同时上层算法也尽可能进行原地计算，使的整个机器学习任务的性能达到极致。对于 LR 算法和 GBDT 算法，RDMA 模式下的 PRPC 有数倍性能提升。与 ZMQ，BPRC 和 GRPC 对比 PRPC 在大部分机器学习场景下有较大性能优势。第四范式基础架构负责人刘一鸣即将在 QCon 全球软件开发大会（上海站）2019分享《高性能网络通信框架释放 AI 算力的实践》

听众受益

了解大规模分布式机器学习场景下不同算法的性能瓶颈和解决思路；
高性能组件 RDMA 在大规模分布式机器学习场景下的应用和网络性能优化经验；
RPC 的接口设计以及 Linux 事件调度的优化。

嘉宾介绍

刘一鸣，2012 级上海交通大学 ACM 班成员，现就职于第四范式，任基础架构负责人，是第四范式先知平台独有的大规模分布式机器学习框架 GDBT 的设计者，现在专注于机器学习系统的高性能计算和软硬一体优化，主导落地了分布式大规模参数服务器和 RDMA 网络框架。主要领域为机器学习分布式系统设计及高性能优化。

更多人工智能应用与实践的相关分享请访问 QCon 上海 2019 官网。

创作场景

高性能网络通信框架释放 AI 算力的实践