内容介绍

本 talk 将分享如何在 IA 架构服务器集群上利用基于英特尔优化的 Tensorflow、MXNet、PyTorch 开源方案高效地搭建分布式 AI 模型训练系统,并利用其进行分布式模型训练。

演讲提纲:

  1. 构建基于 IA 架构的容器或虚拟化服务器集群
  2. 如何在 IA 架构服务器优化分布式任务性能
  3. 如何利用 Horovod 构建分布式训练代码
  4. 如何优化分布式训练超参数

听众收益:

  1. 了解在 IA 架构服务器集群搭建分布式 AI 模型训练的原理

  2. 掌握在 IA 架构服务器优化分布式性能的要点

  3. 获得基于 Horovod 分布式方案训练的经验分享

内容亮点:

  1. 现代 Xeon 处理器上的 NUMA 特性

  2. VM、Docker 分布式训练环境

  3. Horovod 分布式训练

评论

发布