K8s 为 AI 应用提供大规模 GPU 算力之实践

阅读数:166 2019 年 8 月 11 日 00:00

K8s 为 AI 应用提供大规模 GPU 算力之实践

QCon 北京 2019 大会上,李程讲师做了《K8s 为 AI 应用提供大规模 GPU 算力之实践》主题演讲,主要内容如下。

演讲简介

华为云 CCI 服务管理数百个 GPU 卡,为华为云 EI 服务及外部客户提供 AI 计算平台,在该过程中积累了大量面向 AI 计算的优化经验。AI 计算加速的关键是 GPU 管理,K8S 资源调度优化,面向 AI 计算框架和模型的 Job/Task 调度。通过这些优化手段可以使得 128 块 GPU 卡的线性加速比达到 0.8+。本次议题将介绍如何通过开源项目 K8S + Kata 容器搭建 AI 计算平台,最大化 GPU 及 AI 芯片算力的使用效率,并给出测试结果。最后我们也会对未来的技术改进做出展望。

听众受益

  1. 了解基于 K8S 的 AI 框架的现状;
  2. 了解大规模 GPU 在 AI 分布式训练场景下的应用;
  3. 了解 K8S 在人工智能场景下的优化思路。

讲师介绍

李程

华为 高级软件架构师

2011 年加入华为,先后参与网络软件平台、SDN、公有云容器服务等产品的架构设计工作,目前任华为 Serverless 容器服务 CCI 架构师。

K8s 为 AI 应用提供大规模 GPU 算力之实践

K8s 为 AI 应用提供大规模 GPU 算力之实践

K8s 为 AI 应用提供大规模 GPU 算力之实践

K8s 为 AI 应用提供大规模 GPU 算力之实践

K8s 为 AI 应用提供大规模 GPU 算力之实践

K8s 为 AI 应用提供大规模 GPU 算力之实践

K8s 为 AI 应用提供大规模 GPU 算力之实践

K8s 为 AI 应用提供大规模 GPU 算力之实践

K8s 为 AI 应用提供大规模 GPU 算力之实践

K8s 为 AI 应用提供大规模 GPU 算力之实践

完整演讲 PPT 下载链接

https://qcon.infoq.cn/2019/beijing/schedule

评论

发布