K8s 为 AI 应用提供大规模 GPU 算力之实践_QCon_李程



 写点什么

在QCon北京2019大会上，李程讲师做了《K8s 为 AI 应用提供大规模 GPU 算力之实践》主题演讲，主要内容如下。

演讲简介：

华为云 CCI 服务管理数百个 GPU 卡，为华为云 EI 服务及外部客户提供 AI 计算平台，在该过程中积累了大量面向 AI 计算的优化经验。AI 计算加速的关键是 GPU 管理，K8S 资源调度优化，面向 AI 计算框架和模型的 Job/Task 调度。通过这些优化手段可以使得 128 块 GPU 卡的线性加速比达到 0.8+。本次议题将介绍如何通过开源项目 K8S + Kata 容器搭建 AI 计算平台，最大化 GPU 及 AI 芯片算力的使用效率，并给出测试结果。最后我们也会对未来的技术改进做出展望。