写点什么

K8s 为 AI 应用提供大规模 GPU 算力之实践

  • 2019-08-11
  • 本文字数:442 字

    阅读完需:约 1 分钟

K8s 为 AI 应用提供大规模 GPU 算力之实践

QCon北京2019大会上,李程讲师做了《K8s 为 AI 应用提供大规模 GPU 算力之实践》主题演讲,主要内容如下。


演讲简介


华为云 CCI 服务管理数百个 GPU 卡,为华为云 EI 服务及外部客户提供 AI 计算平台,在该过程中积累了大量面向 AI 计算的优化经验。AI 计算加速的关键是 GPU 管理,K8S 资源调度优化,面向 AI 计算框架和模型的 Job/Task 调度。通过这些优化手段可以使得 128 块 GPU 卡的线性加速比达到 0.8+。本次议题将介绍如何通过开源项目 K8S + Kata 容器搭建 AI 计算平台,最大化 GPU 及 AI 芯片算力的使用效率,并给出测试结果。最后我们也会对未来的技术改进做出展望。

听众受益

  1. 了解基于 K8S 的 AI 框架的现状;

  2. 了解大规模 GPU 在 AI 分布式训练场景下的应用;

  3. 了解 K8S 在人工智能场景下的优化思路。


讲师介绍


李程


华为 高级软件架构师


2011 年加入华为,先后参与网络软件平台、SDN、公有云容器服务等产品的架构设计工作,目前任华为 Serverless 容器服务 CCI 架构师。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/beijing/schedule


2019-08-11 00:002212

评论

发布
暂无评论
发现更多内容

linux信号操作

SkyFire

Linux 信号

Modern-Cpp学习笔记

SkyFire

c++

瞰源 | 别逗了,同学!开源不是点赞送礼

OpenTEKr

狄安瞰源

关于Kafka分区leader迁移的感想

Kafka中文社区

如何用 Python 自动发送微博?

老表

Python selenium 跟老表学云服务器 自动化实战

Golang的通道复用上手(三)

liuzhen007

go语言 28天写作 12月日更

2021年,你读过哪些书?(29/28)

赵新龙

28天写作

性能分析之系统资源饱和度

zuozewei

Linux 性能分析 12月日更

Thinking Agile 2021,Being Agile 2022

Bruce Talk

敏捷 随笔 Agile

为什么 MongoDB 使用 B 树

编程江湖

mongodb

热更新技术在游戏 SDK 中的实践

bilibili游戏技术

linux库打桩

SkyFire

Linux hook

mysqlx学习

SkyFire

mysqlx

关于net6中宿主模型的一点点看法

喵叔

28天写作 12月日更

架构训练营第四期 作业3

supermenG

架构师训练营 4 期

发现新视界——视觉计算将如何改变生产方式

阿里云弹性计算

阿里云 云栖大会 视觉计算

拾起卖数字化平台亮相2021全国废钢铁大会引热烈反响 数字化建设助推废钢产业高质量发展

InfoQ 天津

直击前沿技术:云原生应用低代码开发平台实践

博文视点Broadview

架构训练营模块三作业

沈益飞

架构训练营 架构师训练营 4 期

28天写作挑战复盘

圣迪

灵魂洗礼

运维意识

搬砖的周狮傅

开发感想

模块三作业

whoami

「架构实战营」

学生管理系统架构文档

皓月

架构实战营 #架构实战营 「架构实战营」

比格云CEO 诸葛辉:本土开源力量的崛起,正为底层技术基础设施掀起一股中国风 I OpenTEKr 大话开源 Vol.4

OpenTEKr

大话开源

Mybatis使用的9种设计模式,你知道几种

编程江湖

设计模式 JAVA开发

正转与反转(30/28)

赵新龙

28天写作

NFS(网络文件系统)配置(Ubunut/Deepin等系统)

SkyFire

Linux NFS

spring 源码解析一、概述

xzy

Java spring spring源码

架构实战营 - 模块 3 课后作业

tony

ClickPaaS 胡柏:开源不是童话,它背后的商业逻辑正是其哲学的另一面体现 I OpenTEKr 大话开源 Vol.3

OpenTEKr

大话开源

瞰源 | 假领子的流行经济学看开源

OpenTEKr

狄安瞰源

K8s 为 AI 应用提供大规模 GPU 算力之实践_QCon_李程_InfoQ精选文章