写点什么

K8s 为 AI 应用提供大规模 GPU 算力之实践

  • 2019-08-11
  • 本文字数:442 字

    阅读完需:约 1 分钟

K8s 为 AI 应用提供大规模 GPU 算力之实践

QCon北京2019大会上,李程讲师做了《K8s 为 AI 应用提供大规模 GPU 算力之实践》主题演讲,主要内容如下。


演讲简介


华为云 CCI 服务管理数百个 GPU 卡,为华为云 EI 服务及外部客户提供 AI 计算平台,在该过程中积累了大量面向 AI 计算的优化经验。AI 计算加速的关键是 GPU 管理,K8S 资源调度优化,面向 AI 计算框架和模型的 Job/Task 调度。通过这些优化手段可以使得 128 块 GPU 卡的线性加速比达到 0.8+。本次议题将介绍如何通过开源项目 K8S + Kata 容器搭建 AI 计算平台,最大化 GPU 及 AI 芯片算力的使用效率,并给出测试结果。最后我们也会对未来的技术改进做出展望。

听众受益

  1. 了解基于 K8S 的 AI 框架的现状;

  2. 了解大规模 GPU 在 AI 分布式训练场景下的应用;

  3. 了解 K8S 在人工智能场景下的优化思路。


讲师介绍


李程


华为 高级软件架构师


2011 年加入华为,先后参与网络软件平台、SDN、公有云容器服务等产品的架构设计工作,目前任华为 Serverless 容器服务 CCI 架构师。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/beijing/schedule


2019-08-11 00:001209

评论

发布
暂无评论
发现更多内容

微博评论高性能高可用的设计

云里雾花

质量基础设施“一站式”平台,NQI一站式云平台开发

电微13828808271

深入了解Netty原理篇

邱学喆

Netty

基于实践:一套百万消息量小规模IM系统技术要点总结

JackJiang

网络编程 架构设计 即时通讯 IM

如何使用 Workbench 远程连接到 MySQL 数据库 -MySQL Workbench 使用教程

蒋川

MySQL 数据库 MySQL 数据库

Python Qt GUI设计:QPainter、QPen、QBrush和QPixmap窗口绘图类(基础篇—17)

不脱发的程序猿

Python GUI设计 PyQt5 绘图功能

如何使用 MySQL Workbench 自动生成 ER 图、同步更新远程数据库 - MySQL Workbench 使用教程

蒋川

MySQL 数据库 数据管理工具

[Pulsar] Persistent Topic持久化消息

Zike Yang

Apache Pulsar 11月日更

网络协议之:一定要大写的SOCKS

程序那些事

网络协议 程序那些事 11月日更 SOCKS

Flutter 的动画包【Flutter专题4】

坚果

flutter 签约计划第二季

DDD领域驱动设计落地实践系列:初识DDD

慕枫技术笔记

架构 后端 签约计划第二季

Prometheus Exporter (十二)Consul Exporter

耳东@Erdong

Prometheus Consul exporter 11月日更

基于Serverless的端边云一体化媒体网络

华为云开发者联盟

Serverless 端边云 媒体网络 视频云 边缘云

系统架构性能优化思路

五分钟学大数据

11月日更

【死磕Java并发】-----J.U.C之读写锁:ReentrantReadWriteLock

chenssy

11月日更 死磕 Java 死磕 Java 并发

Android C++系列:Linux信号(二)

轻口味

c++ android jni 11月日更

大厂算法面试之leetcode精讲8.滑动窗口

全栈潇晨

算法面试 Leet Code

react源码解析1.开篇介绍和面试题

buchila11

React

Vue前端开发规范

CRMEB

react源码解析2.react的设计理念

buchila11

React React Hooks

技术解析+代码实战,带你入门华为云政务区块链平台

华为云开发者联盟

区块链 华为云 政务 Baas 异构链

Python 可以满足你任何 API 使用需求

华为云开发者联盟

Python API 程序 网络通信 公共数据

智慧警务系统开发,警务通app搭建

电微13828808271

不愧是阿里p8大佬!终于把Java 虚拟机底层原理讲清楚了,请签收

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

数据网格简史

俞凡

架构 数据

在 Flutter 中使用 dio【Flutter专题3】

坚果

flutter 签约计划第二季

归并排序,我举个例子你就看懂了

华为云开发者联盟

算法 归并排序 序列 归并 分治法

为什么要做漏洞扫描呢?

华为云开发者联盟

安全 风险 漏洞 漏洞扫描 安全认证

精选2021年大厂高频Java面试真题集锦(含答案),面试一路开挂

热爱java的分享家

Java 架构 面试 程序人生 经验分享

Hadoop 企业级生产调优手册 (二)

大数据技术指南

11月日更

Alibaba5轮视频面:同事+组长+主管+项目+HR,收割Java岗offer

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

  • 扫码添加小助手
    领取最新资料包
K8s 为 AI 应用提供大规模 GPU 算力之实践_QCon_李程_InfoQ精选文章