最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

K8s 为 AI 应用提供大规模 GPU 算力之实践

  • 2019-08-11
  • 本文字数:442 字

    阅读完需:约 1 分钟

K8s 为 AI 应用提供大规模 GPU 算力之实践

QCon北京2019大会上,李程讲师做了《K8s 为 AI 应用提供大规模 GPU 算力之实践》主题演讲,主要内容如下。


演讲简介


华为云 CCI 服务管理数百个 GPU 卡,为华为云 EI 服务及外部客户提供 AI 计算平台,在该过程中积累了大量面向 AI 计算的优化经验。AI 计算加速的关键是 GPU 管理,K8S 资源调度优化,面向 AI 计算框架和模型的 Job/Task 调度。通过这些优化手段可以使得 128 块 GPU 卡的线性加速比达到 0.8+。本次议题将介绍如何通过开源项目 K8S + Kata 容器搭建 AI 计算平台,最大化 GPU 及 AI 芯片算力的使用效率,并给出测试结果。最后我们也会对未来的技术改进做出展望。

听众受益

  1. 了解基于 K8S 的 AI 框架的现状;

  2. 了解大规模 GPU 在 AI 分布式训练场景下的应用;

  3. 了解 K8S 在人工智能场景下的优化思路。


讲师介绍


李程


华为 高级软件架构师


2011 年加入华为,先后参与网络软件平台、SDN、公有云容器服务等产品的架构设计工作,目前任华为 Serverless 容器服务 CCI 架构师。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/beijing/schedule


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-08-11 00:001332

评论

发布
暂无评论
发现更多内容

运维堡垒机定义以及作用简单讲解-行云管家

行云管家

堡垒机 运维堡垒机

设计模式-备忘录模式

Java你猿哥

Java 设计模式 ssm 架构师 备忘录模式

惟实励新,精进臻善!MIAOYUN人人是讲师(第二季)焕新重启

MIAOYUN

学习 企业文化 人才培养 企业培训 学习成长

Spring 之依赖注入底层原理

做梦都在改BUG

Java spring 依赖注入

LLM 快人一步的秘籍 —— Zilliz Cloud,热门功能详解来啦!

Zilliz

非结构化数据 Milvus Zilliz LLM

微信支撑10亿用户背后核心技术:亿级流量Java并发与网络编程实战

做梦都在改BUG

Java 网络编程 高并发 亿级流量

GitHub上线一天星标99.9K:阿里内部高逼格SpringCloud实战手册

做梦都在改BUG

Java 架构 微服务 Spring Cloud

AI真的会让程序员失业吗 | 社区征文

五分钟学大数据

三周年征文

百度APP iOS端包体积50M优化实践(一)总览

百度Geek说

ios xcode 百度 企业号 4 月 PK 榜

我们与AI共生的未来 | 社区征文

TiAmo

人工智能 AI 三周年征文

数据智能服务商奇点云完成近亿元C2轮融资

奇点云

数据中台 融资 奇点云

2023年MQTT协议的7个技术趋势|描绘物联网的未来

EMQ映云科技

物联网 IoT mqtt 信息技术 企业号 4 月 PK 榜

DSW-Gallery使用体验+生成吸引人眼球的新闻标题

六月的雨在InfoQ

模型训练 机器学习PAI DSW-Gallery EasyNLP

华为进军ERP!北用友南金蝶的格局是否会动摇?

这我可不懂

华为 低代码 用友 金蝶 JNPF

青海等保测评机构有几家?分别是哪几家?

行云管家

等保 等级测评 青海

前端自动化测试之葵花宝典

京东科技开发者

前端 企业号 4 月 PK 榜

博睿数据受邀出席GOPS 2023 深圳站:自适应AI支撑可观测性全面升级

博睿数据

可观测性 智能运维 博睿数据 Bonree ONE 自适应AI

印象最深的都是关于 IoTConsensus 共识协议?听听新晋 Committer 怎么说!

Apache IoTDB

IoTDB Apache IoTDB

干掉微服务,换下Dubbo,Spring CloudAlibaba王者降临

做梦都在改BUG

Java 架构 微服务 Spring Cloud spring cloud alibaba

如何在移动应用开发中,用小程序实践灰度发布策略

FinFish

灰度发布 APP开发 小程序容器 小程序技术

如何在Java中做基准测试?JMH使用初体验

做梦都在改BUG

Java JMH 基准测试

图解云消息服务KooMessage

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

软件测试/测试开发简历写作与面试技巧-VIP内部资料

测试人

面试 软件测试 自动化测试 简历 测试开发

在 Rainbond 上使用在线知识库系统zyplayer-doc

北京好雨科技有限公司

云原生 #Kubernetes# rainbond 企业号 4 月 PK 榜

应用火山引擎DataTester“避坑”,抖音实现用A/B实验快速试错

字节跳动数据平台

大数据 抖音 实验 A/B测试 企业号 4 月 PK 榜

一文了解MySQL中的多版本并发控制

京东科技开发者

MySQL 京东云 企业号 4 月 PK 榜

测试1号位的自我修养

京东科技开发者

测试 京东云 企业号 4 月 PK 榜

Spring为什么需要三级缓存来解决循环依赖

做梦都在改BUG

Java spring 循环依赖

Redis缓存穿透/击穿/雪崩以及数据一致性的解决方案

Java你猿哥

redis ssm 架构师 Java工程师

AI 能否取代打工人?| 社区征文

阿发

三周年征文

可处理十亿级向量数据!Zilliz Cloud GA 版本正式发布

Zilliz

SaaS 非结构化数据 Milvus Zilliz 向量数据库

K8s 为 AI 应用提供大规模 GPU 算力之实践_QCon_李程_InfoQ精选文章