K8s 为 AI 应用提供大规模 GPU 算力之实践_QCon_李程

最新发布《数智时代的AI人才粮仓模型解读白皮书（2024版）》，立即领取! 了解详情 



 写点什么

在QCon北京2019大会上，李程讲师做了《K8s 为 AI 应用提供大规模 GPU 算力之实践》主题演讲，主要内容如下。

演讲简介：

华为云 CCI 服务管理数百个 GPU 卡，为华为云 EI 服务及外部客户提供 AI 计算平台，在该过程中积累了大量面向 AI 计算的优化经验。AI 计算加速的关键是 GPU 管理，K8S 资源调度优化，面向 AI 计算框架和模型的 Job/Task 调度。通过这些优化手段可以使得 128 块 GPU 卡的线性加速比达到 0.8+。本次议题将介绍如何通过开源项目 K8S + Kata 容器搭建 AI 计算平台，最大化 GPU 及 AI 芯片算力的使用效率，并给出测试结果。最后我们也会对未来的技术改进做出展望。

听众受益

了解基于 K8S 的 AI 框架的现状；
了解大规模 GPU 在 AI 分布式训练场景下的应用；
了解 K8S 在人工智能场景下的优化思路。

讲师介绍：

李程

华为高级软件架构师

2011 年加入华为，先后参与网络软件平台、SDN、公有云容器服务等产品的架构设计工作，目前任华为 Serverless 容器服务 CCI 架构师。

完整演讲 PPT 下载链接：

https://qcon.infoq.cn/2019/beijing/schedule

公众号推荐：

跳进 AI 的奇妙世界，一起探索未来工作的新风貌！想要深入了解 AI 如何成为产业创新的新引擎？好奇哪些城市正成为 AI 人才的新磁场？《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造，为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者，还是对生成式 AI 充满好奇的新手，这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号，回复「开发者洞察」领取。

发布

暂无评论

创作场景

K8s 为 AI 应用提供大规模 GPU 算力之实践

听众受益

公众号推荐：

评论

运维堡垒机定义以及作用简单讲解-行云管家

设计模式-备忘录模式

惟实励新，精进臻善！MIAOYUN人人是讲师（第二季）焕新重启

Spring 之依赖注入底层原理

LLM 快人一步的秘籍 —— Zilliz Cloud，热门功能详解来啦！

微信支撑10亿用户背后核心技术：亿级流量Java并发与网络编程实战

GitHub上线一天星标99.9K：阿里内部高逼格SpringCloud实战手册

AI真的会让程序员失业吗 | 社区征文

百度APP iOS端包体积50M优化实践(一)总览

我们与AI共生的未来 | 社区征文

数据智能服务商奇点云完成近亿元C2轮融资

2023年MQTT协议的7个技术趋势｜描绘物联网的未来

DSW-Gallery使用体验+生成吸引人眼球的新闻标题

华为进军ERP！北用友南金蝶的格局是否会动摇？

青海等保测评机构有几家？分别是哪几家？

前端自动化测试之葵花宝典

博睿数据受邀出席GOPS 2023 深圳站：自适应AI支撑可观测性全面升级

印象最深的都是关于 IoTConsensus 共识协议？听听新晋 Committer 怎么说！

干掉微服务，换下Dubbo，Spring CloudAlibaba王者降临

如何在移动应用开发中，用小程序实践灰度发布策略

如何在Java中做基准测试？JMH使用初体验

图解云消息服务KooMessage

软件测试/测试开发简历写作与面试技巧-VIP内部资料

在 Rainbond 上使用在线知识库系统zyplayer-doc

应用火山引擎DataTester“避坑”，抖音实现用A/B实验快速试错

一文了解MySQL中的多版本并发控制

测试1号位的自我修养

Spring为什么需要三级缓存来解决循环依赖

Redis缓存穿透/击穿/雪崩以及数据一致性的解决方案

AI 能否取代打工人？| 社区征文

可处理十亿级向量数据！Zilliz Cloud GA 版本正式发布

创作场景

K8s 为 AI 应用提供大规模 GPU 算力之实践

听众受益

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载