2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

K8s 为 AI 应用提供大规模 GPU 算力之实践

  • 2019-08-11
  • 本文字数:442 字

    阅读完需:约 1 分钟

K8s 为 AI 应用提供大规模 GPU 算力之实践

QCon北京2019大会上,李程讲师做了《K8s 为 AI 应用提供大规模 GPU 算力之实践》主题演讲,主要内容如下。


演讲简介


华为云 CCI 服务管理数百个 GPU 卡,为华为云 EI 服务及外部客户提供 AI 计算平台,在该过程中积累了大量面向 AI 计算的优化经验。AI 计算加速的关键是 GPU 管理,K8S 资源调度优化,面向 AI 计算框架和模型的 Job/Task 调度。通过这些优化手段可以使得 128 块 GPU 卡的线性加速比达到 0.8+。本次议题将介绍如何通过开源项目 K8S + Kata 容器搭建 AI 计算平台,最大化 GPU 及 AI 芯片算力的使用效率,并给出测试结果。最后我们也会对未来的技术改进做出展望。

听众受益

  1. 了解基于 K8S 的 AI 框架的现状;

  2. 了解大规模 GPU 在 AI 分布式训练场景下的应用;

  3. 了解 K8S 在人工智能场景下的优化思路。


讲师介绍


李程


华为 高级软件架构师


2011 年加入华为,先后参与网络软件平台、SDN、公有云容器服务等产品的架构设计工作,目前任华为 Serverless 容器服务 CCI 架构师。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/beijing/schedule


2019-08-11 00:002165

评论

发布
暂无评论
发现更多内容

VMware vSphere 6.7 Update 3w 下载

sysin

vSphere vcenter esxi

8 个最佳的开源任务管理系统(附打分)

NocoBase

开源 低代码 任务管理 无代码 任务管理系统

Quartz 集群增强版入门指南:轻松上手

代码忍者

SpringBoot 实战:文件上传之秒传、断点续传、分片上传

江南一点雨

12.享元模式设计思想

杨充

Apache Spark & Paimon Meetup · 北京站,助力 LakeHouse 架构生产落地

阿里云大数据AI技术

大数据 LakeHouse EMR Apache Paimon

RAG三件套运行的新选择 - GPUStack

GPUStack

大模型 LLM GenAI dify GPU 集群

VMware ESXi 6.7U3u macOS Unlocker & OEM BIOS 2.7 标准版和厂商定制版

sysin

macos esxi OEM BIOS

深入探索京东API接口:商品详情数据接口在电商应用中的强大应用

代码忍者

API 接口 pinduoduo API

政策强化,反欺诈监管日益加强

芯盾时代

金融 风控模型 反欺诈

腾讯云双十一拼团GO|云产品囤起来

六月的雨在InfoQ

腾讯云 云服务器 双十一 优惠大促

RAG三件套运行的新选择 - GPUStack

SEAL安全

大模型 LLM GenAI dify GPU 集群

数据资产入表,如何接住这“泼天的富贵”?

奇点云

数据资产入表

AI技术在司库管理中的革新实践与未来趋势

用友智能财务

财务 AI技术 全球司库 司库

探索淘宝API接口:高效网络爬虫数据抓取策略

代码忍者

API 接口 pinduoduo API

VMware vCenter Server 6.7U3w (安全更新) - ESXi 集中管理软件

sysin

vSphere vcenter

户外LED显示屏一般用P几的最好

Dylan

场景 技术优势 LED显示屏 户外LED显示屏 led显示屏厂家

“数字创新产品课程” 12月7-8日 · 上海 · CSPO认证周末班

ShineScrum

K8s 为 AI 应用提供大规模 GPU 算力之实践_QCon_李程_InfoQ精选文章