写点什么

K8s 为 AI 应用提供大规模 GPU 算力之实践

  • 2019-08-11
  • 本文字数:442 字

    阅读完需:约 1 分钟

K8s 为 AI 应用提供大规模 GPU 算力之实践

QCon北京2019大会上,李程讲师做了《K8s 为 AI 应用提供大规模 GPU 算力之实践》主题演讲,主要内容如下。


演讲简介


华为云 CCI 服务管理数百个 GPU 卡,为华为云 EI 服务及外部客户提供 AI 计算平台,在该过程中积累了大量面向 AI 计算的优化经验。AI 计算加速的关键是 GPU 管理,K8S 资源调度优化,面向 AI 计算框架和模型的 Job/Task 调度。通过这些优化手段可以使得 128 块 GPU 卡的线性加速比达到 0.8+。本次议题将介绍如何通过开源项目 K8S + Kata 容器搭建 AI 计算平台,最大化 GPU 及 AI 芯片算力的使用效率,并给出测试结果。最后我们也会对未来的技术改进做出展望。

听众受益

  1. 了解基于 K8S 的 AI 框架的现状;

  2. 了解大规模 GPU 在 AI 分布式训练场景下的应用;

  3. 了解 K8S 在人工智能场景下的优化思路。


讲师介绍


李程


华为 高级软件架构师


2011 年加入华为,先后参与网络软件平台、SDN、公有云容器服务等产品的架构设计工作,目前任华为 Serverless 容器服务 CCI 架构师。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/beijing/schedule


2019-08-11 00:002186

评论

发布
暂无评论
发现更多内容

RestCloud × 物流行业:让货物追踪更精准,让供应链协同更高效

谷云科技RestCloud

供应链 数据传输 集成平台 ipaas tms

聚焦 AI 应用基础设施,云栖大会 Serverless AI 全回顾

阿里巴巴云原生

阿里云 云原生 函数计算

代码之美-代码整洁之道

京东科技开发者

Maven编译报错

刘大猫

人工智能 云计算 大数据 算法 物联网

AI企业出海,不是选择题而是生存题

慢点科技SlowTech

低代码技术的扩展逻辑:从开发主体泛化到工程秩序的再生产

JeeLowCode低代码平台

低代码 低代码排名 低代码工具 低代码实现

喜报|枫清科技荣获2025网易未来大奖「AI智能体创新企业TOP10」

Fabarta

RAG实践:一文掌握大模型RAG过程

京东科技开发者

FreeBSD包管理器pkg使用指南:轻松列出可升级软件包

qife122

包管理 freebsd pkg命令 系统升级

工业管理 项目管理经验总结(12)

万里无云万里天

项目管理 工业 工厂运维

华为开发者空间云开发环境(容器)操作指导

华为云开发者联盟

容器云 华为开发者空间

递归算法实践--到仓合单助力京东物流提效增收

京东科技开发者

ETL调度最佳实践:避免高峰期任务冲突与资源争抢

谷云科技RestCloud

数据处理 数据传输 ETL 任务调度 数据集成平台

阿里云OpenLake及行业解决方案年度发布,助力千行百业Data+AI一体化融合

阿里云大数据AI技术

大数据 阿里云 OpenLake Agentic AI

16岁极客少年的造浪之路:用 TRAE 撬动创业第一桶金

北京中暄互动广告传媒有限公司

阿里云函数计算 AgentRun 全新发布,构筑智能体时代的基础设施

阿里巴巴云原生

阿里云 云原生 agent

云栖2025 | 阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级

阿里云大数据AI技术

大数据 flink 阿里云 EMR Dataworks

北京互联网大会 | 百度副总裁陈洋:AI Coding为新质生产力注入“新码力”

Comate编码助手

AI 编程 文心快码 文心快码3.5S AI编程助手

Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践

SelectDB

数据库 AI 实时数仓 MCP Server

荣耀携手腾讯电子签打造智能合同流水线,准确率提高20%

极客天地

华为开发者空间-云主机镜像制作与复制分享功能指导

华为云开发者联盟

镜像 云主机 华为开发者空间

解读阿里云刚发布的《AI 原生应用架构白皮书》

阿里巴巴云原生

阿里云 云原生

区块链 Web3 项目的开发

北京木奇科技有限公司

区块链开发 软件外包公司 web3开发

AI企业出海,不是选择题而是生存题

慢点科技SlowTech

如何禁用Android设备上的Bixby助手

qife122

android 三星手机

华为开发者空间云开发环境部署OpenHands,解锁AI赋能的高效编程搭档

华为云开发者联盟

MaaS DeepSeek 华为开发者空间 OpenHands

30天Python编程挑战 - 从零基础到全栈开发

qife122

Python 全栈开发

双主业集团数据治理架构实战:从ERP核心到大数据平台的演进路径 - 墨天轮

袋鼠云数栈

数据中台 架构 数据治理 袋鼠云 数栈

破局与进化:火山引擎Data Agent从落地实践到架构未来

北京中暄互动广告传媒有限公司

经典2048游戏:数字合并的益智挑战

qife122

JavaScript 益智

让每次语音唤醒都可靠,公牛沐光重构可观测体系

阿里巴巴云原生

阿里云 云原生 Arms

K8s 为 AI 应用提供大规模 GPU 算力之实践_QCon_李程_InfoQ精选文章