2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

小米资源画像体系构建与业务实践 | QCon 北京

  • 2025-04-01
    北京
  • 本文字数:1363 字

    阅读完需:约 4 分钟

大小:726.09K时长:04:07
小米资源画像体系构建与业务实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


小米高级云原生研发工程师李洋已确认出席并发表题为《小米资源画像体系构建与业务实践》的主题分享。在 Kubernetes(简称 K8s)场景中,很多原生包括扩展的策略都是依托于不同维度的资源数据进行开发的,可以理解为资源数据是最能直接影响到策略结果的因素之一。然而无论是小到容器,还是大到集群,都拥有各自独特的资源属性,不能一概而论。但在通用型场景下,也不能重复造轮子。


资源画像,就是朝着 K8s 中最根本的资源方向,对不同类型的负载分层分类的刻画出更高维度的聚合数据,用数据丰富上游各种维度策略或提升现有策略准确性,从而解决“稳定性”、“交付”和“成本”等场景中的实际问题。本次分享将介绍小米内部在资源画像方面的实践,以及解决了哪些业务场景问题,带来了哪些收益,希望能为大家提供一些新的思路。


李洋现任小米高级云原生研发工程师,专注于云原生技术研发与优化,此前曾就职于快手和陌陌。深度参与内部核心组件研发(如 scheduler、descheduler、volcano、vGPU、koordinator 等)。其主导的资源画像预测压缩功能累计减少 5W+CPU 资源浪费,并通过优化 HPA 扩容策略显著提升业务稳定性和资源利用率。他在本次会议的详细演讲内容如下:


演讲提纲

1. 从真实场景中分析不同维度遇到的挑战

  • 交付 &成本:资源浪费导致集群容量不足,发布“pending”,间接导致无法容纳更多的业务,导致集群资源利用率低。

  • 稳定性:静态分配调度转实时负载感知调度后仍然有单机热点问题,影响业务稳定性。

  • 稳定性:弹性扩缩滞后,业务稳定性受到影响。

2. 画像体系构建与架构设计

  • 组织阵型搭建:资源画像研发小组及基础架构的设计。

  • 画像架构设计:能力拆解、组件划分、目标一致、各司其职。

3. 业务场景实践

  • 预测 workload 申请资源压缩,减少浪费,提高利用率。

  • 预测 node 真实用量调度,减少热点,提高稳定性。

  • 预测 HPA 提前扩容,避免无效缩容,提高稳定性。

4. 总结展望

  • 总结小米在资源画像实践中的效果。

  • 探讨更多机制设计与思考。


内容亮点

  1. 很少有项目能从“资源预测”与“特征训练”等层面直接解决用户与 K8s 间的痛点问题。

  2. 贴近实际业务场景来讲解如何使用资源画像增强策略,带来收益。


听众收益

  1. 学习如何通过特征提取、预测与算法等技术,为 K8s 场景赋能。

  2. 了解小米内部如何通过资源画像解决真实业务问题。


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-01 14:005437

评论 1 条评论

发布
用户头像
沙发
2025-05-07 15:40 · 北京
回复
没有更多了

公司刚来的阿里p8,看完我构建的springboot框架,甩给我一份文档

钟奕礼

程序员 Java 面试 Java、 java 编程

Flink Shuffle 3.0: Vision, Roadmap and Progress

Apache Flink

大数据 flink 实时计算

腾讯云在中国公有云开发和基础设施平台分析师报告中入选领导者阵营

科技热闻

启科量子部署工具 Runtime 正式开源

启科量子开发者官方号

部署 量子

蚂蚁金服Java研发岗二面:说说HashMap 中的容量与扩容实现

钟奕礼

程序员 Java 面试 Java、 java 编程

备受企业青睐的华为云CDN优势到底在哪?

路过的憨憨

开源全球公司贡献 49 名,涛思数据荣登 2022 中国开发者影响力年度榜单

TDengine

tdengine 时序数据库

对标阿里P7:高并发+Nginx+微服务+消息中间件+Netty+Redis+MySQL

程序知音

Java 数据库 JVM 高并发 后端技术

建信信托真的可靠吗?投资者含泪控诉

鳄鱼视界

云原生、20.3k Star......时序数据库 TDengine 的 2022 年精彩纷呈

TDengine

数据库 tdengine 开源 时序数据库

华为云CDN,助力安全企业下载服务,更好提升用户体验

路过的憨憨

既要速度与激情,也要稳定和安全,华为云CDN让你速度和安全兼得

路过的憨憨

编程培训后程序员怎么提升自身开发水平?

小谷哥

一个深度学习框架的年度报告

MegEngineBot

深度学习 年终总结 MegEngine

Pg数据库日常维护操作指南

查拉图斯特拉说

数据库 postgresql PgSQL

MonographDB获得IT168“2022年度创新产品奖”

极客天地

【喜报】OpenCloudOS 荣获2022 中国技术力量年度榜单「十大开源新锐项目」

腾源会

开源 opencloudOS

刷完200+大厂Java真题手册,成功拿到阿里,京东,美团的offer

钟奕礼

程序员 Java 面试 Java、 java 编程

华为云CDN加速服务,引领企业数字化发展潮流!

路过的憨憨

惊喜来袭!阿里内部Java开发成长手册(2022纯享版)开源

程序知音

Java 阿里 java面试 后端技术 Java面试八股文

2022,我们追逐群星,也在追逐AIGC的无尽可能

脑极体

我坦白→低代码功能我有,SQL练习题、数据可视化、数据填充助你高效

非喵鱼

sql 低代码 可视化 eCharts 数据库·

这88道阿里高级岗面试题,刷掉了80%以上的Java程序员

钟奕礼

编程 程序员 Java 面试 Java、

2022年最全大厂面试真题解析:java集合+spring+并发编程+MyBatis

钟奕礼

程序员 Java 面试 Java、 java 编程

恭喜 KubeVela 获得中国开源云联盟 2022 “优秀开源项目”

阿里巴巴云原生

阿里云 开源 云原生 KubeVela

读书|我的2022年度阅读推荐

MavenTalker

推荐书单

10 万字节Spring Boot +redis详细面试笔记(带完整目录)免费分享

钟奕礼

程序员 Java 面试 Java、 java 编程

AI for Science的上半场:人工智能如何重新定义科学研究新范式?

脑极体

华为云CDN提升网站响应速度,让下载快人一步

路过的憨憨

建木v2.6.2发布

Jianmu

开源 DevOps 持续集成 低代码 CI/CD

小米资源画像体系构建与业务实践 | QCon北京_架构_QCon全球软件开发大会_InfoQ精选文章