写点什么

小米资源画像体系构建与业务实践 | QCon 北京

  • 2025-04-01
    北京
  • 本文字数:1363 字

    阅读完需:约 4 分钟

大小:726.09K时长:04:07
小米资源画像体系构建与业务实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


小米高级云原生研发工程师李洋已确认出席并发表题为《小米资源画像体系构建与业务实践》的主题分享。在 Kubernetes(简称 K8s)场景中,很多原生包括扩展的策略都是依托于不同维度的资源数据进行开发的,可以理解为资源数据是最能直接影响到策略结果的因素之一。然而无论是小到容器,还是大到集群,都拥有各自独特的资源属性,不能一概而论。但在通用型场景下,也不能重复造轮子。


资源画像,就是朝着 K8s 中最根本的资源方向,对不同类型的负载分层分类的刻画出更高维度的聚合数据,用数据丰富上游各种维度策略或提升现有策略准确性,从而解决“稳定性”、“交付”和“成本”等场景中的实际问题。本次分享将介绍小米内部在资源画像方面的实践,以及解决了哪些业务场景问题,带来了哪些收益,希望能为大家提供一些新的思路。


李洋现任小米高级云原生研发工程师,专注于云原生技术研发与优化,此前曾就职于快手和陌陌。深度参与内部核心组件研发(如 scheduler、descheduler、volcano、vGPU、koordinator 等)。其主导的资源画像预测压缩功能累计减少 5W+CPU 资源浪费,并通过优化 HPA 扩容策略显著提升业务稳定性和资源利用率。他在本次会议的详细演讲内容如下:


演讲提纲

1. 从真实场景中分析不同维度遇到的挑战

  • 交付 &成本:资源浪费导致集群容量不足,发布“pending”,间接导致无法容纳更多的业务,导致集群资源利用率低。

  • 稳定性:静态分配调度转实时负载感知调度后仍然有单机热点问题,影响业务稳定性。

  • 稳定性:弹性扩缩滞后,业务稳定性受到影响。

2. 画像体系构建与架构设计

  • 组织阵型搭建:资源画像研发小组及基础架构的设计。

  • 画像架构设计:能力拆解、组件划分、目标一致、各司其职。

3. 业务场景实践

  • 预测 workload 申请资源压缩,减少浪费,提高利用率。

  • 预测 node 真实用量调度,减少热点,提高稳定性。

  • 预测 HPA 提前扩容,避免无效缩容,提高稳定性。

4. 总结展望

  • 总结小米在资源画像实践中的效果。

  • 探讨更多机制设计与思考。


内容亮点

  1. 很少有项目能从“资源预测”与“特征训练”等层面直接解决用户与 K8s 间的痛点问题。

  2. 贴近实际业务场景来讲解如何使用资源画像增强策略,带来收益。


听众收益

  1. 学习如何通过特征提取、预测与算法等技术,为 K8s 场景赋能。

  2. 了解小米内部如何通过资源画像解决真实业务问题。


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-01 14:005693

评论 1 条评论

发布
用户头像
沙发
2025-05-07 15:40 · 北京
回复
没有更多了

EPPlus - 用于 .NET 的 Excel 电子表格

辣么大

Excel net 8月月更

CSDN 报告:阿里云容器服务成为中国开发者首选

阿里巴巴中间件

阿里云 云原生 云原生容器

A tour of gRPC:08 - gRPC 反射 与 Evans 客户端

BUG侦探

gRPC RPC protocolBuffer

大数据学习好还是自学的效果好?

小谷哥

IoT设备消息洪峰怎么扛? 阿里云AIoT消息队列深度解读——实践类

阿里云AIoT

nosql 算法 物联网 存储 消息中间件

运营小能手看过来,龙蜥社区招募 5 名校园大使!(另兑换功能上线啦)

OpenAnolis小助手

龙蜥社区 礼品 开发者激励 校园大使 贡献兑换

Python自学教程5-字符串有哪些常用操作

和牛

Python 测试 8月月更

一加和OPPO是什么关系?我来揭秘

Geek_8a195c

数衍科技与超市发达成合作,共同探索数字小票的新应用

科技怪咖

Python自学教程4-数据类型学什么

和牛

Python 测试 8月月更

defi质押dapp智能合约系统开发代码逻辑

开发微hkkf5566

开源一夏 |分布式事务--TCC解决方案

六月的雨在InfoQ

开源 分布式事务 TCC 最终一致性 8月月更

推荐这几款好用的IDEA插件,一定不要错过

(-0 , +0)

IDEA 插件 8月月更

社区疫情防控小程序源码

清风

源码 计算机毕业设计

java程序员培训学习靠谱吗

小谷哥

数字化时代CRM新的发展方向

力软低代码开发平台

案例 | 拯救Larrakia

澳鹏Appen

人工智能 数据库 nlp 语音识别 数据标注

直播预告|FeatureStore Meetup V4携手第四范式 & 腾讯 & 微软大咖讲师,共探特征平台实践

星策开源社区

微软 腾讯 Feature Store 特征平台 MLOps

零基础参加web前端培训薪资怎么样

小谷哥

北京前端培训学习怎么选择

小谷哥

web前端程序员学习靠谱吗?

小谷哥

有个大神把牛客网的Java面试笔记在GitHub开源了

收到请回复

大数据 架构 语言 & 开发 开发技术

活动预告(29日)|诚邀您参与AWS & 观测云「可观测性体验日」

观测云

购物中心的运营保障,数衍科技数据桥接服务系统升级

科技怪咖

ARMS实践|日志在可观测场景下的应用

阿里巴巴中间件

阿里云 云原生 可观测

在线医疗 | 眩晕智能语音问诊技术解决方案

擎声科技

RTC 实时音视频 语音通话 在线医疗 擎声Qtt

OceanBase 4.0:当我们谈单机分布式一体化架构时,我们在说什么?

OceanBase 数据库

仅用3年!青软集团跃升华为云教育类目伙伴TOP2

科技怪咖

风险组件已经升级到最新版本,仍然提示风险,如何快速解决——kaptcha 安全漏洞

墨菲安全

Kaptcha 漏洞修复 开源安全 漏洞检测 开源安全与治理

小米资源画像体系构建与业务实践 | QCon北京_架构_QCon全球软件开发大会_InfoQ精选文章