10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

从搜索推荐到 LLM 推理的弹性调度:混合云架构下的小红书联邦集群弹性实践和探索 | QCon 北京

  • 2025-04-02
    北京
  • 本文字数:1404 字

    阅读完需:约 5 分钟

大小:771.76K时长:04:23
从搜索推荐到LLM推理的弹性调度:混合云架构下的小红书联邦集群弹性实践和探索 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


小红书容器研发技术专家孙伟祥已确认出席并发表题为《从搜索推荐到LLM推理的弹性调度:混合云架构下的小红书联邦集群弹性实践和探索》的主题分享。混合云环境下资源异构化和资源碎片化一直是制约资源效能的核心问题,而联邦化的弹性调度是解决这类问题的有效手段。近一年多以来,小红书内部逐渐将在线搜索推荐这类重数据、高敏感型业务,以及最近兴起的依赖 GPU 等异构算力的大语言模型(LLM)业务纳入到统一的联邦集群弹性调度架构体系,整合多云与多集群的碎片化资源形成全局资源池,实现了跨集群及跨云的弹性调度,以及在离线服务之间的弹性混部,在资源效能方面取得了不错的结果,也很好地应对了“Tiktok 难民潮” 等突发流量洪峰场景。本次分享将深入介绍小红书内部混合云架构下的联邦集群弹性调度实践和探索。


孙伟祥目前在小红书云原生团队任容器研发专家,曾是阿里云容器团队成员。他还是 CNCF 开源孵化项目 OpenKruise Maintainer、Karmada、KubeVela 等开源项目贡献者。目前主要聚焦于多云、多集群、多场景(微服务 、大数据、AI)下的调度、弹性、应用编排的架构统一。他在本次会议的详细演讲内容如下:


演讲提纲

1. 背景与业务挑战

  • 混合云环境现状及痛点

  • 小红书混合云业务架构

  • 资源异构与资源碎片(CPU/GPU/NPU、跨云 API 差异)

  • 成本与效率的平衡(预留资源浪费 vs 突发需求响应)

  • 小红书业务场景特性

  • 搜索推荐:重数据、高并发、实时性、流量波动显著

  • LLM 场景:GPU 卡型异构、资源分散、离在线推理以及训推资源分配使用不均

2. 混合云联邦集群架构设计

  • 联邦调度核心框架

  • 统一多云、多集群接入层(联邦化的 K8s API)

  • 联邦应用编排(有状态、无状态、AI 工作负载)

  • 联邦分级调度(全局资源视图 + 调度优化)

  • 统一资源池化

  • 跨云资源纳管(自建 IDC & 云上)

3. 搜推与 LLM 场景实践与探索

  • 搜索推荐场景的跨云跨集群弹性

  • 有状态服务动态跨云、跨集群分发

  • 数据跨云多级缓存以及优化手段

  • LLM 推理场景的成本效率优化

  • 全局统一推理资源池弹性调度

  • 在离线推理混部与弹性能力探索

4. 总结和展望

  • LLM 在离线任务的深度协同

  • 统一资源池下的多类型异构体资源负载混合负载调度(GPU/CPU 混部)

  • 硬件异构性的持续算力统一

  • 异构硬件调度视角算力标准化,异构算力下的负载均衡等


听众收益

  • 了解小红书内部多云多集群架构实践

  • 分享可复制的单集群接口兼容的联邦集群方案

  • 分享多云多集群场景下一些统一调度和弹性的落地实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-02 08:006417

评论

发布
暂无评论

深入解析:Netty 与 Dubbo 的关系与应用

Liam

程序员 dubbo 后端 Netty 分布式系统

一图解锁 | 运维管理到工具体系的建设逻辑

嘉为蓝鲸

运维管理 运维工具

基于Python的性能优化(线程、协程、进程)

我再BUG界嘎嘎乱杀

Python 性能优化

牛马真的沉默了,入职第一天就干活

秃头小帅oi

rbenv:Ruby 多版本管理利器

不在线第一只蜗牛

ruby 后端 项目开发

大模型在蓝鲸运维体系应用——蓝鲸运维开发智能助手

嘉为蓝鲸

运维 大模型 运维管理

2024深圳国际数字能源展览会

AIOTE智博会

能源展 数字能源展 深圳能源展

ITSM新用法揭秘:构建科技公司售后服务管理体系

嘉为蓝鲸

运维 ITSM 流程管理

TiDB Server 的优雅下线

TiDB 社区干货传送门

数据库连接

长江云 IPTV 融合业务 0 改造平滑迁移上云,《面向 AIGC 的数智广电新质生产力构建白皮书》开放下载

Baidu AICLOUD

vmware 专有云 IPTV

云+AI,火山引擎助力泛互联网行业创新和增长

新消费日报

反射API与AOP:打造可插拔的插件式架构

技术冰糖葫芦

API Explorer API 文档 API 性能测试

飞天发布时刻|阿里云可观测全速演进

阿里巴巴云原生

阿里云 云原生 可观测

京东面试:SpringBoot同时可以处理多少请求?

王磊

面向AI的开发:从大模型(LLM)、检索增强生成(RAG)到智能体(Agent)的应用

京东科技开发者

大厂B端/G端数据可视化项目如何做设计评审

京东科技开发者

9 个适用于小型企业的顶级API管理解决方案

幂简集成

API API接口管理 API接口工具 API管理

25更敢为 | TATA木门25周年庆典盛大启幕 探索家居品质生活新静界

极客天地

2024年安全生产月资料合集,抓紧保存!

草料二维码

资料分享 安全生产月

小冰携手火山引擎,让 AI 从崭露头角到落地生根

新消费日报

一键自动化博客发布工具,用过的人都说好(公众号篇)

程序那些事

工具 程序那些事 自动发布

你还在用工单系统的思维建设ITSM吗?

嘉为蓝鲸

ITSM 运维管理 平台化

抖音商品API接口:开启电商自动化和数据洞察之门

Noah

听说京东618裁员没?上午还在赶需求,下午就开会通知被裁了~

王中阳Go

Go 面试 微服务 后端 Go进阶

数字孪生智慧工厂解决方案——打造绿色、透明重卡超级工厂

图扑物联

工业物联网 组态软件 数字孪生 web组态 智慧工厂

看不懂正则表达式?试试可视化工具吧!

京东科技开发者

从搜索推荐到LLM推理的弹性调度:混合云架构下的小红书联邦集群弹性实践和探索 | QCon北京_架构_QCon全球软件开发大会_InfoQ精选文章