如何 0 成本启动全员 AI 技能提升?戳> 了解详情
写点什么

火山引擎 Prometheus 面向大模型场景的优化实践|QCon 上海

  • 2025-09-12
    北京
  • 本文字数:1682 字

    阅读完需:约 6 分钟

大小:902.65K时长:05:08
火山引擎 Prometheus 面向大模型场景的优化实践|QCon 上海

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


字节跳动研发工程师郭刚平已确认出席并发表题为火山引擎 Prometheus 面向大模型场景的优化实践的主题分享。近年来,AI 技术发展迅猛,相关产品和解决方案已深入社会经济的方方面面,成为驱动创新、提升效率的重要引擎,AI 应用的其可观测技术也成为了行业关注的一个焦点,Prometheus 作为云原生监控领域事实标准,被广泛应用于 AI 大模型和智能驾驶领域的可观测任务,用于实现最佳性能及减少故障。本次演讲将分享火山引擎托管 Prometheus 在服务 AI 领域客户(如火山方舟)过程中,积累的保障 AI 推理服务时序数据库稳定性的关键技术实践,希望能给听众带来一些启发和思考。


郭刚平,字节跳动基础架构可观测团队研发工程师,多年可观测领域从业经验,在可观测系统架构设计、大规模数据链路性能优化、稳定性保障方面有比较多的实践经验,现任火山引擎托管 Prometheus 产品研发负责人。他在本次会议的详细演讲内容如下:


演讲提纲

1. 大模型场景指标观测需求和挑战

  • 推理训练场景指标大规模高基数问题

    方舟大量接入点带来十亿级别的时序基数

    自动驾驶云大量短时训练任务引起高基数

    单指标高基数导致大查询

  • 在线推理服务扩缩容调度需求

  • 流量高峰需要快速扩容对查询可用性的要求

    K8s 基础的 HPA 不满足要求,需要基于 GPU 等自定义指标来作为扩缩容依据

  • 推理服务流量亲和性调度对指标实时性的要求

    大流量租户 Qos 保障需求

    写入链路

    网关共享集群导致的租户间写入相互影响

    查询链路

    单一租户大查询影响同一集群下的其他租户可用性

2. 新时代下 Prometheus 核心演进思路

  • 端到端稳定性保障

    集群粒度、租户粒度、查询粒度

  • 写入水平扩展、统一聚合查询,支撑大规模数据量

  • 原地数据分析 & AIOps 数据探查

  • 大规模场景下大模型的监控架构

3. 火山引擎托管 Prometheus 优化实践

  • 高基数问题

    高流失率高基数时序场景下的短时查询优化

    查询预聚合降低基数

    与业务侧对齐打点最佳实践方案

  • 在线推理调度对指标可用性 &实时性的需求

    近用户集群侧实时指标缓存

  • 大流量租户 Qos 保障

    写入链路

    大流量租户网关自动拆分独立分组

    查询链路

    大查询发现和治理

    面向" Never OOM "的查询组件设计

    Shuffle Sharding 查询

    聚合工作区 突破单集群规模上限

    Sharding 写入 & 聚合查询

4. 大模型场景实战效果

  • 稳定支撑火山引擎方舟十亿级时序读写,实现业务零改造低成本水平扩展

  • 近集群侧实时指标,助力在线推理服务 TTFT 延迟降低 40%

5. 未来与展望

  • 更高性能、更低成本的下一代时序存储

  • Inplace 时序数据分析能力

  • AIOps 能力内外复用上云


实践痛点

  • 时序的高基数问题是个持续易反复的问题,因为生产端是不受控的,如何在保障系统稳定性的前提下尽最大努力保障用户的可用性和体验是一个持久战,不仅仅是技术层面,也需要用户侧的宣贯和配套的基础建设来减少不合理使用姿势


听众受益

  • 了解端到端构建稳定的监控方案

  • 了解大规模场景下大模型的监控架构实践

  • 了解 Prometheus 创新性技术落地


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,,详情可联系票务经理 18514549229 咨询。


2025-09-12 10:008726

评论

发布
暂无评论

深圳市数字经济指数发布:数字经济蓬勃发展,数字用户深度渗透

易观分析

数字经济 深圳

国企数字化转型全是坑?看这几个成功案例,减少90%损失

雨果

数字化转型

基于 MQ 的分布式 Serverless 多租任务处理系统架构演进

Apache RocketMQ

消息队列 异步调度 #Serverless 任务

《深入理解JavaScript特性》学习总结2-ES6基础知识点总结

肥晨

11月月更 ES6基础知识点总结 解构赋值

数据中台选型必读(四):要想中台建的好,数据模型得做好

雨果

数据中台

Github上架3天星标55K,阿里最新产架构师速成手册成功颠覆了我的认知

程序员小毕

分布式 微服务 程序人生 架构师 Java后端

这家公司的码农有多牛,用C++重写Kafka,还能与其API兼容

雨果

Kafk

袋鼠云数栈UI5.0体验升级背后的故事:可用性原则与交互升级

袋鼠云数栈

20个值得收藏的实用JavaScript技巧

千锋IT教育

什么是“数字孪生”?有什么价值?

雨果

数字孪生

Meta Force 原力元宇宙dapp系统开发(智能合约部署)

开发微hkkf5566

这些小技巧,让你的前端编程更优雅

好程序员IT教育

前端

万物皆可集成系列:低代码对接Web Service接口

葡萄城技术团队

2022年互联网主要技术方向招聘需求变化:人工智能岗位需求增加87.7%;SQL在就业语言需求中位列第一

雨果

sql

低学历并不是阻碍职业发展的绊脚石

测吧(北京)科技有限公司

软件测试

《深入理解JavaScript特性》学习总结1-ES6基础知识点总结

肥晨

箭头函数 11月月更 ES6基础知识点总结

CSS修改单选框样式(element)

肥晨

11月月更 单选框样式修改 element单选框样式

2022开源之夏|EMQ三大开源项目开发圆满收官

EMQ映云科技

开源 物联网 IoT mqtt 11月月更

商业银行普惠金融可持续发展综合能力呈现梯队化,专项领域各有所长

易观分析

普惠金融

脑机直播 x 赛博驱魔!瑞云专访揭秘胶囊计划国风科幻神作《终极体验》制作幕后...

Renderbus瑞云渲染农场

3D动画 动画制作 瑞云专访

数据中台选型必读(五):中台建设本质就是构建企业的公共数据层

雨果

数据中台

3年测试经验跳槽成功拿下30W+年薪

测吧(北京)科技有限公司

软件测试

为什么面试官狂问八股文?我已经被三家公司问到哑口无言……

程序知音

Java java面试 java架构 后端技术 Java面试八股文

用户体验成为继MAU后,手机银行竞争分化的下一分水岭,易观千帆重磅发布手机银行APP用户体验GX评测

易观分析

App 手机银行

为什么晶闸管能在大电流下工作?

元器件秋姐

元器件采购 元器件电商 元器件知识 华秋商城 晶闸管

redhat运维-远程日志记录

阿柠xn

运维 日志 linux 文件权限控制 11月月更

大规模预训练模型:探讨与展望

澜舟孟子开源社区

数字化开采|AIRIOT智慧矿山自动化生产解决方案

AIRIOT

低代码 物联网 智慧矿山

图文实录|UIE:基于统一结构生成的通用信息抽取

澜舟孟子开源社区

最新出炉!开源 API 网关的性能对比:APISIX 3.0 和 Kong 3.0

API7.ai 技术团队

kong api 网关 APISIX

完整会议议程:NGINX Sprint China 2022 年度线上大会

NGINX开源社区

nginx

火山引擎 Prometheus 面向大模型场景的优化实践|QCon 上海_AI&大模型_QCon全球软件开发大会_InfoQ精选文章