写点什么

火山引擎 Prometheus 面向大模型场景的优化实践|QCon 上海

  • 2025-09-12
    北京
  • 本文字数:1682 字

    阅读完需:约 6 分钟

大小:902.65K时长:05:08
火山引擎 Prometheus 面向大模型场景的优化实践|QCon 上海

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


字节跳动研发工程师郭刚平已确认出席并发表题为火山引擎 Prometheus 面向大模型场景的优化实践的主题分享。近年来,AI 技术发展迅猛,相关产品和解决方案已深入社会经济的方方面面,成为驱动创新、提升效率的重要引擎,AI 应用的其可观测技术也成为了行业关注的一个焦点,Prometheus 作为云原生监控领域事实标准,被广泛应用于 AI 大模型和智能驾驶领域的可观测任务,用于实现最佳性能及减少故障。本次演讲将分享火山引擎托管 Prometheus 在服务 AI 领域客户(如火山方舟)过程中,积累的保障 AI 推理服务时序数据库稳定性的关键技术实践,希望能给听众带来一些启发和思考。


郭刚平,字节跳动基础架构可观测团队研发工程师,多年可观测领域从业经验,在可观测系统架构设计、大规模数据链路性能优化、稳定性保障方面有比较多的实践经验,现任火山引擎托管 Prometheus 产品研发负责人。他在本次会议的详细演讲内容如下:


演讲提纲

1. 大模型场景指标观测需求和挑战

  • 推理训练场景指标大规模高基数问题

    方舟大量接入点带来十亿级别的时序基数

    自动驾驶云大量短时训练任务引起高基数

    单指标高基数导致大查询

  • 在线推理服务扩缩容调度需求

  • 流量高峰需要快速扩容对查询可用性的要求

    K8s 基础的 HPA 不满足要求,需要基于 GPU 等自定义指标来作为扩缩容依据

  • 推理服务流量亲和性调度对指标实时性的要求

    大流量租户 Qos 保障需求

    写入链路

    网关共享集群导致的租户间写入相互影响

    查询链路

    单一租户大查询影响同一集群下的其他租户可用性

2. 新时代下 Prometheus 核心演进思路

  • 端到端稳定性保障

    集群粒度、租户粒度、查询粒度

  • 写入水平扩展、统一聚合查询,支撑大规模数据量

  • 原地数据分析 & AIOps 数据探查

  • 大规模场景下大模型的监控架构

3. 火山引擎托管 Prometheus 优化实践

  • 高基数问题

    高流失率高基数时序场景下的短时查询优化

    查询预聚合降低基数

    与业务侧对齐打点最佳实践方案

  • 在线推理调度对指标可用性 &实时性的需求

    近用户集群侧实时指标缓存

  • 大流量租户 Qos 保障

    写入链路

    大流量租户网关自动拆分独立分组

    查询链路

    大查询发现和治理

    面向" Never OOM "的查询组件设计

    Shuffle Sharding 查询

    聚合工作区 突破单集群规模上限

    Sharding 写入 & 聚合查询

4. 大模型场景实战效果

  • 稳定支撑火山引擎方舟十亿级时序读写,实现业务零改造低成本水平扩展

  • 近集群侧实时指标,助力在线推理服务 TTFT 延迟降低 40%

5. 未来与展望

  • 更高性能、更低成本的下一代时序存储

  • Inplace 时序数据分析能力

  • AIOps 能力内外复用上云


实践痛点

  • 时序的高基数问题是个持续易反复的问题,因为生产端是不受控的,如何在保障系统稳定性的前提下尽最大努力保障用户的可用性和体验是一个持久战,不仅仅是技术层面,也需要用户侧的宣贯和配套的基础建设来减少不合理使用姿势


听众受益

  • 了解端到端构建稳定的监控方案

  • 了解大规模场景下大模型的监控架构实践

  • 了解 Prometheus 创新性技术落地


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,,详情可联系票务经理 18514549229 咨询。


2025-09-12 10:001

评论

发布
暂无评论

DW-Siam:Deeper and Wider Siamese Networks for Real-Time Visual Tracking 更宽更深的孪生网络

Geek_7ubdnf

神经网络

GAN:生成对抗网络 Generative Adversarial Networks

Geek_7ubdnf

神经网络

2023-01-11:体育馆的人流量。编写一个 SQL 查询以找出每行的人数大于或等于 100 且 id 连续的三行或更多行记录。返回按 visit_date 升序排列 的结果表。 DROP TAB

福大大架构师每日一题

MySQL 福大大

容器服务与达摩院合作 AHPA 获 AAAI 2023 IAAI人工智能创新应用奖

阿里巴巴中间件

阿里云 容器 云原生

MarkDown简明语法手册

Geek_7ubdnf

markdown

项目制实践如何助力组织进化

feijieppm

项目管理 研发效能 技术管理 文化 & 方法 效能度量

GA-RPN:Region Proposal by Guided Anchoring 引导锚点的建议区域网络

Geek_7ubdnf

神经网络

天翼云荣获2022年度“边缘计算先锋企业”“分布式云先锋企业”称号!

天翼云开发者社区

混沌演练实践(一)

京东科技开发者

测试 混沌工程 系统 混沌测试 企业号 1 月 PK 榜

阿里云AIoT 经典基础知识 快问快答——基础知识

阿里云AIoT

Serverless 物联网 API 消息中间件 弹性计算

您有一套专属权益已送达,请注意查收

天翼云开发者社区

大前端—2022明星项目,2023展望

非喵鱼

JavaScript Vue 前端 React 前沿技术

2023年了 对Go做一个全网最全的总结

卡二条

Go Go Concurrency Patterns Go web

DIMP:Learning Discriminative Model Prediction for Tracking 学习判别模型预测的跟踪

Geek_7ubdnf

神经网络

大规模 Kubernetes 集群故障注入的利器-ChaosBlade

阿里巴巴中间件

阿里云 Kubernetes 云原生 ChaosBlade

微服务引擎 MSE 升级至 3.0:降低微服务在云原生时代的演进成本

阿里巴巴中间件

阿里云 微服务 云原生

2023年有哪些具备潜力的加密投资标的?

股市老人

阿里巴巴重磅开源云原生网关: Higress

阿里巴巴中间件

阿里云 云原生 Higress

效能改进中的度量实践

feijieppm

项目管理 研发效能 技术管理 文化 & 方法 效能度量

Higress 开源后,我们整理了开发者最关心的 15 个问题

阿里巴巴中间件

阿里云 云原生 Higress

问题盘点|使用 Prometheus 监控 Kafka,我们该关注哪些指标

阿里巴巴中间件

kafka 阿里云 云原生 Prometheus

TapTap算法平台的 Serverless 探索之路

Serverless Devs

安全可信| 密评合规!天翼云全栈混合云通过商用密码应用安全性评估!

天翼云开发者社区

RatingBar(星级评分条)

芯动大师

Android Studio 星级评分条 ratingbar

Java高手速成 | 实现人物拼图游戏

TiAmo

Java 拼图

「认知」打工人的自我修养

职场 认知

IoTLink v1.2.1 最新公告

山东云则信息科技

Java 物联网 springboot

《天翼云安全白皮书》发布!共铸国云安全生态!

天翼云开发者社区

应用 Serverless 化,让业务开发心无旁骛

阿里巴巴中间件

阿里云 Serverless 云原生

事件总线 + 函数计算构建云上最佳事件驱动架构应用

Serverless Devs

IoTLink 轻量级的物联网综合业务支撑平台

山东云则信息科技

Java 物联网 spring-boot

火山引擎 Prometheus 面向大模型场景的优化实践|QCon 上海_AI&大模型_QCon全球软件开发大会_InfoQ精选文章