2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

火山引擎 Prometheus 面向大模型场景的优化实践|QCon 上海

  • 2025-09-12
    北京
  • 本文字数:1682 字

    阅读完需:约 6 分钟

大小:902.65K时长:05:08
火山引擎 Prometheus 面向大模型场景的优化实践|QCon 上海

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


字节跳动研发工程师郭刚平已确认出席并发表题为火山引擎 Prometheus 面向大模型场景的优化实践的主题分享。近年来,AI 技术发展迅猛,相关产品和解决方案已深入社会经济的方方面面,成为驱动创新、提升效率的重要引擎,AI 应用的其可观测技术也成为了行业关注的一个焦点,Prometheus 作为云原生监控领域事实标准,被广泛应用于 AI 大模型和智能驾驶领域的可观测任务,用于实现最佳性能及减少故障。本次演讲将分享火山引擎托管 Prometheus 在服务 AI 领域客户(如火山方舟)过程中,积累的保障 AI 推理服务时序数据库稳定性的关键技术实践,希望能给听众带来一些启发和思考。


郭刚平,字节跳动基础架构可观测团队研发工程师,多年可观测领域从业经验,在可观测系统架构设计、大规模数据链路性能优化、稳定性保障方面有比较多的实践经验,现任火山引擎托管 Prometheus 产品研发负责人。他在本次会议的详细演讲内容如下:


演讲提纲

1. 大模型场景指标观测需求和挑战

  • 推理训练场景指标大规模高基数问题

    方舟大量接入点带来十亿级别的时序基数

    自动驾驶云大量短时训练任务引起高基数

    单指标高基数导致大查询

  • 在线推理服务扩缩容调度需求

  • 流量高峰需要快速扩容对查询可用性的要求

    K8s 基础的 HPA 不满足要求,需要基于 GPU 等自定义指标来作为扩缩容依据

  • 推理服务流量亲和性调度对指标实时性的要求

    大流量租户 Qos 保障需求

    写入链路

    网关共享集群导致的租户间写入相互影响

    查询链路

    单一租户大查询影响同一集群下的其他租户可用性

2. 新时代下 Prometheus 核心演进思路

  • 端到端稳定性保障

    集群粒度、租户粒度、查询粒度

  • 写入水平扩展、统一聚合查询,支撑大规模数据量

  • 原地数据分析 & AIOps 数据探查

  • 大规模场景下大模型的监控架构

3. 火山引擎托管 Prometheus 优化实践

  • 高基数问题

    高流失率高基数时序场景下的短时查询优化

    查询预聚合降低基数

    与业务侧对齐打点最佳实践方案

  • 在线推理调度对指标可用性 &实时性的需求

    近用户集群侧实时指标缓存

  • 大流量租户 Qos 保障

    写入链路

    大流量租户网关自动拆分独立分组

    查询链路

    大查询发现和治理

    面向" Never OOM "的查询组件设计

    Shuffle Sharding 查询

    聚合工作区 突破单集群规模上限

    Sharding 写入 & 聚合查询

4. 大模型场景实战效果

  • 稳定支撑火山引擎方舟十亿级时序读写,实现业务零改造低成本水平扩展

  • 近集群侧实时指标,助力在线推理服务 TTFT 延迟降低 40%

5. 未来与展望

  • 更高性能、更低成本的下一代时序存储

  • Inplace 时序数据分析能力

  • AIOps 能力内外复用上云


实践痛点

  • 时序的高基数问题是个持续易反复的问题,因为生产端是不受控的,如何在保障系统稳定性的前提下尽最大努力保障用户的可用性和体验是一个持久战,不仅仅是技术层面,也需要用户侧的宣贯和配套的基础建设来减少不合理使用姿势


听众受益

  • 了解端到端构建稳定的监控方案

  • 了解大规模场景下大模型的监控架构实践

  • 了解 Prometheus 创新性技术落地


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,,详情可联系票务经理 18514549229 咨询。


2025-09-12 10:008824

评论

发布
暂无评论

Focus Matrix for Mac(智能任务管理器)

Rose

mac软件下载 Focus Matrix 任务管理器

Mac 触控增强神器:BetterTouchTool如何使用?

Rose

苹果软件下载 BetterTouchTool破解 BetterTouchTool教程 Mac 触控增强神器

Golang中如何使用Singleflight库进行并发请求合并

Jack

【分布式技术专题】「分布式技术架构」手把手教你如何开发一个属于自己的Redis延时队列的功能组件

码界西柚

redis 分布式 延时队列 redisson 三周年连更

云原生应用使用的云服务组件介绍

穿过生命散发芬芳

三周年连更 云服务组件

Django笔记二十二之多数据库操作

Hunter熊

Python django database

一套前后台全部开源的H5商城送给大家

越长大越悲伤

开源 java‘

站点可靠性工程SRE最佳实践 -- 黄金监控信号

俞凡

SRE

C++虚函数详解:多态性实现原理及其在面向对象编程中的应用

小万哥

c++ 程序员 面试 后端 开发

Office Mac升级提醒如何去掉?关闭Microsoft AutoUpdate弹框提示

Rose

许可证 Office 2019中文版 Office Mac office更新 office2021下载

Macos媒体播放器 Movist Pro 针对 macOS 13 Ventura 进行了优化

Rose

Movist Pro 中文版 Movist Pro下载 Macos媒体播放器 视频播放器下载

Java实现坦克大战2.0

timerring

Java

Redis桌面管理用什么工具好?

真大的脸盆

Mac Mac 软件 桌面管理工具

面对“失业焦虑”我们可以做些什么?让 AI 帮助自己变得更强大! | 社区征文

汪子熙

人工智能 机器学习 程序员 ChatGPT 三周年征文

macOS硬盘如何格式转换?用Tuxera NTFS就够了!

Rose

ntfs FAT32

Java IO流详解

timerring

Java

Go常用设计模式(下)

闫同学

三周年连更

苹果Mac最佳卸载程序和清理助手:App Cleaner & Uninstaller

Rose

mac系统清理优化软件 苹果系统清理 App Cleaner

什么是人工智能领域模型的 Presence Penalty 参数?

汪子熙

人工智能 机器学习 深度学习 强化学习 三周年连更

软件测试 | MTV开发模式

测吧(北京)科技有限公司

测试

必知必会的JavaScript前端面试题篇(一),不看后悔!

Immerse

深入理解 TypeScript 的 type 以及 type 与 interface 和 class 的区别

Lee Chen

typescript

2023-05-06:X轴上有一些机器人和工厂。给你一个整数数组robot,其中robot[i]是第i个机器人的位置 再给你一个二维整数数组factory,其中 factory[j] = [posit

福大大架构师每日一题

golang rust 福大大

Pratt Parsing - 自顶向下的算符优先级

乌龟哥哥

三周年连更

架构训练营模块一作业

Geek_3d7c4d

架构训练营

Django笔记二十三之case、when操作条件表达式搜索、更新等操作

Hunter熊

Python MySQL django case when

火山引擎 Prometheus 面向大模型场景的优化实践|QCon 上海_AI&大模型_QCon全球软件开发大会_InfoQ精选文章