写点什么

重塑可观测边界:小红书在大模型时代的稳定性工程实践|QCon 上海

  • 2025-09-20
    北京
  • 本文字数:1547 字

    阅读完需:约 5 分钟

大小:823.54K时长:04:41
重塑可观测边界:小红书在大模型时代的稳定性工程实践|QCon 上海

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


小红书可观测团队负责人王亚普已确认出席并发表题为重塑可观测边界:小红书在大模型时代的稳定性工程实践的主题分享。 AI 技术的爆发式增长对可观测性的挑战和新需求:如何保障 AI Infra 和 AI 应用的稳定性、性能和可靠性,可观测平台也从“服务业务”到“服务 AI ”再到“自身智能化”的演进趋势。AI 正在重塑可观测平台的能力边界:需要对 AI 基础设施、训练/推理有一定了解,才能提供真正有效的可观测能力;从传统的数据呈现/检索工具,变成具备洞察力和决策辅助能力的智能系统。本次分享将结合小红书在 AI 领域不同方向解决痛点问题的经验探索,详细分享其中一些重点技术的实践和落地,希望能给听众带来一些启发和思考,欢迎多多交流。


王亚普,小红书可观测团队负责人。目前就职于小红书基础技术部可观测技术组,主要负责小红书可观测技术体系建设,结合公司内部云原生架构现状,推动可观测技术在公司内大规模落地,面向业务提供一站式可观测平台,并深度应用于公司稳定性项目建设,提高故障发现、响应、定位效率,并在持续探索 AI 可观测的能力边界和技术突破。曾就职于美团、蚂蚁集团,专注于可观测技术领域,高性能组件发烧友。他在本次会议的详细演讲内容如下:


演讲提纲

1. 小红书可观测在 AI 时代面临的挑战

2. AI Infra 观测:稳定性体系建设

  • 业务痛点以及对 AI Infra 稳定性的要求

  • GPU 基础设施保障:解决算力故障的资源浪费问题

  • 训练任务的稳定性保障:训练 Hang 的发现与定位、训练效果观测

  • 业务实战案例分享

3. AI 应用观测:全链路监控的落地实践

  • AI 应用的快速发展对可观测基建的挑战

  • AI 应用全链路监控的解决方案

  • 业务实战案例分享

4. 可观测 AI Agent 场景建设与落地

  • 围绕稳定性工程的 AI + 建设思路

  • 可观测 AI + 架构设计

  • 最佳实践分享

5. 未来规划


您认为,这样的技术在实践过程中有哪些痛点?

  • 环境异构挑战:内部训练框架多元、GPU 品牌参数与型号参差不齐,难以制定一套兼顾所有场景的通用解决方案

  • 在千卡甚至万卡集群训练时,任务 Hang 住所有 Pod 表现都是卡死,故障种类较多且故障定位的工作非常复杂

  • AI 应用的全链路追踪对于现有基建存在很多兼容性的挑战,需要考虑现状和业界发展趋势找到合适的落地路径


演讲亮点

  • GPU 故障诊断、训练 Hang 故障发现与定位可复制的工程经验

  • 可观测 AI Agent 产品化落地的思路,融合传统 AIOps 能力与大模型的落地实践


听众收益

  • 了解大规模训练过程中 Hang 的问题发现和自动化诊断

  • 了解业务 AI 应用端到端链路监控的建设思路

  • 了解 AI + 可观测的产品设计思路和技术架构


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,,详情可联系票务经理 18514549229 咨询。


2025-09-20 10:006847

评论

发布
暂无评论

英伟达入资 11Labs,黄仁勋:语音 AI 带来情感、共情和联结;Qwen3-TTS-Flash:多语言,多音色,多方言丨日报

声网

撕开厂商锁定黑箱:MyEMS 如何用开源代码夺回能源管理的 “自主控制权”?

开源能源管理系统

开源 能源管理系统

拍宝拍卖多开小程序系统:全平台适配与定制化解决方案

微擎应用市场

昇腾掀起的“超节点”浪潮,正在改写算力产业的游戏规则

Alter

华为 AI 超节点

华瑞指数云AI原生智能数据平台亮相GGF2025,构建企业出海数据底座

科技热闻

研发效能提升为何这么难?

思码逸研发效能

研发效能 研发效能度量 研发效能管理

spirv 进阶 inline 函数

Miracle

腾讯云助力Joyme出海:大数据与AI让成本减半、效率翻倍

科技热闻

舆情监测无国界,赢得海外市场的关键:社交媒体监控

沃观Wovision

跨境贸易 社交媒体 沃观Wovision 舆情监测系统 海外舆情监测

低代码“日程编辑”全功能拆解,新手速藏!

引迈信息

数字孪生 + 碳痕追踪:MyEMS 给能源管理装了套 “全链路全景导航”

开源能源管理系统

开源 能源管理系统

原生 APP 的开发框架

北京木奇科技有限公司

APP开发 软件外包公司 APP外包公司

​新一代边缘全栈开发平台!EdgeOne Pages 全面升级,加速 AI 开发部署

极客天地

spirv 开端

Miracle

2025-09-24 - 今日热门信息 - jobleap4u.com

Y11

面试 求职 找工作 招聘 笔试

函数 到 AST

Miracle

我用Zulu写了一款塔防游戏给弟弟当生日礼物

Comate编码助手

AI辅助编程 AI 编程 文心快码 文心快码Zulu

企业服务管理是做什么的?-ManageEngine卓豪

ServiceDesk_Plus

ManageEngine卓豪

缺少的一环 中间表达式

Miracle

一文看懂Playwright MCP如何引爆AI智能体爆发

测试人

人工智能 软件测试

Solidigm首推冷板冷却企业SSD,用于无风扇服务器

科技热闻

版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域

数据堂

计算机视觉 语音识别 语音合成 大模型 多模态大模型

顾客复购率低?跨境电商需要长效增长!

Wolink

跨境贸易 出海企业 海外推广 沃链Wolink 达人营销

长三角游戏出海新坐标:点点数据论坛分享硬核洞察,助力企业抢滩全球市场

极客天地

生成式强化学习在广告自动出价场景的技术实践

快手技术

多语言采集淘宝商品详情数据,淘宝API(json数据返回)

tbapi

淘宝商品数据接口 淘宝API 淘宝商品数据采集 淘宝商品详情API

到底什么是“研发效能”?

思码逸研发效能

研发效能 研发效能度量 研发效能管理 思码逸

破局 “节能不省钱” 悖论:开源 EMS 生态如何让中小企业用 1/3 成本实现能效跃升?

开源能源管理系统

开源 能源管理系统

大数据-105 Spark GraphX 入门详解:分布式图计算框架全面解析 架构、算法与应用场景

武子康

Java 大数据 flink spark 分布式

案卷高质量生成:烟草行政处罚案卷制作平台助推效率质量全面提升

中烟创新

BOE(京东方)携手UNESCO联合主办WCBR“科学十年”分会 彰显中国科技企业可持续发展实力

爱极客侠

重塑可观测边界:小红书在大模型时代的稳定性工程实践|QCon 上海_AI&大模型_QCon全球软件开发大会_InfoQ精选文章