2025云栖大会,开启通往AGI的未来之旅 了解详情
写点什么

重塑可观测边界:小红书在大模型时代的稳定性工程实践|QCon 上海

  • 2025-09-20
    北京
  • 本文字数:1547 字

    阅读完需:约 5 分钟

大小:823.54K时长:04:41
重塑可观测边界:小红书在大模型时代的稳定性工程实践|QCon 上海

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


小红书可观测团队负责人王亚普已确认出席并发表题为重塑可观测边界:小红书在大模型时代的稳定性工程实践的主题分享。 AI 技术的爆发式增长对可观测性的挑战和新需求:如何保障 AI Infra 和 AI 应用的稳定性、性能和可靠性,可观测平台也从“服务业务”到“服务 AI ”再到“自身智能化”的演进趋势。AI 正在重塑可观测平台的能力边界:需要对 AI 基础设施、训练/推理有一定了解,才能提供真正有效的可观测能力;从传统的数据呈现/检索工具,变成具备洞察力和决策辅助能力的智能系统。本次分享将结合小红书在 AI 领域不同方向解决痛点问题的经验探索,详细分享其中一些重点技术的实践和落地,希望能给听众带来一些启发和思考,欢迎多多交流。


王亚普,小红书可观测团队负责人。目前就职于小红书基础技术部可观测技术组,主要负责小红书可观测技术体系建设,结合公司内部云原生架构现状,推动可观测技术在公司内大规模落地,面向业务提供一站式可观测平台,并深度应用于公司稳定性项目建设,提高故障发现、响应、定位效率,并在持续探索 AI 可观测的能力边界和技术突破。曾就职于美团、蚂蚁集团,专注于可观测技术领域,高性能组件发烧友。他在本次会议的详细演讲内容如下:


演讲提纲

1. 小红书可观测在 AI 时代面临的挑战

2. AI Infra 观测:稳定性体系建设

  • 业务痛点以及对 AI Infra 稳定性的要求

  • GPU 基础设施保障:解决算力故障的资源浪费问题

  • 训练任务的稳定性保障:训练 Hang 的发现与定位、训练效果观测

  • 业务实战案例分享

3. AI 应用观测:全链路监控的落地实践

  • AI 应用的快速发展对可观测基建的挑战

  • AI 应用全链路监控的解决方案

  • 业务实战案例分享

4. 可观测 AI Agent 场景建设与落地

  • 围绕稳定性工程的 AI + 建设思路

  • 可观测 AI + 架构设计

  • 最佳实践分享

5. 未来规划


您认为,这样的技术在实践过程中有哪些痛点?

  • 环境异构挑战:内部训练框架多元、GPU 品牌参数与型号参差不齐,难以制定一套兼顾所有场景的通用解决方案

  • 在千卡甚至万卡集群训练时,任务 Hang 住所有 Pod 表现都是卡死,故障种类较多且故障定位的工作非常复杂

  • AI 应用的全链路追踪对于现有基建存在很多兼容性的挑战,需要考虑现状和业界发展趋势找到合适的落地路径


演讲亮点

  • GPU 故障诊断、训练 Hang 故障发现与定位可复制的工程经验

  • 可观测 AI Agent 产品化落地的思路,融合传统 AIOps 能力与大模型的落地实践


听众收益

  • 了解大规模训练过程中 Hang 的问题发现和自动化诊断

  • 了解业务 AI 应用端到端链路监控的建设思路

  • 了解 AI + 可观测的产品设计思路和技术架构


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,,详情可联系票务经理 18514549229 咨询。


2025-09-20 10:001

评论

发布
暂无评论

【Linux技术专题】「夯实基本功系列」带你一同学习和实践操作Linux服务器必学的Shell指令(深入Kill指令探索)

码界西柚

Linux Shell 2024年第二十二篇文章 技术指令

应该如何选择轻量级低代码、重量级低代码、轻量级低代码+定制、纯定制软件开发?

天津汇柏科技有限公司

低代码开发 低代码,项目开发 定制软件开发 软件开发定制

视频文件损坏如何修复?QuickTime 无法打开视频文件?视频闪烁如何解决?

Rose

视频文件损坏 QuickTime 无法打开视频 视频闪烁

鸿蒙元服务“如意甘肃”上线啦

坚果

HarmonyOS

华秋助力戴乐体感科技:从硬创大赛优秀项目到创新企业的共荣之路

华秋电子

硬件

纯血鸿蒙来了,企业开发者应该关注什么

Onegun

鸿蒙 鸿蒙系统

Programming Abstractions in C阅读笔记:p258-282

codists

Atlassian 停服 Bitbucket?三步快速迁移至极狐GitLab

极狐GitLab

hazel mac破解版 自动化文件清理工具 含hazel激活码 兼容m1 m2

Rose

苹果软件资源 Hazel 下载 Mac自动清理工具 Hazel Mac破解版

Aiseesoft HEIC Converter mac:HEIC格式的文件转换为图片格式

Rose

Mac软件 图片格式转换 HEIC格式 HEIC Converter

语音生成、写作增强、论文辅助、英文学习,AI原生应用精彩推荐一箩筐!

飞桨PaddlePaddle

百度 开发应用 百度飞桨 文心大模型 飞桨星河社区

一种轻量分表方案-MyBatis拦截器分表实践

京东科技开发者

HDFS 小文件合并最佳实践

冰心的小屋

NameNode 海量小文件

最强GTD时间管理工具OmniFocus Pro 3 for Mac最新激活版 附注册机 兼容M1/M2

Rose

苹果软件 OmniFocus 下载 Mac任务管理器 OmniFocus Pro 3 GTD时间管理

文心一言 VS 讯飞星火 VS chatgpt (187)-- 算法导论14.1 4题

福大大架构师每日一题

福大大架构师每日一题

《数字化运维路线图》第二部分 震撼发布!

博睿数据

可观测性 运维监控

关于鸿蒙系统的开源与技术细节探讨

Onegun

鸿蒙 鸿蒙系统

Ableton Live如何设置中文?ableton live 11 mac中文破解版 永久可用

Rose

mac音乐制作软件 Ableton Live 11破解版 Ableton Live 11中文版

【华秋干货铺】过孔能否打在焊盘上?

华秋电子

专业的ai图片无损放大软件:​​​​Topaz Gigapixel AI

Rose

图片无损放大 Topaz Gigapixel AI

重塑可观测边界:小红书在大模型时代的稳定性工程实践|QCon 上海_AI&大模型_QCon全球软件开发大会_InfoQ精选文章