2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

重塑可观测边界:小红书在大模型时代的稳定性工程实践|QCon 上海

  • 2025-09-20
    北京
  • 本文字数:1547 字

    阅读完需:约 5 分钟

大小:823.54K时长:04:41
重塑可观测边界:小红书在大模型时代的稳定性工程实践|QCon 上海

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


小红书可观测团队负责人王亚普已确认出席并发表题为重塑可观测边界:小红书在大模型时代的稳定性工程实践的主题分享。 AI 技术的爆发式增长对可观测性的挑战和新需求:如何保障 AI Infra 和 AI 应用的稳定性、性能和可靠性,可观测平台也从“服务业务”到“服务 AI ”再到“自身智能化”的演进趋势。AI 正在重塑可观测平台的能力边界:需要对 AI 基础设施、训练/推理有一定了解,才能提供真正有效的可观测能力;从传统的数据呈现/检索工具,变成具备洞察力和决策辅助能力的智能系统。本次分享将结合小红书在 AI 领域不同方向解决痛点问题的经验探索,详细分享其中一些重点技术的实践和落地,希望能给听众带来一些启发和思考,欢迎多多交流。


王亚普,小红书可观测团队负责人。目前就职于小红书基础技术部可观测技术组,主要负责小红书可观测技术体系建设,结合公司内部云原生架构现状,推动可观测技术在公司内大规模落地,面向业务提供一站式可观测平台,并深度应用于公司稳定性项目建设,提高故障发现、响应、定位效率,并在持续探索 AI 可观测的能力边界和技术突破。曾就职于美团、蚂蚁集团,专注于可观测技术领域,高性能组件发烧友。他在本次会议的详细演讲内容如下:


演讲提纲

1. 小红书可观测在 AI 时代面临的挑战

2. AI Infra 观测:稳定性体系建设

  • 业务痛点以及对 AI Infra 稳定性的要求

  • GPU 基础设施保障:解决算力故障的资源浪费问题

  • 训练任务的稳定性保障:训练 Hang 的发现与定位、训练效果观测

  • 业务实战案例分享

3. AI 应用观测:全链路监控的落地实践

  • AI 应用的快速发展对可观测基建的挑战

  • AI 应用全链路监控的解决方案

  • 业务实战案例分享

4. 可观测 AI Agent 场景建设与落地

  • 围绕稳定性工程的 AI + 建设思路

  • 可观测 AI + 架构设计

  • 最佳实践分享

5. 未来规划


您认为,这样的技术在实践过程中有哪些痛点?

  • 环境异构挑战:内部训练框架多元、GPU 品牌参数与型号参差不齐,难以制定一套兼顾所有场景的通用解决方案

  • 在千卡甚至万卡集群训练时,任务 Hang 住所有 Pod 表现都是卡死,故障种类较多且故障定位的工作非常复杂

  • AI 应用的全链路追踪对于现有基建存在很多兼容性的挑战,需要考虑现状和业界发展趋势找到合适的落地路径


演讲亮点

  • GPU 故障诊断、训练 Hang 故障发现与定位可复制的工程经验

  • 可观测 AI Agent 产品化落地的思路,融合传统 AIOps 能力与大模型的落地实践


听众收益

  • 了解大规模训练过程中 Hang 的问题发现和自动化诊断

  • 了解业务 AI 应用端到端链路监控的建设思路

  • 了解 AI + 可观测的产品设计思路和技术架构


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,,详情可联系票务经理 18514549229 咨询。


2025-09-20 10:006998

评论

发布
暂无评论

LED显示屏系统:构成与品质

Dylan

数字化 LED显示屏 全彩LED显示屏 led显示屏厂家 体育

大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望—打造AI应用新篇章

汀丶人工智能

人工智能 大模型 prompt 工程 显卡选择

LLM大模型推理加速实战:vllm、fastllm与llama.cpp使用指南

百度开发者中心

人工智能 大模型 LLM

一文带你完整了解Go语言IO基础库

百度Geek说

go语言

全面解析 MessagePack:简介及使用技巧

Apifox

json 程序员 前端 后端 MessagePack

我们所面临的云原生安全问题

德迅云安全杨德俊

无人不识又无人不迷糊的this

华为云开发者联盟

Java JavaScript 开发 华为云 华为云开发者联盟

AutoMQ 社区双周精选第九期(2024.03.11~2024.03.22)

AutoMQ

大数据 kafka 云原生 AutoMQ

NFTScan 正式上线 Polygon zkEVM NFTScan 浏览器和 NFT API 数据服务

NFT Research

NFT\ NFTScan

GPU推理加速与大规模上下文处理

百度开发者中心

人工智能 大模型

合辑下载 | MatrixOne 与 MySQL 全面对比

MatrixOrigin

数据库 分布式 云原生

网心科技入选“2023年中国云生态创新应用技术产品”

网心科技

云计算 边缘计算 网心科技

与鲸同行,智领未来!和鲸科技高校市场渠道招募启动会顺利召开

ModelWhale

人工智能 软件 数据科学 渠道招募 高校市场

软件测试学习笔记丨Allure2报告中添加用例支持tags标签

测试人

软件测试

Go代码优化实用指南

俞凡

golang

macOS Sonoma 14.4.1 (23E224) 正式版发布,ISO、IPSW、PKG 下载

sysin

macos Sonoma macOS Sonoma

有了这 4 款脚本工具, 再也不怕写烂SQL了!!!

Java技术精选

如何培养高质量应用型医学人才, “课-训-赛”育人才系列第二场直播活动圆满结束

ModelWhale

人才培养 数据科学 复合型人才 医学 应用型人才

重塑可观测边界:小红书在大模型时代的稳定性工程实践|QCon 上海_AI&大模型_QCon全球软件开发大会_InfoQ精选文章