当前,以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么,世界模型的下一个突破在哪?Agent 从 Demo 到工程化还差什么?研发体系不重构,还能撑多久?
6 月 26 日-6 月 27 日,AICon全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题,邀请来自腾讯、阿里、快手、华为、飞猪等 50+头部企业的技术负责人、高校与科研机构的一线专家,分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障,以及大模型推理优化、智算架构升级等关键命题。
小红书 AI 工程架构师郝栩彬确认出席 “Agent 系统架构与工程化实践” 专题,发表题为《Self-GC:一种结合前缀缓存约束的多轮 Agent 上下文治理方案》的主题分享。在长程 Agent 场景中,系统瓶颈正从“模型单步能力”转向“能否在有限上下文、缓存窗口和持续工具交互约束下长期稳定运行”。现有工作大多聚焦上下文接近上限后的最终 compaction,但对进入重压缩之前的前序整理层,以及压缩过程与 Prompt Cache 的协同考虑仍然不足。本次分享将介绍他们在企业内部办公智能体 OpenClaw 上探索的 Self-GC 方案:借鉴 Java GC 对运行时对象持续管理的思想,将多轮 Session 上下文对象化,并通过显式寻址、低损 prune/mask/fold、plan/commit 解耦、cache-aware delayed commit 等机制,把上下文治理前置到运行过程。
郝栩彬,小红书 AI 工程架构师,目前主要从事智能体受控长程任务研究工作,在上下文编辑、多智能体场景有较多经验,毕业后曾就职于字节跳动和百度,从事 SaaS 、研发工具、及其智能化工作他在本次会议的详细演讲内容如下:
演讲提纲:
问题背景:为什么长程 Agent 需要新的上下文治理方式
长历史、多工具调用、长周期任务的真实系统压力 为什么“快爆窗了再 summary”不够 compaction 为什么正在成为 harness 的核心组成部分
现有方案的不足
常规 self-summary:更像最后阶段集中压缩
Tool-result pruning:更偏局部优化 retrieval memory:更像后置外存机制 为什么现有方案大多缺少前序整理层和 cache-aware 设计
Self-GC 核心设计
上下文对象化:user turn span / tool object 显式注入 turn id,让模型具备上下文寻址能力 低损整理动作:prune / mask / fold fold 后的幂等恢复:本地文件 / 旁路存储 / read 恢复
把整理前置到运行过程
阈值触发而不是每轮强制执行 after-turn self-review 为什么 fork 完整上下文 + 尾部追加 planning prompt 有利于复用 prefix cache
Cache-aware 的关键设计
plan first, commit later delayed commit 避免频繁打断前缀一致性 收益函数: Award ≈ N_future × (C - C') - L_cache_break - L_GC 该函数如何同时服务工程评估和后续训练优化
效果评估方法
从真实触发重压缩的 session 中取样 在 25% / 50% / 75% 切点做前序整理模拟 用后续真实对话轨迹做离线评估 如何判断 Self-GC 是否有效、是否值得
工程收益粗估与适用边界
当前业务规模下的 10%–30% 净 TPM 收益区间 哪些场景适合 Self-GC 哪些场景更适合 memory / retrieval / tool pruning
未来工作
模型原生寻址能力 模型自主触发能力 模型原生整理能力
听众收益:
获得一套更适合长程 Agent 的上下文治理思路,理解为什么仅靠最终 summary / compaction 不足以支撑真实多轮任务
学到一套可落地的 Self-GC 设计框架,包括对象建模、显式寻址、低损整理、幂等恢复、plan/commit 解耦与 cache-aware delayed commit
带走一套可复用的工程评估方法,知道如何用真实 session、真实后续轨迹和收益模型来判断一个上下文治理方案是否真的有效、是否值得上线
实践痛点:
传统 compaction 大多发生在上下文已经接近上限时,这更像一种最后阶段的集中处理。它虽然能缓解爆窗,但往往介入时机较晚,容易一次性丢失较多结构信息,也难以回答“在进入重压缩之前,系统还能做什么”
真实 Agent 的上下文并不是纯文本,而是 user / assistant、多轮工具调用、冗长工具结果、中间计划、失败重试等混合对象。如果缺少对象化表示和显式寻址,模型只能对整段模糊历史做 summary,很难像 GC 一样精确标记和清理具体对象
很多压缩方案忽视了 prefix cache。工程上,如果每轮都改写历史前缀,虽然 token 可能变少,但 cache 命中率也可能显著下降,最终吞掉压缩收益
低损整理如果没有恢复语义,就很难真正落地。很多被 fold 的工具结果虽然不应继续长期留在主上下文里,但后续又可能需要稳定恢复,因此工程上必须同时解决“如何整理”和“如何幂等恢复”
除此之外,本次大会还策划了端侧 AI、物理与数字空间智能化、世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构、AI 原生数据工程、AI 时代的个人提效与组织变革等 14 个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。
更多详情可扫码或联系票务经理 13269078023 进行咨询。






