6 月 26 日,“AI 原生·聚变新生”2026 张江人工智能创新小镇生态日在上海张江举行。作为生态日五场平行论坛之一,由张江人工智能创新小镇联合 InfoQ 极客邦传媒共同举办的 Top Tower Talk「Harness 时代的硅基团队治理」专场,在张江科学之门 A 塔 67 层圆满举行。
本场活动聚焦一个正在从概念走向现实的问题:当 AI Agent 从个人效率工具,进一步进入企业研发、运营、数据分析、业务交付等核心流程之后,企业如何让它真正“听话”又“懂行”?换句话说,Agent 已经不只是一个可以调用的大模型接口,而正在成为一种新的生产力单元。它能写代码、做调研、生成报告、调用工具、参与决策,也可能在长任务中反复试错、误用工具、丢失上下文,甚至把错误经验沉淀进组织流程。
因此,企业今天需要讨论的已经不是“要不要用 Agent”,而是如何为 Agent 建立一套可控、可信、可追责、可持续进化的 Harness 系统。
本场论坛以两场主题分享打开讨论。质变科技 MemoryLake 首席架构师周祥聚焦 Agent 的长期记忆工程,讨论企业如何将上下文、经验与知识沉淀为可复用的记忆资产;华为 2012 实验室项目群总监董鑫则从大型研发团队实践出发,分享 AI 进入研发主流程后,组织协作方式正在发生的变化。在随后的圆桌环节,两位分享嘉宾与 Toco 创始人兼 CE 时很快会遇到的现实问题。周祥提到,过去企业更熟悉 DevOps、CI/CD、应用集成和数据集成,而当智能体真正上线之后,一个更直接的问题出现了:它一个月到底会消耗多少 Token?如果 Agent 在执行任务时上下文不完整、Skill 调用不准确,或者工具选择不精准,就可能陷入大量 retry 和 fail over。任务表面上完成了,但背后已经发生了高额的试错成本。
让 Agent 拥有长期记忆
周祥的分享从一个基础判断切入:智能不只是“思考力”,还包括“记忆力”。前者由基础大模型承载,涵盖训练、推理、生成和理解;后者则关乎数据如何被提取、积累、进化和沉淀。换句话说,模型决定 Agent 当下能做什么,记忆则决定它能否在一次次任务中持续进化。

这也是企业落地 Agent 时很快会遇到的现实问题。周祥提到,过去企业更熟悉 DevOps、CI/CD、应用集成和数据集成,而当智能体真正上线之后,一个更直接的问题出现了:它一个月到底会消耗多少 Token?如果 Agent 在执行任务时上下文不完整、Skill 调用不准确,或者工具选择不精准,就可能陷入大量 retry 和 fail over。任务表面上完成了,但背后已经发生了高额的试错成本。
因此,Token 的真实成本不能只看单价,还要看任务成功率。按照周祥 PPT 中给出的公式,Token 成本等于 Token 单价除以任务成功率。成功率越低,实际成本越高;一次做对的概率越高,企业为无效试错支付的成本就越少。由此看,记忆工程并不是锦上添花,而是 Agent 进入生产环境后必须补上的一层基础能力。
但现实中,企业的记忆基础设施往往并不统一。数据库、数仓、知识库 RAG、会话记忆系统各自存在,个人用户用起来割裂,企业侧则要面对多系统融合和架构演进的复杂性。周祥介绍,MemoryLake 试图将这些分散能力整合为一体化的记忆与 Agent 平台,让企业既有系统、结构化数据、半结构化数据和多模态文件都能接入同一个记忆底座。
围绕这一目标,他将记忆系统拆解为三类核心能力:记忆蒸馏、记忆计算和记忆堆叠。
记忆蒸馏解决的是“知识如何变成可用记忆”。企业中的大量经验并不天然适合 Agent 调用,它们分散在文本、邮件、聊天记录、PDF、表格、图片、音视频、数据库、业务文档、SOP 和流程规则中。周祥提到,MemoryLake 通过 D1 小模型进行多模态数据提取,将复杂表格等内容转化为结构化 JSON、多模态索引、决策图谱、业务知识等记忆资产。在复杂表格提取场景中,相关准确率从小于 70% 提升到 99.8%。
记忆计算进一步解决“记忆如何参与推理”。这其中包括冲突检测、遗忘、合并、演进,以及时间一致性、跨会话综合、抗幻觉和语义模糊等问题。比如,同一事项在不同文档中可能出现相对时间与绝对时间的混用,系统不能只做简单检索,而要把这些信息放进统一的时间轴和语境中重新理解。
记忆堆叠则更接近企业落地中的治理问题。企业需要沉淀优秀员工的最佳实践和高质量 Skill,让新人和 Agent 能够复用;同时也必须隔离低质量经验、个人偏见和错误模式,避免它们进入组织共享记忆池。换句话说,组织记忆不能只是“把所有人的经验都存下来”,而要有筛选、隔离、归属和审批机制。
这也引出了周祥分享中最关键的组织级框架:Workspace、Actor 和 Project。Workspace 是承载项目、协作关系和上下文的大容器;Actor 可以是人,也可以是 Agent;Project 则用于组织文档库、数据库、开放数据集、会话、记忆条目和 Skills 等资产。在这一框架下,记忆读取可以跨 Project 发生,但写入必须落到明确的主 Project 和 Actor 之下。这样一来,多 Agent 协作、Human-Agent 协作和组织记忆沉淀之间,才能形成更清晰的读写边界和责任归属。
AI 研发下半场的组织进化
如果说长在个人级任务上,AI 的提效已经非常明显。董鑫举例,一个编译器 Crash 问题,工程师自己排查了三四天没有解决,后来借助 AI 半个上午就完成定位和修复。但进入团队级场景后,情况并没有这么简单。真实研发组织不是许多个体效率的简单相加。一线研发人员真正写代码的时间可能只有约 20%,大量时间都消耗在需求对齐、测试、会议、责任边界和跨团队沟通上。
因此,AI 研发下半场的关键,不只是让每个工程师都用上 AI,而是让 Agent 能够在团队流程中自己转起来。董鑫在分享中特别强调了 Human on the Loop 与 Human in the Loop:前者意味着人在系统上方做治理,制定规则、观察状态、控制边界,保障系统可控;后者意味着人在必要节点进入流程,对异常、分歧和高风险结果进行判断与干预,保障结果可信。
基于这一思路,团队构建了 ACE Harness 系统。该系统面向仓颉编程语言等开源代码场景,可以让 Agent 自动分析社区 Issue、复现问题、定位根因、生成报告,并把任务分配给需要处理的人。在这一过程中,Agent 并不是单点执行,而是以团队形式协作:有 Agent 负责定位问题,有“蓝军”Agent 负责反向审视和挑战,也有“裁判”Agent 在分歧出现时进行仲裁;如果需要人工介入,整个 Loop 会暂停,等待工程师处理。据董鑫介绍,这套系统 7×24 小时运行,在相关流程上带来了约 50% 到 1 倍的效率提升。
当 Agent 能够持续运转,组织调度方式也要随之变化。董鑫介绍,团队尝试了 ATM(Ability-based Task Matching)机制,根据任务所需能力,在人和 Agent 之间进行动态匹配。过去,一个固定小组负责固定范围内的工在这里更像研究者的加速器,适合帮助人快速查资料、生成假设、跑原型和做验证,但不一定适合被放进高度流程化的工程系统中运行。
由此来看,AI 让代码生成变得越来越便宜,但真正稀缺的并不是代码本身,而是人能否提出值得做的问题,判断什么结果有价值,并建立足够快的验证闭环。Agent 进入研发组织之后,人的角色不会消失,而是会从任务执行者,转向系统治理者、质量把关者和关键判断者。
谁决定上限,谁兜住底线?
在圆桌环节,嘉宾们围绕 Agent 基础设施、组织协作和信任机制展开了更具碰撞感的讨论。
关于 Agent 能力的上限和下限,嘉宾们给出了不同视角。
曹偲认为,在复杂企业场景中,Memory 很大程度上决定了上限。因为真正难的业务问题往往不是模型不会推理,而是知识散落在不同人的脑子里,文档和代码不一致,历史决策和当前流程相互冲突。没有好的记忆系统,Agent 很难理解真实业务现场。
董鑫则认为,如果放在人和 AI 配合干活的设定下,上限很大程度上仍由模型能力决定;但下限往往由人决定,尤其是人如何使用 AI、如何设计任务、如何判断结果。
蒋烁淼则从实践角度提出了一个不同视角,他认为,很多时候不是模型不够好,而是人的框架限制了模型。过度设定 Harness,反而可能让 AI 产出更差的结果。在他的使用方式中,给 AI 一个粗粒度目标,让它先长出来,再由人进行修剪,往往会带来更好的结果。
徐珮文认为,模型能力类似于 CPU 强度,是基础能力;Memory 对上下文和历史经验的增强非常关键;可观测性更像仪表盘,用来识别幻觉、异常和风险;Harness 则在成本、任务拆分、模型切换和流程控制中发挥作用。几者并没有绝对优先级,而是在不同场景中相互制约、相互补充。
周祥则从企业落地角度进一步补充:模型能力会不断抬升底线,但企业能否真正把 Agent 用好,很大程度取决于能否把 Legacy Data 整理成 AI Ready Data。数据组织得越好,记忆冲突处理得越好,Agent 在企业内部的上限才可能越高。
个人很强,团队为什么不一定更强?
另一个核心问题是:个人 Agent 如何走向团队协作?
曹偲指出,团队的第一件事是统一语言。同样一个 Claude Code,50 个人使用,可能实际上变成了 50 种工具。每个人的 Prompt、表达方式、上下文理解都不同,最后导致团队协作效率下降。因此,AI 落到团队里,首先考验的是共同语言和共同交付标准。
董鑫也提到,组织层面的挑战首先是思维对齐。真正用得好 AI 的人,往往本身就是团队里更开放、更优秀、更愿意探索的人。但如果整个组织要前进,就不能只依赖少数先锋,而需要通过工具和流程,把新的协作方式逐步沉淀下来。
蒋烁淼提出,AI 在某种意义上具有“反协作”特征。因为人与 AI 的对话天然高度个体化,不同人同时围绕同一个项目与 AI 对话,最后合并结果可能会非常混乱。因此,他更倾向于把团队拆成边界清晰的 2-3 人小队,让每个小队围绕一个足够清晰的模块闭环推进。
徐珮文则认为,在现阶段,更可行的方式是明确拆分问题边界,形成小型尖刀队。一个人负责定义目标,一个人负责跑通结果,一个人负责审美资产工作,而不是沿着传统“需求—PRD—设计—开发—测试—验收”的线性流程一轮轮传递。未来的组织可能更像一个围绕核心资产不断调用工具、沉淀日志、迭代流程的系统。
Harness 的本质,是把 Agent 放进真实生产关系
本场论坛并没有试图给出一个关于 Agent 落地的标准答案,而是从长期记忆、研发工程、组织协作、可观测性与治理边界等多个角度,呈现了企业迈向硅基团队过程中正在面对的真实问题:Agent 如何理解业务上下文,如何沉淀经验资产,如何进入团队流程,如何在持续执行中保持可控、可信、可追责。
从主题分享到圆桌讨论,一个清晰的趋势正在浮现:当 Agent 从个人效率工具走向企业生产流程,企业真正需要建设的,不只是更强的模型调用能力,而是一套围绕数据、记忆、流程、权限、质量与责任展开的系统能力。它既要让 Agent 能够自主完成更多任务,也要为人的判断、干预和治理留下清晰位置。
这也意味着,硅基团队治理仍处在探索阶段。不同企业、不同场景对 Harness、Memory、Observability 以及 Human-Agent 协作的理解并不完全相同,但它们共同指向一个更现实的命题:AI 的价值不会自动转化为组织效率。只有当技术能力被嵌入可运行、可验证、可治理的工作体系中,Agent 才可能真正从 Demo 走向生产。
对于正在探索 AI 原生组织形态的企业而言,如何让硅基团队既能持续进化,又能被有效驾驭,或许将成为下一阶段竞争力的重要分水岭。
未来,张江人工智能小镇也将联合 InfoQ 极客邦传媒,持续推出「塔尖会」系列活动,围绕 AI Infran、具身智能等前沿议题,邀请产业一线的技术专家、创业者与实践者持续交流。站在张江这一 AI 创新高地之上,「塔尖会」希望成为一个连接前沿观点、工程经验与产业实践的长期场域,让更多关于 AI 未来的关键讨论,在这里发生、碰撞并沉淀。





