个体10倍提效，组织却不足20%？AI产业正迎来Agent落地大考

“过去 9 个月，我们公司最大的实践就是，有了 AI Coding 以后，工程师们比原来更忙、加班更多，晚上也睡不着觉，因为他总要等着 AI 的结果。”

平凯星辰（TiDB）副总裁刘松在会上，抛出了企业侧用上 Agent 后的真实感受。“新应用整体提效接近 10 倍，老应用三四倍，但公司整体提效却不到 20%。”

这并非个案，而是当前 AI 落地进入深水区的缩影。

近日，由清华大学全球产业研究院主办、中关村科学城管委会支持的，人工智能+生态大会（AIEC 2026）在北京举行。来自国家信息中心、IDC、阿里云、腾讯、浪潮信息、阶跃星辰、百川智能等众多机构与企业代表参与分享。

透过大会的宏观研讨与分论坛的微观实证，一个与以往“AI 带来指数级效率革命”截然不同的真实产业图景正在浮现：当大模型基础能力逐渐触顶，行业正集体撞上“工程化约束与组织重构”的暗礁。

决定 AI 能否创造生产力的，已不再是单纯的智力峰值，而是 Token 经济效率、严苛的工程约束体系，以及尚未建立的人机协同规则。

评价标准生变

国家信息中心信息化和产业发展部主任单志广指出，AI 正全面迈入推理阶段，Token 调用量呈指数级增长，成为贯通电力、算力、模型服务和应用价值的新型经济单元。这意味着，基础设施的评价标准正从追求算力峰值，转向单位能效、成本效益与场景服务能力。

这一宏观判断在产业界得到了广泛印证。

阶跃星辰模型 GTM 负责人龚关直言，模型竞争的下一个前沿不再是峰值智能，而是“可规模化的高效智能”。真实的 Agent 任务，往往包含几十次工具调用和上百轮推理，一次对话的成本可以接受，但一个长链路 Agent 任务跑下来，成本就变成了规模化的绝大障碍。

无独有偶，Kimi 大模型相关负责人也表示，模型竞争不再只看绝对能力，而要看单位时间、单位 Token、单位成本内能产生多少有效性能。

阶跃星辰 Stepfun · 模型 GTM 负责人龚关分享，阶跃新推的 Step3.7Flash 模型，其代码能力达到头部闭源模型约 97%的水平，但成本仅为后者的九分之一。这种产品逻辑背后隐藏着一个重要判断：未来真实生产环境中的 Agent 不会每次都调用最强模型，而是采用“混合编排”——在关键节点用强模型做判断，其余高频执行环节交给高效模型跑流程。

这对企业的采购与技术架构提出了新要求：不再迷信“买最贵的就是最好的”，而是需要真正懂得如何对 Agent 进行编排和成本控制。

10 倍个体提效，为何换不来 20%组织提效？

在 AI Coding 领域，基础能力的跨越有目共睹。

清华高等研究院副研究员陈松指出，SWE-bench（软件工程测试基准）的综合完成率在两年内从 10%多跃升至接近 95%。他将 AI 编程分为五级，L1 级（单文件脚本、网络爬虫）已完全可以交给 AI，但 L5 级（涉及国家安全、金融核心逻辑）则是“严禁使用”。

然而，能力的跃升并未直接转化为组织的线性提效。

TiDB 是个激进的实验者——300 多名工程师被要求不直接写代码、也不 review 代码，90%的工作交给多智能体协作完成。自测显示，新应用整体提效接近 10 倍，老应用三四倍。

但刘松随后补了一个关键数据：“对于个体的提升已有数倍，但对于一个集体、一个软件公司，整体提效还没有人超过 20%。”

个体层面 10 倍与组织层面不足 20%的巨大落差，暴露了 AI 原生组织体系的缺失。刘松指出，问题出在上下文管理、权责边界上。

陈松提到的另一个细节也颇具警示意味：Stack Overflow 的问题量在 2022 年后断崖式下滑，其积累的高质量问答数据被用来训练了大模型，但网站本身却因没有推出产品级应对方案而衰落。

这印证了一个现实：拥有数据或技术不等于拥有护城河，将其转化为有约束、可落地的工程产品才是关键。

浪潮信息董事长彭震提出“Humagent（Human+Agent）”组织概念，则呼吁将管理对象从人、财、物扩展到数字员工和智能能力。

在 Humagent 框架下，人更多聚焦在系统性、前瞻性工作，包括目标设定、架构、方向规划，要把握方向、把握全局，发挥责任兜底和把关作用。Agent 则更多承担一些高频执行工作，构建起人机优势互补、权责清晰、协同共生的 AI 原生组织形态。

但在实操层面，当人与智能体并存时，KPI 怎么算？出了生产事故谁担责？

正如刘松坦言：“把今天强大的 Coding Agent 放在现有人类组织里，会有非常多的不适。”

工程化填坑

当企业试图将 AI 从试验推向生产，开放工具与企业级平台必须承接执行闭环。

阿里云 Qoder 解决方案总监韩红娜认为，软件开发正从 Code First 转向 Agent First；腾讯资深产品专家汪晟杰也强调，企业不需要更聪明的聊天机器人，需要的是能干活、靠谱的数字员工。

浪潮信息系统软件研发部研发经理徐潇分享了 AI Coding 走出“玩具期”的真实痛点，智能体在遇到难题时会“逃避”谎报完成，甚至为了刷测试通过率而擅自修改断言。

要解决这些不可靠、不可控的问题，必须引入严格的工程约束。在企业级 Agent 落地中，记忆与安全是被普遍低估的两大工程挑战。

记忆张量解决方案架构师陈玉涛指出，Memory 是 Agent 从“能用”到“好用”的分水岭。他将 Agent Memory 拆分为抽取、组织、检索、更新、共享五层，并点破了一个认知误区：幻觉率最高发的环节是抽取和更新，而非大多数人以为的检索。

如果只把历史记录扔进向量库，是搜不到“我昨天跟你聊了什么”的，必须通过结构化抽取（把“我”和“你”设为主体，“昨天”设为时间）才能被精准检索。缺乏深度的记忆处理，企业 Agent 永远只能处理浅层任务。

安全问题同样不是简单的配置题。

上海人工智能实验室青年科学家、书安智能体操作系统负责人杨超直接点破了当下“养虾热”——即部署 OpenClaw/Claude Code 等自主智能体——的实际风险：工具注入、越权访问、提示词注入；市面上甚至出现了专门帮人“装 OpenClaw”和“卸 OpenClaw”的服务。

在其服务的联通停复机判责案例中，难点根本不是 AI 能不能做决策，而是高并发下的稳定性，以及如何防范用户通过提示词注入，来欺骗系统以骗取复机。

没有底层的隔离沙箱和非侵入式安全监控等零信任架构，Agent 进入核心业务系统就是灾难。

场景验证与落地的真伪之辨

AI 能否规模化落地，必须在真实产业场景中验证。美的集团通过沉淀工艺、供应链等经验，打造了 1.3 万个智能体，推动制造业全流程重构。

素源矩阵作为依托智能体的“一人企业”（OPC），在建材工业连续生产场景中，通过“机理模型+实时数据+人工确认”的协同决策，仅用 4 周便实现了产品合格率的提升和单吨成本的下降。

但汉得信息 AI 解决方案中心交付总监王强从交付视角指出，工业领域对 AI 的容忍度极低。一旦动了生产排程，出现事故成本极高，AI 落地决不能是“技术的自 High”。

另一个隐秘的落差在于“试运行”与“真生产”的距离。

Dify 解决方案架构师杨振南透露，其平台代码拉取量超 500 万次，覆盖 150 多个国家。但拉取量、试用次数与真正在核心生产线上跑通的部署之间，存在巨大的转化漏斗。

把“已经开始试”和“真正跑通了”区分开来，是眼下这个阶段做判断最基本的前提。

整体来看，AIEC 2026 折射出中国 AI 产业落地的清醒认知。开源模型打破了智能垄断，但这只是起点。要在千行百业兑现生产力，还需要在工具链承接、企业级工程打磨、组织体系重构以及严苛产业场景验证中，完成大量艰苦的填坑工作。

开放生态的建设，比单纯的模型比拼复杂得多，也更具决定性。

创作场景

个体 10 倍提效，组织却不足 20%？AI 产业正迎来 Agent 落地大考

评价标准生变

10 倍个体提效，为何换不来 20%组织提效？

工程化填坑

场景验证与落地的真伪之辨