“过去 9 个月,我们公司最大的实践就是,有了 AI Coding 以后,工程师们比原来更忙、加班更多,晚上也睡不着觉,因为他总要等着 AI 的结果。”
平凯星辰(TiDB)副总裁刘松在会上,抛出了企业侧用上 Agent 后的真实感受。“新应用整体提效接近 10 倍,老应用三四倍,但公司整体提效却不到 20%。”
这并非个案,而是当前 AI 落地进入深水区的缩影。
近日,由清华大学全球产业研究院主办、中关村科学城管委会支持的,人工智能+生态大会(AIEC 2026)在北京举行。来自国家信息中心、IDC、阿里云、腾讯、浪潮信息、阶跃星辰、百川智能等众多机构与企业代表参与分享。
透过大会的宏观研讨与分论坛的微观实证,一个与以往“AI 带来指数级效率革命”截然不同的真实产业图景正在浮现:当大模型基础能力逐渐触顶,行业正集体撞上“工程化约束与组织重构”的暗礁。
决定 AI 能否创造生产力的,已不再是单纯的智力峰值,而是 Token 经济效率、严苛的工程约束体系,以及尚未建立的人机协同规则。
评价标准生变
国家信息中心信息化和产业发展部主任单志广指出,AI 正全面迈入推理阶段,Token 调用量呈指数级增长,成为贯通电力、算力、模型服务和应用价值的新型经济单元。这意味着,基础设施的评价标准正从追求算力峰值,转向单位能效、成本效益与场景服务能力。
这一宏观判断在产业界得到了广泛印证。
阶跃星辰模型 GTM 负责人龚关直言,模型竞争的下一个前沿不再是峰值智能,而是“可规模化的高效智能”。真实的 Agent 任务,往往包含几十次工具调用和上百轮推理,一次对话的成本可以接受,但一个长链路 Agent 任务跑下来,成本就变成了规模化的绝大障碍。
无独有偶,Kimi 大模型相关负责人也表示,模型竞争不再只看绝对能力,而要看单位时间、单位 Token、单位成本内能产生多少有效性能。
阶跃星辰 Stepfun · 模型 GTM 负责人龚关分享,阶跃新推的 Step3.7Flash 模型,其代码能力达到头部闭源模型约 97%的水平,但成本仅为后者的九分之一。这种产品逻辑背后隐藏着一个重要判断:未来真实生产环境中的 Agent 不会每次都调用最强模型,而是采用“混合编排”——在关键节点用强模型做判断,其余高频执行环节交给高效模型跑流程。
这对企业的采购与技术架构提出了新要求:不再迷信“买最贵的就是最好的”,而是需要真正懂得如何对 Agent 进行编排和成本控制。
10 倍个体提效,为何换不来 20%组织提效?
在 AI Coding 领域,基础能力的跨越有目共睹。
清华高等研究院副研究员陈松指出,SWE-bench(软件工程测试基准)的综合完成率在两年内从 10%多跃升至接近 95%。他将 AI 编程分为五级,L1 级(单文件脚本、网络爬虫)已完全可以交给 AI,但 L5 级(涉及国家安全、金融核心逻辑)则是“严禁使用”。
然而,能力的跃升并未直接转化为组织的线性提效。
TiDB 是个激进的实验者——300 多名工程师被要求不直接写代码、也不 review 代码,90%的工作交给多智能体协作完成。自测显示,新应用整体提效接近 10 倍,老应用三四倍。
但刘松随后补了一个关键数据:“对于个体的提升已有数倍,但对于一个集体、一个软件公司,整体提效还没有人超过 20%。”
个体层面 10 倍与组织层面不足 20%的巨大落差,暴露了 AI 原生组织体系的缺失。刘松指出,问题出在上下文管理、权责边界上。
陈松提到的另一个细节也颇具警示意味:Stack Overflow 的问题量在 2022 年后断崖式下滑,其积累的高质量问答数据被用来训练了大模型,但网站本身却因没有推出产品级应对方案而衰落。
这印证了一个现实:拥有数据或技术不等于拥有护城河,将其转化为有约束、可落地的工程产品才是关键。
浪潮信息董事长彭震提出“Humagent(Human+Agent)”组织概念,则呼吁将管理对象从人、财、物扩展到数字员工和智能能力。
在 Humagent 框架下,人更多聚焦在系统性、前瞻性工作,包括目标设定、架构、方向规划,要把握方向、把握全局,发挥责任兜底和把关作用。Agent 则更多承担一些高频执行工作,构建起人机优势互补、权责清晰、协同共生的 AI 原生组织形态。
但在实操层面,当人与智能体并存时,KPI 怎么算?出了生产事故谁担责?
正如刘松坦言:“把今天强大的 Coding Agent 放在现有人类组织里,会有非常多的不适。”
工程化填坑
当企业试图将 AI 从试验推向生产,开放工具与企业级平台必须承接执行闭环。
阿里云 Qoder 解决方案总监韩红娜认为,软件开发正从 Code First 转向 Agent First;腾讯资深产品专家汪晟杰也强调,企业不需要更聪明的聊天机器人,需要的是能干活、靠谱的数字员工。
浪潮信息系统软件研发部研发经理徐潇分享了 AI Coding 走出“玩具期”的真实痛点,智能体在遇到难题时会“逃避”谎报完成,甚至为了刷测试通过率而擅自修改断言。
要解决这些不可靠、不可控的问题,必须引入严格的工程约束。在企业级 Agent 落地中,记忆与安全是被普遍低估的两大工程挑战。
记忆张量解决方案架构师陈玉涛指出,Memory 是 Agent 从“能用”到“好用”的分水岭。他将 Agent Memory 拆分为抽取、组织、检索、更新、共享五层,并点破了一个认知误区:幻觉率最高发的环节是抽取和更新,而非大多数人以为的检索。
如果只把历史记录扔进向量库,是搜不到“我昨天跟你聊了什么”的,必须通过结构化抽取(把“我”和“你”设为主体,“昨天”设为时间)才能被精准检索。缺乏深度的记忆处理,企业 Agent 永远只能处理浅层任务。
安全问题同样不是简单的配置题。
上海人工智能实验室青年科学家、书安智能体操作系统负责人杨超直接点破了当下“养虾热”——即部署 OpenClaw/Claude Code 等自主智能体——的实际风险:工具注入、越权访问、提示词注入;市面上甚至出现了专门帮人“装 OpenClaw”和“卸 OpenClaw”的服务。
在其服务的联通停复机判责案例中,难点根本不是 AI 能不能做决策,而是高并发下的稳定性,以及如何防范用户通过提示词注入,来欺骗系统以骗取复机。
没有底层的隔离沙箱和非侵入式安全监控等零信任架构,Agent 进入核心业务系统就是灾难。
场景验证与落地的真伪之辨
AI 能否规模化落地,必须在真实产业场景中验证。美的集团通过沉淀工艺、供应链等经验,打造了 1.3 万个智能体,推动制造业全流程重构。
素源矩阵作为依托智能体的“一人企业”(OPC),在建材工业连续生产场景中,通过“机理模型+实时数据+人工确认”的协同决策,仅用 4 周便实现了产品合格率的提升和单吨成本的下降。
但汉得信息 AI 解决方案中心交付总监王强从交付视角指出,工业领域对 AI 的容忍度极低。一旦动了生产排程,出现事故成本极高,AI 落地决不能是“技术的自 High”。
另一个隐秘的落差在于“试运行”与“真生产”的距离。
Dify 解决方案架构师杨振南透露,其平台代码拉取量超 500 万次,覆盖 150 多个国家。但拉取量、试用次数与真正在核心生产线上跑通的部署之间,存在巨大的转化漏斗。
把“已经开始试”和“真正跑通了”区分开来,是眼下这个阶段做判断最基本的前提。
整体来看,AIEC 2026 折射出中国 AI 产业落地的清醒认知。开源模型打破了智能垄断,但这只是起点。要在千行百业兑现生产力,还需要在工具链承接、企业级工程打磨、组织体系重构以及严苛产业场景验证中,完成大量艰苦的填坑工作。
开放生态的建设,比单纯的模型比拼复杂得多,也更具决定性。





