写点什么

AGI 凉了?吴恩达、斯坦福、谷歌云罕见同频:AI 测评逻辑正被 Agent 颠覆

  • 2026-02-25
    北京
  • 本文字数:4775 字

    阅读完需:约 16 分钟

时至 2026 年初,AI 行业光靠“讲故事”(包括但不限于 AGI、颠覆一切、指数级跃迁......)已经开始不够用了。

吴恩达、斯坦福、谷歌云团队接连抛出多份报告,都透露出一个共同信号:AI 行业的焦点,已经从“能不能做到”,变成了“在什么条件下、以什么成本、为谁创造价值”。

斯坦福 HAI(斯坦福以人为本人工智能研究院)明确指出,2026 年,是 AI 从 evangelism(布道)走向 evaluation(评估)的一年。

一方面,大量企业已经完成了第一轮生成式 AI 的部署,开始有条件回看投入与产出。

有人开始重新算账。

谷歌云发布了一份报告,名为 The ROI of AI 2025(2025AI 投资回报率),调查了 3466 名全球营收千万美元以上的企业老板或高管。

这份报告展现的答案也挺明确:真正实现正向、可持续投资回报的,并不是零散的生成式 AI 能力,是“Agent+流程+ 组织”的系统级落地

数据也很直接:在最早一批入场 Agentic AI 的公司里,有近多九成已经在至少一个 GenAI 场景中看到了正向回报,并且越吃越香。

另一方面,AI 正以前所未有的速度渗透进医疗、法律等高风险、高责任领域单靠“能力展示”已经无法支撑决策。

吴恩达在《The Batch》新年特刊里,直指“AGI”概念被过度滥用,并提出“图灵-AGI 测试”重新界定上限。

斯坦福以人为本人工智能研究院(HAI),则联合计算机、医学、法律、经济学等多学科教授发布年度预测,明确提出“2026 年是 AI 从布道走向评估的一年”

这些报告背景各异,有产业一线、有跨学科研究机构、有长期做工程落地的团队。但都传递出一个信号:AI 不再只问“能不能做到”,而是要回答“在什么场景下、以什么成本、替谁承担风险”

放在 AI 正在经历关键转向的当下,这几份报告难得不靠口号撑场子、信息密度很高,值得放在一起细品。

##Scaling Law 不够用了,AI 评价标准被重写

过去几年,AI 行业其实并不缺“共识”。

其中最重要的一条,就是 Scaling Law:模型越大、数据越多、算力越强,能力就越好。参数规模、榜单名次,一度成了衡量进步最直观、也最省事的标准。

但当 AI 真正进入法律、医疗等高风险场景时,这套逻辑开始显得单薄——

分数上涨,并不等于风险可控;能力增强,也不代表系统可落地。

于是,一些长期站在产研一线的人开始意识到:核心问题不仅是“模型还能不能更强”,而是现有评价体系,是否已经跟不上应用场景的复杂度。

AI 大牛吴恩达,在其年度通讯《The Batch》新年特刊中提了个引人注目的问题:

“在 2026 年,我们能最终真的实现 AGI 吗?”

说到 AGI,其实目前行业和学界对此还没有统一的定义,更缺乏统一、可信的评测体系。而且在吴恩达看来,更棘手的是,“AGI”已经被滥用:

“AGI 已经变成了一个炒作术语,而不是一个具有精确含义的术语......当企业炒作他们可能在几个季度内实现 AGI 时,他们通常试图通过设定一个非常低的标准来证明这些说法。”

这些导致学生误判未来(不敢学某些专业)、CEO 错判投资节奏,以及社会整体对 AI 能力产生了系统性高估。

在吴恩达看来,这种过度炒作并非第一次出现。在 AI 发展史上,几次著名的“寒冬”往往并不是源于技术本身停滞,而是源于预期被抬得过高、最终崩塌,继而引发投资迅速撤离。

在此背景下,为了更好地实现真正的 AGI 目标,他要做一个新的图灵测试,名曰“图灵-AGI 测试”

经典的图灵测试,由“计算机科学之父”艾伦·图灵在 1950 年提出,核心标准是:通过纯文字对话,如果人类评审无法分辨对方是机器还是人,机器就算通过测试。

不过,这对今天的 AI 已明显不足,但其中“由人判断结果是否达到人类水平”的逻辑,被保留并扩展到了更多样、真实的工作场景中:除了对话,还有接电话、处理任务、交付成果等,并且还得持续反馈与调整。

为了让人类裁判有更深入、细致的体验,一个实验周期往往长达多天、甚至是数周。

那么,这个测试与当前主流的 Benchmark(AIME、GPQA、SWE-bench 等)又有何不同?

在吴恩达看来,当前的大部分基准测试都有这些局限:题目固定、路径可预期,模型很容易被“对题训练”。它们难以反映 AI 真的足够“智能”,比如是否具备长期规划、持续学习和跨任务迁移的能力。

相比之下,图灵-AGI 测试关心的是另一件事——它考的不是“会不会解题”,而是 AI 能否在任务不预设、路径不可控、反馈持续变化的条件下,把一件事从头到尾真正完成。

吴恩达认为,现有的 AI 系统,想要通过他们团队设立的图灵-AGI 测试,将面临极高难度和诸多挑战;他甚至还放出一句“反直觉”的话:

“如果现在所有 AI 都通不过这个测试,那反而是一件好事。”

图灵-AGI 测试的意义在于:如果有 AI 能通过,那就是强有力的信号;如果没有,也正好为过热的市场按下“冷静键”。

如果说,吴恩达提出的新测试是在关注的,是一个偏 AI“上限”的问题,那企业与研究机构更迫切需要回答的,则是一个偏“现实”的问题:AI 在当下的真实业务中,已经创造了多少价值,值不值得大规模用、怎么用?

斯坦福大学的计算机科学、医学、法律和经济学的教授们,最近联合发布了一份报告,标题非常直白:Stanford AI Experts Predict What Will Happen in 2026(《斯坦福 AI 专家预测 2026 年将发生什么》)

这些 HAI 的研究者们一起点出:AI 布道时代正在让位于评估;即将到来的一年将由严谨性、透明度和长期忽视的实用价值而非投机承诺所定义。

简单来说,就是过去几年,AI 行业几乎只在算“能力账”,却系统性地回避了“经济账”,现在是时候好好算下钱的问题了,比如这些“灵魂拷问”:

  • 企业为了用 AI,多花了多少钱?

  • 节省的时间和人力,有没有被新流程吃掉?

  • 维护、合规、算力、幻觉兜底,成本算过吗?

斯坦福的学者们们在多个领域(尤其是法律、医疗、写作类工作)都观察到一个现象:AI 的“单点能力”提升,并不必然带来整体效率提升。

有时候甚至是反效果:输出更多,但人要花更多时间核查;写得更快,但错误更隐蔽;看似节省人力,但引入新的协调成本。

他们提出一个观点,即如果 AI 的加入,让系统整体变得更复杂、更难以信任,那它的能力提升并没有什么意义。因此他们特别强调:不能只测模型,必须测 “人+AI+流程” 这个整体

以法律领域的 AI 为例,ROI(投资回报率)、严谨性和多文档推理这些指标将越来越重要。

至于 AGI,HAI 的联合主任 James Landay 和计算机科学院教授们,直接给其泼了盆冷水:

“My biggest prediction? There will be no AGI this year.(我最大的预测是?今年不会 AGI。)”

不过,这并不意味着技术停滞。相反,他们认为,AI 主权在今年有很不错的前景——但这里的“主权”并不是比拼谁的模型更大,而是模型跑在哪里、数据由谁掌控。

与此同时,对全球不断升温的算力投入,斯坦福 HAI 也发出了警告:过去一年,超大规模数据中心建设明显加速,但算力投资不可能无限加码,当资本持续涌入却迟迟看不到回报拐点时,这种热度本身就带有泡沫意味。

传播学副教授、HAI 高级研究员 Angèle Christin 说得更直白:“Deflating the AI Bubble .(戳破 AI 泡沫)”她表示,特别期待看到更多关于 AI 能做什么、不能做什么的细致实证研究。这不一定意味着泡沫破裂,但泡沫可能不会变得更大。

说完学界,再看看在产业一线,AI 目前的价值到底如何?

谷歌云近日发了份含金量颇高的报告:The ROI of AI 2025(2025AI 投资回报率),调查了 3466 名全球营收千万美元以上的企业老板或高管。

这里面传递出的信号很清晰,即 AI 讨论的重心,正在从“模型有多强”,转向“系统能不能持续赚钱”——说得再激进点:且不谈 AGI,先看 ROI

谷歌也给出了一个明确的答案:真正实现正向、可持续投资回报的,并不是零散的生成式 AI 能力,是“Agent + 流程 + 组织”的系统级落地

数据也印证了这一点。88%早期入坑 Agentic AI 的企业,已经在至少一个 GenAI 场景中看到了正向回报,并且越吃越香。但拉开差距的,和选了哪家模型关系并不大,而是这几件事:

  • 有没有高层拍板、持续背书

  • 有没有愿意为 AI 重做流程,而不是只加工具

  • 有没有把一半以上的 AI 预算,真正投到 Agent 上

所以,老板和高管怎么理解 AI,直接决定它的价值能否快速兑现——有清晰 C-level 战略和持续背书的公司,78%已经看到正向回报;而目标分散的组织,AI 往往只是“用过、试过”,却很难真正改变财务结果。

##技术路径出现拐点:从大模型到 Agent 体系

如果说前几年 AI 的核心问题是“模型能不能更强”,那么现在,当模型够强之后,问题变成了怎么把它真正用进系统里。

在谷歌的这份 ROI 报告里,提到了 118 次 Agent(或者 Agentic)。

报告显示,AI Agent 已经在生产环境中大规模部署:在使用 GenAI 的企业中,已经有一半以上(52%)把 Agent 投入生产环境。

而且真正能让 AI 获得正向 ROI 的,集中在这几类流程清晰、可以规模化复制的场景:

  • 生产力:减少重复劳动、压缩处理时间

  • 客户体验:更快响应、更稳定交付

  • 业务增长:缩短销售周期、提升转化效率

  • 营销:规模化内容与投放优化

  • 安全:减少误判、提前发现风险

这些场景有一个共同点:它们不是靠模型“更聪明”取胜,而是靠 Agent 嵌进流程、替人干活产生回报。

不过其实 Agent 和 Agent 之间的能力差别也是巨大的,就像智能驾驶分等级一样,谷歌给 Agent 按效果或者说进化路径分了三个等级:

  • Level 1:是大家最熟悉的生成式 AI 阶段:聊天、检索、生成内容,本质是“一次输入、一次输出”的工具能力展示。

  • Level 2:这才是真正意义上的 Agent。它不只回答问题,而是能理解目标、拆解任务、调用工具,并在一个流程内把事情做完。

  • Level 3:则是多 Agent 协同的工作流:不同 Agent 分工协作,由系统统一编排,像一个可调度、可扩展的“AI 团队”。

一级是工具,二级是产品,三级是系统。

值得注意的是,目前绝大多数已经产生正向 ROI 的 Agent,都集中在 Level 2。

客服 Agent、销售支持 Agent、内容与运营 Agent,基本都属于“单体 Agent + 明确流程”的形态。它们能嵌进业务、算得清成本,也更容易被组织信任。

在 2026 年,Agent 的下一步,并不是盲目“堆更多智能体”,而是“更可管理”,让多个 Agent 在清晰分工和明确规则下,稳定地协作起来。

要达成这样的效果,让吴恩达来看,得把能力拆细、边界划清,比如解决掉这些问题:谁来拆任务?谁真正去干活?中途翻车了谁兜底?最后的结果到底算谁的?最终让 Agent 像流程里的员工一样稳定干活——即 Skill- First

Skill 是最近 AI 圈一个大热的新词,直译过来是“技能”;在 AI 技术语境下,你可以将其理解为 Agent 的“技能模块”。

一次搜索、一次写作、一次代码生成、一次审批判断、一次风控校验、一次执行动作,都是一个边界清楚、可被调用、可被复用,还能被监控的 Skill。

与其说未来是“多 Agent 协作”,不如说是 Agent 在调度一堆 Skill,比如:

  • 什么时候查资料,用某个搜索 Skill;

  • 什么时候写文案,用某个生成 Skill;

  • 什么时候需要人介入,用审批或风控 Skill 接管。

要知道,目前真正跑出 ROI 的系统,往往不是最复杂、最炫的多 Agent 网络;而是 Skill 拆得够细、流程跑得够顺、责任链条说得清楚的 Agent 系统。

总而言之,Agent 的天花板,最终不取决于它“认识多少同伴”,而取决于它能不能把一组技能,按业务节奏稳定地用起来、跑下去、算清账。

在 Agent 这件事上,吴恩达可以算是“Skill 派”。

虽然他不一定频繁使用 “Skills” 一词,但他的思路本质上就是 Skill-first:他反对把 AI 能力打包成模糊的“通用智能”,强调可验证、可组合、可评估的能力单元。

这应该也是他反对 AGI 被滥用的原因之一:一旦不拆解能力,就无法判断边界,也无法管理风险。

所以在吴恩达的体系里,Agent 就像能调用一组能力、完成工作的人,而 Skill 就是可以被训练、验证、组合的具体组件。

AI 是一门长期生意,当故事讲完、潮水退去,能留下来的,恐怕只会是那些被长期运行、被持续信任的系统。

参考链接:

https://hai.stanford.edu/news/stanford-ai-experts-predict-what-will-happen-in-2026

https://cloud.google.com/resources/content/roi-of-ai-2025?hl=zh-CN&utm_source

https://www.deeplearning.ai/the-batch/issue-334/

https://x.com/fchollet/status/2002030113433465127