写点什么

谷歌最新 Gemini Agent 爆击 GPT-5.2?人类最后考试得分见分晓!网友:Altman 又该发“红色警报”了

  • 2025-12-12
    北京
  • 本文字数:3767 字

    阅读完需:约 12 分钟

大小:1.74M时长:10:08
谷歌最新 Gemini Agent 爆击GPT-5.2?人类最后考试得分见分晓!网友:Altman又该发“红色警报”了

在全球人工智能领域竞争快速升温的当下,谷歌与 OpenAI 再次在同一天抛出重磅更新,令整个行业的注意力高度集中。

 

昨天夜里,谷歌发布了全新“重新构想”的 Gemini Deep Research 版本,并首次开放了嵌入式研究智能体 API。

 


而几乎同时,OpenAI 正式发布了备受期待的 GPT-5.2(代号 Garlic)。两家公司围绕智能体(Agent)未来、基础大模型能力边界以及应用生态主导权的竞争,正进入一个前所未有的焦灼阶段。

 

这一次,谷歌和 OpenAI 的攻防几乎精确地踩在同一时间窗口,让外界得以清晰观察这两家全球 AI 巨头之间的战略对抗节奏。


谷歌推出全新 Deep Research Agent


谷歌推出的全新 Gemini Deep Research 工具是一款智能 Agent,能够整合海量信息并处理提示信息中大量的上下文数据。谷歌表示,客户使用 Deep Research Agent 执行的任务范围广泛,从尽职调查到药物毒性安全研究均有涉及。 

 

谷歌还表示,很快会将这款全新的 Deep Research Agent 集成到其各项服务中,包括谷歌搜索、谷歌财经、Gemini 应用以及广受欢迎的 NotebookLM。这标志着谷歌正朝着一个未来世界迈出又一步:未来,人类将不再使用谷歌搜索任何内容,而是由人工智能代理代劳。 

 

具体而言,Deep Research Agent 有哪些能力?

 

在此次更新中,Google 不仅对 Deep Research Agent 进行了架构级的再设计,还以 Gemini 3 Pro 为核心基础模型,构建了一个更加稳定、准确、可追溯的深度研究系统。新版 Deep Research Agent 的能力提升可总结为三个关键方向:模型升级、推理稳定性突破以及交互能力全面增强

 

先说模型升级。新版 Deep Research Agent 完全基于 Gemini 3 Pro 构建,而 Gemini 3 Pro 被谷歌视为其迄今最“真实”、最可靠、最适合长链推理的旗舰模型版本。谷歌强调,这不仅是性能提升,更是研究型智能体“可依赖性”的质变。

 

为了构建这样的智能体,谷歌采用了多步强化学习(Reinforcement Learning over Multi-step Trajectories)的训练策略。其目标非常明确:在长达数十步、数百步的复杂研究任务中,AI 必须保持推理路径稳定,减少出现幻觉的概率,并确保连续决策过程中的一致性。

 

传统 LLM 在长链推理中的主要痛点之一,就是每一步推理都会引入累计误差——只要一个幻觉性的节点,就可能导致整个输出结果失效。谷歌强调,新版 Deep Research 在这一点上取得重大突破:

 

  • 多轮强化学习优化决策序列

  • 在冗长任务链中显著减少逻辑偏移

  • 更稳定的检索—分析—推理—引用闭环

 

这使得 Deep Research 可以承担以往 LLM 无法胜任的任务,例如完整执行跨天级研究、政策评估、多源数据整合和全流程尽职调查。

 

新版 Deep Research Agent 的另一个核心优势是其超大规模上下文处理能力。在 Gemini 3 Pro 的支持下,它可以一次性处理远超以往的资料量,包括学术论文、官方报告、长篇网页内容等,更重要的是,谷歌为 Deep Research 加入了一项“研究级标准能力”:它会为每一条观点、每一个结论自动附上可追溯引用来源。引用不仅是网址链接,而是结构化地指向原文中的关键片段或段落,以确保输出可信、观点可查,用户可进行二次调查与审核 。这使 Deep Research 不是“生成内容”,而是“提供带证据链的研究结果”。

 

此次版本更新不仅是功能升级,而是谷歌围绕“研究型智能体生态”的一次系统性发布。除了 Deep Research Agent 更新,谷歌还推出两项关键新能力:开源全新网络研究智能体基准:DeepSearchQA 和全新交互 API。

 

在当前行业中,网络研究型智能体缺乏统一衡量标准。为了证明谷歌取得的进展,谷歌又创建了一个新的基准测试。这个新基准测试名为 DeepSearchQA,旨在测试智能体在复杂的多步骤信息检索任务中的表现。谷歌已将该基准测试开源。  

 

DeepSearchQA 开源地址:

https://www.kaggle.com/benchmarks/google/dsqa/leaderboard

 

DeepSearchQA 包含 17 个领域共 900 道精心设计的“因果链”任务,每一步都依赖于先前的分析。与传统的基于事实的测试不同,DeepSearchQA 衡量的是全面性,要求智能体生成详尽的答案集。这既评估了研究的精确度,也评估了检索召回率。

 


对比 pass@8 和 pass@1 的结果,可以证明让智能体探索多条并行路径进行答案验证的价值。这些结果是在 DeepSearchQA 的 200 个提示子集上计算得出的。

 

全新的 Deep Research Agent 在“人类最后的考试”(HLE)和 DeepSearchQA 测试中取得了最先进的成果,并在 BrowseComp 测试中表现最佳。它经过优化,能够以更低的成本生成高质量的研究报告。

 

基准测试结果令人惊叹。它基于 Gemini 3 Pro 核心构建,但采用智能体工作流程来实现最先进的性能。统计数据(来自图表):

 

  • 人类的最后考试(HLE): 46.4%(显著优于 GPT-5 Pro 的 38.9%)

  • DeepSearchQA: 66.1%(略胜 GPT-5 Pro 的 65.2%)

  • BrowseComp: 59.2%(与 GPT-5 Pro 不分伯仲)

 


Gemini Deep Research 在完整的“人类最后的考试”(HLE)数据集上取得了 46.4% 的领先成绩,在 DeepSearchQA 上取得了 66.1% 的成绩,在 BrowseComp 上取得了高达 59.2% 的成绩。

 

Interactions API 是谷歌此次发布的最具战略意义的能力之一。它让开发者首次能够以结构化方式控制智能体的行为状态、推理步骤、长链任务执行、中间状态存储等,这意味着以前开发者只能“向模型发问”,而现在开发者可以“调教智能体如何执行任务”。


网友怎么看?

 

在谷歌发布新版 Deep Research Agent 后,技术社区的反应同样值得关注。

 

在 Hacker News 与 Reddit 相关讨论帖中,不少开发者表达了对谷歌此次“真正把 Agent 做成工程化产品”的肯定。

 

在 Reddit 上,有用户对技术的进步发出感叹:

 

“太不可思议了!我觉得我们还没有充分意识到这一点。过去三年我们取得的进步简直令人难以置信!”

 


有网友指出,谷歌首次在产品层面强调“可验证引用”“端到端多步推理稳定性”,是 AI Agent 领域一次明显的进步。

 

一位自称长期从事合规审阅工作的用户评论说:“如果 Deep Research 真的能做到逐步链路可审计,那将是第一次有大厂真正把 Agent 从玩具推向生产环境。”

 

但也有观点保持谨慎,一位 Reddit 用户批评道:“谷歌用自家基准证明自己最强,这种事情已经发生过太多次了。我们需要的是在真实网页、真实任务中的第三方测试。”

 

谷歌这款新 Agent 的发布时间与 OpenAI GPT-5.2 是同一天,自然难逃网友们将两者相比较的命运。

 

在 Reddit 上,有用户提问这款 Deep Research Agent 与同一时间 OpenAI 发布的 GPT-5.2 相比如何,另一位用户回答称用途不同,但 GPT-5.2 更好。



为了将两者进行更清晰的对比,还有网友找出了 OpenAI 研究员 Sebastien Bubeck

在领英上的发文,在这篇发文中,Sebastien Bubeck 称 GPT-5.2 在人类的最后考试(HLE)中的得分是 45%,而谷歌这款新的 Agent 的得分是 46.4%,略高于 GPT-5.2。

 


同时,围绕谷歌与 OpenAI 的竞争,也有人发出调侃式评论:“谷歌刚发 Deep Research,OpenAI 就把 Garlic(GPT-5.2)端上来了,这俩公司现在简直是在互相抢发新闻。”

 

还有人总结这场激烈竞赛的节奏:“这已经不是模型大战,而是发布会大战。”

模型能力的“贴身肉搏”越演愈烈

 

基础模型能力始终是两家公司最具标志性的竞争焦点。

 

2025 年初,谷歌推出的 Gemini 3 Pro 以其更“真实”、更可依赖、幻觉率更低的特性,试图在长链推理和专业任务场景中重建优势。Gemini 3 Pro 强调检索增强、多模态处理能力以及大规模上下文处理能力,在科研、法律、金融等高可信场景中表现亮眼。

 

而 OpenAI 在最新发布的 GPT-5.2(Garlic)中,强化了逻辑一致性、工具调用稳定性以及智能体行为的自主性,进一步提升了跨任务泛化能力。内部基准测试显示,GPT-5.2 在推理、代码生成、多轮工具调度方面对 Gemini 保持领先,尤其是在 OpenAI 自研的“连续推理一致性 Benchmark”中表现突出。

 

两者之间的能力差距被行业评论认为“已进入毫厘级别”——差距常常只体现在特定任务场景,而不再是全局性的优势。

 

如果说基础模型决定了智能体能否思考,那么智能体平台能力则决定了智能体能否执行任务。

 

谷歌此次对 Gemini Deep Research Agent 进行全面重构,可视为其正式加入智能体战争的关键节点。

 

新版 Deep Research Agent 具有三大亮点:

 

  • 基于 Gemini 3 Pro 全面重写推理链路

  • 采用多步强化学习训练,保持长链任务中决策一致性,显著降低幻觉概率

  • 提供全链路引用,可追溯每个观点的证据来源

 

这使其从“报告生成工具”升级为“可执行完整研究任务的专业智能体”。更关键的是,谷歌推出了结构化控制智能体行为的 Interactions API,开发者可以对智能体的每一阶段、每一子任务进行高度可控的调度与状态管理。这意味着 Deep Research Agent 不再是谷歌产品线内部的能力,而是一个通用的智能体执行引擎。

 

OpenAI 的智能体体系则更侧重通用性和自由度。

 

Agent API、OpenAI Swarm、BrowserAgent、CodeAgent 已形成一个完整的智能体开发框架,加上 GPT-5.2 的推理一致性提升,让其在自动化任务执行、工具调用复杂度和环境适应性上保持优势。

 

两者竞争的是:未来软件开发将以智能体为核心,而谁掌握了智能体框架标准,谁就掌握了新一代计算范式的主导权。

 

参考链接:

https://ai.google.dev/gemini-api/docs/deep-research?hl=zh-cn

https://techcrunch.com/2025/12/11/google-launched-its-deepest-ai-research-agent-yet-on-the-same-day-openai-dropped-gpt-5-2/

2025-12-12 18:2911
用户头像
李冬梅 加V:busulishang4668

发布了 1231 篇内容, 共 847.4 次阅读, 收获喜欢 1323 次。

关注

评论

发布
暂无评论

基于开源云原生数据仓库ByConity体验多种数据分析场景

六月的雨在InfoQ

bsp ByConity 云原生数据仓库

商业开源电商大模型- AI换装

摹图

深入探索 CnosDB 可观测性最佳实践:Trace

CnosDB

时序数据库 tsdb 开源社区 大数据 开源 CnosDB

📢 CnosDB 新版本 2.4.2.1 发布:新增特性与优化一览 📢

CnosDB

时序数据库 tsdb 开源社区 大数据 开源 CnosDB

2024-11-30:质数的最大距离。用go语言,给定一个整数数组 nums,请找出两个(可以是相同的)质数在该数组中的下标之间的最大距离。 提示: nums的长度在[1,3*10^5]之间。 num

福大大架构师每日一题

福大大架构师每日一题

分享8款文档版本管理系统,助力团队高效协作

易成研发中心

2024年受欢迎的9款文档版本控制工具推荐

易成研发中心

华为云软件开发生产线(CodeArts)10 月新功能特性

平平无奇爱好科技

深入探索 CnosDB 可观测性最佳实践:开篇

CnosDB

时序数据库 tsdb 开源社区 大数据 开源 CnosDB

如何做好IT项目管理

易成研发中心

#项目管理 IT项目管理

flstudio24如何设置成中文教程 flstudio24中文版免费下载

阿拉灯神丁

音乐制作 编曲宿主 FL Studio2024 FL水果

《Django 5 By Example》阅读笔记:p388-p454

codists

Python django

深入探索 CnosDB 可观测性最佳实践:日志

CnosDB

时序数据库 tsdb 开源社区 大数据 开源 CnosDB

深入探索 CnosDB 可观测性最佳实践:Metrics

CnosDB

时序数据库 tsdb 开源社区 大数据 开源 CnosDB

hyperf-throttle-requests,一个超牛的 PHP 限流神器

左诗右码

10 分钟搞定 Golang 结构体

俞凡

golang

压缩位图——Roaring Bitmap

Java随想录

Java 数据结构 算法 map

企业必备的8款OKR工具软件,提升团队执行力

易成研发中心

谷歌最新 Gemini Agent 爆击GPT-5.2?人类最后考试得分见分晓!网友:Altman又该发“红色警报”了_Google_李冬梅_InfoQ精选文章