2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

突然!谷歌发布 Gemini 3:百万上下文 + 全链路 Agent 直接封神!Claude 被秒成渣了

  • 2025-11-19
    北京
  • 本文字数:4594 字

    阅读完需:约 15 分钟

大小:2.26M时长:13:10
突然!谷歌发布 Gemini 3:百万上下文 + 全链路 Agent直接封神!Claude 被秒成渣了

谷歌发布 Gemini 3.0,多项基准测试碾压一众模型


刚刚,谷歌发布了其划时代的 AI 模型——Gemini 3.0,与过去以往发布模式不同的是,这次谷歌甚至连一场发布会都没有召开。


过去几个月,谷歌的 Gemini AI 一直深陷争议之中。隐私诉讼、图像生成失败、API 变更破坏性升级激怒了开发者,各种负面新闻层出不穷。人们纷纷指责谷歌急于将产品推向市场,偷工减料,最终在人工智能竞赛中败给了 OpenAI。


在一片骂声中,谷歌只通过一篇博客就放出重磅模型的行为也就不难理解了。


代表 Gemini 团队的谷歌 DeepMind CEO Demis Hassabis 和谷歌 DeepMind CTO 兼谷歌首席人工智能架构师 Koray Kavukcuoglu 共同在官网上发布了这款最强模型的详细介绍。


据介绍,Gemini 3 是谷歌迄今为止最智能、适应性最强的模型,能够帮助应对现实世界的复杂性,解决需要增强推理和智能、创造力、战略规划以及逐步改进的问题。它特别适用于需要:智能体性能、高级编码、长上下文和/或多模态理解,以及/或算法开发的应用。


Gemini 从一开始就旨在无缝整合任何主题的多模态信息,包括文本、图像、视频、音频和代码。Gemini 3 结合了其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级上下文窗口,相比之下,Claude Sonnet 4.5 和 GPT 5.1 的最大输出量停留在数万或者数十万级别。


Gemini 3.0 已第一时间登陆 AI Studio、Gemini CLI,以及 Cursor、GitHub、JetBrains、Cline 等最重要的开发者入口。


谷歌还表示,今天起,将发布 Gemini 3 Pro 预览版,并将其集成到一系列 Google 产品中。此外,谷歌还将推出 Gemini 3 Deep Think——这是其增强的推理模式,可进一步提升 Gemini 3 的性能——并在向 Google AI Ultra 订阅用户开放之前,先向安全测试人员开放试用。


Gemini 3 Pro 虽然也采用的是稀疏混合专家(MoE)架构,但并不是先前模型的修改或微调版本。这种基于 MoE 设计的核心优势在于实现了总模型容量与单 token 计算成本的解耦——模型可通过大规模参数储备提升能力上限,同时仅激活部分参数完成计算,在保证性能的同时显著降低资源消耗。


例如,如果想学习如何烹饪家族传统菜肴,Gemini 3 可以解读并翻译不同语言的手写食谱,生成可与家人分享的食谱。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    或者,如果想学习某个新主题,用户可以提供学术论文、长篇视频讲座或教程,它可以生成交互式记忆卡片、可视化或其他格式的代码,帮助您掌握相关知识。


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      它甚至可以分析匹克球比赛视频,找出可以改进的地方,并制定训练计划,帮助全面提升球技。


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        在 2.5 Pro 成功的基础上,Gemini 3 兑现了将开发者的任何想法变为现实的承诺。它在零样本生成方面表现出色,能够处理复杂的提示和指令,从而渲染出更丰富、更具交互性的 Web 用户界面。


        据谷歌称,Gemini 3 还是谷歌迄今为止构建的最佳 Vibe Coding 和代理编码模型,它使谷歌的产品更加自主,并显著提升了开发者的效率。


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          而在代码能力之外,Google 这次更大的动作,是试图借 Gemini 3 彻底重塑开发体验,让其从“代码自动补全”迈向“agent-first”。伴随 Gemini 3 发布,他们推出了全新的智能体开发平台 Google Antigravity,目标是让开发者从具体指令、单次调用,跃迁到更高层次的“任务导向型开发”。据说,这是谷歌自己的 VS Code 分支。



          除了 Gemini 3 Pro,Antigravity 还深度集成了最新的 Gemini 2.5 Computer Use 模型(用于浏览器自动化操作)以及 Nano Banana。


          Gemini 3 系列模型的成功离不开谷歌全栈技术生态的支撑。硬件层面,模型完全基于谷歌张量处理单元(TPU)集群训练,这种专为大语言模型设计的芯片凭借高带宽内存和并行计算能力,较传统 CPU 实现了训练速度的数量级提升。通过 TPU Pods 集群的分布式部署,谷歌将庞大的训练任务拆分至多个设备并行处理,既保证了模型训练的效率,又通过硬件优化践行了可持续运营承诺。


          在数据层面,Gemini 3 Pro 的训练数据体系呈现出多元化与高合规性的双重特征。其数据集不仅包括公开网页数据、可下载数据集及商业许可数据,还纳入了符合谷歌服务条款的用户互动数据、员工生成数据及 AI 合成数据。


          为平衡数据丰富性与安全性,谷歌建立了多维度数据处理机制:通过遵守 robots 协议规范爬虫行为,利用安全过滤技术践行 AI 安全承诺,同时针对儿童性虐待材料(CSAM)等违法内容实施专项过滤。


          特别值得注意的是,模型在训练过程中融入了强化学习技术,通过多步推理、定理证明等专业数据优化问题解决能力。


          具体而言,Gemini 3 Pro 在各项基准测试中表现如何?

          能力到底有多强?


          我们在这里专门从 代码能力、数学推理能力,以及 Agent(工具使用与长期任务)能力 三个维度,对 Gemini 3 Pro 的能力进行解读。


          在代码生成和工程落地上,Gemini 3 Pro 的跃升非常明显。


          在 LiveCodeBench Pro(接近 ICPC / Codeforces 难度的竞技编程)上,Gemini 3 Pro 得分 2439(Elo,数值越高越好),不仅高于 GPT-5.1 的 2243,也远超 Claude 4.5 的 1418。这个分数段基本已经逼近“专业竞赛级程序员”的水平,而且在同类模型中优势最为明显——在高难度算法与数据结构题上,G3 Pro 已经是第一梯队。


          在 SWE-bench Verified(真实 GitHub issue 自动修复,Agentic coding)上,Gemini 3 Pro 得分 76.2%,与 GPT-5.1 的 76.3% 几乎持平,略低于 Claude 4.5 的 77.2%。SWE-bench Verified 更接近真实工程环境:多文件仓库、测试驱动、一次性打补丁。G3 Pro 在这一指标上已经稳居顶级模型阵营,与 GPT-5.1 和 Claude 4.5 基本等价,而相较 2.5 Pro 则是一次“代际级”跨越。


          在数学方面,AIME 2025 这一项,Gemini 3 Pro 裸分为 95%,开启 code execution 后可以做到 100%。这里的 “100% with code execution” 意味着模型能够主动调用 Python 等工具链完成严格推导——这其实是 Agent 能力与推理能力深度融合 的一个关键信号。这个成绩不仅高于 GPT-5.1 的 94%,也领先于 Claude 4.5 的 87%(Claude 同样在开启 code execution 时可达 100%)。


          AIME 2025 被认为是全球最难的高中奥数试题集合,MathArena Apex 的难度则接近大学高等数学/奥数级别。在 MathArena Apex 上,Gemini 3 Pro 远超其他模型(Gemini 2.5 Pro 仅 0.5%)。因此,Gemini 3 Pro 的核心升级并不仅仅是模型变大,而是 “推理能力 + 工具链整合” 的双重跃迁。


          在 Agent 能力方面,Gemini 3 Pro 的提升可以说是“断层式”的。无论是工具调用、操作系统级任务,还是跨阶段的长期规划,它都展现出了超越前代、并跻身行业顶尖的综合能力。


          t2-bench(工具调用 & 操作系统任务,Agentic tool use),Gemini 3 Pro 得分 85.4%,与 Claude 4.5 的 84.7% 基本持平,明显高于 GPT-5.1 的 80.2%,远超 2.5 Pro 的 54.9%。t2-bench 主要考察模型在真实软件环境中“使用工具执行任务”的能力,包括 API 调用、函数调用、文件操作、系统指令执行等典型 Agent 行为。


          这一项是“Agent 的真正核心竞争力”。Gemini 3 Pro 在此不仅与 GPT-5.1、Claude 4.5 并列顶尖阵营,还明显比上一代 2.5 Pro 高出一个量级。


          Vending-Bench 2(长期任务规划,越高越好),Gemini 3 Pro 得分 3,838,大幅领先 GPT-5.1 的 573。Gemini 3 Pro 的表现可以说是“代际级领先”。在长任务执行、自动化工作流、任务可靠性上,它不仅进入第一梯队,甚至与竞品拉开了非常明显的差距。



          Terminal-Bench 2.0(Unix 环境指令执行 & 自动修复)中,Gemini 3 Pro 得分为 54.2%,明显高于 GPT-5.1 的 47.6%、Claude 4.5 的 42.8%,以及 Gemini 2.5 Pro 的 32.6%。


          Terminal-Bench 测试的是一个 Agent 在真实 Unix 环境中能否读日志、定位问题,执行文件系统操作,修改配置并验证结果,完成类似 CI 的自动修复流程——本质上是在回答一个问题:“这个东西能不能真的上生产系统?” 在这一项上,Gemini 3 Pro 的表现同样处于显著领先的位置。


          从代码助手到 Agent 开发新基建


          这种能力跃升背后,是谷歌对“AI + 软件开发”路线的集中押注。


          在今年 2 月推出 Gemini 2 后,谷歌在 4 月迅速调整了 Gemini 的管理层,将领导权交给了 Google Labs 负责人 Josh Woodward——这位同时负责 otebook LM 与 Project Mariner(Chrome 控制 Agent)的产品负责人,长期深耕“AI + 软件开发”,对编码工作流与 Agent 思维方式有深刻理解。


          Woodward 在多次公开讨论中也强调了同一件事:代码,是 Google 内部规模最大、持续增长最快的 AI 应用场景。“Google 有上万名工程师,而 AI 正在重塑整个软件生产流程,所以我们会从‘软件开发的未来是什么样?’开始思考,既对 Google 内部构建,也对外部用户负责。”


          Jeff Dean 也曾公开表示,Google 内部已有 25% 的代码由 AI 自动生成,而且这个比例还在快速增长。换句话说,Gemini 每一次的迭代,都直接影响着谷歌数万工程师的生产方式。


          按 Woodward 此前的说法,编程是一个被低估的方向:“如果你能让代码模型自己写代码、自己纠错、自己修复、自己迁移旧系统,那你会发现:原本已经很快的技术进步曲线,会被彻底改写。所以我觉得这块虽然已经炒得很热了,但远远不够热,它应该被炒得更热。”


          在他看来,未来系统将依赖更长上下文、更深的工具链整合以及更强的自动化能力去完成复杂工作流,而编码能力正是这一切的地基。换句话说,Gemini 的代码能力不只是产品特性,而是 Google 推动下一代 Agent、自动化系统和 AI 原生软件工程的战略支点。


          从这组信号来看,Gemini 3 Pro 在代码生成、工程修复与 Agent 能力上的大幅跃升,并不是偶然,而是谷歌从领导层到产品方向的刻意押注。

          网友评价如何?


          Gemini 3 才发布不到一小时的时间,网上的讨论早已铺天盖地,甚至比产品本身更“热闹”。在 Hacker News、Reddit 等平台上,从专业开发者到普通用户,评论区呈现出罕见的两极分化:有人直呼“终于追上了”、有人冷嘲“你这不叫卷,这是自救”,也有人担心谷歌是否还能回到巅峰时代。


          在 Reddit 上,有用户表示:“至少这次没摆烂,性能上终于能正面跟上 GPT 系列。”


          还有用户称: “多模态响应速度快了很多,尤其是视频理解像那么回事了。代码能力回来了,谷歌终于不像去年那么迷茫。”



          但也有用户对 Gemini 3 表示失望。该网友认为谷歌这次并没有交出很好的答卷。



          在 X 上,有网友吐槽了谷歌这次模型发布的形式过于枯燥。他认为需要改进的可能并不是模型本身,而是谷歌的发布方式。他评论称:“只有博客文章的发布形式太无聊了。”



          还有网友表示,大模型进入到现在这个阶段后,对用户来说更具性价比的产品更能吸引和留住用户。


          “实际上,采取一种更为务实的策略或许是可取的:推出一些在技术上未必最前沿,但在经济上极具吸引力的产品。当前,模型在某些高度专业化或小众领域(例如深度推理、金融、哲学等)的性能提升,对大多数用户而言已不易感知,甚至难以察觉。


          如果能推出一款产品,在内存容量、上下文窗口大小上超越 GPT-5.1,充分整合工具与浏览器功能(例如自带搜索与 Chrome 支持),并可选接入 Gmail 等服务,而所有这些功能的定价仅为 OpenAI 的一半(例如 9.99 美元),甚至接近免费或低至 2.99 美元,或是与 YouTube 订阅或 One 账户捆绑销售——那将极具竞争力。


          一旦技术性能的增长进入平台期,企业就必须通过功能创新实现差异化,或是通过降低成本来维持竞争力。如果他们选择后者,并借此削弱 OpenAI 的用户获取与留存能力,这或许将改变市场竞争格局——OpenAI 可能难以承受用户增长放缓甚至流失的压力,而谷歌这类公司则更有能力应对这样的局面。”


          参考链接:


          https://blog.google/products/gemini/gemini-3/


          2025-11-19 07:3011002

          评论

          发布
          暂无评论

          springboot线程池的使用和扩展

          程序员欣宸

          Java 线程池 5月月更

          数字化时代,国内SaaS行业的发展态势

          小炮

          SaaS

          《手写 Mybatis》第7步:SQL执行器的定义和实现

          小傅哥

          小傅哥 mybatis 面试经验 源码学习 手写Mybatis

          【C语言】计算器

          謓泽

          5月月更

          Pipy for Next Web:静态内容服务与缓存加速

          Flomesh

          CDN加速 Pipy Headless CMS

          thinkphp5的消息队列详细教程

          CRMEB

          《对线面试官》Java简历怎么写?

          Java3y

          Java 程序员 Java web 5月月更

          WebAssembly技术_加载ffmpeg在Web端调用解码

          DS小龙哥

          5月月更

          多平台快速开发的UI框架

          源字节1号

          MongoDB 入门教程系列之一:开发环境搭建以及 Node.js 和 Java 的读写访问

          汪子熙

          数据库 mongodb 分布式 分布式数据库mongodb 5月月更

          OpenHarmony 3.1 Beta版本关键特性解析——ArkUI开发框架容器类API的介绍与使用

          OpenHarmony开发者

          OpenHarmony ArKUI 3.0 OpenHarmony 3.1 Release

          面试突击44:volatile 有什么用?

          王磊

          Java Java面试题 java常见面试题

          《敏捷软件测试》的作者将“Agile Testing”改为“Holistic Testing”

          BY林子

          软件测试 敏捷测试 持续测试

          springsecurity从当前请求对象中获取用户信息

          急需上岸的小谢

          5月月更

          从研发效能的视角谈“故障复盘”

          博文视点Broadview

          2022 之Python操作 Excel,xlrd 与 xlwt 模块一文掌握

          梦想橡皮擦

          5月月更

          [Day35-02]-[二叉树]-求根节点到叶节点数字之和

          方勇(gopher)

          LeetCode 二叉树 数据结构算法

          Nginx解决跨域问题

          乌龟哥哥

          5月月更

          大数据培训Flink怎样保证数据是一致性的

          @零度

          大数据 flink

          跟我学Python图像处理丨获取图像属性、兴趣ROI区域及通道处理

          华为云开发者联盟

          Python OpenCV 图像处理 图像 ROI区域

          《深入理解计算机系统》读书笔记——第二章(一)

          如浴春风

          5月月更

          架构实战营模块四作业

          哈啰–J

          ONES 收购 SegmentFault 思否,共建高质量开发者社区

          万事ONES

          项目管理 程序员 研发管理 ONES

          Redis 内存优化在 vivo 的探索与实践

          vivo互联网技术

          数据库 redis 性能优化 内存优化

          Jeff Dean:深度学习的黄金十年

          OneFlow

          人工智能 深度学习 软件 硬件

          网站开发进阶(十九)计划任务功能——信息自动弹出

          No Silver Bullet

          5月月更 自动弹窗

          DevOps系列之 —— 持续规划与设计(一)敏捷项目管理理念与方法实践

          若尘

          DevOps 5月月更

          web前端培训Vite的原理源码解析

          @零度

          前端开发 vite

          Java培训 判空的新写法

          @零度

          java8 JAVA开发 判空写法

          Python 操作 Excel,从 xlwings 模块开始

          梦想橡皮擦

          5月月更

          突然!谷歌发布 Gemini 3:百万上下文 + 全链路 Agent直接封神!Claude 被秒成渣了_Google_李冬梅_InfoQ精选文章