
2025 年 11 月 18 日,谷歌推出全新旗舰级多模态大模型家族Gemini 3。该系统的定位是迄今为止功能最强大的系统,自发布首日起即全面部署于搜索引擎、Gemini 应用、AI Studio、Vertex AI、Gemini 命令行界面及Antigravity集成开发环境中。与早期 Gemini 版本仅限于少数产品率先应用不同,Gemini 3 从一开始就是一个统一的平台,同时支撑消费级与企业级应用场景。
目前,Gemini 3 以 Gemini 3 Pro 为核心,而 Deep Think 的定位是更高强度的推理模式,将面向高级版和终极版用户推出。谷歌将 Gemini 3 Pro 描述为其多模态理解与代理编码的核心模型,专注于融合文本、代码及富媒体任务。Deep Think 则被描述成一种离线模式,专门处理最复杂的推理工作负载,包括高难度基准测试和长周期规划。
Gemini 3 Deep Think 实现了质的飞跃。Deep Think 曾助力我们在 IMO 和 ICPC 赛事中斩获金牌,如今更赋能更为强大的版本 Gemini 3。比最先进还先进。——Quoc Le
从 API 的角度来看,Gemini 3 Pro 支持在最多 1,048,576 个 token 的上下文窗口内处理文本、图像、视频、音频和 PDF 文件,输出上限为 65,536 个 token。该核心模型通过 Gemini API、Firebase AI Logic、Vertex AI 和 Gemini Enterprise 提供接口,团队可根据他们现有的基础设施选择适配的集成方案。该模型支持结构化 JSON 输出,并可与内置工具组合使用。
根据模型卡片及相关技术概述,Gemini 3 Pro 在多项公开基准测试(包括考试类任务与科学推理任务)中的成绩都达到或接近顶尖水平。Deep Think 模型进一步提升了其中的多项指标,在针对代理而非单次提示而设计的长期推理测试中,表现尤其突出。
有一种感觉,谷歌在 AI 领域挣扎了数年——他们推出了 Bard 和 Gemini 的早期版本,都存在一些问题——我认为,谷歌当时正在追赶最先进的水平。现在的问题是:这是否意味着他们正在夺回王冠?——Kevin Roose,Hard Fork
Gemini 3 Pro 能够在单次请求中分析文本、媒体和文档的混合输入,因此,开发人员可以发送长篇 PDF、截图和视频片段,而无需为每种模态构建独立的管道。该功能旨在将文档分析、日志分级和媒体密集型分析等工作负载整合到单个模型中,而非分别维护视觉、语音和语言系统。
此外,Gemini 3 Pro 正在整合至 Gemini Code Assist 和 Gemini CLI 中。常见 IDE 中的 Code Assist 用户将率先以代理模式体验 Gemini 3。该模型不仅能执行内联代码补全,更能处理多步骤编码任务。在终端环境中,Gemini CLI 也提供了该模型,支持应用程序框架搭建、代码重构、文档生成及轻量级代理等工作流。
谷歌重点展示了 Gemini 3 在跨工具规划和执行长期任务方面的能力,涵盖财务分析、供应链规划及合同审查等领域。利用聚焦于代理和计算机使用的基准测试(如模拟操作和营收任务),谷歌展示了该模型在需要与用户界面及外部系统交互的环境中表现出的卓越性能。
开发论坛重点强调了该模型在数学运算密集型工作负载、基于屏幕的任务以及代码密集型项目中的性能提升,同时也探讨了基准测试污染的风险以及综合评估与日常开发工作之间的差距。另外,还有一种观点是,其行为可能存在不一致,并建议在提交代码前进行内部评估。
原文链接:







评论