写点什么

昨夜,谷歌祭出迄今编程能力最强模型 Gemini 3 Flash!白菜价、但代码能力超过 Gemini 3 Pro

  • 2025-12-18
    北京
  • 本文字数:2863 字

    阅读完需:约 9 分钟

大小:1.40M时长:08:09
昨夜,谷歌祭出迄今编程能力最强模型 Gemini 3 Flash!白菜价、但代码能力超过 Gemini 3 Pro

刚刚,谷歌发布最新模型 Gemini 3 Flash,据介绍,它拥有前沿智能,专为速度而生,可以帮助每个人更快地学习、构建和规划任何事物。


早在模型发布前,Google AI Studio 开发者平台 和 Gemini API 产品负责人 Logan Kilpatrick 就在 X 上发布了一条只有三个闪电符号的推文,当时就有大批网友猜测这意味着谷歌即将发布主打速度至上的 Flash 版本模型。


果然,今晚谷歌 Gemini 3 Flash 模型如约而至。


谷歌重磅发布 Gemini 3.0 Flash


过去一年,从 Gemini 1.5 到 3.0,谷歌持续强化其在多模态、长上下文和推理能力上的技术纵深,同时也在不断压低模型调用成本,试图在企业级应用和开发者生态中建立更具性价比的护城河。在这一背景下,主打高性能与低延迟的 Flash 系列被视为 Gemini 体系中最贴近真实业务场景的一条产品线。


随着外界对“更快、更便宜、更易部署”的模型呼声不断升高,谷歌今晚发布的 Gemini Flash 3,也被普遍认为是其在推理效率和规模化落地层面的一次关键落子。


谷歌称,从今天起,Gemini 3 Flash 将面向全球数百万用户推出:


  • 适用于 Google AI Studio、Gemini CLI 和谷歌新的智能体开发平台 Google Antigravity 中的 Gemini API 开发者

  • 所有用户均可通过 Gemini 应用和 AI 模式在搜索中使用。

  • 适用于 Vertex AI 和 Gemini Enterprise 的企业


那么,这款模型性能到底怎样呢?


谷歌在其官网介绍称,Gemini 3 Flash 速度和规模无需以牺牲智能为代价。


它在博士级别的推理和知识基准测试(例如 GPQA Diamond 90.4%) 和 Humanity's Last Exam (33.7%,不使用工具)中均展现出前沿性能,足以媲美规模更大的前沿模型,并且在多项基准测试中显著超越了目前最佳的 2.5 版本模型 Gemini 2.5 Pro。Gemini 2.5 Flash 的得分为 11%,而最新发布的 GPT-5.2 的得分为 34.5%。


此外,它在 MMMU Pro 测试中也取得了令人瞩目的 81.2% 的成绩,与 Gemini 3 Pro 的性能相当。



除了前沿的推理能力和多模态处理能力外,Gemini 3 Flash 的设计目标是极高的效率,突破质量、成本和速度之间的帕累托极限。在最高思维水平下进行处理时,Gemini 3 Flash 能够灵活调整其思考时间。

性能优于 Gemini Pro 2.5,价格更低


对于更复杂的应用场景,它可能需要更长的思考时间,但根据典型流量的测试结果,它平均使用的 token 数量比 2.5 Pro 少 30%,从而以更高的性能更准确地完成日常任务。



Gemini 3 Flash 在性能、成本和速度方面突破了帕累托极限。


Gemini 3 Flash 的优势在于其极快的速度,它基于 Flash 系列产品打造而成。其性能超越 2.5 Pro,速度提升 3 倍(基于 Artificial Analysis 基准测试),而价格却低得多。


在定价方面,Gemini 3 Flash 相比前几代模型更具性价比。Gemini 3 Flash 的定价为每百万个输入 token 0.50 美元,每百万个输出 token 3 美元(音频输入价格仍为每百万个输入 token 1 美元)。


这比 Gemini Flash 2.5 的每百万个输入 token 0.30 美元和每百万个输出 token 2.50 美元略贵。但谷歌声称,新模型的性能优于 Gemini 2.5 Pro,速度更是其三倍。而且,在处理思维任务时,它平均比 2.5 Pro 少用 30% 的 token。这意味着,总体而言,在某些任务中,用户可能会节省 token 数量。



在编程性能上,Gemini 3 Flash 拥有 Gemini 3 专业级的编码性能,同时延迟极低——能够在高频工作流程中快速推理和解决任务。


在用于评估编码代理能力的基准测试 SWE-bench Verified 中,Gemini 3 Flash 的得分高达 78%,不仅超越了 2.5 系列,甚至超越了 Gemini 3 Pro。它在代理编码、生产就绪系统和响应式交互式应用程序之间实现了理想的平衡。



Gemini 3 Flash 在推理、工具使用和多模态功能方面的强大性能,非常适合希望进行更复杂的视频分析、数据提取和视觉问答的开发人员,这意味着它可以实现更智能的应用——例如游戏助手或 A/B 测试实验——这些应用既需要快速的答案,也需要深入的推理。


此外,值得一提的是,Gemini 3 Flash 也开始作为搜索中 AI 模式的默认模型推出,全球用户均可使用。


基于 Gemini 3 Pro 的推理能力,Gemini 3 Flash 的 AI 模式能够更有效地解析用户问题的细微差别。它会考虑用户查询的每一个方面,提供周全且易于理解的答案——从网络各处提取实时本地信息和实用链接。最终,它能有效地将研究与即时行动相结合:用户将获得一份条理清晰、条理分明的分析报告以及具体的建议——速度堪比搜索。


谷歌方面表示,其将 Gemini Flash 的定位更偏向于“主力机型”,而非高端展示型模型。


Gemini Models 高级总监兼产品负责人 Tulsee Doshi 在接受 TechCrunch 简报时指出,如果对比价格表中输入和输出的定价,可以明显看到 Flash 在成本上要低得多,这使其更适合承担大规模、批量化的任务处理需求,能够切实帮助企业降低使用门槛和整体成本。


自 Gemini 3 发布以来,谷歌在其 API 上的处理规模迅速放大,目前每日处理的 token 数量已超过 1 万亿个。


同时,谷歌也正与 OpenAI 展开一场围绕新品发布节奏和模型性能的正面竞争。


有报道称,本月初,随着谷歌在消费者市场的份额上升,ChatGPT 的整体访问量出现下滑,OpenAI CEO Sam Altman 因此向内部团队发出了一份被称为“红色警报”的备忘录。随后,OpenAI 接连发布了 GPT-5.2 以及一款新的图像生成模型,并强调其企业级应用需求持续增长。OpenAI 还披露,自 2024 年 11 月以来,ChatGPT 的消息量已增长约 8 倍。


尽管谷歌并未直接回应与 OpenAI 之间的竞争关系,但其认为,新模型的密集发布正在推动整个行业加速前进。


“目前整个行业的状态是,各类模型都在快速演进,相互竞争、不断突破性能边界,”Doshi 表示,“同样令人印象深刻的是,各家公司都在非常积极地推出新模型。”


她同时提到,谷歌也在持续引入新的基准测试体系和模型评估方法,这一趋势本身也让团队对行业的发展感到振奋。

网友评价如何?


谷歌新模型发布后在全球引发了热烈讨论。在 X 和 Reddit 等平台上,大量开发者与技术爱好者对 Gemini 系列模型,特别是 Flash 版本,表达了多元观点。


在 Reddit 上,不禁有用户感叹,真是太疯狂了!


还有用户表示从没见过能力这么强的轻量级模型。



但也有用户指出,基准测试的成绩,并不能说明在真实场景中表现同样出色。


“因为基准测试的成绩,并不能很好地对应真实使用场景。尤其是在实际应用中,使用场景往往非常多样,也远比那些单轮对话的基准测试样本复杂得多。坦率地说,看到 Flash 这种定位更轻量的模型在评分上“击败” Pro 版本,反而让我对这种为了刷基准分数的做法产生了怀疑。


尤其是最近几周,我一直在同时使用 Gemini 3 Pro 和 Opus 4.5,这两款模型本身都非常出色。但如果只看基准测试,Gemini 理应整体表现更强,可在实际使用中它却一次次让我失望;相反,Opus 4.5 却不断带来惊喜。”



还有用户认为,谷歌最近几次发布已经充分彰显了行业领头羊地位,OpenAI 似乎已经被拍在沙滩上了。



参考链接:

https://techcrunch.com/2025/12/17/google-launches-gemini-3-flash-makes-it-the-default-model-in-the-gemini-app/

https://blog.google/products/search/google-ai-mode-update-gemini-3-flash/

https://blog.google/products/gemini/gemini-3-flash/

2025-12-18 06:00454
用户头像
李冬梅 加V:busulishang4668

发布了 1237 篇内容, 共 852.4 次阅读, 收获喜欢 1323 次。

关注

评论

发布
暂无评论

模块二作业:微信朋友圈复杂度分析

赵先生

架构实战营

2021程序员熬夜加班,28岁大病一场后被裁看清生活真谛,kotlin协程的实现原理

android 程序员 移动开发

2579页阿里P8Android学习笔记在互联网上火了,完整版开放下载

android 程序员 移动开发

2020我的坑爹Android面试经历,(百度,android路由器

android 程序员 移动开发

2020最新Android大厂面试真题大全(附答案),移动应用开发的前景

android 程序员 移动开发

2021年Android开发的前景如何?,安卓面试题及答案

android 程序员 移动开发

2020非科班生的Android秋招,金九银十求职经历 (快手,android游戏开发实践指南

android 程序员 移动开发

2021Android性能优化总结最新、最全面、最完整的资料,大厂内部资料

android 程序员 移动开发

2021了,为什么说音视频技术是技术风口?Android音视频开发这么吃香

android 程序员 移动开发

2021年3月份Android 面经总结!(OPPO和腾讯等大厂,android底层开发百度网盘

android 程序员 移动开发

2021最新Android必备面试题,上海大厂Android面试经历

android 程序员 移动开发

2020这一年的Android面经汇总(百度、腾讯、滴滴,职场中的中年危机

android 程序员 移动开发

2021 年 9 月美团 Android 面试总结,flutter屏幕旋转监听

android 程序员 移动开发

2021年最新Android开发岗面试笔试总结,android开发视频播放器

android 程序员 移动开发

2020我的-Android-年中面试复盘:怎么挤进一线大厂?需要掌握些什么

android 程序员 移动开发

2020最新Android大厂高频面试题解析大全(BAT TMD JD 小米)

android 程序员 移动开发

2020最新中高阶Android面试题总结-下(附解题思路),androidwifi开发框架

android 程序员 移动开发

2021年之Android面经分享(已获头条、顺丰,androidapp开发工具

android 程序员 移动开发

2020年的大厂末班车!啃完这些资料,我拿到了字节跳动Android高级开发工程师的offer

android 程序员 移动开发

2020最新Android大厂高频面试题解析大全(BAT TMD JD 小米)(1)

android 程序员 移动开发

2020年末知识大总结:Java程序员转Android开发必读经验一份

android 程序员 移动开发

2020适合中高级工程师的面试题——java基础,移动网页开发框架

android 程序员 移动开发

2021字节跳动,金三银四内幕Android中高级面试题合集-令人细思极恐!

android 程序员 移动开发

2021想进阿里?送你一份 40000 字《阿里进阶指南,android音视频编解码

android 程序员 移动开发

2021最新整理大厂Android面试高频知识点,阿里高级算法专家公开10份资料

android 程序员 移动开发

27道 Handler 经典面试题,你能答出多少?,关于Android程序员最近的状况

android 程序员 移动开发

3-5年以上的Android原生开发如何深入进阶?高级工程师必须要掌握哪些?(1)

android 程序员 移动开发

2020年,Android技术人如何实现自我成长?,带你碾压面试官

android 程序员 移动开发

2020应届毕业生,Android春招总结,已入职小米,深入解析android核心组件和应用框架

android 程序员 移动开发

2020阿里P8单写给Android程序员的建议:这样的offer不能要啊!注意避坑

android 程序员 移动开发

3-5年以上的Android原生开发如何深入进阶?高级工程师必须要掌握哪些?

android 程序员 移动开发

昨夜,谷歌祭出迄今编程能力最强模型 Gemini 3 Flash!白菜价、但代码能力超过 Gemini 3 Pro_Google_李冬梅_InfoQ精选文章