
今天,谷歌通过 Gemini API,在 Google AI Studio 和 Vertex AI 预览中上线了 Gemini 2.5 Flash 的早期版本。
Gemini 2.5 Flash 是谷歌首个完全混合式推理模型,用户可以根据需求选择是否开启“思考”功能。该模型还支持开发者设置“思考预算”,用户可以精细控制模型在思考阶段最多可生成的 token 数量,以找到质量、成本与延迟之间的最佳平衡。关闭思考功能后模型会保持 2.0 Flash 的响应速度和性能。
开发者使用 Gemini 2.5 Flash 的输入费用是 0.15 美元/百万 token,而输出费用则根据是否启用推理差异显著:
关闭推理时,0.60 美元/百万 token;
启用推理时,上升至 3.50 美元/百万 token。
推理输出的近六倍价格差异反映了“思考”过程的计算强度,其中模型在生成响应之前会评估多种潜在路径和考虑因素。

而“思考预算”可以在 0 到 24,576 个 token 之间调整,其作用是设置上限,而不是固定分配。谷歌表示,模型会根据任务复杂程度智能决定使用多少预算,当不需要复杂推理时,会节省资源。

性能方面,谷歌称 Gemini 2.5 Flash 在多项关键基准测试中表现出色,同时保持了比同类模型更小的规模。在被称为“人类最后的考试”(Humanity’s Last Exam)测试中,2.5 Flash 取得了 12.1% 的成绩,超过了 Anthropic 的 Claude 3.7 Sonnet(8.9%)和 DeepSeek R1(8.6%),但略低于 OpenAI 最新发布的 o4-mini(14.3%)。
在其他技术基准测试中,如 GPQA diamond 得分 78.3%,AIME 数学考试中,2025 年测试得分 78.0%,2024 年测试得分更高,达到 88.0%。

业内人士指出,基准测试结果表明谷歌正在缩小与竞争对手的性能差距,同时保持价格优势。这对关注 AI 预算的企业客户而言,可能极具吸引力。

“Gemini Flash 的炒作最少,但根据我的生产经验,它具有最佳的性价比和多模态工具。谷歌正在默默地赢得人工智能竞赛。”有网友称。
有网友还内涵了下 OpenAI 新模型测试对比。“谷歌在其 Flash 2.5 的对比中加入了 O4-mini,真是太棒了。这款型号昨天才发布,而有些公司只跟自家的型号比较。Gemini 真不错。”

还有人分享道,“就我的体验而言,Gemini 2.5 Pro 的进步非常显著,以至于我现在都对 Google 模型整体表现有了改观。它不仅在我提供的大多数主题上都比我聪明,也不会一味地迎合我。这个模型会在适当的时候反驳我,而不是刻意扭曲自己来迎合我的观点。”
评论