写点什么

谷歌深夜放出 IMO 金牌模型,多项测试力压 Grok 4、OpenAI o3!网友评论两极分化

  • 2025-08-02
    北京
  • 本文字数:2639 字

    阅读完需:约 9 分钟

大小:1.20M时长:06:58
谷歌深夜放出IMO金牌模型,多项测试力压Grok 4、OpenAI o3!网友评论两极分化

昨夜,谷歌宣布向 Google AI Ultra 订阅用户推出 Deep Think 功能,Gemini 2.5 Deep Think 模型在今年的国际数学奥林匹克竞赛 (IMO) 上夺得金牌。

谷歌亮相 IMO 竞赛夺冠模型

 

谷歌表示,这是其最先进的人工智能推理模型,能够通过同时探索和考虑多个想法来回答问题,然后使用这些输出来选择最佳答案。

 

从昨天起,谷歌每月 250 美元的 Ultra 订阅用户将可以在 Gemini 应用程序中访问 Gemini 2.5 Deep Think。

 

Gemini 2.5 Deep Think 于 2025 年 5 月在 Google I/O 开发者大会上首次亮相,是谷歌首个公开的多智能体模型。这些系统会生成多个 AI 智能体来并行处理一个问题,这个过程比单个智能体消耗更多的计算资源,但往往会得到更好的答案。

 

除了 Gemini 2.5 Deep Think 之外,谷歌还表示将向特定数学家和学者群体发布其在国际海事组织 (IMO) 中使用的模型。

 

谷歌表示,该 AI 模型“推理只需数小时”,而不像大多数面向消费者的 AI 模型那样只需几秒或几分钟。该公司希望 IMO 模型能够加强研究工作,并旨在收集关于如何改进多智能体系统以用于学术用例的反馈。

 

谷歌指出,Gemini 2.5 Deep Think 模型比其在 I/O 大会上发布的模型有了显著改进。该公司还声称已经开发出“新颖的强化学习技术”,以鼓励 Gemini 2.5 Deep Think 更好地利用其推理路径。

 

谷歌在与 TechCrunch 分享的博客文章中表示:“Deep Think 可以帮助人们解决需要创造力、战略规划和逐步改进的问题。”

 

Deep Think 的工作原理:延长 Gemini 的平行“思考时间”

 

正如人们会花时间探索不同的角度、权衡各种潜在解决方案并最终完善答案,从而解决复杂问题一样,Deep Think 也通过运用并行思维技巧,突破了思维能力的界限。这种方法让 Gemini 能够同时产生多个想法,并同时进行思考,甚至随着时间的推移不断修改或整合不同的想法,最终得出最佳答案。

 

此外,通过延长推理时间或“思考时间”,DeepMind 研发团队给了 Gemini 更多的时间来探索不同的假设,并为复杂问题找到创造性的解决方案。

 

此外,谷歌还开发了新颖的强化学习技术,鼓励模型利用这些扩展的推理路径,从而使 Deep Think 随着时间的推移成为更好、更直观的问题解决者。

 

Deep Think 表现如何?

 

深度思考可以帮助人们解决需要创造力、战略规划和逐步改进的问题,例如:

 

  • 迭代开发和设计: Deep Think 在处理需要逐个构建复杂内容的任务时表现出色,这给我们留下了深刻的印象。例如,技术团队观察到 Deep Think 可以同时提升 Web 开发任务的美观度和功能性。

 


Gemini 应用程序中的 Deep Think 使用平行思维技术来提供更详细、更有创意和更周到的回应。

 

  • 科学和数学发现:由于深度思考能够推理高度复杂的问题,它可以成为研究人员的强大工具。它可以帮助构建和探索数学猜想,或推理复杂的科学文献,从而有可能加速发现的进程。

 

  • 算法开发和代码: Deep Think 特别擅长解决棘手的编码问题,其中问题的制定和对权衡和时间复杂性的仔细考虑至关重要。

 

Deep Think 在衡量编码、科学、知识和推理能力的挑战性基准测试中也表现突出。

 

例如,与其他不使用工具的模型相比,Gemini 2.5 Deep Think 在 LiveCodeBench V6(用于衡量竞争性代码性能)和 Humanity's Last Exam(HLE 是一项极具挑战性的测试,旨在衡量 AI 回答数千道数学、人文和科学领域众包问题的能力)中均取得了最佳性能。



谷歌声称,其模型在 HLE(不使用工具)上的得分为 34.8%,而 xAI 的 Grok 4 得分为 25.4%,OpenAI 的 o3 得分为 20.3%。

 

谷歌还表示,Gemini 2.5 Deep Think 在 LiveCodeBench 6 中的表现优于 OpenAI、xAI 和 Anthropic 的 AI 模型。谷歌的模型得分为 87.6%,Grok 4 得分为 79%,OpenAI 的 o3 得分为 72%。

 

网友怎么看?

 

谷歌最新发布的 Gemini 2.5 Deep Think 模型在社交媒体和科技论坛上引发了热烈讨论,尤其是在 Hacker News、Reddit 和 X(原 Twitter) 等平台上。许多网友第一时间进行了测试,并分享了他们的使用体验和看法。

 

在 X 上,有网友尝试过 Gemini 2.5 Deep Think 后表示,其上下文窗口比 Gemini 2.5 Pro 要短。




有网友认为这款新模型棒极了,并考虑买个 Ultra sub。



还有网友认为,这款模型的一些基准测试结果好得让人震惊,即便这样谷歌也没有高调宣传它。

 


但也有网友对这款模型并不买账,认为与顶级模型相比,其性能没什么竞争力。该网友表示:

 

“我开始用这个新的 Deep Think 代理进行一些实验,但五次提示后就达到了每日使用上限。每月 250 美元的价格实在令人难以接受。与 o3-pro 和 Grok 4 Heavy 相比,它简直毫无竞争力。

 

在性能方面,目前为止我甚至还没能看出什么明显优势。我向它提出了一个我公司面临的棘手组织问题,并提供了相关背景信息,它确实提出了一个清晰、经过深思熟虑的解决方案,与我们内部讨论的内容一致。但值得注意的是,o3 以更低的成本得出了同样有效的结论,尽管它的报告在“综合能力”方面略逊一筹。看来,我得等到明天才能了解更多关于这个 Agent 的实际性能信息了。”

 

也有网友认为,不能指望谷歌新模型做到十分完美,因为即使最顶尖的模型也有时候会“拖后腿”,而且“输入一个问题就能生成代码”也不是件新鲜事,大模型出来前就已经有了,只不过没那么好用罢了。

 

“它们在训练集中见过但未加权的数据上表现得非常糟糕。即使是最优秀的模型——比如表现出色的 Opus 4,以及时常带来惊喜的 Qwen 和 K2——在一些不那么显眼的方面也会拖后腿。

 

最明显的例子可能就是构建系统相关的内容:你一眼就能看出哪些模型“见过”大量的 nixpkgs 数据。而即便是最好的模型,似乎也很难很好地处理 Bazel,甚至有时连 CMake 都搞不定。

 

那些顶级的搜索引擎每天烧掉超过一百美元的成本,我认为它们比 SEO 时代之前的 Google 或 Stack Overflow 有了明显的提升……但如果和一个真正好用的搜索索引相比,还算不上“遥遥领先”。曾经,几乎所有编程主题的源代码、文档和故障排除信息,Google 搜索首页都能展示出来。那时候的体验就像是:你在那个神奇的搜索框里输入一个问题,立马就能弹出一段能用的代码。在 FAANG 的黄金时期,内部也有那种超强的 grep 工具,效果类似。

 

我感觉有一两代人会觉得“输入一个问题就能生成代码”是一件很新奇的事。但其实,这根本不是什么新鲜事——只是我们过去这五到十年里没再用过而已。”

 

参考链接:


https://techcrunch.com/2025/08/01/google-rolls-out-gemini-deep-think-ai-a-reasoning-model-that-tests-multiple-ideas-in-parallel/

https://blog.google/products/gemini/gemini-2-5-deep-think/

2025-08-02 11:007348
用户头像
李冬梅 加V:busulishang4668

发布了 1130 篇内容, 共 750.1 次阅读, 收获喜欢 1275 次。

关注

评论

发布
暂无评论

从原理源码到企业级实战,腾讯大佬纯手打的Spring Boot笔记(2023版)真香

程序员小毕

spring 后端 springboot java程序员 java面试

模块五作业

程序员小张

「架构实战营」

什么是可演进架构

agnostic

人工智能可能是创业最后的末班车

felix

人工智能 创业 互联网 中小企业

抖音春晚直播观看人数破1.3亿,火山引擎技术助力“新年俗”新体验

火山引擎边缘云

云原生 CDN 边缘计算 抖音 视频云

活动预告 | 2023 QCon 全球软件开发大会 - AI 基础架构论坛

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

gcc属性__attribute__((naked))使用场景

SkyFire

GCC 内嵌汇编

湖仓一体电商项目(十八):业务实现之编写写入DWD层业务代码

Lansonli

数据湖 湖仓一体电商项目

大型软件开发集成类项目管理思路

Geek_37rwst

项目管理 大型软件开发 管理思路

写给go开发者的gRPC教程-protobuf基础

凉凉的知识库

golang 微服务 gRPC protobuf 微服务框架

深度剖析 Linux 伙伴系统的设计与实现

bin的技术小屋

Linux 内存管理 Linux内核 内存分配 Linux内核源码

全息电网 数字孪生智慧电网Web3D运维系统

2D3D前端可视化开发

智慧电网 数字电网 智能电网 数字孪生智慧电网 智慧电网三维可视化

信用卡APP评测系列——工银e生活5.0打造个人生活服务平台,引领用户美好生活

易观分析

金融 银行 信用卡

硬核!互联网资深大佬手码2023版高并发编程速成笔记涵盖了并发编程的所有骚操作

Java永远的神

程序员 面试 后端 高并发 架构师

案例研究:让线上故障沉淀为团队的经验

石云升

极客时间 2月月更 技术领导力实战笔记

D触发器 (D-FF)详解

timerring

FPGA

CTO:假如Java微服务随机掉线,你会怎么排查?

Java永远的神

Java 程序员 面试 微服务 架构师

沿着数字中国的大江大河,领略云上三峡

脑极体

华为云 三峡

Jackson 的 DeserializationFeature.FAIL_ON_UNKNOWN_PROPERTIES

HoneyMoose

「AVL平衡树专项」带你领略常用的AVL树与红黑树的奥秘(规则篇)

C++后台开发

数据结构 后端开发 红黑树 linux开发 C++开发

ABBYY FineReader16最新版本更新下载

茶色酒

ABBYY FineReader16 ABBYY16

Zebec 上线投票治理机制,全新流支付生态正在起航

股市老人

有了HotSpot JVM为什么还需要OpenJ9?

骑牛上青山

Java jdk JVM 虚拟机

Portraiture4.0版本最新永久免费版下载

茶色酒

Portraiture2023 Portraiture

Java高手速成 | EL表达式语言

TiAmo

Java EL

FLStudio2023水果中文版软件如何下载?

茶色酒

flstudio FLStudio21

Zebec 上线投票治理机制,全新流支付生态正在起航

鳄鱼视界

Zebec 投票治理机制上线,全新流支付生态正在起航

西柚子

同时踩下刹车和油门:英特尔的“精神内耗”

脑极体

芯片 英特尔

谷歌深夜放出IMO金牌模型,多项测试力压Grok 4、OpenAI o3!网友评论两极分化_Google_李冬梅_InfoQ精选文章