写点什么

谷歌深夜放出 IMO 金牌模型,多项测试力压 Grok 4、OpenAI o3!网友评论两极分化

  • 2025-08-02
    北京
  • 本文字数:2639 字

    阅读完需:约 9 分钟

大小:1.20M时长:06:58
谷歌深夜放出IMO金牌模型,多项测试力压Grok 4、OpenAI o3!网友评论两极分化

昨夜,谷歌宣布向 Google AI Ultra 订阅用户推出 Deep Think 功能,Gemini 2.5 Deep Think 模型在今年的国际数学奥林匹克竞赛 (IMO) 上夺得金牌。

谷歌亮相 IMO 竞赛夺冠模型

 

谷歌表示,这是其最先进的人工智能推理模型,能够通过同时探索和考虑多个想法来回答问题,然后使用这些输出来选择最佳答案。

 

从昨天起,谷歌每月 250 美元的 Ultra 订阅用户将可以在 Gemini 应用程序中访问 Gemini 2.5 Deep Think。

 

Gemini 2.5 Deep Think 于 2025 年 5 月在 Google I/O 开发者大会上首次亮相,是谷歌首个公开的多智能体模型。这些系统会生成多个 AI 智能体来并行处理一个问题,这个过程比单个智能体消耗更多的计算资源,但往往会得到更好的答案。

 

除了 Gemini 2.5 Deep Think 之外,谷歌还表示将向特定数学家和学者群体发布其在国际海事组织 (IMO) 中使用的模型。

 

谷歌表示,该 AI 模型“推理只需数小时”,而不像大多数面向消费者的 AI 模型那样只需几秒或几分钟。该公司希望 IMO 模型能够加强研究工作,并旨在收集关于如何改进多智能体系统以用于学术用例的反馈。

 

谷歌指出,Gemini 2.5 Deep Think 模型比其在 I/O 大会上发布的模型有了显著改进。该公司还声称已经开发出“新颖的强化学习技术”,以鼓励 Gemini 2.5 Deep Think 更好地利用其推理路径。

 

谷歌在与 TechCrunch 分享的博客文章中表示:“Deep Think 可以帮助人们解决需要创造力、战略规划和逐步改进的问题。”

 

Deep Think 的工作原理:延长 Gemini 的平行“思考时间”

 

正如人们会花时间探索不同的角度、权衡各种潜在解决方案并最终完善答案,从而解决复杂问题一样,Deep Think 也通过运用并行思维技巧,突破了思维能力的界限。这种方法让 Gemini 能够同时产生多个想法,并同时进行思考,甚至随着时间的推移不断修改或整合不同的想法,最终得出最佳答案。

 

此外,通过延长推理时间或“思考时间”,DeepMind 研发团队给了 Gemini 更多的时间来探索不同的假设,并为复杂问题找到创造性的解决方案。

 

此外,谷歌还开发了新颖的强化学习技术,鼓励模型利用这些扩展的推理路径,从而使 Deep Think 随着时间的推移成为更好、更直观的问题解决者。

 

Deep Think 表现如何?

 

深度思考可以帮助人们解决需要创造力、战略规划和逐步改进的问题,例如:

 

  • 迭代开发和设计: Deep Think 在处理需要逐个构建复杂内容的任务时表现出色,这给我们留下了深刻的印象。例如,技术团队观察到 Deep Think 可以同时提升 Web 开发任务的美观度和功能性。

 


Gemini 应用程序中的 Deep Think 使用平行思维技术来提供更详细、更有创意和更周到的回应。

 

  • 科学和数学发现:由于深度思考能够推理高度复杂的问题,它可以成为研究人员的强大工具。它可以帮助构建和探索数学猜想,或推理复杂的科学文献,从而有可能加速发现的进程。

 

  • 算法开发和代码: Deep Think 特别擅长解决棘手的编码问题,其中问题的制定和对权衡和时间复杂性的仔细考虑至关重要。

 

Deep Think 在衡量编码、科学、知识和推理能力的挑战性基准测试中也表现突出。

 

例如,与其他不使用工具的模型相比,Gemini 2.5 Deep Think 在 LiveCodeBench V6(用于衡量竞争性代码性能)和 Humanity's Last Exam(HLE 是一项极具挑战性的测试,旨在衡量 AI 回答数千道数学、人文和科学领域众包问题的能力)中均取得了最佳性能。



谷歌声称,其模型在 HLE(不使用工具)上的得分为 34.8%,而 xAI 的 Grok 4 得分为 25.4%,OpenAI 的 o3 得分为 20.3%。

 

谷歌还表示,Gemini 2.5 Deep Think 在 LiveCodeBench 6 中的表现优于 OpenAI、xAI 和 Anthropic 的 AI 模型。谷歌的模型得分为 87.6%,Grok 4 得分为 79%,OpenAI 的 o3 得分为 72%。

 

网友怎么看?

 

谷歌最新发布的 Gemini 2.5 Deep Think 模型在社交媒体和科技论坛上引发了热烈讨论,尤其是在 Hacker News、Reddit 和 X(原 Twitter) 等平台上。许多网友第一时间进行了测试,并分享了他们的使用体验和看法。

 

在 X 上,有网友尝试过 Gemini 2.5 Deep Think 后表示,其上下文窗口比 Gemini 2.5 Pro 要短。




有网友认为这款新模型棒极了,并考虑买个 Ultra sub。



还有网友认为,这款模型的一些基准测试结果好得让人震惊,即便这样谷歌也没有高调宣传它。

 


但也有网友对这款模型并不买账,认为与顶级模型相比,其性能没什么竞争力。该网友表示:

 

“我开始用这个新的 Deep Think 代理进行一些实验,但五次提示后就达到了每日使用上限。每月 250 美元的价格实在令人难以接受。与 o3-pro 和 Grok 4 Heavy 相比,它简直毫无竞争力。

 

在性能方面,目前为止我甚至还没能看出什么明显优势。我向它提出了一个我公司面临的棘手组织问题,并提供了相关背景信息,它确实提出了一个清晰、经过深思熟虑的解决方案,与我们内部讨论的内容一致。但值得注意的是,o3 以更低的成本得出了同样有效的结论,尽管它的报告在“综合能力”方面略逊一筹。看来,我得等到明天才能了解更多关于这个 Agent 的实际性能信息了。”

 

也有网友认为,不能指望谷歌新模型做到十分完美,因为即使最顶尖的模型也有时候会“拖后腿”,而且“输入一个问题就能生成代码”也不是件新鲜事,大模型出来前就已经有了,只不过没那么好用罢了。

 

“它们在训练集中见过但未加权的数据上表现得非常糟糕。即使是最优秀的模型——比如表现出色的 Opus 4,以及时常带来惊喜的 Qwen 和 K2——在一些不那么显眼的方面也会拖后腿。

 

最明显的例子可能就是构建系统相关的内容:你一眼就能看出哪些模型“见过”大量的 nixpkgs 数据。而即便是最好的模型,似乎也很难很好地处理 Bazel,甚至有时连 CMake 都搞不定。

 

那些顶级的搜索引擎每天烧掉超过一百美元的成本,我认为它们比 SEO 时代之前的 Google 或 Stack Overflow 有了明显的提升……但如果和一个真正好用的搜索索引相比,还算不上“遥遥领先”。曾经,几乎所有编程主题的源代码、文档和故障排除信息,Google 搜索首页都能展示出来。那时候的体验就像是:你在那个神奇的搜索框里输入一个问题,立马就能弹出一段能用的代码。在 FAANG 的黄金时期,内部也有那种超强的 grep 工具,效果类似。

 

我感觉有一两代人会觉得“输入一个问题就能生成代码”是一件很新奇的事。但其实,这根本不是什么新鲜事——只是我们过去这五到十年里没再用过而已。”

 

参考链接:


https://techcrunch.com/2025/08/01/google-rolls-out-gemini-deep-think-ai-a-reasoning-model-that-tests-multiple-ideas-in-parallel/

https://blog.google/products/gemini/gemini-2-5-deep-think/

2025-08-02 11:001
用户头像
李冬梅 加V:busulishang4668

发布了 1125 篇内容, 共 741.6 次阅读, 收获喜欢 1268 次。

关注

评论

发布
暂无评论

Python代码阅读(第31篇):将一个列表分割成指定大小的小列表

Felix

Python 编程 Code Programing 阅读代码

掘金热榜第一!阿里P8用近十个月整理出来999页Java岗核心笔记限时开源!

Java 架构 面试 程序人生 编程语言

一周信创舆情观察(9.13~9.26)

统小信uos

第 8 章 -《Linux 一学就会》-Centos8 软件包的管理与安装

学神来啦

Linux 运维

东软熙康、百度、京东方,互联网医院的三个典型样本

海比研究院

如何做一场有趣又高效的迭代回顾会议?

万事ONES

Scrum 敏捷 回顾会

史上最全Java高频面试合集,命中率高达95%

Java 程序员 架构 面试 后端

【新品尝鲜】OCR磅单识别上线邀测,为货运物流提速增效

百度大脑

人工智能 OCR

金秋10月,日更挑战你准备好了么!?

InfoQ写作社区官方

热门活动 10月月更

艾瑞发布《2021年中国企业级 SaaS 行业研究报告》,ONES 入选典型厂商案例

万事ONES

项目管理 SaaS 协同办公

用Python绘制专业的K线图【含源代码】

恒生LIGHT云社区

超十年渗透专家总结出636页渗透测试全笔记,100课时一次讲清

Java 架构 面试 程序人生 编程语言

阿里巴巴架构师十年整理出的JavaSpringBoot核心文档,真是太全了

Java 架构 面试 程序人生 编程语言

恒源云(GpuShare)_快进来!这里有超高性价比的GPU资源

恒源云

深度学习

目睹阿里技术官写的Tomcat架构笔记后,瞬间觉得自己是渣渣

Java 架构 面试 程序人生 编程语言

图谱相关技术在风控反作弊中的应用和探索

百度Geek说

后端 软件架构

拥抱开源,共建生态 - 开源生态与效能提升专场 | CIF 精彩看点

CODING DevOps

DevOps 研发效能 腾讯云 CIF 峰会 开源生态

不得不聊一聊英语爱好者的单词杂货铺了

小匚

随笔杂谈 生活记录 英语 大学英语四六级 单词

浪潮云洲荣获两项工业自动化及数字化行业年度大奖 inspur浪潮云 昨天

云计算

AlibabaP9力荐!最新出品1297页JDK源码+并发核心原理解析小册

Java 架构 面试 程序人生 编程语言

提高工作效率的三种方法

石云升

团队管理 管理 引航计划 内容合集 9月日更

手把手教你使用Studio Lite + Digtal car!助力智能汽车场景、轻应用开发更轻松!

SOA开发者

博睿数据亮相北京IMC2021第三届中国智造CIO峰会

博睿数据

如何构建混合云管理平台?——资源管理篇

金蝶天燕云

云计算 云平台

使用 grpcurl 通过命令行访问 gRPC 服务

AlwaysBeta

golang gRPC

四面字节跳动(高级开发岗):分布式+中间件+TCP+JVM+Hashmap

Java 编程 架构 面试 计算机

从工具、工具箱到数字化软件工厂——DevOps 设计理念与工程实践专场 | CIF 精彩看点

CODING DevOps

DevOps 数字化 研发工具 腾讯云 CIF 峰会

快手、知乎等平台严厉打击“病媛”炒作行为:自媒体行业不能被流量裹挟

石头IT视角

大厂敲门砖!Alibaba技术官甩出的Springboot笔记

Java 架构 面试 程序人生 编程语言

华为云带你探秘Xtrabackup备份原理和常见问题分析

华为云数据库小助手

GaussDB 华为云数据库 MySQL 数据库 GaussDB(for MySQL)

智能大数据专场,百度智能云带来智能大数据产品架构全景图

百度大脑

人工智能 大数据

谷歌深夜放出IMO金牌模型,多项测试力压Grok 4、OpenAI o3!网友评论两极分化_Google_李冬梅_InfoQ精选文章