10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝 3 天,编程再赢老东家模型!

  • 2025-07-22
    北京
  • 本文字数:2985 字

    阅读完需:约 10 分钟

大小:1.40M时长:08:08
Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝3天,编程再赢老东家模型!

整理 | 华卫


近期, OpenAI 接连在多个场合携不同新模型“上桌”,且这些模型均还未公开发布。上周,OpenAI 分别曝出了两款与 o3 有关联但都未公开过的新模型。其中,一款被疑是“伪装的 GPT-5”,另一款则在一场 AI 模型和人类选手都参与的编程世界锦标赛中拿到了第二名的成绩。


最新上场的是,一款 OpenAI 宣称“在国际数学奥林匹克竞赛(IMO)中取得了金牌级别成绩”的模型。每年参加国际数学奥林匹克竞赛(IMO)的学生,都是全球范围内极具天赋的年轻数学才俊。今年,他们迎来了一批实力更强的 AI 模型的挑战。刚刚,谷歌 DeepMind 联合创始人兼 CEO Demis Hassabis 亦宣布,Gemini Deep Think 在 IMO 中达到了金牌水平。


然而,虽然都宣布拿到金牌的成绩,但评价风向却差不少。不少网友认为:“OpenAI 为了博眼球啥都干得出来。没官方分数,没点耐心,更没底线。”“谷歌 DeepMind 的表现堪称典范,非常钦佩。”


OpenAI 模型 IMO 输给谷歌?


“进步惊人”,用 Hassabis 的话来说。谷歌表示,其经过专门优化的数学人工智能在六道题目中答对了五道。在此之前,谷歌曾于 2024 年 7 月宣称,其 AlphaProof 和 AlphaGeometry 2 模型在 IMO 中取得了相当于银牌的成绩——不过谷歌的系统解决每个问题需要长达三天时间,而非人类的 4.5 小时限制,且需要人类协助将题目转化为正式的数学语言。


然而,就在前几天,OpenAI 研究员 Alexander Wei 就抢先宣布,该公司正在研发的一款新 AI 模型在 IMO 中取得了金牌级别的成绩,达到了每年仅有不到 9% 的人类参赛者能企及的水平。这款实验性 AI 模型的研究团队由 Alexander Wei 领衔,并有 Sheryl Hsu 和 Noam Brown 提供支持。


据悉,该模型在解决竞赛中的六道证明类题目时,遵循了与人类参赛者相同的限制条件:每场考试时长 4.5 小时,不允许使用互联网或计算器。OpenAI 称,这一成就与以往 AI 在数学奥林匹克题目上的尝试有所不同——以往的尝试依赖于专门的定理证明系统,且往往会超出人类的时间限制。该公司表示,其模型将题目作为纯文本处理,并生成自然语言证明,运作方式类似标准语言模型,而非专门构建的数学系统。


另外,OpenAI 起初并未计划参与这项竞赛,而是在测试中观察到令人欣喜的结果后,才决定对自身研究成果进行评估。据了解,国际数学奥林匹克竞赛主办方新出的题目会同时分享给多家 AI 公司,OpenAI 也收到了这些题目。为验证结果,每一份解题方案都由 OpenAI 组织的三位前国际数学奥林匹克竞赛奖牌得主组成的评审团进行盲审,且只有达成一致意见才算通过。


尽管国际数学奥林匹克竞赛主办方曾要求人工智能公司推迟至 7 月 28 日再公布结果,但 OpenAI 还是发布了这一消息。然而,几位了解该过程的内部人士表示,由于 OpenAI 是自行对其在国际数学奥林匹克竞赛中的成绩进行评分的,该公司这一说法的合法性可能存在疑问。OpenAI 计划公布相关证明过程和评分标准,供公众审阅。


据领导 DeepMind 超级推理团队的 Thang Luong 介绍,IMO 主办方有一套官方评分标准,但未对外公开。若未依据该标准进行评估,任何奖牌归属的宣称都站不住脚。“扣掉一分后,它就得是银牌,而非金牌。”


另外,除了对自动评分结果存在争议外,OpenAI 还因其提前宣布获奖情况,似乎违反了与国际数学奥林匹克竞赛的保密协议而惹恼了 IMO 社群。


一家同样参与竞赛的 AI 公司 Harmonic 在 7 月 20 日的 X 帖子中透露:“IMO 董事会已要求我们,连同其他参与竞赛的主要 AI 公司,暂缓发布我们的结果,直到 7 月 28 日。”Hassabis 也在社交媒体上侧面抨击 OpenAI 过早宣布金牌的行为:“我们尊重国际数学奥林匹克委员会最初的请求,即所有人工智能实验室只有在官方结果经过独立专家验证且学生应得的赞誉得到公正对待后才能分享结果。”



全新模型“o3 Alpha”疑悄然上线


上周,一位网友曝出,OpenAI 正在 WebArena 上测试名为“o3-alpha-responses-2025-07-17”的新模型,该模型以“Anonymous-Chatbot”的名字出现。



Jimmy Apples 将这一新模型与 Gemini 2.5 pro 进行了网页开发的对比,使用的提示词是“制作一个神秘风格的网站”,之后评价道:“这东西很强大,太让人惊艳了。”



目前,“o3 Alpha”已从 Web 开发测试平台下架。据悉,它只上线了大概 5、6 个小时。上次 Quazar Alpha 在测试后不久就正式发布了,所以这个新编程模型也可能将在未来几周内亮相。


关键在于, OpenAI 内部确实有个编程能力极强的模型。OpenAI 的 CEO Sam Altman 早就有所暗示:2025 年 2 月时,他提到公司内部有个模型能排进全球编程高手前 50 名,且有望在 2025 年底推出 “超人类级” 编程模型。而现在这个模型,似乎已经非常接近这个目标了。


除 Jimmy Apples 之外,还有几位模型体验者对“o3 Alpha”给出不错的使用评价。还有人猜测:“这是否是伪装成 o3 alpha 的 GPT-5 ?”


但需要注意的是,尽管该公司已确认其下一代主要人工智能模型 GPT-5 “即将推出”,但同时也表示“相关技术将会延续,但具备这种水平能力的模型短期内不会发布。” 显然,OpenAI 为这项特定实验投入了大量计算资源(这意味着高昂的成本),而这样的计算规模在近期内不太可能出现在面向消费者的 AI 模型中。


神秘推理模型公开参赛:获得亚军


巧合的是,上周前 OpenAI 员工 Przemysław Dębiak 在参加在东京举行的 2025 年 AtCoder 世界巡回赛总决赛启发式竞赛之时,就不仅与多名人类选手比拼了编程技能,还和一款据说出自 OpenAI、类似于 o3 的新定制化模拟推理模型一较高下,代号为“OpenAIAHC”。


在这场比赛中,参赛者被要求在 10 小时内解决一个复杂的优化问题,随后再根据他们的表现进行评分。参赛者可以使用 AtCoder 平台上提供的任何编程语言来解决该问题,但他们使用的硬件规格完全相同,且每次提交代码之间必须等待五分钟。Dębiak 以“Psyho”的名字参赛,最终得分为 1,812,272,588,909,位居排行榜榜首,击败了得分为 1,654,675,725,406 的 AI,后者获得亚军。



“我已经筋疲力尽了。我算了一下,过去三天里我只睡了 10 个小时,现在几乎是靠着一口气撑着。”Dębiak 在 X 上庆祝自己的成就,自豪地宣布“人类已经获胜(暂时!)”,但也承认比赛让他筋疲力尽。


OpenAI 则似乎对其新模型获得银牌的成绩相当满意,该公司发言人在接受采访时表示,“像 o3 这样的模型在编程 / 数学竞赛中能排进前 100 名,但据我们所知,这是首次在顶级编程 / 数学竞赛中进入前三名。像 AtCoder 这样的赛事,为我们提供了一种测试模型能力的方式——看它们能否像人类一样进行战略性推理、做长期规划,以及通过反复试错来改进解决方案。”


此次竞赛是 AI 模型首次在编程赛事中与人类程序员直接同台竞技,AI 虽未夺冠但能获得第二名,依然令人印象深刻。这对于人类编程参赛者的未来而言,或许不是个好兆头。因为尽管程序员的技能必然会不断提升,但 AI 的飞速发展很可能意味着,用不了多久,AI 模型就会在类似赛事中占据榜首。


参考链接:


https://www.pcgamer.com/software/ai/humanity-has-prevailed-for-now-says-former-openai-employee-admitting-hes-barely-alive-after-beating-one-of-its-ai-models-in-a-coding-world-championship-fight/


https://arstechnica.com/ai/2025/07/openai-jumps-gun-on-international-math-olympiad-gold-medal-announcement/


https://www.youtube.com/watch?v=BZAi9h9uCX4


声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

2025-07-22 18:385256

评论

发布
暂无评论

Mybatis获取自增长id

风翱

mybatis 5月日更

CRM中间件里的发布-订阅者模式

汪子熙

CRM SAP ERP abap

如何检查某个用户是否具有某个权限对象上定义的某种权限

汪子熙

CRM ERP abap Authorization Authentication

设计千万级学生管理系统的考试试卷存储方案

俞嘉彬

观察者模式在One Order回调函数中的应用

汪子熙

CRM SAP abap

CRM和ERP的Sales Organization的映射关系

汪子熙

中间件 CRM SAP ERP

为什么使用中间件下载时总是收到警告消息Object is in status Wait

汪子熙

中间件 CRM SAP ERP

利用CRM中间件Middleware从ERP下载Customer Material的常见错误

汪子熙

中间件 CRM SAP ERP

数字货币兴起背后:全球货币超发 主权信用贬值

CECBC

架构师训练营 作业四

开拓纪

如何在ubuntu上安装virtualbox的driver module vboxdrv

汪子熙

ubuntu 虚拟机 vboxdrv 驱动

架构实战营 - 模块四作业

Sun

CRM product UI里assignment block的显示隐藏逻辑

汪子熙

CRM SAP abap

如何从ERP下载Sales BOM到CRM

汪子熙

CRM SAP ERP abap

如何证明CRM WebClient UI上的应用是有状态(Stateful)的

汪子熙

CRM SAP abap WebClient UI

如何在Chrome development tool里查看C4C前台发送的未经 GZIP 压缩之前的请求细节

汪子熙

chrome SAP C4C Chrome开发者工具

SAPGUI里实现自定义的语法检查

汪子熙

SAP abap SAPGUI 语法检查

如何从ERP将Material的Batch信息下载到CRM

汪子熙

CRM SAP ERP abap

如何用ABAP代码读取CDS view association的数据

汪子熙

CDS SAP abap CDS view

CRM订单状态的Open, In process和Completed这些条目是从哪里来的

汪子熙

CRM SAP ERP abap

架构训练营-模块四作业

冬天的树

如何使用代码获得一个function module的Where Used List

汪子熙

CRM SAP abap SAPGUI

如何快速的学习一门新的编程语言?

架构精进之路

学习 5月日更

One Order行项目里Item Category是怎么计算出来的

汪子熙

CRM SAP abap ONE-ORDER

金融科技如何在产业互联网蓝海中扬帆远航?大数据、区块链与物联网应用被看好

CECBC

高性能 JavaScriptの六 -- 老生常谈Ajax

空城机

JavaScript ajax 大前端 5月日更

在浏览器里使用SAPGUI里的SE80

汪子熙

JavaScript SAP abap Fiori SAP UI5

ABAP git客户端的简单介绍

汪子熙

GitHub SAP abap

ABAP OPEN SQL里OPEN CURSOR和SELECT的比较

汪子熙

CRM SAP abap ST05 OPENSQL

ABAP和Java里关于DEFAULT(默认)机制的一些语言特性

汪子熙

SAP abap Netweaver SAPGUI

如何使用腾讯云提供的云主机

汪子熙

腾讯云 云主机 Cloud

Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝3天,编程再赢老东家模型!_AI&大模型_华卫_InfoQ精选文章