首届AICon深圳正式启动|AI实践哪家强?来 AICon,解锁技术前沿,探寻产业新机! 了解详情
写点什么

Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝 3 天,编程再赢老东家模型!

  • 2025-07-22
    北京
  • 本文字数:2985 字

    阅读完需:约 10 分钟

大小:1.40M时长:08:08
Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝3天,编程再赢老东家模型!

整理 | 华卫


近期, OpenAI 接连在多个场合携不同新模型“上桌”,且这些模型均还未公开发布。上周,OpenAI 分别曝出了两款与 o3 有关联但都未公开过的新模型。其中,一款被疑是“伪装的 GPT-5”,另一款则在一场 AI 模型和人类选手都参与的编程世界锦标赛中拿到了第二名的成绩。


最新上场的是,一款 OpenAI 宣称“在国际数学奥林匹克竞赛(IMO)中取得了金牌级别成绩”的模型。每年参加国际数学奥林匹克竞赛(IMO)的学生,都是全球范围内极具天赋的年轻数学才俊。今年,他们迎来了一批实力更强的 AI 模型的挑战。刚刚,谷歌 DeepMind 联合创始人兼 CEO Demis Hassabis 亦宣布,Gemini Deep Think 在 IMO 中达到了金牌水平。


然而,虽然都宣布拿到金牌的成绩,但评价风向却差不少。不少网友认为:“OpenAI 为了博眼球啥都干得出来。没官方分数,没点耐心,更没底线。”“谷歌 DeepMind 的表现堪称典范,非常钦佩。”


OpenAI 模型 IMO 输给谷歌?


“进步惊人”,用 Hassabis 的话来说。谷歌表示,其经过专门优化的数学人工智能在六道题目中答对了五道。在此之前,谷歌曾于 2024 年 7 月宣称,其 AlphaProof 和 AlphaGeometry 2 模型在 IMO 中取得了相当于银牌的成绩——不过谷歌的系统解决每个问题需要长达三天时间,而非人类的 4.5 小时限制,且需要人类协助将题目转化为正式的数学语言。


然而,就在前几天,OpenAI 研究员 Alexander Wei 就抢先宣布,该公司正在研发的一款新 AI 模型在 IMO 中取得了金牌级别的成绩,达到了每年仅有不到 9% 的人类参赛者能企及的水平。这款实验性 AI 模型的研究团队由 Alexander Wei 领衔,并有 Sheryl Hsu 和 Noam Brown 提供支持。


据悉,该模型在解决竞赛中的六道证明类题目时,遵循了与人类参赛者相同的限制条件:每场考试时长 4.5 小时,不允许使用互联网或计算器。OpenAI 称,这一成就与以往 AI 在数学奥林匹克题目上的尝试有所不同——以往的尝试依赖于专门的定理证明系统,且往往会超出人类的时间限制。该公司表示,其模型将题目作为纯文本处理,并生成自然语言证明,运作方式类似标准语言模型,而非专门构建的数学系统。


另外,OpenAI 起初并未计划参与这项竞赛,而是在测试中观察到令人欣喜的结果后,才决定对自身研究成果进行评估。据了解,国际数学奥林匹克竞赛主办方新出的题目会同时分享给多家 AI 公司,OpenAI 也收到了这些题目。为验证结果,每一份解题方案都由 OpenAI 组织的三位前国际数学奥林匹克竞赛奖牌得主组成的评审团进行盲审,且只有达成一致意见才算通过。


尽管国际数学奥林匹克竞赛主办方曾要求人工智能公司推迟至 7 月 28 日再公布结果,但 OpenAI 还是发布了这一消息。然而,几位了解该过程的内部人士表示,由于 OpenAI 是自行对其在国际数学奥林匹克竞赛中的成绩进行评分的,该公司这一说法的合法性可能存在疑问。OpenAI 计划公布相关证明过程和评分标准,供公众审阅。


据领导 DeepMind 超级推理团队的 Thang Luong 介绍,IMO 主办方有一套官方评分标准,但未对外公开。若未依据该标准进行评估,任何奖牌归属的宣称都站不住脚。“扣掉一分后,它就得是银牌,而非金牌。”


另外,除了对自动评分结果存在争议外,OpenAI 还因其提前宣布获奖情况,似乎违反了与国际数学奥林匹克竞赛的保密协议而惹恼了 IMO 社群。


一家同样参与竞赛的 AI 公司 Harmonic 在 7 月 20 日的 X 帖子中透露:“IMO 董事会已要求我们,连同其他参与竞赛的主要 AI 公司,暂缓发布我们的结果,直到 7 月 28 日。”Hassabis 也在社交媒体上侧面抨击 OpenAI 过早宣布金牌的行为:“我们尊重国际数学奥林匹克委员会最初的请求,即所有人工智能实验室只有在官方结果经过独立专家验证且学生应得的赞誉得到公正对待后才能分享结果。”



全新模型“o3 Alpha”疑悄然上线


上周,一位网友曝出,OpenAI 正在 WebArena 上测试名为“o3-alpha-responses-2025-07-17”的新模型,该模型以“Anonymous-Chatbot”的名字出现。



Jimmy Apples 将这一新模型与 Gemini 2.5 pro 进行了网页开发的对比,使用的提示词是“制作一个神秘风格的网站”,之后评价道:“这东西很强大,太让人惊艳了。”



目前,“o3 Alpha”已从 Web 开发测试平台下架。据悉,它只上线了大概 5、6 个小时。上次 Quazar Alpha 在测试后不久就正式发布了,所以这个新编程模型也可能将在未来几周内亮相。


关键在于, OpenAI 内部确实有个编程能力极强的模型。OpenAI 的 CEO Sam Altman 早就有所暗示:2025 年 2 月时,他提到公司内部有个模型能排进全球编程高手前 50 名,且有望在 2025 年底推出 “超人类级” 编程模型。而现在这个模型,似乎已经非常接近这个目标了。


除 Jimmy Apples 之外,还有几位模型体验者对“o3 Alpha”给出不错的使用评价。还有人猜测:“这是否是伪装成 o3 alpha 的 GPT-5 ?”


但需要注意的是,尽管该公司已确认其下一代主要人工智能模型 GPT-5 “即将推出”,但同时也表示“相关技术将会延续,但具备这种水平能力的模型短期内不会发布。” 显然,OpenAI 为这项特定实验投入了大量计算资源(这意味着高昂的成本),而这样的计算规模在近期内不太可能出现在面向消费者的 AI 模型中。


神秘推理模型公开参赛:获得亚军


巧合的是,上周前 OpenAI 员工 Przemysław Dębiak 在参加在东京举行的 2025 年 AtCoder 世界巡回赛总决赛启发式竞赛之时,就不仅与多名人类选手比拼了编程技能,还和一款据说出自 OpenAI、类似于 o3 的新定制化模拟推理模型一较高下,代号为“OpenAIAHC”。


在这场比赛中,参赛者被要求在 10 小时内解决一个复杂的优化问题,随后再根据他们的表现进行评分。参赛者可以使用 AtCoder 平台上提供的任何编程语言来解决该问题,但他们使用的硬件规格完全相同,且每次提交代码之间必须等待五分钟。Dębiak 以“Psyho”的名字参赛,最终得分为 1,812,272,588,909,位居排行榜榜首,击败了得分为 1,654,675,725,406 的 AI,后者获得亚军。



“我已经筋疲力尽了。我算了一下,过去三天里我只睡了 10 个小时,现在几乎是靠着一口气撑着。”Dębiak 在 X 上庆祝自己的成就,自豪地宣布“人类已经获胜(暂时!)”,但也承认比赛让他筋疲力尽。


OpenAI 则似乎对其新模型获得银牌的成绩相当满意,该公司发言人在接受采访时表示,“像 o3 这样的模型在编程 / 数学竞赛中能排进前 100 名,但据我们所知,这是首次在顶级编程 / 数学竞赛中进入前三名。像 AtCoder 这样的赛事,为我们提供了一种测试模型能力的方式——看它们能否像人类一样进行战略性推理、做长期规划,以及通过反复试错来改进解决方案。”


此次竞赛是 AI 模型首次在编程赛事中与人类程序员直接同台竞技,AI 虽未夺冠但能获得第二名,依然令人印象深刻。这对于人类编程参赛者的未来而言,或许不是个好兆头。因为尽管程序员的技能必然会不断提升,但 AI 的飞速发展很可能意味着,用不了多久,AI 模型就会在类似赛事中占据榜首。


参考链接:


https://www.pcgamer.com/software/ai/humanity-has-prevailed-for-now-says-former-openai-employee-admitting-hes-barely-alive-after-beating-one-of-its-ai-models-in-a-coding-world-championship-fight/


https://arstechnica.com/ai/2025/07/openai-jumps-gun-on-international-math-olympiad-gold-medal-announcement/


https://www.youtube.com/watch?v=BZAi9h9uCX4


声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

2025-07-22 18:388

评论

发布
暂无评论

Liga译文 | 浅析「产品思维」

LigaAI

产品思维

大数据培训拉链表优化实践分享

@零度

数据仓库 大数据开发

vivo 万台规模 HDFS 集群升级 HDFS 3.x 实践

vivo互联网技术

大数据 hadoop hdfs

JUC常见的锁

爱好编程进阶

程序员 后端开发

druid源码学习五-AccessController探索

Nick

Druid

网站开发进阶(六十六)CSS3 - 新单位vmin/vmax与旧单位ex/ch使用详解

No Silver Bullet

Ex 5月月更 vmin vmax ch

同域下跨应用登录问题

混合应用开发 融合登录 统一登录

2021 最新版 Spring Boot 速记教程

爱好编程进阶

Java 程序员 后端开发

IDEA 2020

爱好编程进阶

Java 程序员 后端开发

Kubernetes下web服务的性能测试三部曲之二:纵向扩容

程序员欣宸

Java Kubernetes 5月月更 Jemter

听说你想学Python爬虫?我从零教你啊

梦想橡皮擦

5月月更

Java多线程学习

爱好编程进阶

Java 程序员 后端开发

Kafka的体系结构

爱好编程进阶

Java 程序员 后端开发

Java初学01:学习路线

爱好编程进阶

Java 程序员 后端开发

Java小白翻身教程-链表结构与编译大法(1)

爱好编程进阶

Java 程序员 后端开发

java高并发系列 - 第28天:实战篇,微服务日志的伤痛

爱好编程进阶

Java 程序员 后端开发

C语言_文件操作相关练习题

DS小龙哥

5月月更

如何打造一个爆款H5?

源字节1号

软件开发 H5 小程序开发

面试突击48:死锁的排查工具有哪些?

王磊

Java java面试

java培训千万数据提升速度的 SQL 优化方案

@零度

MySQL JAVA开发

浅谈 SAP UI5 框架对一些其他前端框架比如 Vue 的支持

汪子熙

JavaScript 前端开发 SAP Fiori 5月月更

Java初学者:String类

爱好编程进阶

程序员 后端开发

Java开发的凡尔赛你不懂,晒出12月工资条,直言太辛苦

爱好编程进阶

程序员 后端开发

《Mybatis 手撸专栏》第8章:把反射用到出神入化

小傅哥

小傅哥 mybatis 源码学习 反射代理 技术框架

一文看懂——什么是Bonree Server?

博睿数据

Server 博睿数据 IT运维

易周金融分析 | 银保监会发文规范养老金融;宁波银行拿下消金牌照

易观分析

金融 银行

OpenHarmony源码解析之电话子系统——通话流程

OpenHarmony开发者

OpenHarmony 电话子系统

3年CRUD经验的Java程序员,金九银十想要跳槽,面试却遭到屡屡碰壁

爱好编程进阶

Java 程序员 后端开发

Java必备技能之源码篇(Nginx源码研究之nginx限流模块)

爱好编程进阶

Java 程序员 后端开发

ArrayList源码分析-删除

zarmnosaj

5月月更

手把手教你使用 ESLint + Prettier 规范项目代码

CRMEB

Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝3天,编程再赢老东家模型!_AI&大模型_华卫_InfoQ精选文章