写点什么

Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝 3 天,编程再赢老东家模型!

  • 2025-07-22
    北京
  • 本文字数:2985 字

    阅读完需:约 10 分钟

大小:1.40M时长:08:08
Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝3天,编程再赢老东家模型!

整理 | 华卫


近期, OpenAI 接连在多个场合携不同新模型“上桌”,且这些模型均还未公开发布。上周,OpenAI 分别曝出了两款与 o3 有关联但都未公开过的新模型。其中,一款被疑是“伪装的 GPT-5”,另一款则在一场 AI 模型和人类选手都参与的编程世界锦标赛中拿到了第二名的成绩。


最新上场的是,一款 OpenAI 宣称“在国际数学奥林匹克竞赛(IMO)中取得了金牌级别成绩”的模型。每年参加国际数学奥林匹克竞赛(IMO)的学生,都是全球范围内极具天赋的年轻数学才俊。今年,他们迎来了一批实力更强的 AI 模型的挑战。刚刚,谷歌 DeepMind 联合创始人兼 CEO Demis Hassabis 亦宣布,Gemini Deep Think 在 IMO 中达到了金牌水平。


然而,虽然都宣布拿到金牌的成绩,但评价风向却差不少。不少网友认为:“OpenAI 为了博眼球啥都干得出来。没官方分数,没点耐心,更没底线。”“谷歌 DeepMind 的表现堪称典范,非常钦佩。”


OpenAI 模型 IMO 输给谷歌?


“进步惊人”,用 Hassabis 的话来说。谷歌表示,其经过专门优化的数学人工智能在六道题目中答对了五道。在此之前,谷歌曾于 2024 年 7 月宣称,其 AlphaProof 和 AlphaGeometry 2 模型在 IMO 中取得了相当于银牌的成绩——不过谷歌的系统解决每个问题需要长达三天时间,而非人类的 4.5 小时限制,且需要人类协助将题目转化为正式的数学语言。


然而,就在前几天,OpenAI 研究员 Alexander Wei 就抢先宣布,该公司正在研发的一款新 AI 模型在 IMO 中取得了金牌级别的成绩,达到了每年仅有不到 9% 的人类参赛者能企及的水平。这款实验性 AI 模型的研究团队由 Alexander Wei 领衔,并有 Sheryl Hsu 和 Noam Brown 提供支持。


据悉,该模型在解决竞赛中的六道证明类题目时,遵循了与人类参赛者相同的限制条件:每场考试时长 4.5 小时,不允许使用互联网或计算器。OpenAI 称,这一成就与以往 AI 在数学奥林匹克题目上的尝试有所不同——以往的尝试依赖于专门的定理证明系统,且往往会超出人类的时间限制。该公司表示,其模型将题目作为纯文本处理,并生成自然语言证明,运作方式类似标准语言模型,而非专门构建的数学系统。


另外,OpenAI 起初并未计划参与这项竞赛,而是在测试中观察到令人欣喜的结果后,才决定对自身研究成果进行评估。据了解,国际数学奥林匹克竞赛主办方新出的题目会同时分享给多家 AI 公司,OpenAI 也收到了这些题目。为验证结果,每一份解题方案都由 OpenAI 组织的三位前国际数学奥林匹克竞赛奖牌得主组成的评审团进行盲审,且只有达成一致意见才算通过。


尽管国际数学奥林匹克竞赛主办方曾要求人工智能公司推迟至 7 月 28 日再公布结果,但 OpenAI 还是发布了这一消息。然而,几位了解该过程的内部人士表示,由于 OpenAI 是自行对其在国际数学奥林匹克竞赛中的成绩进行评分的,该公司这一说法的合法性可能存在疑问。OpenAI 计划公布相关证明过程和评分标准,供公众审阅。


据领导 DeepMind 超级推理团队的 Thang Luong 介绍,IMO 主办方有一套官方评分标准,但未对外公开。若未依据该标准进行评估,任何奖牌归属的宣称都站不住脚。“扣掉一分后,它就得是银牌,而非金牌。”


另外,除了对自动评分结果存在争议外,OpenAI 还因其提前宣布获奖情况,似乎违反了与国际数学奥林匹克竞赛的保密协议而惹恼了 IMO 社群。


一家同样参与竞赛的 AI 公司 Harmonic 在 7 月 20 日的 X 帖子中透露:“IMO 董事会已要求我们,连同其他参与竞赛的主要 AI 公司,暂缓发布我们的结果,直到 7 月 28 日。”Hassabis 也在社交媒体上侧面抨击 OpenAI 过早宣布金牌的行为:“我们尊重国际数学奥林匹克委员会最初的请求,即所有人工智能实验室只有在官方结果经过独立专家验证且学生应得的赞誉得到公正对待后才能分享结果。”



全新模型“o3 Alpha”疑悄然上线


上周,一位网友曝出,OpenAI 正在 WebArena 上测试名为“o3-alpha-responses-2025-07-17”的新模型,该模型以“Anonymous-Chatbot”的名字出现。



Jimmy Apples 将这一新模型与 Gemini 2.5 pro 进行了网页开发的对比,使用的提示词是“制作一个神秘风格的网站”,之后评价道:“这东西很强大,太让人惊艳了。”



目前,“o3 Alpha”已从 Web 开发测试平台下架。据悉,它只上线了大概 5、6 个小时。上次 Quazar Alpha 在测试后不久就正式发布了,所以这个新编程模型也可能将在未来几周内亮相。


关键在于, OpenAI 内部确实有个编程能力极强的模型。OpenAI 的 CEO Sam Altman 早就有所暗示:2025 年 2 月时,他提到公司内部有个模型能排进全球编程高手前 50 名,且有望在 2025 年底推出 “超人类级” 编程模型。而现在这个模型,似乎已经非常接近这个目标了。


除 Jimmy Apples 之外,还有几位模型体验者对“o3 Alpha”给出不错的使用评价。还有人猜测:“这是否是伪装成 o3 alpha 的 GPT-5 ?”


但需要注意的是,尽管该公司已确认其下一代主要人工智能模型 GPT-5 “即将推出”,但同时也表示“相关技术将会延续,但具备这种水平能力的模型短期内不会发布。” 显然,OpenAI 为这项特定实验投入了大量计算资源(这意味着高昂的成本),而这样的计算规模在近期内不太可能出现在面向消费者的 AI 模型中。


神秘推理模型公开参赛:获得亚军


巧合的是,上周前 OpenAI 员工 Przemysław Dębiak 在参加在东京举行的 2025 年 AtCoder 世界巡回赛总决赛启发式竞赛之时,就不仅与多名人类选手比拼了编程技能,还和一款据说出自 OpenAI、类似于 o3 的新定制化模拟推理模型一较高下,代号为“OpenAIAHC”。


在这场比赛中,参赛者被要求在 10 小时内解决一个复杂的优化问题,随后再根据他们的表现进行评分。参赛者可以使用 AtCoder 平台上提供的任何编程语言来解决该问题,但他们使用的硬件规格完全相同,且每次提交代码之间必须等待五分钟。Dębiak 以“Psyho”的名字参赛,最终得分为 1,812,272,588,909,位居排行榜榜首,击败了得分为 1,654,675,725,406 的 AI,后者获得亚军。



“我已经筋疲力尽了。我算了一下,过去三天里我只睡了 10 个小时,现在几乎是靠着一口气撑着。”Dębiak 在 X 上庆祝自己的成就,自豪地宣布“人类已经获胜(暂时!)”,但也承认比赛让他筋疲力尽。


OpenAI 则似乎对其新模型获得银牌的成绩相当满意,该公司发言人在接受采访时表示,“像 o3 这样的模型在编程 / 数学竞赛中能排进前 100 名,但据我们所知,这是首次在顶级编程 / 数学竞赛中进入前三名。像 AtCoder 这样的赛事,为我们提供了一种测试模型能力的方式——看它们能否像人类一样进行战略性推理、做长期规划,以及通过反复试错来改进解决方案。”


此次竞赛是 AI 模型首次在编程赛事中与人类程序员直接同台竞技,AI 虽未夺冠但能获得第二名,依然令人印象深刻。这对于人类编程参赛者的未来而言,或许不是个好兆头。因为尽管程序员的技能必然会不断提升,但 AI 的飞速发展很可能意味着,用不了多久,AI 模型就会在类似赛事中占据榜首。


参考链接:


https://www.pcgamer.com/software/ai/humanity-has-prevailed-for-now-says-former-openai-employee-admitting-hes-barely-alive-after-beating-one-of-its-ai-models-in-a-coding-world-championship-fight/


https://arstechnica.com/ai/2025/07/openai-jumps-gun-on-international-math-olympiad-gold-medal-announcement/


https://www.youtube.com/watch?v=BZAi9h9uCX4


声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

2025-07-22 18:385320

评论

发布
暂无评论

易观分析联合中小银行联盟发布海南数字经济指数,敬请期待!

易观分析

金融 海南数字经济 易观分析

NFT数字藏品——数字藏品发行平台开发

开源直播系统源码

软件开发 数字藏品 数字藏品系统软件开发

一文带你了解 HONOR Connect

荣耀开发者服务平台

开发者 教程 荣耀 honor

【荣耀智慧服务】快捷服务开发指南

荣耀开发者服务平台

开发者 App 手机 荣耀 honor

2022年中国软饮料市场洞察

易观分析

软饮料 市场分析

兆骑科创高层次人才创业大赛平台,投融资对接,双创服务

兆骑科创凤阁

社区动态——恭喜海豚调度中国区用户组新晋 9 枚“社群管理员”

白鲸开源

避免 10 大 NGINX 配置错误(上)

NGINX开源社区

nginx 架构 配置 配置分析 故障排除

开源一夏 |Spring MVC深度学习

叶秋学长

spring 开源 8月月更

安克创新每一个“五星好评”背后,有怎样的流程管理?

科技热闻

怎么设计产品手册?用什么设计产品手册?

Baklib

接口测试中,应不应该用数据库

和牛

8月月更

干货:服务器网卡组技术原理与实践

C++后台开发

服务器 交换机 网卡 C/C++后台开发 C/C++开发

符合信创要求的堡垒机有哪些?支持哪些系统?

行云管家

信创 堡垒机 信创产业

用好 DIV 和 API,在前端系统中轻松嵌入数据分析模块

葡萄城技术团队

前端 嵌入式 BI 可视化数据

容器化 | 在 S3 实现定时备份

RadonDB

MySQL 数据库 Kubernetes

智为链接,慧享生活,荣耀智慧服务,只为 “懂” 你

荣耀开发者服务平台

开发者 安卓 荣耀 honor

“低代码”编程或将是软件开发的未来

优秀

低代码

8月Meetup | “数据调度+分析引擎”解锁企业数字化转型之路

白鲸开源

万物互联,车联网数字化需要快速引入小程序生态

Speedoooo

小程序 车联网 IoT 小程序生态

fastposter v2.9.1 程序员必备海报生成器

物有本末

海报生成器 海报编辑器 图片生成 二维码生成

异形屏为led显示行业带来更多希望

Dylan

LED显示屏 led显示屏厂家 异形屏

等保2.0一个中心三重防护指的是什么?如何理解?

行云管家

等保 等级保护 等保2.0 安全等级保护

兆骑科创创业赛事活动发布平台,创业赛事,项目路演

兆骑科创凤阁

MySQL 原理与优化:Update 优化

老崔说架构

易观千帆银行用户体验中心:聚焦银行APP用户体验

易观分析

金融 银行 用户体验

头脑风暴:目标和

HelloWorld杰少

数据结构 算法 LeetCode 8月月更

Colocate Join :ClickHouse的一种高性能分布式join查询模型

华为云开发者联盟

数据库 后端

mysql进阶(三十三)MySQL数据表添加字段

No Silver Bullet

MySQL 8月月更 添加字段

产品说明丨如何使用MobPush快速创建应用

MobTech袤博科技

ios android sdk mobpush 智能推送

怎么学自动化测试

和牛

自动化 软件测试 8月月更

Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝3天,编程再赢老东家模型!_AI&大模型_华卫_InfoQ精选文章