AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

OpenAI 官宣 o3 系列王者模型:能解最难的数学题,单个任务最高花费数千美元,越贵越好用!

  • 2024-12-21
    北京
  • 本文字数:3720 字

    阅读完需:约 12 分钟

大小:1.81M时长:10:32
OpenAI官宣o3系列王者模型:能解最难的数学题,单个任务最高花费数千美元,越贵越好用!

OpenAI 12 天的马拉松式发布活动,终于迎来了尾声。

 

在这长达两个多星期的系列发布期间,谷歌连续放出两款王炸大模型 Gemini 2.0 Flash 以及专攻推理的 Gemini 2.0 Flash Thinking,这种情况下,OpenAI 如果再不拿出点看家本领恐怕有些说不过去了。

 

在前几天无关痛痒的新功能推出后,人们都在期待 OpenAI 能放出点“猛料”。别急,“猛料”来了......

OpenAI 发布 o3 和 o3 mini 大模型

 

刚刚,OpenAI 宣布推出两款前沿模型:o3 和 o3-mini。它们是本月初刚刚全面发布的 o1 和 o1 mini 模型的继任者,更准确地说,o3 是一个像 o1 一样的模型系列,o3-mini 是一个更小、更精简的模型,针对特定任务进行了微调。OpenAI 正在慢慢邀请选定的用户测试这套新的推理模型。

 

早在今天直播之前,OpenAI CEO Sam Altman 就在 X 平台上发布推文暗示了新 AI 模型 GPT-o3 的发布。Altman 的推文中包含了“呵呵呵,明天见”和“找到线索,应该会说哦哦哦”等短语,暗示了 o3 模型即将发布。推文中“o”和“h”的反复使用被视为即将发布的预兆。



此次发布恰逢 OpenAI 的“OpenAI 12 天”活动的最后一天。在过去的 11 天里,OpenAI 发布了功能齐全的 o1 模型并推出了相关 API。此外,该公司还升级了各种功能,包括函数调用、结构化输出、推理工作量控制、开发人员消息传递和视觉输入功能。

 

“我们认为这是人工智能下一阶段的开始,你可以用这些模型来完成越来越复杂、需要大量推理的任务,”Altman 说。“在本次活动的最后一天,我们认为从一个前沿模型过渡到下一个前沿模型会很有趣。”

 

Altman 在直播中表示,公司计划在 1 月底发布 o3-mini,并在“此后不久”发布 o3。

 

值得一提的是,OpenAI 此次发布的新模型命名为 o3,而不是 o2,这又是为什么?据 The Information 报道,OpenAI 跳过 o2 是为了避免与英国电信提供商 O2 发生潜在冲突。Altman 在今天上午的直播中证实了这一点。Altman 表示,OpenAI“在命名方面一直很糟糕”。

o3 到底强在哪?

 

那么,o3 到底强在哪里?

 

在直播中,Altman 表示,o3 模型“在编码方面表现出色”,而且 OpenAI 分享的基准测试也支持它,甚至超过了 o1 在编程任务上的表现,具体数据如下:

 


  • 卓越的编码性能: o3 在 SWE-Bench Verified 上比 o1 高出 22.8 个百分点,并获得了 2727 的 Codeforces 评分,超过了 OpenAI 首席科学家的 2665 分。

  • 数学和科学掌握: o3 在 AIME 2024 考试中取得 96.7% 的成绩,仅缺席一道题,在 GPQA Diamond 考试中取得 87.7% 的成绩,远远超过人类专家的表现。

  • Frontier 基准测试:该模型在 EpochAI 的 Frontier Math 等具有挑战性的测试中创下了新纪录,解决了 25.2% 的问题,而其他模型的解决率均未超过 2%。在 ARC-AGI 测试中,o3 的得分是 o1 的三倍,超过 85%(经 ARC Prize 团队现场验证),代表了概念推理领域的一个里程碑。

 

在推理能力上 o3 也比以往有了非常大的改进。

 

与大多数人工智能不同,诸如 o3 之类的推理模型能够有效地自我核实事实,这有助于它们避免通常会绊倒模型的一些陷阱。

 

这种事实核查过程会产生一些延迟。与之前的 o1 一样,o3 需要更长的时间(通常要多几秒到几分钟)才能得出解决方案,而典型的非推理模型则不然。好处是什么?它在物理、科学和数学等领域往往更可靠。

 

o3 经过训练,可以在做出反应之前通过 OpenAI 所称的“私人思维链”进行“思考”。该模型可以推理任务并提前计划,在较长时间内执行一系列操作,帮助它找到解决方案。 

 

在实践中,给出一个提示后,o3 会在回答之前停顿一下,考虑一系列相关提示,并在此过程中“解释”其推理。一段时间后,该模型会总结出它认为最准确的答案。

 

o3 的新功能是能够“调整”推理时间。模型可以设置为低、中或高计算(即思考时间)。计算时间越长,o3 在任务上的表现就越好。

o3 系列模型加强了对安全和对齐的承诺

 

除了这些进步之外,OpenAI 还加强了对安全和协调的承诺。

 

Altman 表示,在 OpenAI 发布新的推理模型之前,他更希望有一个联邦测试框架来指导监控和降低此类模型的风险。

 

尽管 o3 已经非常先进了,但它也存在风险。人工智能安全测试人员发现,o1 的推理能力使其欺骗人类用户的概率比传统的“非推理”模型更高——或者说,比 Meta、Anthropic 和 Google 的领先人工智能模型更高。o3 欺骗的概率可能比其前身更高。

 

因此,OpenAI 表示,它正在使用一种新技术“审议性对齐”,使 o3 等模型与其安全原则保持一致。(o1 以相同的方式对齐。)该项技术还将在协调 o3 和 o3-mini 方面发挥关键作用,确保它们的能力强大而负责。 

业内如何评价 o3?

 

此次的 o3 系列模型的发布可谓赚足了眼球,因为 OpenAI 做出了一个惊人的声明:o3 至少在某些条件下接近 AGI——但也存在重大隐患。

 

AGI 是“通用人工智能”的缩写,泛指能够执行人类所能完成的任何任务的人工智能。但对于通用人工智能,OpenAI 有自己的定义:“在最具经济价值的工作上表现优于人类的高度自主系统。”

 

实现 AGI 将是一个大胆的宣言。而且这对 OpenAI 来说也具有非同凡响的意义。根据与密切合作伙伴和投资者微软的协议条款,一旦 OpenAI 实现 AGI,它就不再有义务让微软使用其最先进的技术(即符合 OpenAI AGI 定义的技术)。

 

但从一项基准测试来看,OpenAI 正在慢慢接近 AGI。

 

在 ARC-AGI(一项旨在评估 AI 系统是否能够有效地在其训练数据之外获得新技能的测试)中,o3 在高计算设置下获得了 87.5% 的分数。在最差的情况下(在低计算设置下),该模型的性能是 o1 的三倍。

 

当然,高计算设置的成本非常高——根据 ARC-AGI 联合创始人 Francois Chollet 的说法,每个任务的成本高达数千美元。

 


Francois Chollet 在 X 上发文称:“今天,OpenAI 宣布了其下一代推理模型 o3。我们与 OpenAI 合作在 ARC-AGI 上对其进行了测试,我们认为这代表了让 AI 适应新任务的重大突破。它在低计算模式下的半私有评估中得分为 75.7%(计算中每个任务 20 美元),在高计算模式下得分为 87.5%(每个任务数千美元)。它非常昂贵,但这不是在使蛮力——这些功能是新领域,需要认真的科学关注。”

 


那么,这就是 AGI 吗?Francois Chollet 表示:“虽然新模型非常令人印象深刻,代表着 AGI 道路上的一个重要里程碑,但我不认为这就是 AGI——仍有相当多的 ARC-AGI-1 任务 o3 无法解决,而且我们有早期迹象表明 ARC-AGI-2 对 o3 来说仍然极具挑战性。这表明,创建不饱和的、有趣的基准仍然是可行的,这些基准对人类来说很容易,但对人工智能来说却不可能完成——无需专业知识。只有当我们已经再也无法创建类似这种测评时,我们才算真的拥有 AGI。”

 

虽然,ARC-AGI 有其局限性——而且它对 AGI 的定义只是众多定义之一。但在其他基准测试中,o3 同样击败了竞争对手。

 

在专注于编程任务的基准 SWE-Bench Verified 上,o3 的表现比 o1 高出 22.8 个百分点,并获得了 Codeforces 评分(另一个衡量编码技能的标准)2727 分。(2400 分的评分使工程师处于 99.2 个百分点。)o3 在 2024 年美国数学邀请赛上得分为 96.7%,只错一道题,在 GPQA Diamond(一组研究生水平的生物学、物理学和化学问题)上得分为 87.7%。最后,o3 在 EpochAI 的 Frontier Math 基准上创下了新纪录,解决了 25.2% 的问题;其他模型都未超过 2%。

 

 

o3 模型的发布在 Reddit 论坛上引发了广泛讨论。有用户表示:

 

“Chollet 很客观地评价了这款模型,这应该具有重要意义。此外,无论 AGI 是如何定义的(当然,对于许多定义来说,这并不是定义),结果都必须得到承认。o3 现在在重要的、具有经济价值的认知任务中远远领先于其他模型。”

 

有看热闹不嫌事儿大的用户期待能有人将谷歌刚刚发布的 Gemini 2.0 Flash Thinking 模型和 o3 进行对比,该用户表示:

 

“根据他们的基准测试,o3 的表现远胜于 o1。我倒想看看它们在实际用例中的表现。我认为他们说的是,与 o1 和 o1-mini 相比,o3(至少是 API)的运行成本更低。期待他们与 Gemini Flash Thinking 的对比。激动人心的时刻即将到来……”

推理模型正成为大势所趋

 

OpenAI 发布首批推理模型后,包括谷歌在内的竞争对手 AI 公司纷纷推出了大量推理模型。

 

11 月初,国内 AI 研究公司 DeepSeek 发布了其首款推理模型 DeepSeek-R1的预览版。同月,阿里巴巴的通义千问团队发布了其声称是 o1 的第一个“公开”挑战者的产品。

 

那么,究竟是什么打开了推理模型的闸门?

 

首先,就是寻找改进生成式人工智能的新方法。因为大家逐渐发现,用于扩展模型的“蛮力”技术不再能带来像以前一样的重大技术突破。

 

然而,也并非所有人都相信推理模型是最佳的发展方向。首先,它们往往价格昂贵,因为运行它们需要大量的计算能力。尽管到目前为止,它们在基准测试中表现良好,但尚不清楚推理模型是否能保持这种进步速度。

 

有趣的是,o3 的发布正值 OpenAI 最有成就的科学家之一离职之际。Alec Radford 是 OpenAI 生成式 AI 模型“GPT 系列”(即 GPT-3、GPT-4 等)学术论文的主要作者,本周他宣布将离职从事独立研究。

 

最后,不得不说,作为全球顶级 AI 明星独角兽,OpenAI 技术先进是真,但比技术更先进的,或许是 Altman 高超的营销手段吧。

 

参考链接:

 

https://www.binance.com/en/square/post/12-20-2024-openai-ceo-hints-at-new-ai-model-gpt-o3-release-17819861054250

2024-12-21 07:0011347
用户头像
李冬梅 加V:busulishang4668

发布了 1061 篇内容, 共 679.5 次阅读, 收获喜欢 1223 次。

关注

评论 1 条评论

发布
用户头像
aren't they scared?mostly Aisan engineers, flooded with Aisan blood,probably have a communist granpa?
2024-12-27 13:18 · 浙江
回复
没有更多了
发现更多内容

金三银四 面试准备 数据结构面试题,编程与算法经典面试题

测吧(北京)科技有限公司

测试

深化MIAOYUN定位,坚守产品初心!

MIAOYUN

容器 云原生 产品定位 智能运维 MIAOYUN

Rust 和 Go?通过详细比较选择最佳编程语言

Liam

Go 编程 程序员 rust 编程语言

当世界读书日遇见华为阅读:让电子书读出“画面感”

最新动态

华为阅读·读书会:品读“外卖诗人”眼中的诗与画

最新动态

YashanDB V23.2 LTS发版 | 共享集群首个长期支持版本

YashanDB

产品发布 yashandb 共享集群 崖山数据库

信创国产化替换势在必行,“重复造车轮”应避免

FinFish

国产化 小程序容器 信创化软件 信创化

玩转云端| 拥有HBlock这项“存储盘活绝技”,数据中心也能“热辣瘦身”!

天翼云开发者社区

云计算 存储 数据中心 集群

Ceph的crush算法与一致性hash对比介绍

天翼云开发者社区

云计算 存储 云服务

重磅新品发布!云耀数据库HRDS,享受轻量级的极致体验

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号2024年4月PK榜

给测试同学的成长书单

老张

书单推荐 技术书单

AI将诗意装进口袋!合合信息扫描全能王“扫描书籍”功能优化上线

合合技术团队

人工智能 OCR 图片识别 扫描全能王 扫描书籍

LED电子显示屏新技术

Dylan

技术 信息 数字 电子 LED显示屏

MES系统解决方案,MES系统主要能解决什么问题

万界星空科技

数字化 生产管理系统 mes 万界星空科技 车间管理

Giants Planet 宣布推出符文,建立在坚实价值的基础上

西柚子

驼峰与下划线在python中转化

麦兜

Stable Diffusion中的常用术语解析

程序那些事

人工智能 程序那些事 openai

卡片式笔记系统BYEAP介绍

zhumingwu

【JAVA】助力数字化营销:基于协同过滤算法实现个性化商品推荐

智在碧得

机器学习 数据 java 编程 分布式框架 数字化营销

OpenAI官宣o3系列王者模型:能解最难的数学题,单个任务最高花费数千美元,越贵越好用!_OpenAI_李冬梅_InfoQ精选文章