写点什么

GPT-4.5 发布!OpenAI 史上最大最贵也可能是最慢那个,全网都在骂大街啦

  • 2025-02-28
    北京
  • 本文字数:2491 字

    阅读完需:约 8 分钟

大小:1.29M时长:07:30
GPT-4.5 发布!OpenAI 史上最大最贵也可能是最慢那个,全网都在骂大街啦

今天,GPT-4.5 作为“研究预览”发布,OpenAI Pro 订阅用户($200/月)以及拥有 API Key 的开发者可以使用。此外,OpenAI 还发布了 GPT-4.5 的系统卡片(system card),但目前还没有完整的发布版本。

 

虽然 OpenAI 官方称 GPT-4.5 为“迄今知识最丰富的模型”,但同时警告它并非前沿模型,其性能可能不及 o1 或 o3-mini。

 


GPT-4.5 是一个“庞大且昂贵的模型”,GPU 不够使了。

 

最新、最大,但不前沿

OpenAI 方面表示,GPT-4.5 在写作能力、世界知识以及个性化优化方面均有所增强。并且,用户与 GPT-4.5 互动的体验将更加自然,该模型在识别模式、建立关联方面表现更出色,使其在写作、编程和解决实际问题等任务上更加得心应手。

 

“GPT-4.5 不是前沿模型,但它是 OpenAI 迄今最大规模的 LLM,在计算效率方面相比 GPT-4 提升了 10 倍以上。”OpenAI 在一份事先泄露的公告文件中写道。“与先前的推理版本相比,它未引入 7 项全新的前沿能力,并且在大多数准备评估中,其表现低于 o1、o3-mini 及深度研究模型。”后来,OpenAI 在更新后的官方文档中删掉了这些内容。

 

OpenAI 透露,GPT-4.5 采用了新的监督技术,并结合了传统方法,如监督微调(SFT)和人类反馈强化学习(RLHF),这些方法与 GPT-4o 的训练方式类似。尽管 GPT-4.5 仍然存在一定局限,但 OpenAI 表示,相比 GPT-4o,其幻觉现象已显著减少,甚至略低于 o1 模型。

 

从目前的情况来看,GPT-4.5 的大部分核心特性与 GPT-4o 相同:

  • 具备 128,000 的上下文窗口

  • 支持相同类型的输入(文本和图片)

  • 训练数据的截止日期仍然是 2023 年 10 月

 

目前这款大模型的 API 调用价格非常贵:输入 100 万个 token 需要 75 美元,输出 100 万个 token 需要 150 美元!相比之下,o1 的价格是 15 美元/60 美元,而 GPT-4o 仅为 2.50 美元/10 美元。

 

GPT-4.5 将率先向 Pro 用户开放,并计划于下周推广至 Plus 和 Team 级别用户,随后逐步向企业和教育用户开放。此外,该模型现已登陆微软 Azure AI Foundry 平台,与 Stability、Cohere 及微软的其他新模型共同提供服务。

 

GPT-4.5 有哪些提升?

 

根据 OpenAI 的博客,GPT-4.5 结合了更深层次的世界理解能力和增强的协作能力,使其能更自然地整合思想,在更具温度和直觉性的对话中,更好地适应人类的协作需求。此外,它在理解人类意图、解读微妙线索或隐含期望方面更加细腻,并具备更高的 “情商(EQ)”。在美学直觉和创造力方面也表现更优,特别是在写作和设计方面更为出色。

 

OpenAI 展示了一张 GPT-4.5 与 GPT-4o 之间的胜率对比图,显示在不同类别的查询中,GPT-4.5 的胜率在 56.8% ~ 63.2% 之间:

  • 日常查询(Everyday queries):57.0%

  • 专业查询(Professional queries):63.2%

  • 创造性智能(Creative intelligence):56.8%

 


此外,GPT-4.5 在 SimpleQA(简单问答)任务上的幻觉率(hallucination rate)为 37.1%,相比 GPT-4o(61.8%)和 o3-mini(80.3%)有明显改善,但仍略逊于 o1(44%)。在编程任务的基准测试中,其表现与 o3-mini 相当。

 

在 Aider 的多语言编程基准测试(polyglot coding benchmark) 中,根据网友 Paul Gauthier 的报告, GPT-4.5 的得分为 45%,低于 DeepSeek V3(48%)、Sonnet 3.7(无思考模式 60%,有思考模式 65%)、o3-mini(60.4%),但大幅领先 GPT-4o(23.1%)。

 


有趣的是,OpenAI 自己似乎对这款模型的前景并没有太大信心:

GPT-4.5 是一个非常庞大且计算资源密集的模型,因此比 GPT-4o 更昂贵,且并不能替代 GPT-4o。基于此,我们正在评估是否长期在 API 中提供它,以平衡当前能力支持与未来模型的构建。

 

有网友测试了它的绘图能力,要求它 “生成一张鹈鹕骑自行车的 SVG”,结果如下:

 


此外,API 访问速度相当慢。完整生成该 SVG 响应 花了 112 秒,动画展示了 Token 返回的缓慢过程。

 


OpenAI 的 研究科学家 Rapha Gontijo Lopes 称其为“(可能是)全球最大的模型”——显然,大模型的问题就是比小模型慢得多!

 


我们(可能)训练了全球最大规模的模型!我们相信大模型自有其独特的“气息”,迫不及待想让大家来感受一下。

 

Andrej Karpathy 的观点:没有明显提升

 

Andrej Karpathy 也发布了一些关于 GPT-4.5 的观察。他指出,自 GPT-4 发布以来,他一直期待着这一版本的推出,因为它可以作为一个定性衡量标准,展示大预训练计算量(即训练更大的模型)所能带来的改进幅度。

 

在 OpenAI 的版本体系中,每提升 0.5 代表 10 倍的预训练计算量。回顾过去的发展历程:

  • GPT-1 几乎无法生成连贯的文本;

  • GPT-2 仍显得有些混乱,像个玩具;

  • GPT-2.5 被直接跳过,进入 GPT-3,这才变得更有趣;

  • GPT-3.5 跨越了一个关键门槛,足以作为产品发布,并引发了 OpenAI 的 “ChatGPT 时刻”

  • GPT-4 的提升同样显而易见,但整体感觉更微妙。

 

GPT-4 像是一场“水涨船高”的提升,所有方面都提升了大约 20%。但 GPT-4.5 提升幅度并不算显著,尽管训练计算量是 GPT-4 的 10 倍,Andrej Karpathy 指出:

 

[...] 现在测试 GPT-4.5,我的感觉和两年前一模一样——它确实有所提升,也很棒,但又很难具体指出到底哪里有突破性提升。

 

需要注意的是,GPT-4.5 仅经过了预训练、监督微调(Supervised Finetuning)和 RLHF(人类反馈强化学习),但 并未进行深度推理训练。因此,它在数学、代码等依赖推理能力 的领域并没有显著提升。

 

可以推测,OpenAI 接下来可能会在 GPT-4.5 之上进行强化学习训练,以提升其推理能力,从而进一步扩展其在数学、编程等领域的表现。

 

这与一些网友的看法一致。Eli Lifland 认为,如果他对 GPT-4.5 的初步评估成立,那么他需要拉长对 AI 发展的预期时间线。相比 4o,GPT-4.5 并没有显著提升,尤其是在编程方面,甚至不如 Sonnet。然而,它的成本却比 4o 高出 15 倍,比 Sonnet 3.7 高出 10 到 25 倍,这让他感到困惑。

 


Gary Marcus 表达则更为直接,他认为 GPT-4.5 基本上没有实质性突破,而 GPT-5 仍然只是一个幻想。

 

扩大数据和计算量并不是一条物理法则,过去的推测基本都是真实的。相反,这几年关于 GPT-5 的各种夸大其词,并没有真正实现。有人可能会把问题归咎于用户,但事实是,结果并未达到他们的期望。

 


2025-02-28 10:249780

评论

发布
暂无评论

用户卖家平台三方螺旋成长 如何让商品推荐更智能

阿里技术

全球化技术能力

5 如何优雅的告诉老板复制 ChatGPT几乎是“impossible”的?

涛哥 数字产品和业务架构

ChatGPT 业务架构师

2022Q4手机银行运营亮点:“新版本迭代潮”叠加“个人养老金账户争夺战”

易观分析

金融 银行 经济

探讨丨传统行业必须数字化转型吗?

优秀

数字化转型

ChatGPT时代的打工人众生相

白洞计划

ChatGPT

中国工商银行签约易观千帆,夯实数字基石,助力用户价值增长

易观分析

金融 银行

Java Map操作解锁新姿势

派大星

用这4招优雅的实现Spring Boot 异步线程间数据传递

小小怪下士

Java spring 程序员 springboot

宽表为什么横行?

王磊

基于文心大模型套件ERNIEKit实现文本匹配算法,模块化方便应用落地

汀丶人工智能

自然语言处理 nlp 2月月更 2月日更 文本匹配算法

银行业上云进行时,OLAP 云服务如何解决传统数仓之痛?

Kyligence

OLAP技术 传统数仓

一文盘点,ZBC的应用场景与通缩场景

鳄鱼视界

OneFlow源码解析:Eager模式下的SBP Signature推导

OneFlow

人工智能 深度学习 框架解析

【Redis 故障排查】「连接失败问题排查和解决」带你总体分析CPU及内存的使用率高问题排查指南及方案

码界西柚

redis 性能调优 缓存服务 2月日更

中美ChatGPT的商业化分野

脑极体

ChatGPT

进击中的 Zebec 生态,Web2 与 Web3 世界的连接器

BlockChain先知

瑞萨RH850 CS+环境下设置堆和栈空间

不脱发的程序猿

嵌入式 汽车电子 MCU RH850 瑞萨IDE

入门数据分析师的最强秘籍,都在这4本书里!

博文视点Broadview

音乐APP用户争夺战,火山引擎VeDI助力用户体验升级!

字节跳动数据平台

大数据 增长 音乐 企业号 2 月 PK 榜

Java 发展史

kcodez

Java 后端

面试官:如果 MySQL 数据库中的数据丢失,有哪些补救的办法呢?

做梦都在改BUG

Java MySQL 数据库

ChatGPT入门案例|商务智能对话客服(一)| 社区征文

TiAmo

AI ChatGPT

微服务 SpringBoot 整合 Redis GEO 实现附近商户功能

做梦都在改BUG

Java redis 微服务 Spring Boot

活动预告|Triton Meetup 2023

AI Infra

AI

线程私有变量ThreadLocal详解

Java随想录

Java 线程 并发

2023年第一季度汽车行业行情预测分析

不脱发的程序猿

汽车电子 2023年第一季汽车行业分析

智能汽车商业化、产业化演进及投资机会分析

不脱发的程序猿

汽车电子 智能汽车商业化 汽车行业投资机会分析

2023-02-14:魔物了占领若干据点,这些据点被若干条道路相连接, roads[i] = [x, y] 表示编号 x、y 的两个据点通过一条道路连接。 现在勇者要将按照以下原则将这些据点逐一夺回:

福大大架构师每日一题

算法 rust 福大大

OKR之剑·实战篇06:OKR致胜法宝-氛围&业绩双轮驱动(下)

vivo互联网技术

团队管理 OKR

Three.js 进阶之旅:物理效果-碰撞和声音 💥

dragonir

CSS JavaScript html 前端 three.js

实现一个简单的Database10(译文)

GreatSQL

sqlite myslq greatsql greatsql社区

GPT-4.5 发布!OpenAI 史上最大最贵也可能是最慢那个,全网都在骂大街啦_生成式 AI_Tina_InfoQ精选文章