写点什么

GPT-4.5 发布!OpenAI 史上最大最贵也可能是最慢那个,全网都在骂大街啦

  • 2025-02-28
    北京
  • 本文字数:2491 字

    阅读完需:约 8 分钟

大小:1.29M时长:07:30
GPT-4.5 发布!OpenAI 史上最大最贵也可能是最慢那个,全网都在骂大街啦

今天,GPT-4.5 作为“研究预览”发布,OpenAI Pro 订阅用户($200/月)以及拥有 API Key 的开发者可以使用。此外,OpenAI 还发布了 GPT-4.5 的系统卡片(system card),但目前还没有完整的发布版本。

 

虽然 OpenAI 官方称 GPT-4.5 为“迄今知识最丰富的模型”,但同时警告它并非前沿模型,其性能可能不及 o1 或 o3-mini。

 


GPT-4.5 是一个“庞大且昂贵的模型”,GPU 不够使了。

 

最新、最大,但不前沿

OpenAI 方面表示,GPT-4.5 在写作能力、世界知识以及个性化优化方面均有所增强。并且,用户与 GPT-4.5 互动的体验将更加自然,该模型在识别模式、建立关联方面表现更出色,使其在写作、编程和解决实际问题等任务上更加得心应手。

 

“GPT-4.5 不是前沿模型,但它是 OpenAI 迄今最大规模的 LLM,在计算效率方面相比 GPT-4 提升了 10 倍以上。”OpenAI 在一份事先泄露的公告文件中写道。“与先前的推理版本相比,它未引入 7 项全新的前沿能力,并且在大多数准备评估中,其表现低于 o1、o3-mini 及深度研究模型。”后来,OpenAI 在更新后的官方文档中删掉了这些内容。

 

OpenAI 透露,GPT-4.5 采用了新的监督技术,并结合了传统方法,如监督微调(SFT)和人类反馈强化学习(RLHF),这些方法与 GPT-4o 的训练方式类似。尽管 GPT-4.5 仍然存在一定局限,但 OpenAI 表示,相比 GPT-4o,其幻觉现象已显著减少,甚至略低于 o1 模型。

 

从目前的情况来看,GPT-4.5 的大部分核心特性与 GPT-4o 相同:

  • 具备 128,000 的上下文窗口

  • 支持相同类型的输入(文本和图片)

  • 训练数据的截止日期仍然是 2023 年 10 月

 

目前这款大模型的 API 调用价格非常贵:输入 100 万个 token 需要 75 美元,输出 100 万个 token 需要 150 美元!相比之下,o1 的价格是 15 美元/60 美元,而 GPT-4o 仅为 2.50 美元/10 美元。

 

GPT-4.5 将率先向 Pro 用户开放,并计划于下周推广至 Plus 和 Team 级别用户,随后逐步向企业和教育用户开放。此外,该模型现已登陆微软 Azure AI Foundry 平台,与 Stability、Cohere 及微软的其他新模型共同提供服务。

 

GPT-4.5 有哪些提升?

 

根据 OpenAI 的博客,GPT-4.5 结合了更深层次的世界理解能力和增强的协作能力,使其能更自然地整合思想,在更具温度和直觉性的对话中,更好地适应人类的协作需求。此外,它在理解人类意图、解读微妙线索或隐含期望方面更加细腻,并具备更高的 “情商(EQ)”。在美学直觉和创造力方面也表现更优,特别是在写作和设计方面更为出色。

 

OpenAI 展示了一张 GPT-4.5 与 GPT-4o 之间的胜率对比图,显示在不同类别的查询中,GPT-4.5 的胜率在 56.8% ~ 63.2% 之间:

  • 日常查询(Everyday queries):57.0%

  • 专业查询(Professional queries):63.2%

  • 创造性智能(Creative intelligence):56.8%

 


此外,GPT-4.5 在 SimpleQA(简单问答)任务上的幻觉率(hallucination rate)为 37.1%,相比 GPT-4o(61.8%)和 o3-mini(80.3%)有明显改善,但仍略逊于 o1(44%)。在编程任务的基准测试中,其表现与 o3-mini 相当。

 

在 Aider 的多语言编程基准测试(polyglot coding benchmark) 中,根据网友 Paul Gauthier 的报告, GPT-4.5 的得分为 45%,低于 DeepSeek V3(48%)、Sonnet 3.7(无思考模式 60%,有思考模式 65%)、o3-mini(60.4%),但大幅领先 GPT-4o(23.1%)。

 


有趣的是,OpenAI 自己似乎对这款模型的前景并没有太大信心:

GPT-4.5 是一个非常庞大且计算资源密集的模型,因此比 GPT-4o 更昂贵,且并不能替代 GPT-4o。基于此,我们正在评估是否长期在 API 中提供它,以平衡当前能力支持与未来模型的构建。

 

有网友测试了它的绘图能力,要求它 “生成一张鹈鹕骑自行车的 SVG”,结果如下:

 


此外,API 访问速度相当慢。完整生成该 SVG 响应 花了 112 秒,动画展示了 Token 返回的缓慢过程。

 


OpenAI 的 研究科学家 Rapha Gontijo Lopes 称其为“(可能是)全球最大的模型”——显然,大模型的问题就是比小模型慢得多!

 


我们(可能)训练了全球最大规模的模型!我们相信大模型自有其独特的“气息”,迫不及待想让大家来感受一下。

 

Andrej Karpathy 的观点:没有明显提升

 

Andrej Karpathy 也发布了一些关于 GPT-4.5 的观察。他指出,自 GPT-4 发布以来,他一直期待着这一版本的推出,因为它可以作为一个定性衡量标准,展示大预训练计算量(即训练更大的模型)所能带来的改进幅度。

 

在 OpenAI 的版本体系中,每提升 0.5 代表 10 倍的预训练计算量。回顾过去的发展历程:

  • GPT-1 几乎无法生成连贯的文本;

  • GPT-2 仍显得有些混乱,像个玩具;

  • GPT-2.5 被直接跳过,进入 GPT-3,这才变得更有趣;

  • GPT-3.5 跨越了一个关键门槛,足以作为产品发布,并引发了 OpenAI 的 “ChatGPT 时刻”

  • GPT-4 的提升同样显而易见,但整体感觉更微妙。

 

GPT-4 像是一场“水涨船高”的提升,所有方面都提升了大约 20%。但 GPT-4.5 提升幅度并不算显著,尽管训练计算量是 GPT-4 的 10 倍,Andrej Karpathy 指出:

 

[...] 现在测试 GPT-4.5,我的感觉和两年前一模一样——它确实有所提升,也很棒,但又很难具体指出到底哪里有突破性提升。

 

需要注意的是,GPT-4.5 仅经过了预训练、监督微调(Supervised Finetuning)和 RLHF(人类反馈强化学习),但 并未进行深度推理训练。因此,它在数学、代码等依赖推理能力 的领域并没有显著提升。

 

可以推测,OpenAI 接下来可能会在 GPT-4.5 之上进行强化学习训练,以提升其推理能力,从而进一步扩展其在数学、编程等领域的表现。

 

这与一些网友的看法一致。Eli Lifland 认为,如果他对 GPT-4.5 的初步评估成立,那么他需要拉长对 AI 发展的预期时间线。相比 4o,GPT-4.5 并没有显著提升,尤其是在编程方面,甚至不如 Sonnet。然而,它的成本却比 4o 高出 15 倍,比 Sonnet 3.7 高出 10 到 25 倍,这让他感到困惑。

 


Gary Marcus 表达则更为直接,他认为 GPT-4.5 基本上没有实质性突破,而 GPT-5 仍然只是一个幻想。

 

扩大数据和计算量并不是一条物理法则,过去的推测基本都是真实的。相反,这几年关于 GPT-5 的各种夸大其词,并没有真正实现。有人可能会把问题归咎于用户,但事实是,结果并未达到他们的期望。

 


2025-02-28 10:2410154

评论

发布
暂无评论

深入浅出边缘云 | 1. 概述

俞凡

架构 边缘计算 网络 深入浅出边缘云

一时跳槽一时爽,一直跳槽一直爽?

KEY.L

7月月更

Vue Router 守卫

程序员海军

Vue 7月月更

Protocol buffers 的问题和滥用

HoneyMoose

节流和防抖的说明和实现

南极一块修炼千年的大冰块

7月月更

界面设计四大原则

空城机

设计模式 7月月更

Java开发环境配置 / Vscode搭建

攻城狮杰森

Java jdk 7月月更

开源分布式链路追踪对比

穿过生命散发芬芳

链路追踪 7月月更

参与开源社区还有证书拿?

玩转Devop和研发效能DevStream/DevLake

GitHub 开源 开发者 证书

【Go实现】实践GoF的23种设计模式:观察者模式

元闰子

Go 设计模式 观察者模式 Go 语言

做一个有职业操守的软件匠人

Bruce Talk

技术 敏捷 TDD Agile

阿里onedate分层思想

奔向架构师

数据中台 7月月更

自动驾驶产品化竞备开启:百度Apollo如何定义量产车?

脑极体

mysql进阶(十九)SQL语句如何精准查找某一时间段的数据

No Silver Bullet

MySQL 7月月更 精确查找

MySQL数据库索引

技术小生

索引 7月月更

查策,查策,python字体反爬再一次实践

梦想橡皮擦

Python 爬虫 7月月更

图的存储结构与方法(二)

乔乔

7月月更

作为一名后台开发人员,你必须知道的两种过滤器

C++后台开发

后台开发 后端开发 Linux服务器开发 C/C++后台开发 C/C++开发

springMvc参数获取

沃德

Java 7月月更

Docker安装Elasticsearch、ik分词器、可视化工具

宁在春

Docker Elastic Stack 7月月更

python小知识-代码规范最佳实践

AIWeker

7月月更 pyhon小知识

李宏毅《机器学习》丨7. Conclusion(总结)

AXYZdong

7月月更

多线程&高并发(全网最新:面试题+导图+笔记)面试手稳心不慌

冉然学Java

Java 编程 多线程并发 高并发系统 资料分享

接口测试

Xd

接口测试工具

类的基础

GalaxyCreater

全新出品!Github总榜排行第七的SpringCloud生态全栈笔记我粉了

Java全栈架构师

Java 程序员 面试 微服务 SpringCloud

OSI模型第一层:物理层,基石般的存在!

wljslmz

物理层 网络技术 OSI模型 7月月更

7大专题详解SpringBoot,阿里这套SpringBoot全栈笔记真香

Java永远的神

Java 程序员 面试 程序人生 springboot

IntelliJ IDEA使用

GalaxyCreater

Java IDEA

基于 Web SDK 实现视频通话场景 | 声网 SDK 教程

声网

视频 SDK 教程

@Entity 里面的 JPA 注解

Damon

7月月更

GPT-4.5 发布!OpenAI 史上最大最贵也可能是最慢那个,全网都在骂大街啦_生成式 AI_Tina_InfoQ精选文章