10 月 23 - 25 日,QCon 上海站即将召开,9折优惠最后1天 了解详情
写点什么

OpenAI 的 GPT-5 首次亮相,成本商品化,审查更严格

作者:Andrew Hoblitzell

  • 2025-08-14
    北京
  • 本文字数:1601 字

    阅读完需:约 5 分钟

大小:842.00K时长:04:47
OpenAI的GPT-5首次亮相,成本商品化,审查更严格

2025 年 8 月 7 日,公司向 ChatGPT 用户和API推出了GPT-5,配备了一个决定何时“思考”更长时间的路由器,新的模型尺寸,以及针对生产使用的定价。产品页面还为新产品系列宣传了具有 128K 最大输出 token 的 400K token 上下文。

 


OpenAI 提供了条形图,旨在说明 GPT-5 在欺骗和基准性能上的改进,但它们在视觉上与它们所显示的数字相矛盾。一个标记为“编码欺骗”的图表显示,GPT-5(带思考)的比例为 50%,但描述它的条形图明显比 OpenAI 的 o3 的 47.4%要短,尽管后来在博客文章中将 GPT-5 的书面数字更正为 16.5%。在另一张幻灯片中,69.1%和 30.8%的数值被绘制成等高的条形图,而 52.8%的数字看起来更高,这颠倒了预期的排名,误导了观众。

 

该公司的 API 表面已经围绕响应API进行了整合。它在 3 月推出并在 5 月进行扩展,是“代理式”应用程序的主要原语,结合了多模态提示和内置工具。OpenAI 的更新细节是通过单个请求直接访问图像生成、代码解释器、改进的文件搜索和远程模型上下文协议(MCP)服务器。它还为长时间运行的任务、推理摘要和加密的推理项目添加了后台模式。

 

OpenAI 声称,对于更广泛的 ML 工程任务,如MLE-Bench和类似 Kaggle 风格的 GPU 工作负载,ChatGPT 智能体(路由产品系统)在一个策划子集上以 9%的铜牌通过率得分最高。在SWE-Lancer上,它由端到端、E2E 测试的全栈任务组成,ChatGPT 智能体也同样是表现最好的。这些结果表明,GPT-5 的推理模型在以代码为中心的调试和复制方面最强,而路由代理在长期、多技能工作负载方面表现更好。

 

通过立即向所有人开放 GPT-5,OpenAI 锁定了巨大的网络效应。新用户蜂拥而至,老用户也在不断升级,ChatGPT 的市场吸引力也在不断增强。他们将花费更多以服务他们最强大的模型的使用。GPT-5 的定价为每百万输入 token 1.25 美元,每百万输出 token 10 美元,大约是 GPT-4o 输入成本的一半。好消息是,将 ChatGPT 整合到日常生活中的新用户数量还会继续增长。——Reid Hoffman

 

根据 OpenAI 的说法,模型的可靠性也得到了实质性的提高。与开放式事实集(如LongFactFActScore)相比,GPT-5 模型显示出比 OpenAI o3 和先前基线更低的幻觉率,在三个基准的浏览和非浏览设置中,gpt-5-thinking 产生的事实错误都减少了五倍以上。METR的自主性审查得出结论,GPT-5 不太可能将 AI 研发增加十倍,进行战略性保留,或实现流氓复制。观测到的 50 分位时间范围大约是 2 小时 15 分钟。

 


结构化输出已经成熟。OpenAI 的食谱显示了展示了使用单个标志严格执行 JSON 模式,这使得在不使用事后验证器和脆弱的正则表达式回退的情况下,为下游系统保证形状成为现实。这与使用工具时的函数调用很好地结合在一起,并减少了提取、丰富和集成管道中的胶水代码。

 

对于构建智能体工作流的团队来说,周围生态系统的重要性与基础模型一样重要。OpenAI 的Agents SDK提供了编排和跟踪,并且它使用 MCP 将模型连接到托管在远程服务器上的工具,如 CRM、支付或支持系统。因为 MCP 是一个开放协议,你可以在不重写每个集成的情况下,标准化跨供应商的工具访问或交换模型。这对于可移植性规划和控制长期的转换成本非常重要。

 

“在许多方面取得了良好进展,但仍只是群体中的一员,并未实现巨大飞跃……关于实际性能,仍有许多问题待解,显然还未达到通用人工智能(AGI)的水平。”——Gary Marcus

 

自 GPT-5 推出以来,Reddit 上的用户反应一直起伏不定。r/ChatGPT上的帖子表达了对感知到的语气变化、更严格的速率限制和旧模型被移除的失望。标题为“GPT5 太可怕了”和“GPT-5 发布”的帖子引起了激烈的讨论。科技媒体汇总了这些反馈,并报道称,在遭到强烈反对后,OpenAI 恢复了 GPT-4o 作为选项。对于那些针对 ChatGPT 运行时进行部署的团队来说,这一事件提醒他们要监测用户情绪渠道,为模型路由保留功能标志,,并在推出计划中规划可逆性。

 

想要了解更多的开发人员可以参考 GPT-5系统卡,并在 InfoQ 上关注其他最近的 OpenAI报道

 

原文链接:

https://www.infoq.com/news/2025/08/openai-gpt5-release/

2025-08-14 14:007264

评论

发布
暂无评论

IoTDB 可实现的基本操作 : 数据导入、基本查询、聚合查询 | 小白教程文档(三)

Apache IoTDB

国产时序数据库

IoTDB 可实现的基本操作 —— 数据写入、删除、导出、元数据管理、时区设置 | 小白教程文档(四)

Apache IoTDB

时序数据库 国产数据库

Databend v0.9.0 版本发布

Databend

技术型创业公司如何把握发展与管理的节奏感?

石云升

极客时间 1月月更 技术领导力实战笔记

一次偶然机会发现的MySQL“负优化”

骑牛上青山

MySQL 数据库 索引

Volcano 社区 v1.7.0 版本正式发布 | 云原生批量计算

华为云开发者联盟

云计算 云原生 华为云 Volcano 企业号 1 月 PK 榜

适配 Laravel 多版本的开源项目版本号规划

ModStart

企业内部沟通,即时通讯软件要怎么选?

BeeWorks

理想问鼎销冠,数据库能帮助新能源车企赢得下半场么?

YMatrix 超融合数据库

案例分享 新能源汽车 造车新势力 超融合数据库 YMatrix

来自掘金和 InfoQ 的“新年礼物”,时序数据库 TDengine 荣登两大知名技术社区重磅榜单

TDengine

数据库 tdengine 时序数据库

【提升团队运营效率】交易履约之订单中心实践

京东科技开发者

平台搭建 平台赋能 数智创新 效能提升 企业号 1 月 PK 榜

服务网格领域的百花齐放,是否存在一个更优解?

API7.ai 技术团队

Service Mesh 服务网格 APISIX

Cloud Kernel SIG月度动态:建立社区第三方驱动研发流程、发布ANCK 4.19-027版本 | 龙蜥 SIG

OpenAnolis小助手

内核 龙蜥社区 sig 版本发布 anck

华为云云原生数据库:A Philosophy about “less”

华为云开发者联盟

数据库 后端 华为云 企业号 1 月 PK 榜

华为云GaussDB(for MySQL)通过中国信通院“可信数据库”评测

华为云开发者联盟

数据库 后端 华为云 企业号 1 月 PK 榜

被面试官问住了,MySQL两阶段提交是什么鬼?

程序员拾山

MySQL 面试

MySQL性能优化浅析及线上案例

京东科技开发者

MySQL 性能优化 索引性能 数据库· 企业号 1 月 PK 榜

Sealer 0.9 :帮助集群和分布式应用实现 Build、 Share、Run

阿里巴巴云原生

阿里云 开源 云原生 sealer

致 Tapdata 开源贡献者:聊聊 2022 年的进展和新一年的共建计划

tapdata

maven pom 中有用的两个配置

JefferLiu

玖章算术CEO叶正盛:程序员必须掌握的数据库原理

NineData

数据库 程序员 开发 dba 数据库技术

TDengine 时序数据特色查询语法详解,助力时序场景下的应用开发

TDengine

数据库 tdengine 时序数据库

阅文加入 OpenCloudOS 操作系统社区,作为成员单位参与社区共建

OpenCloudOS

Linux

北邮一号卫星搭载 IoTDB 成功发射!高效轻量数据管理,助力航天观测分析

Apache IoTDB

数据库 时序数据库 国产数据库

OpenHarmony如何切换横竖屏?

OpenHarmony开发者

OpenHarmony

一个 go-sql-driver 的离奇 bug

SOFAStack

特定领域知识图谱(DKG)融合方案:技术知识前置【一】-文本匹配算法、知识融合学术界方案、知识融合业界落地方案、算法测评KG生产质量保障

汀丶人工智能

自然语言处理 知识图谱 实体对齐

WorkPlus移动办公平台,助力企业随时随地“指尖办公”

BeeWorks

利用 IoTDB 替换 Druid.io 服务太极股份电厂、军工制造类项目,采集精度达纳秒级

Apache IoTDB

时序数据库 国产数据库

为什么MySQL数据删除了一半,表文件体积却没变小?

程序员拾山

MySQL

OpenAI的GPT-5首次亮相,成本商品化,审查更严格_AI&大模型_InfoQ精选文章