写点什么

OpenAI 的 GPT-5 首次亮相,成本商品化,审查更严格

作者:Andrew Hoblitzell

  • 2025-08-14
    北京
  • 本文字数:1601 字

    阅读完需:约 5 分钟

大小:842.00K时长:04:47
OpenAI的GPT-5首次亮相,成本商品化,审查更严格

2025 年 8 月 7 日,公司向 ChatGPT 用户和API推出了GPT-5,配备了一个决定何时“思考”更长时间的路由器,新的模型尺寸,以及针对生产使用的定价。产品页面还为新产品系列宣传了具有 128K 最大输出 token 的 400K token 上下文。

 


OpenAI 提供了条形图,旨在说明 GPT-5 在欺骗和基准性能上的改进,但它们在视觉上与它们所显示的数字相矛盾。一个标记为“编码欺骗”的图表显示,GPT-5(带思考)的比例为 50%,但描述它的条形图明显比 OpenAI 的 o3 的 47.4%要短,尽管后来在博客文章中将 GPT-5 的书面数字更正为 16.5%。在另一张幻灯片中,69.1%和 30.8%的数值被绘制成等高的条形图,而 52.8%的数字看起来更高,这颠倒了预期的排名,误导了观众。

 

该公司的 API 表面已经围绕响应API进行了整合。它在 3 月推出并在 5 月进行扩展,是“代理式”应用程序的主要原语,结合了多模态提示和内置工具。OpenAI 的更新细节是通过单个请求直接访问图像生成、代码解释器、改进的文件搜索和远程模型上下文协议(MCP)服务器。它还为长时间运行的任务、推理摘要和加密的推理项目添加了后台模式。

 

OpenAI 声称,对于更广泛的 ML 工程任务,如MLE-Bench和类似 Kaggle 风格的 GPU 工作负载,ChatGPT 智能体(路由产品系统)在一个策划子集上以 9%的铜牌通过率得分最高。在SWE-Lancer上,它由端到端、E2E 测试的全栈任务组成,ChatGPT 智能体也同样是表现最好的。这些结果表明,GPT-5 的推理模型在以代码为中心的调试和复制方面最强,而路由代理在长期、多技能工作负载方面表现更好。

 

通过立即向所有人开放 GPT-5,OpenAI 锁定了巨大的网络效应。新用户蜂拥而至,老用户也在不断升级,ChatGPT 的市场吸引力也在不断增强。他们将花费更多以服务他们最强大的模型的使用。GPT-5 的定价为每百万输入 token 1.25 美元,每百万输出 token 10 美元,大约是 GPT-4o 输入成本的一半。好消息是,将 ChatGPT 整合到日常生活中的新用户数量还会继续增长。——Reid Hoffman

 

根据 OpenAI 的说法,模型的可靠性也得到了实质性的提高。与开放式事实集(如LongFactFActScore)相比,GPT-5 模型显示出比 OpenAI o3 和先前基线更低的幻觉率,在三个基准的浏览和非浏览设置中,gpt-5-thinking 产生的事实错误都减少了五倍以上。METR的自主性审查得出结论,GPT-5 不太可能将 AI 研发增加十倍,进行战略性保留,或实现流氓复制。观测到的 50 分位时间范围大约是 2 小时 15 分钟。

 


结构化输出已经成熟。OpenAI 的食谱显示了展示了使用单个标志严格执行 JSON 模式,这使得在不使用事后验证器和脆弱的正则表达式回退的情况下,为下游系统保证形状成为现实。这与使用工具时的函数调用很好地结合在一起,并减少了提取、丰富和集成管道中的胶水代码。

 

对于构建智能体工作流的团队来说,周围生态系统的重要性与基础模型一样重要。OpenAI 的Agents SDK提供了编排和跟踪,并且它使用 MCP 将模型连接到托管在远程服务器上的工具,如 CRM、支付或支持系统。因为 MCP 是一个开放协议,你可以在不重写每个集成的情况下,标准化跨供应商的工具访问或交换模型。这对于可移植性规划和控制长期的转换成本非常重要。

 

“在许多方面取得了良好进展,但仍只是群体中的一员,并未实现巨大飞跃……关于实际性能,仍有许多问题待解,显然还未达到通用人工智能(AGI)的水平。”——Gary Marcus

 

自 GPT-5 推出以来,Reddit 上的用户反应一直起伏不定。r/ChatGPT上的帖子表达了对感知到的语气变化、更严格的速率限制和旧模型被移除的失望。标题为“GPT5 太可怕了”和“GPT-5 发布”的帖子引起了激烈的讨论。科技媒体汇总了这些反馈,并报道称,在遭到强烈反对后,OpenAI 恢复了 GPT-4o 作为选项。对于那些针对 ChatGPT 运行时进行部署的团队来说,这一事件提醒他们要监测用户情绪渠道,为模型路由保留功能标志,,并在推出计划中规划可逆性。

 

想要了解更多的开发人员可以参考 GPT-5系统卡,并在 InfoQ 上关注其他最近的 OpenAI报道

 

原文链接:

https://www.infoq.com/news/2025/08/openai-gpt5-release/

2025-08-14 14:001

评论

发布
暂无评论

智慧公厕:未来城市的必备设施

光明源智慧厕所

物联网 智慧城市

ShareSDK iOS端如何实现微信分享链接与登录

MobTech袤博科技

龙蜥白皮书精选:敏捷开发场景下的调度器热升级 SDK

OpenAnolis小助手

敏捷开发 sdk 白皮书 调度器 龙蜥社区

任务卷轴模式系统开发NFT技术

薇電13242772558

系统

如何高效搭建资产管理平台?众安科技告诉你答案是图技术

NebulaGraph

图数据库

百图生科AIGP平台发布:提供多种蛋白质生成能力,邀伙伴联手开发“新物种”

硬科技星球

游戏版《西部世界》来了!NPC全由AI操控,行动自如有理想和记忆,基于最新GAEA技术系统打造

Openlab_cosmoplat

AI 游戏 开源社区

就在明天!用友企业数智化财务峰会落地广州,聚焦实现业财合一新价值

用友BIP

git客户端软件:Sublime Merge 激活版

真大的脸盆

Mac Mac 软件 Git客户端

两项大奖加持,浩鲸科技福利小店-WHALE SELECT

鲸品堂

福利 平台 平台搭建 企业号 3 月 PK 榜

山东大学-飞桨人工智能教育创新中心正式挂牌,打造区域产教融合新范式

飞桨PaddlePaddle

百度安全助力小度智能屏通过中国泰尔实验室适老化技术测试认定

百度安全

智能硬件

设计师的魔法:让你的冰冷设备即刻变成迪士尼

鼎道智联

设计 动效设计

【iOS逆向与安全】利用IDAPython插件提高反汇编和逆向工程效率

小陈

安全 逆向 iOS逆向 ios安全 逆向分析

经过小折腾,可算是把 Code Coverage API 用上了

HoneyMoose

华为昇思MindSpore开源社区三周年生日会,三大亮点不容错过!

极客天地

永洪BI、瓴羊Quick BI领衔国产BI工具

巷子

MobTech|如何选择应用内广告SDK产品

MobTech袤博科技

阿里云高级技术专家林立翔:基于阿里云弹性GPU服务的神龙AI加速引擎,无缝提升AI训练性能

云布道师

阿里云 AI

解决90%面试问题!GitHub顶级"Java面试手册"了解下八股文天花板

三十而立

Java java面试

低代码开发:助力企业高效实现数字转型的一大利器

加入高科技仿生人

大数据 低代码 数字化 数字转型

关于 MyBatis 我总结了 10 种通用的写法

三十而立

Java mybatis

币安/欧意合约自动跟单软件开发源代码

开发v-hkkf5566

TitanIDE:云原生开发到底强在哪里?

行云创新

ide 云原生 云开发

用AI回忆起曾被忘却的语言

白洞计划

AI

面试造火箭?GitHub飙升“2023(Java 岗)面试真题汇总”转载40万

三十而立

Java java面试

模型驱动软件开发 打造企业数字化未来

力软低代码开发平台

从GPT-4、文心一言再到Copilot,AIGC卷出新赛道?

引迈信息

微软 AIGC 文心一言 GPT-4

VisBug:助力前端开发的浏览器插件

南城FE

CSS 效率工具 前端 浏览器 插件

黄牛党“屯购”OPPO Find X6 无感验证护航官方商城安全

极客天地

OpenAI的GPT-5首次亮相,成本商品化,审查更严格_AI&大模型_InfoQ精选文章