OpenAI深夜祭出GPT-5，所有人能免费用！Altman：像和博士级专家对话

GPT-5 震撼发布，就像和博士级专家对话

北京时间 8 月 8 日凌晨 1 点，OpenAI 公司在其举办的线上发布会上宣布正式推出 GPT-5 模型。

与之前发布会的风格略有不同，本次发布会一开始 OpenAI CEO 山姆・奥尔特曼（Sam Altman）就率先出场宣布了 OpenAI 已开始向所有 ChatGPT 用户推出其旗舰语言模型的最新迭代版本 ——GPT-5，并表示这是迈向通用人工智能（AGI）的重要一步。

尽管他并未声称该模型已达到通用人工智能水平，但 Altman 指出，这个最新版本 “显然是一个具备通用智能的模型”。他补充道，GPT-5 仍缺少实现通用人工智能所需的关键特质。通用人工智能在 OpenAI 的章程中被定义为 “一个高度自主的系统，在大多数具有经济价值的工作中表现优于人类”，这一术语的定义相对宽泛。例如，该模型在部署后仍不具备持续学习的能力。

OpenAI 宣称，GPT-5 比前代模型更智能、更快、更实用、更准确，幻觉率（即生成虚假信息的概率）也更低。该公司表示，在开发 GPT-5 的过程中，他们还进行了广泛的安全评估，包括 5000 小时的测试。

OpenAI 后期培训负责人 Michelle Pokrass 在发布会上表示：“GPT-5 经过训练可以识别何时无法完成任务，避免猜测，并能更清楚地解释局限性，与之前的模型相比，这减少了不受支持的声明。”

Altman 用典型的高调表述将 GPT-4 到 GPT-5 的飞跃比作 iPhone 从像素显示到视网膜显示屏的转变。他说：“GPT-5 是第一次真正让人感觉在和任何领域的专家交谈，就像在和博士级别的专家对话一样。”

作为本次发布内容的一部分，OpenAI 推出了两款新的模型版本：轻量型的 GPT-5-mini，以及速度更快、成本更低的 GPT-5-nano（仅通过 API 提供）。

据 OpenAI 介绍，免费用户将可使用 GPT-5 和 GPT-5-mini，而 Plus 订阅用户除了能使用这些模型外，还享有 “显著更高” 的使用限额。

OpenAI 表示，每月 200 美元的 Pro 套餐提供 GPT-5 的无限次访问权限，还包含更强大的 GPT-5-pro 版本，以及能让模型处理查询时间比常规更长的 GPT-5-thinking。Pro 用户仍可访问旧版模型。大多数用户不再需要在不同模型之间手动选择，因为聊天界面现在会根据查询的复杂程度和用户的订阅等级自动匹配最合适的版本。

根据开发者发布博客，使用 API 的开发者调用 GPT-5 时，输入 tokens 费用为 125 美元 / 百万，输出 tokens 费用为 10 美元 / 百万。

博客中还提到：“GPT-5 mini 的定价为输入 tokens 0.25 美元 / 百万，输出 tokens 2 美元 / 百万；GPT-5 nano 的定价为输入 tokens 0.05 美元 / 百万，输出 tokens 0.40 美元 / 百万。” 相比之下，开发者过去常使用 Gemini 2.5 Flash 和 Flash-Lite，因为它们价格低廉，而现在 GPT-5 nano 的价格更低。

从下周开始，Pro 用户将能够把他们的 Gmail、谷歌联系人及谷歌日历连接到 ChatGPT，其他等级用户的接入时间尚未确定。该公司在一封邮件中表示：“ChatGPT 会自动判断何时需要参考这些内容，因此用户在聊天前无需手动选择。”

用户还可以选择聊天界面的颜色，并从四种预设人格中挑选 ——“愤世嫉俗者”“机器人”“倾听者” 和 “书呆子”。根据 OpenAI 的博客公告，该公司计划将这些人格融入高级语音模式中。

OpenAI 的 API 将为用户提供这三款模型，并附带可选控制功能，可在详细回应和直接回应之间切换。

GPT-5 比前代模型能保留更多信息 —— 它拥有 256,000 tokens 的上下文窗口，比该公司之前 o3 模型的 200,000 tokens 有所提升。这意味着它能更好地理解长对话、长文档或代码，而不会丢失上下文信息。

多项测试击败前代模型，在健康领域能力最突出

OpenAI 在博客中称，GPT-5 在多项编程基准测试中超过了前代模型，包括 SWE-Bench Verified（得分 74.9%）、SWE-Lancer（GPT-5-thinking 得分 55%）和 Aider Polyglot（得分 88%）。这些测试旨在评估模型修复漏洞、完成自由职业风格编程任务以及跨多种编程语言工作的能力。

性能提升不只是表现在基准测试上，后训练负责人 Michelle Pokrass 表示：“它是出色的编程合作伙伴，在智能代理类任务中也表现出色。它能有效执行长链条任务和工具调用（这意味着它更清楚何时以及如何使用网页浏览器或外部 API 等功能），遵循详细指令，并对自身行为提供清晰的前期解释。”

他们演示了如何将 GPT-5 用于“氛围编码”，这是指用户根据简单的书面提示使用 AI 生成软件。

在发布会现场，OpenAI 的后训练负责人 Yann Dubois 让 GPT-5“为我的伴侣（一位英语使用者）创建一个美观、高度交互的法语学习网页应用”。

Yann Dubois 要求 AI 包含每日进度记录、闪卡和测验等多种活动，并希望应用采用 “极具吸引力的主题”。大约一分钟后，AI 生成的应用程序就呈现出来了。虽然这只是一个预设流程的演示，但结果是一个简洁的网站，完全满足了 Yann Dubois 的要求。

OpenAI 的一位负责人表示，这些应用程序“存在一些缺陷”，但用户可以根据自己的需要对 AI 生成的软件进行额外的调整，例如更改背景或添加额外的标签。

OpenAI 在博客中还提到，GPT-5 是 “我们目前在健康相关问题上表现最佳的模型”。系统卡片（一份描述产品技术能力和其他研究成果的文档）显示，在三项 OpenAI 健康相关大语言模型基准测试 ——HealthBench、HealthBench Hard 和 HealthBench Consensus 中，GPT-5-thinking “大幅” 超过了前代模型。GPT-5-thinking 在 HealthBench Hard 中得分 25.5%，高于 o3 模型的 31.6%。系统卡片称，这些分数经过了两名或更多医生的验证。

Pokrass 表示，该模型的幻觉问题（即 AI 提供虚假信息这一常见问题）也有所减少。

该公司的博客显示，在测试未接入网页浏览功能的 GPT-5 模型时，研究人员发现其幻觉率（他们将其定义为 “包含轻微或重大错误的事实性陈述的百分比”）比 GPT-4o 模型低 26%。与 o3 模型相比，GPT-5-thinking 的幻觉率降低了 65%。

OpenAI 表示，目前 ChatGPT 的周活跃用户近 7 亿，付费企业用户 500 万，使用其 API 的开发者达 400 万。

ChatGPT 负责人尼克・特利说：“这个模型给人的感觉非常好，我认为人们会真切地感受到这一点，尤其是那些平时不关注模型技术的普通用户。”