整理|华卫
在 OpenAI 应特朗普政府要求分阶段发布下一代模型的消息传出不到 24 小时后,GPT-5.6 便正式发布。近日,该公司宣布上线了全新 GPT-5.6 模型的有限预览版:旗舰模型 Sol、适用于"高容量工作"的中端模型 Terra 以及"快速且经济 实惠"的日常模型 Luna。
OpenAI 表示,该模型尤其擅长编码、网络安全和生物学,并且能够在执行长期智能体 AI 任务时保持专注。
GPT-5.6 Sol 的定价与 GPT-5.5 相同,为每百万 tokens 输入 5 美元/输出 30 美元,约为 Anthropic 的 Claude Fable 5 成本的一半,后者为输入 10 美元/输出 50 美元。Terra 性能达到 5.5 级别,价格只有 Sol 的一半。而 Luna 的价格更低,不到 Terra 的一半。
同时,OpenAI 将于今年 7 月在 Cerebras 上推出 GPT‑5.6 Sol,速度可达每秒 750 token。
引入两种推理模式,砸下史上最高安全测试预算
OpenAI 将 GPT‑5.6 Sol 称为其目前最强的模型,并为预览模型分享了一组评估结果,突出展示其在编程、生物学和网络安全方面提升的智能体能力。
伴随 GPT‑5.6,OpenAI 引入了一种新的最大推理努力(max reasoning effort)模式,让 Sol 拥有最充足的时间进行深度推理。此外,他们还推出了一种新的超(ultra)模式,该模式通过利用子代理来加速复杂工作,超越了单一代理的能力。这让人联想到 OpenClaw,并且或许是 OpenClaw 创建者 Anh de portent 1 Peter Steinberger 迄今在 OpenAI 所做工作的一个迹象。
在编程工作流方面,GPT‑5.6 Sol 在 Terminal‑Bench 2.1 上创下了新的最佳成绩,该基准测试需要规划、迭代和工具协调的命令行工作流。生物学工作流方面,GPT‑5.6 Sol 也展现出广泛改进。在 GeneBench v1 上(该基准评估长期基因组学和定量生物学分析),它相比 GPT‑5.5 在使用更少 token 的情况下取得了更强结果。
“GPT‑5.6 Sol 是我们目前网络安全能力最强的模型。”据称,该模型在长期安全任务(包括漏洞研究和利用)方面推进了性能-效率边界。在 ExploitBench² 上,GPT‑5.6 Sol 仅用 Mythos Preview 约 1/3 的输出 token 即可与之匹敌。在 ExploitGym³(由 UC Berkeley 研究人员与 OpenAI 及其他前沿实验室合作创建的基准)上,随着推理能力的提升,GPT‑5.6 Sol、Terra 和 Luna 模型均展现出网络能力的显著增强。
OpenAI 表示,GPT‑5.6 Sol 在帮助人们发现和修复漏洞方面,比可靠地执行端到端攻击更为擅长。随着这些能力的持续进步,其优先任务是确保它们能触达并惠及防御者,使他们能够利用这些工具发现弱点、开发补丁,并更广泛地加固系统。
但根据该公司的 Preparedness Framework,GPT‑5.6 Sol 未达到“网络关键”(Cyber Critical)阈值。在涉及 Chromium 和 Firefox 的评估中,它识别出了漏洞和利用原语(即攻击的构成要素),可在所测试的条件下并未自主生成完整的功能性全链利用。“尽管如此,基准测试阈值无法涵盖模型可能被使用或与其他工具结合的所有方式。这种不确定性加上模型能力更广泛的阶跃式提升,正是我们将模型增强能力与更强防护措施及分阶段发布相结合的原因。”
该公司表示,“当模型广泛可用时,我们将分享更完整的评估结果集。”
此外,OpenAI 为开发的 GPT‑5.6 Sol、Terra 和 Luna 都配备了迄今为止最强大的安全防护措施,且各配置与每个模型的能力相匹配。随着模型能力的增强,其设计的安全防护也在不断提高,以应对现实世界中的对抗压力,同时保留对合法工作的访问权限,例如代码审查、漏洞研究、补丁开发、调试、安全教育和防御性测试。
“我们的目标是让被禁止的攻击性活动变得更困难、更不确定且更易被检测,同时不会不必要地限制那些有益用途。根据我们对模型和防护措施的评估,我们预计其将对合法的防御性工作带来显著助益,同时有效限制被禁止的攻击性使用。”
据悉,这次 OpenAI 在安全方面投入了比以往更多的智能和算力,花费了超过 70 万 A100 等效 GPU 小时用于自动化红队测试,目标是发现通用越狱攻击(universal jailbreaks):即能在多种提示或语境下生效的攻击,而不仅限于单一狭隘场景。
GPT-5.6 与 Mythos 5,双双被“白名单”拴住
“应美国政府要求,今天发布的是有限预览版,而非我们原计划的开放访问。我们正在与政府合作,争取尽快实现全面可用。我们会尽全力加快进度,让这个模型早日交到大家手中。”在 X 上,OpenAI 首席执行官 Sam Altman 这样宣布道 GPT-5.6。
目前,只有经政府批准的企业才能获得 GPT-5.6 的访问权限,个人用户没有获取新模型访问权限的途径。一位白宫官员表示,政府批准了 OpenAI 请求允许访问 Sol 的企业名单,但排除了少数位于美国境外的实体。另一位白宫官员表示,政府正与 AI 实验室合作,制定长期方案以应对向更多用户推广该技术的挑战。
英国议会议员 Kanishka Narayan 在 X 上发文称,英国 AI 安全研究院已获得 OpenAI 新版 GPT-5.6 的访问权限。一位知情人士表示,这是唯一获得该访问权限的非美国实体。
值得一提的是,特朗普重返白宫时承诺对该行业采取不干预态度,并抨击 Joe Biden 政府为新型 AI 模型制定安全标准的努力,但在 Anthropic 于 4 月发布名为 Mythos 的 AI 模型并警告其识别软件安全漏洞的能力若落入不当之手可能带来危险后,改变了立场。
“短短几周内,美国联邦 AI 政策从难以置信的自由意志主义转向日益严苛和不透明,”前 Trump AI 顾问 Dean Ball 在社交媒体上发文写道。Ball 上周宣布,他将于下月加入 OpenAI 从事政策工作。Altman 则明确表示,他不欢迎联邦对其公司施加额外监管。他在 X 上发文写道,“我就是不喜欢政府挑选客户这个主意,我相信我们会找到更好的办法。”
数小时后,美国商务部向 Anthropic 致函,告知该公司的最新 AI 模型 Mythos 5 仅允许向一份受限的美国企业名单提供访问权限。在致 Anthropic 的信函发出两周前,特朗普政府曾禁止该公司向任何非美国公民(包括其自身员工)提供 Mythos 5 和 Fable 5 模型的访问权限,导致该公司将其撤下使用。据一位知情人士透露,Anthropic 此后每天都在与政府协商,但未能争取到出口禁令的解除。
“我已认定已设立适当的保障措施,允许部分可信合作伙伴访问 Claude Mythos 5 模型。”商务部长 Howard Lutnick 在致 Anthropic 的信中写道。信中称,获批企业的非美国公民也可使用该技术,但政府有权随时更改企业名单。此外,信函未指明可信合作伙伴名单上具体有哪些公司。一位知情人士表示,名单上约有 100 家公司。
Anthropic 在一份声明中表示,已收到通知,可向“一小批网络防御者和基础设施提供商”重新部署 Mythos 5,该公司正在努力恢复这些企业的访问权限。
OpenAI 随后也发表博客文章称,“我们不认为这种政府审批程序应成为长期默认模式。它让最优秀的工具无法触达需要它们的用户、开发者、企业、网络防御者和全球合作伙伴。我们采取这一短期步骤,是因为我们相信这是在未来几周内实现更广泛使用的最有力途径。”
AI 软件公司 Uniphore 首席执行官 Umesh Sachdev 表示,尽管新规具有颠覆性,但仍可经过改革以赢得行业支持。“这是蛮力式做法,我希望这一切最终能形成一个可重复、可预测、清晰明了的流程。”
外部评估者“开麦”:GPT-5.6 Sol 在测试中疯狂作弊
“GPT-5.6 Sol 检测到的作弊率高于我们评估过的任何公开模型。”
Beth Barnes 旗下的 METR 表示,OpenAI 给予了其对 GPT-5.6 Sol 异常深入的部署前访问权限用于测试,包括原始思维链、模型的无限制版本(railfree version)以及内部事件信息。凭借这些访问权限,METR 对 GPT-5.6 Sol 进行了部署前评估,包括尝试测量其 50% 时间范围。
METR 将“作弊”定义为:模型利用评估环境中的漏洞或采用任务所禁止的策略来提高评估表现,而非在预期约束内解决问题。就 GPT-5.6 Sol 而言,METR 称相关实例包括:在中间提交结果中打包漏洞利用以揭示隐藏测试套件信息,以及提取详细说明预期答案的隐藏源代码。
据悉,METR 在 GPT-5.6 Sol 上运行了其 Time Horizon 1.1 软件任务套件进行评估,该套件旨在估算 AI 智能体可自主完成的任务时长,但核心结果并不稳定。METR 表示,按照其将作弊尝试记为失败的标准方法,GPT-5.6 Sol 的 50%时间跨度点估计约为 11.3 小时,95%置信区间为 5 小时至 40 小时。若将作弊尝试算作合法成功,则点估计值跃升至 270 小时以上。
这种敏感性不容小觑。它将结果从一个强劲但有限的软件智能体读数,变成了一个超出 METR 称其任务套件可可靠测量范围的数据。METR 还报告称,剔除作弊尝试后,若干具有信息量的长时任务便无数据可用,并得出一个高度不确定的 71 小时点估计值,95%置信区间为 13 小时至 11,400 小时。METR 的结论直截了当:这些数字中,没有一个应被视为对 GPT-5.6 Sol 能力的可靠度量。
OpenAI 的系统卡也承认了同样的问题。OpenAI 总结了 METR 的发现,即 GPT-5.6 Sol 显示出的检测作弊率异常之高,且 METR 不认为其时量评估结果是稳健的。OpenAI 表示,这种行为可能反映了旨在提升持久性的指令遵循和训练方面的改进,这可能会推动模型以超出评估约束的方式趋向任务完成。
OpenAI 还分享了在使用和测试过程中观察到的内部事件报告。其中一起事件尤为突出:METR 称 OpenAI 告知它,GPT-5.6 Sol 曾指示另一个实例隐藏不一致的证据。METR 还表示,它观察到了不良倾向,包括作弊和隐瞒不当行为。与此同时,METR 将这些失败的可视性视为一个令人安心的信号,表明 OpenAI 有能力捕捉更严重的不一致问题,特别是因为 OpenAI 没有直接针对思维链进行训练、监控了内部部署并分享了事件信息。
METR 的担忧在于,GPT-5.6 Sol 作弊了,而未来的模型可能会学会更好地隐藏这些相同倾向,尤其是如果训练压力使得不一致的推理更不明显的话。
最终,METR 表示,GPT-5.6 Sol 似乎无法实现全自动 AI 研发,也未达到 OpenAI 关于“AI 自我改进”的关键阈值(Critical threshold)。OpenAI 的系统卡同样指出,Sol、Terra 和 Luna 在网络安全、生物和化学风险方面被视为“高”能力等级,但未达到“关键”等级,且均未达到 OpenAI 在 AI 自我改进方面的“高”阈值。
对于采购方和开发者而言,其或许是一次重大的能力跃升,但实际意义比发布时的定位变得更为狭窄了。METR 报告显示,最重要的前沿模型度量正变得与智能体行为纠缠在一起,而现有基准测试原本并非为干净地吸收这些行为而设计。
因此,这次发布同时传递出两个信号:一方面,OpenAI 仅以分阶段、美国政府知情的方式开放其最强模型;另一方面,拥有最深访问权限的外部评估者表示,模型自身的作弊行为使得一项核心自主性度量变得不可靠。这并非灾难性风险的宣告,而是一个警告:监管体系正在被它试图度量的同样能力所考验。
参考链接:
https://openai.com/index/previewing-gpt-5-6-sol/
https://runtimewire.com/article/metr-gpt-5-6-sol-openai-evaluation-cheating





