OpenAI 在硬件战略方面做出重大调整,推出 GPT-5.3-Codex-Spark 模型。这是 OpenAI 首款部署在 Cerebras 晶圆级芯片、而非传统英伟达 GPU 上的生产级 AI 模型。OpenAI 表示,新模型具备更高吞吐量与更低延迟,可带来实时交互式编码体验。
我们正面向 ChatGPT Pro 用户以研究预览版的形式开放基于 Cerebras 平台的 Codex‑Spark,让开发者能够尽早开展实验。同时,我们将与 Cerebras 合作扩大数据中心容量、优化端到端用户体验,并部署更大规模的前沿模型。
Codex-Spark 的运行速度约为每秒 1000 个 Token,比早期版本快约 15 倍,让实时编码辅助与快速迭代更加流畅灵敏。OpenAI 表示,新模型“专为实时使用 Codex 而设计——可进行针对性编辑、重构逻辑或优化界面,并立即看到结果”。
为实现实时编码,OpenAI 针对低延迟与交互式编码工作流对 Codex‑Spark 进行了优化,而非聚焦于深度推理或通用任务。尽管侧重速度,该模型仍保留了前代处理长时间任务的能力,可“在无需干预的情况下运行数小时、数天甚至数周”。
OpenAI 表示,GPT-5.3-Codex-Spark 在专为软件工程任务设计的 SWE-Bench Pro 和 Terminal-Bench 2.0 两项基准测试中展示了性能,结果介于 GPT-5.1-Codex-mini 与 GPT-5.3-Codex 之间,但耗时仅为后者的一小部分。OpenAI 还指出,为降低完整请求响应流程延迟所做的端到端优化将使所有模型受益。
在底层,我们简化了响应从客户端到服务器再返回的流式传输流程,重写了推理栈的关键部分,并重新设计了会话初始化方式,让首个可见 Token 更快生成,同时在你迭代编码时保持 Codex 的响应速度。
在其他方面,OpenAI 引入了持久化 WebSocket 连接,并在 Responses API 中进行了多项改进。总体而言,这些优化将客户端与服务器的单次往返开销降低了 80%,单 Token 处理时间减少 30%,首 Token 生成时间缩短 50%。OpenAI 表示,这些改进将成为所有模型的默认配置。
Codex‑Spark 运行在 Cerebras 的 Wafer Scale Engine 3 加速器上,这类加速器非常适合低延迟、高吞吐的推理场景。不过,OpenAI 表示,这并不意味着 GPU 将不再是其训练与推理流程的核心。Cerebras 加速器还可与 GPU 配合使用,融合两种架构的优势。
OpenAI 的公告在网上引发了广泛讨论。一些 Reddit 用户强调他们更看重“最大的智能和可靠性”而非速度,Tystros 评论道:“如果完成任务需要一小时但结果更好,我愿意等一小时”。用户 stobak 指出,人们很容易低估更快的模型可能减少的反复迭代带来的累积成本。
Nicholas Van Landschoot 在 X 上指出,速度提升并没有宣称的那么显著,在实际基准测试中性能提升更接近 1.37 倍,而非 15 倍。他解释道,15 倍的数据是将 Codex‑Spark 与 Codex 的特定配置 x-high 对比得出的,而该配置会刻意延长推理时间以提升准确性。
Codex‑Spark 提供 128k 上下文窗口,仅支持文本。官方计划根据开发者社区的使用反馈推出具备更大上下文、更快的模型。
【声明:本文由 InfoQ 翻译,未经许可禁止转载。】
查看英文原文:https://www.infoq.com/news/2026/03/open-ai-codex-spark/





