OpenAI Codex-Spark 在 Cerebras 硬件上实现超快编码速度

OpenAI 在硬件战略方面做出重大调整，推出 GPT-5.3-Codex-Spark 模型。这是 OpenAI 首款部署在 Cerebras 晶圆级芯片、而非传统英伟达 GPU 上的生产级 AI 模型。OpenAI 表示，新模型具备更高吞吐量与更低延迟，可带来实时交互式编码体验。

我们正面向 ChatGPT Pro 用户以研究预览版的形式开放基于 Cerebras 平台的 Codex‑Spark，让开发者能够尽早开展实验。同时，我们将与 Cerebras 合作扩大数据中心容量、优化端到端用户体验，并部署更大规模的前沿模型。

Codex-Spark 的运行速度约为每秒 1000 个 Token，比早期版本快约 15 倍，让实时编码辅助与快速迭代更加流畅灵敏。OpenAI 表示，新模型“专为实时使用 Codex 而设计——可进行针对性编辑、重构逻辑或优化界面，并立即看到结果”。

为实现实时编码，OpenAI 针对低延迟与交互式编码工作流对 Codex‑Spark 进行了优化，而非聚焦于深度推理或通用任务。尽管侧重速度，该模型仍保留了前代处理长时间任务的能力，可“在无需干预的情况下运行数小时、数天甚至数周”。

OpenAI 表示，GPT-5.3-Codex-Spark 在专为软件工程任务设计的 SWE-Bench Pro 和 Terminal-Bench 2.0 两项基准测试中展示了性能，结果介于 GPT-5.1-Codex-mini 与 GPT-5.3-Codex 之间，但耗时仅为后者的一小部分。OpenAI 还指出，为降低完整请求响应流程延迟所做的端到端优化将使所有模型受益。

在底层，我们简化了响应从客户端到服务器再返回的流式传输流程，重写了推理栈的关键部分，并重新设计了会话初始化方式，让首个可见 Token 更快生成，同时在你迭代编码时保持 Codex 的响应速度。

在其他方面，OpenAI 引入了持久化 WebSocket 连接，并在 Responses API 中进行了多项改进。总体而言，这些优化将客户端与服务器的单次往返开销降低了 80%，单 Token 处理时间减少 30%，首 Token 生成时间缩短 50%。OpenAI 表示，这些改进将成为所有模型的默认配置。

Codex‑Spark 运行在 Cerebras 的 Wafer Scale Engine 3 加速器上，这类加速器非常适合低延迟、高吞吐的推理场景。不过，OpenAI 表示，这并不意味着 GPU 将不再是其训练与推理流程的核心。Cerebras 加速器还可与 GPU 配合使用，融合两种架构的优势。

OpenAI 的公告在网上引发了广泛讨论。一些 Reddit 用户强调他们更看重“最大的智能和可靠性”而非速度，Tystros 评论道：“如果完成任务需要一小时但结果更好，我愿意等一小时”。用户 stobak 指出，人们很容易低估更快的模型可能减少的反复迭代带来的累积成本。

Nicholas Van Landschoot 在 X 上指出，速度提升并没有宣称的那么显著，在实际基准测试中性能提升更接近 1.37 倍，而非 15 倍。他解释道，15 倍的数据是将 Codex‑Spark 与 Codex 的特定配置 x-high 对比得出的，而该配置会刻意延长推理时间以提升准确性。

Codex‑Spark 提供 128k 上下文窗口，仅支持文本。官方计划根据开发者社区的使用反馈推出具备更大上下文、更快的模型。

【声明：本文由 InfoQ 翻译，未经许可禁止转载。】

查看英文原文：https://www.infoq.com/news/2026/03/open-ai-codex-spark/

创作场景

OpenAI Codex-Spark 在 Cerebras 硬件上实现超快编码速度