
OpenAI 正式推出 GPT-5-Codex,这是专为处理复杂软件工程任务而优化的 GPT-5 特别版,尤其擅长大规模代码重构和长时间的代码审查工作流。这款模型为 Codex 命令行工具、IDE 插件和云环境量身打造,能够连续自主运行超过 7 小时,在没有人工干预的情况下交付可用的解决方案。它现已成 Codex 云服务的默认模型,所有使用 Codex 的开发者都可直接体验到。
GPT-5-Codex 的一大亮点是它的自适应推理能力:它能根据任务复杂程度自动调整思考时间。无论是与开发者结对编程处理小型明确的任务,还是独立执行长时间的重构工作,它都能胜任。OpenAI 指出,在聊天式交互中它的反应很快,但当遇到涉及大量文件的大型代码变更时,它也会投入更多计算资源来仔细处理。
OpenAI 内部的员工使用数据表明,该模型在分配计算资源方面效率很高。面对最简单的那 10% 的请求,GPT-5-Codex 消耗的 token 数量比 GPT-5 减少了 93.7%。相反,对于最复杂的那 10% 的请求,模型则会投入更多精力,在思考、编辑、测试和迭代环节花费的时间大约是原来的两倍。
在针对重构任务的直接评估中,GPT-5-Codex 的准确率也超越了 GPT-5。在需要对整个代码库进行系统性、多步骤修改的场景下,新模型的准确率达到了 51.3%,而 GPT-5 的准确率则为 33.9%。其中一个测试案例是来自 Gitea 代码库的一个拉取请求,需要将一个上下文变量穿透应用程序的多个层级,改动涉及 232 个文件,超过 3500 行代码。
除了重构,该模型还经过专门训练,以增强代码审查的工作流。GPT-5-Codex 能够浏览代码库、分析依赖关系、并运行测试来验证其正确性。OpenAI 的报告称,在基于热门开源代码库最新提交的评估中,GPT-5-Codex 生成的审查评论更加精准、更有价值,不仅为开发者减少了无用信息干扰,还精准突出了关键问题。
该模型通过强化学习在真实世界的编码任务上训练而成,例如从零构建完整项目、添加功能与测试、调试以及执行大规模重构等。OpenAI 表示,这种训练方式有助于让模型的行为符合常见的编码风格和拉取请求规范。它还能遵循项目根目录下 AGENTS.md
文件中定义的特定指南。
对于开发者而言,现在就可以通过 Codex 命令行工具和 IDE 插件来使用 GPT-5-Codex。OpenAI 特别推荐将其用于智能体编码的场景,而用于命令行工具集成的 API 密钥访问功能预计在后续版本中推出。
OpenAI 还分享了一些工程团队的早期使用案例。多邻国的高级软件工程师 Aaron Wang 评价道:
在我们后端的 Python 代码审查基准测试中,Codex 表现最为出色。它是唯一能揪出那些棘手的向后兼容性问题的模型,并且总能发现其他 bot 遗漏的疑难 bug。
思科 Meraki 的一位技术负责人也分享说:
我之前需要更新另一个团队负责的代码库来完成一个功能发布。借助 Codex,我把重构和生成测试的工作交给了它,自己则能专注于其他优先事项。最后它交付了高质量、经过全面测试的代码,让我能快速交差,从而确保了功能按时上线,又没有引入额外风险。
原文链接:
评论