写点什么

OpenAI 发布 GPT-5-Codex:专注复杂代码重构与代码评审优化

作者:Hien Luu

  • 2025-09-29
    北京
  • 本文字数:1221 字

    阅读完需:约 4 分钟

大小:631.70K时长:03:35
OpenAI 发布 GPT-5-Codex:专注复杂代码重构与代码评审优化

OpenAI 正式推出 GPT-5-Codex,这是专为处理复杂软件工程任务而优化的 GPT-5 特别版,尤其擅长大规模代码重构和长时间的代码审查工作流。这款模型为 Codex 命令行工具、IDE 插件和云环境量身打造,能够连续自主运行超过 7 小时,在没有人工干预的情况下交付可用的解决方案。它现已成 Codex 云服务的默认模型,所有使用 Codex 的开发者都可直接体验到。

 

GPT-5-Codex 的一大亮点是它的自适应推理能力:它能根据任务复杂程度自动调整思考时间。无论是与开发者结对编程处理小型明确的任务,还是独立执行长时间的重构工作,它都能胜任。OpenAI 指出,在聊天式交互中它的反应很快,但当遇到涉及大量文件的大型代码变更时,它也会投入更多计算资源来仔细处理。

 

OpenAI 内部的员工使用数据表明,该模型在分配计算资源方面效率很高。面对最简单的那 10% 的请求,GPT-5-Codex 消耗的 token 数量比 GPT-5 减少了 93.7%。相反,对于最复杂的那 10% 的请求,模型则会投入更多精力,在思考、编辑、测试和迭代环节花费的时间大约是原来的两倍。

 

在针对重构任务的直接评估中,GPT-5-Codex 的准确率也超越了 GPT-5。在需要对整个代码库进行系统性、多步骤修改的场景下,新模型的准确率达到了 51.3%,而 GPT-5 的准确率则为 33.9%。其中一个测试案例是来自 Gitea 代码库的一个拉取请求,需要将一个上下文变量穿透应用程序的多个层级,改动涉及 232 个文件,超过 3500 行代码。

 

除了重构,该模型还经过专门训练,以增强代码审查的工作流。GPT-5-Codex 能够浏览代码库、分析依赖关系、并运行测试来验证其正确性。OpenAI 的报告称,在基于热门开源代码库最新提交的评估中,GPT-5-Codex 生成的审查评论更加精准、更有价值,不仅为开发者减少了无用信息干扰,还精准突出了关键问题。

 

该模型通过强化学习在真实世界的编码任务上训练而成,例如从零构建完整项目、添加功能与测试、调试以及执行大规模重构等。OpenAI 表示,这种训练方式有助于让模型的行为符合常见的编码风格和拉取请求规范。它还能遵循项目根目录下 AGENTS.md 文件中定义的特定指南。

 

对于开发者而言,现在就可以通过 Codex 命令行工具IDE 插件来使用 GPT-5-Codex。OpenAI 特别推荐将其用于智能体编码的场景,而用于命令行工具集成的 API 密钥访问功能预计在后续版本中推出。

 

OpenAI 还分享了一些工程团队的早期使用案例。多邻国的高级软件工程师 Aaron Wang 评价道:

在我们后端的 Python 代码审查基准测试中,Codex 表现最为出色。它是唯一能揪出那些棘手的向后兼容性问题的模型,并且总能发现其他 bot 遗漏的疑难 bug。

 

思科 Meraki 的一位技术负责人也分享说:

我之前需要更新另一个团队负责的代码库来完成一个功能发布。借助 Codex,我把重构和生成测试的工作交给了它,自己则能专注于其他优先事项。最后它交付了高质量、经过全面测试的代码,让我能快速交差,从而确保了功能按时上线,又没有引入额外风险。


原文链接:

https://www.infoq.com/news/2025/09/gpt-5-codex/

2025-09-29 11:303251

评论

发布
暂无评论

理财之我见

三石

理财 28天写作

DAPP智能合约交易系统开发、DAPP系统开发的详细解释

W13902449729

DAPP智能合约交易系统开发 DAPP系统开发

精选算法面试-队列

李孟聊AI

算法 队列 28天写作

案例研究之聊聊 QLExpress 源码 (三)

小诚信驿站

刘晓成 小诚信驿站 28天写作 QLExpress源码 聊聊源码

数智化浪潮之中,传统企业如何抓住转型机遇?

京东科技开发者

DevOps

redis中的一致性hash

原来不悔

redis 一致性hash

前端性能优化

roadup

大前端 性能调优

2020年度编程语言排行榜 C语言称霸,Java遭遇滑铁卢?

架构精进之路

编程语言 28天写作

重学JS | 改变函数上下文的3种方式

梁龙先森

大前端 编程语言 28天写作

架构师训练营第七周作业

zamkai

跪了!Alibaba内部出品贼火的Java面试手册,全面对标蚂蚁金服、头条、拼多多等

Java架构之路

Java 程序员 架构 面试 编程语言

音频特征提取方法和工具汇总

行者AI

音视频

python 输入输出

赵开忠

Python 28天写作

新的方式-谷歌浏览器插件的使用【天猫超市抢购飞天茅台】

谙忆

SpringBoot太强了、ShardingSphere上榜

spring 编程 框架

产品风控:短信验证码的风控策略

香芋味的猫丶

短信防刷 产品安全 短信验证码 短信防轰炸 短信防火墙

ArgoCD + KubeVela:以开发者为中心的 GitOps

阿里巴巴云原生

阿里云 开源 容器 云原生 k8s

第1周架构方法总结

Richard

UML 需求分析 概要设计 软件架构设计 详细设计

探索 React 合成事件

Geek_z9ygea

大前端 React 28天写作

分布式全链路灰度发布的探索与实践

阿里巴巴云原生

阿里云 微服务 运维 云原生 中间件

助力金三银四跳槽季,《Java面试突击版》第四版强势来袭

Java架构之路

Java 程序员 架构 面试 编程语言

凭借这份Java超硬核面试 “备战” 手册!我刚面试完字节跳动、阿里、华为、小米等后端岗位

Java架构之路

Java 程序员 架构 面试 编程语言

不交“人脉”交朋友:新荣耀的底气与新机

脑极体

助力ARM生态 —Dragonwell新增aarch64支持

阿里云基础软件团队

12月阿里蚂蚁金服四面(已拿offer)Java技术面经总结:项目+源码+jvm调优+MySQL

Java 学习 编程 程序员 面试

跨界

张老蔫

28天写作

巧合?达摩院2021十大科技是十九世纪那场幻想的升级版?

Java架构师迁哥

霸榜各个网站的阿里独有的高并发高并发手册:Netty、Redis、Zookeeper,看完惊呆了!

996小迁

redis zookeeper 架构 面试 Netty

博弈论 - 海盗分金

石云升

博弈论 28天写作 海盗分金

花火交易所系统开发、雷达模式系统搭建开发

W13902449729

花火交易所系统开发 雷达模式系统搭建开发

计算机网络基础

roadup

TCP 网络 HTTP 计算机 HTTP3.0

OpenAI 发布 GPT-5-Codex:专注复杂代码重构与代码评审优化_AI&大模型_InfoQ精选文章