50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

OpenAI 发布 GPT-5-Codex:专注复杂代码重构与代码评审优化

作者:Hien Luu

  • 2025-09-29
    北京
  • 本文字数:1221 字

    阅读完需:约 4 分钟

大小:631.70K时长:03:35
OpenAI 发布 GPT-5-Codex:专注复杂代码重构与代码评审优化

OpenAI 正式推出 GPT-5-Codex,这是专为处理复杂软件工程任务而优化的 GPT-5 特别版,尤其擅长大规模代码重构和长时间的代码审查工作流。这款模型为 Codex 命令行工具、IDE 插件和云环境量身打造,能够连续自主运行超过 7 小时,在没有人工干预的情况下交付可用的解决方案。它现已成 Codex 云服务的默认模型,所有使用 Codex 的开发者都可直接体验到。

 

GPT-5-Codex 的一大亮点是它的自适应推理能力:它能根据任务复杂程度自动调整思考时间。无论是与开发者结对编程处理小型明确的任务,还是独立执行长时间的重构工作,它都能胜任。OpenAI 指出,在聊天式交互中它的反应很快,但当遇到涉及大量文件的大型代码变更时,它也会投入更多计算资源来仔细处理。

 

OpenAI 内部的员工使用数据表明,该模型在分配计算资源方面效率很高。面对最简单的那 10% 的请求,GPT-5-Codex 消耗的 token 数量比 GPT-5 减少了 93.7%。相反,对于最复杂的那 10% 的请求,模型则会投入更多精力,在思考、编辑、测试和迭代环节花费的时间大约是原来的两倍。

 

在针对重构任务的直接评估中,GPT-5-Codex 的准确率也超越了 GPT-5。在需要对整个代码库进行系统性、多步骤修改的场景下,新模型的准确率达到了 51.3%,而 GPT-5 的准确率则为 33.9%。其中一个测试案例是来自 Gitea 代码库的一个拉取请求,需要将一个上下文变量穿透应用程序的多个层级,改动涉及 232 个文件,超过 3500 行代码。

 

除了重构,该模型还经过专门训练,以增强代码审查的工作流。GPT-5-Codex 能够浏览代码库、分析依赖关系、并运行测试来验证其正确性。OpenAI 的报告称,在基于热门开源代码库最新提交的评估中,GPT-5-Codex 生成的审查评论更加精准、更有价值,不仅为开发者减少了无用信息干扰,还精准突出了关键问题。

 

该模型通过强化学习在真实世界的编码任务上训练而成,例如从零构建完整项目、添加功能与测试、调试以及执行大规模重构等。OpenAI 表示,这种训练方式有助于让模型的行为符合常见的编码风格和拉取请求规范。它还能遵循项目根目录下 AGENTS.md 文件中定义的特定指南。

 

对于开发者而言,现在就可以通过 Codex 命令行工具IDE 插件来使用 GPT-5-Codex。OpenAI 特别推荐将其用于智能体编码的场景,而用于命令行工具集成的 API 密钥访问功能预计在后续版本中推出。

 

OpenAI 还分享了一些工程团队的早期使用案例。多邻国的高级软件工程师 Aaron Wang 评价道:

在我们后端的 Python 代码审查基准测试中,Codex 表现最为出色。它是唯一能揪出那些棘手的向后兼容性问题的模型,并且总能发现其他 bot 遗漏的疑难 bug。

 

思科 Meraki 的一位技术负责人也分享说:

我之前需要更新另一个团队负责的代码库来完成一个功能发布。借助 Codex,我把重构和生成测试的工作交给了它,自己则能专注于其他优先事项。最后它交付了高质量、经过全面测试的代码,让我能快速交差,从而确保了功能按时上线,又没有引入额外风险。


原文链接:

https://www.infoq.com/news/2025/09/gpt-5-codex/

2025-09-29 11:302839

评论

发布
暂无评论

从缓存的本质说起,说服技术大佬用Redis

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

ShareSDK 创建应用

MobTech袤博科技

MySQL百万数据深度分页优化思路分析

Java MySQL 数据库

PAG动效框架源码笔记 (一)概览

olinone

ios Android; 特效

如何使用apache的ab压力测试小工具传参数

北桥苏

ab测试 A/B 测试

复杂推理:大型语言模型的"北极星"能力

OneFlow

创业做共享电动车!如何找厂家合作

共享电单车厂家

共享电动车厂家 共享电单车厂商 共享电单车投放 共享电动车创业项目

如何解决注册并发问题并提高QPS

北桥苏

队列 并发 Redis 核心技术与实战

AI会对我们日常生活带来什么影响?这些技术会改变我们学习阅读工作方式吗?| 社区征文

汀丶人工智能

人工智能 ChatGPT 人工智能ChatGPT 吗? 三周年征文

定了!AIRIOT新品发布会,6月6日北京见。

AIRIOT

物联网 发布会 产品发布会 直播预约

NGINX 和 HAProxy:基于公有云标准环境的用户体验测试对比

NGINX开源社区

nginx 公有云 HAProxy

SpringBoot 结合 Liquibase 实现数据库变更管理

Java spring Liquibase

万字长文详解如何使用Swift提高代码质量 | 京东云技术团队

京东科技开发者

swift 代码质量 代码质量检测工具 京东技术 企业号 5 月 PK 榜

百人研发团队百亿销售规模的技术架构实践分享

车江毅

上海国家会计学院刘勤:事项法会计支撑企业更好地应对不确定性

用友BIP

阿里巴巴宣布加入Linux Foundation AI&Data基金会,捐赠首个开源项目DeepRec

阿里云大数据AI技术

人工智能 大数据

顶礼膜拜!阿里内部出品,全网首发Spring Security项目实战搭建

Java spring spring security Spring Security OAuth

GPT:低代码的终局性机遇

小博

人工智能 低代码 PaaS GPT

大模型竞争白热化 这家广州的科技公司却开辟了新战场

科技热闻

用Leangoo领歌Scrum敏捷开发工具管理产品路线图?

顿顿顿

Scrum 敏捷开发 敏捷项目管理 scrum敏捷工具

给大家推荐一款CRMEB_Java新零售社交电商系统

CRMEB

来这公司一年碰到的问题比我过去10年都多

艾小仙

Java kafka spring spring-boot

共识算法之Raft算法模拟数

TiAmo

算法 共识算法 模拟数

ChatGPT会对我们日常生活带来什么影响?这些技术会改变我们学习阅读工作方式吗?| 社区征文

汀丶人工智能

人工智能 ChatGPT 人工智能ChatGPT 吗? 三周年征文

重磅来袭!豆瓣评分9.2,万人血书的多线程与高并发v2.0版本

Java 多线程 高并发

2023淘宝天猫金婴奖公布,小度学习机获年度超级新品奖!

科技热闻

关于华为MetaERP,我说几句

SAP虾客

oracle 华为 SAP metaerp

SET智能合约量化系统app开发案例

薇電13242772558

合约量化 量化交易

云服务器管理用什么软件好?行云管家好用吗?

行云管家

云计算 云服务器 云资源 云管理

如何更好的分析潜在人脉?聊聊华为云图引擎GES的Cypher子查询

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 5 月 PK 榜

OpenAI 发布 GPT-5-Codex:专注复杂代码重构与代码评审优化_AI&大模型_InfoQ精选文章