OpenAI 提出 Harness Engineering：Codex 智能体驱动大规模软件开发

OpenAI 详细介绍了一种称为 Harness Engineering 的全新内部工程方法论，利用 AI 智能体来驱动软件开发生命周期的关键环节。该系统基于 Codex（一套 AI 智能体套件），根据工程师定义的声明式提示词执行编写代码、生成测试和管理可观测性等任务。Harness 实现了工作流程的标准化，降低了对人工编写脚本与定制化工具的依赖。

OpenAI 技术人员 Ryan Lopopolo 表示：

我们构建 Harness 的目的是为大规模 AI 任务提供统一、可靠的运行方式，让团队能够专注于研究与产品开发，而非基础设施编排。

在为期五个月的内部实验中，OpenAI 工程师构建并交付了一个包含约一百万行代码的测试版产品，且全程未手动编写任何源代码。一个小型工程师团队通过拉取请求与持续集成工作流引导智能体，工作内容涵盖应用逻辑、文档、CI 配置、可观测性配置及工具链。工程师仅提供提示词与反馈，由 Codex 智能体自主迭代完成各项任务，包括复现缺陷、给出修复方案并验证结果。

Codex 智能体驱动的应用测试与反馈（来源：OpenAI 博客文章）

Harness Engineering 将人类工程师的工作重心从代码实现，转移到设计环境、明确意图与提供结构化反馈上。Codex 可直接与开发工具交互，创建拉取请求、评估变更，并持续迭代直至满足任务标准。智能体利用日志、指标、链路追踪等遥测数据监控应用性能，并在隔离的开发环境中复现缺陷。

Codex 智能体的可观测性与遥测工作流（来源：OpenAI 博客文章）

内部文档以结构化形式组织在文档目录中，包含架构图谱、执行计划与设计规范，这些文档是智能体的唯一事实来源。交叉关联的设计与架构文档通过代码检查工具和 CI 验证进行强制校验，保证了一致性，同时减少了人工监督的需求。

OpenAI 通过机械规则与结构测试在跨领域场景中强制约束架构边界与依赖层级。依赖按照 Types → Config → Repo → Service → Runtime → UI 的顺序流转，智能体被限定在这些层级内运行。结构测试用于验证合规性，并防止模块化分层被破坏。

Thoughtworks 技术专家 Martin Fowler 在 LinkedIn 帖子中提到：

Harness Engineering 是对 AI 赋能软件开发关键部分的一种有价值的框架性阐述。Harness 包含了上下文工程、架构约束和垃圾回收。

OpenAI 报告指出，Harness 将脚手架、反馈循环、文档与架构约束编码为机器可读产物，Codex 智能体借助这些产物，在代码生成、测试及可观测性等开发流程中执行任务。

原文链接：

https://www.infoq.com/news/2026/02/openai-harness-engineering-codex/

创作场景

OpenAI 提出 Harness Engineering：Codex 智能体驱动大规模软件开发