openJiuwen 社区又上新： JiuwenSwarm 给 Harness 装上「后训练」

Agent 的调优正在遇到一个结构性问题：模型本身已经有相对成熟的训练与后训练范式，但模型外部的 Harness，仍主要依赖人工调试。

而 Harness 的调优，包含着大量琐碎、重复、耗时的脏活累活。开发者只能沿着执行轨迹往回看，再手动调试。这类工作单次看只是调试成本，累积起来就会变成 Agent 落地的工程瓶颈。

最近，我们关注到华为支持的 openJiuwen 社区开源了 “Auto Harness“ —— 一个由评测驱动的、覆盖 Harness 全栈组件的端到端自动优化框架。

Harness 的自动化优化，正在成为 Agent 研究和工程领域的一个重要方向。不过，当前学术界和业界的工作主要停留在 benchmark 和研究验证阶段，还没有形成大规模工程化应用。

JiuwenSwarm 对 Auto Harness 的更新，也成为 Harness 自动化优化领域首次工程化落地。它也补上了 Agent “后训练”的另一块拼图：模型后训练优化的是模型本身，Auto Harness 则试图让模型外部的执行系统，也能在任务反馈中持续进化。

先对齐概念，为什么要 Auto Harness

先快速对齐一下概念。

如果把 LLM 比作大脑，Harness 就是大脑外面那一整套 让它能干活的东西 ——它怎么知道现在该调哪个工具、怎么记住上一轮发生了什么、什么时候该停下来想一想、什么时候该让另一个 Agent 接手。

所有这些“能干活“的逻辑，都不在模型权重里，而在 Harness 里。

公式就是那个大家耳熟能详的：

Agent = Model + Harness

听起来挺顺，问题是这两边的进化速度完全不对等。

模型这边，从 RLHF 到 DPO 到 GRPO， 后训练已经卷出了完整的方法论。模型表现不行？可以训。

Harness 这边呢？ 至今还在靠人手工调。

做过的人应该都有体感——

一个 prompt 改一个词，Agent 行为大变样。

一个工具描述里少写一句“请优先使用“，模型就会自己瞎搞。

一个 rail 钩子加错位置，整个 loop 就转不下去了。

更要命的是， 这套手感几乎没法复用。换一个场景、换一个垂域、换一个客户，前一套调好的 Harness 基本得推倒重来。

这就是 Auto Harness 要解决的事。

Auto Harness 到底在优化什么？

openJiuwen 把 Harness 拆成了两层：底层是所有 Agent 共用的 通用底座 （Meta），上层是各种 可插拔的领域扩展包 （Expert）。

Auto Harness 则让 Agent 自己去优化这两层 ——你给它一个目标，它就自己生成评测题、自己跑、自己看哪里不行、自己改、再自己验证。

整个循环里，都不需要人去调研、评测、验证...

光这么说可能没什么感觉，直接看 demo。

Auto Harness 跑起来什么样

回到开头那个画面——我们先把过程详细拆一下，再看另一个不一样的 case。

基座层优化（Meta Harness）：Agent 自己抄了 Claude Code 的作业

/auto-harness run --pipeline optimize_meta_harness 调研当前和 Claude Code 在上下文压缩特性上的差异和不足，吸收提升自己能力

程序员敲完指令之后：

第一步：调研

启动 Meta Harness 优化的 Pipeline，先自己去搜 Claude Code 公开的实现细节，翻文档、读源码、扒 commit history，学习 Claude Code 是如何做上下文压缩的。

第二步：制定优化计划

对比当前系统与 Claude Code 在上下文压缩方面的关键差异，然后制定具体的优化任务：

如增加上下文压缩的可控性，允许用户通过 hook 拦截或监控压缩过程，提升系统扩展性。

第三步：动手改

但不是直接动主干，而是开了一个独立的 git worktree，在里面新加上下文压缩 Rail、修改触发逻辑、补单元测试。改完之后跑 CI， 跑挂了自己回头修，修到 CI 通过为止。

第四步：提 PR

它没自己合主干，而是给仓库提了一个 PR，讲清楚这次改了什么、为什么这么改、验证结果是什么。

整个过程拆下来，等价于“自动竞品分析师 + 自动 PR 工程师“：

24 小时盯着业界，看到好东西自己抄回来，抄完还自己测、自己写 PR 说明、自己交。

Meta Harness 优化完整流程如下：

更狠的是，这套机制还可以 定时跑。

挂一个任务上去：每 48 小时自动盯一次某个对标产品的更新、自动评测、自动改、自动提 PR—— 人睡觉的时候，它在帮你吸收业界最佳实践。

专属扩展包 (Expert Harness)：给 Agent 配上领域专家

如果说前一个 demo 是“自己改基座代码“，这一个则是“自己学新能力“。

比如想让当前 Agent 的办公能力更强

/auto-harness run --pipeline optimize_expert_harness 提升一下你自己的办公能力：擅长做图文并茂、逻辑清晰的 PPT；熟练进行 word 操作；熟练处理财务相关的 excel 表格；所有生成的文件要做敏感信息检查，这是硬性约束，在写入文件前强制检查

接收指令后，JiuwenSwarm 启动 Expert Harness Pipeline。

Agent 跑了一遍自评，诊断结果挺诚实：PPT 排版混乱、Excel 公式错误率高、Word 磕磕绊绊，敏感信息检查缺失。

然后开始设计优化计划，创建 PPT 生成、Excel、Word 处理、敏感信息检查等多条优化点，然后开始 并行处理。

加工具、加技能、加 Rail、跑测试，全跑通之后生成 Harness Package， 直接在 Web 端热加载激活，Agent 不用重启，下一秒就能用。

完整流程如下：

味道和前一个 case 完全不一样——

前者是动基座、改代码、提 PR。

这一个则是“ 给 Agent 装上领域专家能力 ”——需要什么能力告诉它，它自己学、自己测、热生效。

而且这些“专家“可以 叠加挂载到同一个 Agent：同时挂办公专家、内容生产专家、合规专家都行。来什么任务，调哪几个。

一个 Auto Harness，两种优化路线。基座层慢工出细活，扩展层按需启动——这是它两层架构最直接的产品化体现。

这套设计最聪明的地方

case 看完，可以回头看看 openJiuwen Auto Harness 这套设计真正聪明的地方了。先看路径—— Auto Harness 的两种优化路径，对应两个 pipeline：一个改基座，一个生成扩展包。

但不管走哪条 pipeline，核心都是同一个机制： 评测驱动的闭环优化。

跑评测 → 看哪里不行 → 想怎么改（规划）→ 实施修改 → 再跑评测

Meta Harness 优化在此基础上增加了定时任务（流程前）、业界调研（流程前）、提交 PR（流程后）。

最值得提的一点是， Meta Harness 和 Expert Harness 的双层优化架构 ——既克制又实用。

基座层每次改动后需要提交 PR 评审、合不合入需要人来决定；

扩展层则是跑完即生成优化包，热加载、即插即用， 该灵活的地方足够灵活。

这种边界感是同类工作里普遍处理得不太好的——很多论文 /Demo 一上来就追求“全自动“的故事，但真要往生产环境里放， 没有这条边界，没人敢用。

Swarm 能不能后训练？

单 Agent 的 Auto Harness 搞定了，随之而来的是 Swarm 群体优化。

openJiuwen 社区已经设计好了下一步： Swarm Post-Training。

单个 Agent 再聪明也有上限。一个写代码的 Agent 再强，对于大型工程也很吃力；一个做调研的 Agent 再厉害，也难以全面覆盖复杂的尽调。

真正的答案在 多 Agent 协同 里——

Swarm 里的每个 Agent 的 Harness 随群体协同自动优化。

Agent 的整个后训练范式， 从“模型变强 + 单兵变强 + 团队变强“，会被串成完整一条线。

Model Post-training：让模型自己变强；
Auto Harness：让单个 Agent 的 Harness 自己变强；
Swarm Post-Training：让一群 Agent 的协作自己变强。

这三件事如果都能各自跑起来、还能互相打通，那 Agent 这件事的“工程化天花板“就被整体顶上去了。

写在最后

回到这次更新本身，Auto Harness 的意义不只是新增了一个功能，而是把 Agent 落地中的一个关键问题推到了台前：当模型能力逐渐接近，真正拉开差距的，往往是模型外部那套 Harness。

同一个模型，放在不同的上下文管理、工具编排、权限控制、错误恢复和任务验证体系里，最终表现可能完全不同。过去，调 Harness 更像一门手艺，依赖工程师经验，也依赖大量试错。Auto Harness 试图把这件事变成一套可评测、可迭代、可回滚的工程流程。

这也是 openJiuwen 持续推进的方向。此前，社区已经提出 Coordination Engineering，关注多智能体如何分工、协作和沉淀经验；这一次 Auto Harness 则进一步补上了单个 Agent 如何自我优化的问题。

从单个 Agent 的 Harness 自动进化，到多个 Agent 的协同优化，JiuwenSwarm 想要构建的，不只是更强的 Agent，而是一套可持续进化的 Agent 工程体系，引领 Agentic AI 时代的 AgentOS 标杆。

openJiuwen 再下一步的 Swarm Post-Training，我们也拭目以待。

上手试用

参考 JiuwenSwarm 快速开始：https://openjiuwen.com/jiuwenswarm#quick-start

安装启动 JiuwenSwarm 后：

pip install jiuwenswarm-tuijiuwenswarm-tui# 启动后输入 /auto-harness 触发

复制代码

相关子命令

创作场景