写点什么

openJiuwen 社区又上新: JiuwenSwarm 给 Harness 装上「后训练」

  • 2026-06-05
    北京
  • 本文字数:3386 字

    阅读完需:约 11 分钟

Agent 的调优正在遇到一个结构性问题:模型本身已经有相对成熟的训练与后训练范式,但模型外部的 Harness,仍主要依赖人工调试。

而 Harness 的调优,包含着大量琐碎、重复、耗时的脏活累活。开发者只能沿着执行轨迹往回看,再手动调试。这类工作单次看只是调试成本,累积起来就会变成 Agent 落地的工程瓶颈。

最近,我们关注到华为支持的 openJiuwen 社区开源了 “Auto Harness“ —— 一个由评测驱动的、覆盖 Harness 全栈组件的端到端自动优化框架。

Harness 的自动化优化,正在成为 Agent 研究和工程领域的一个重要方向。不过,当前学术界和业界的工作主要停留在 benchmark 和研究验证阶段,还没有形成大规模工程化应用。

JiuwenSwarm 对 Auto Harness 的更新,也成为 Harness 自动化优化领域首次工程化落地。它也补上了 Agent “后训练”的另一块拼图:模型后训练优化的是模型本身,Auto Harness 则试图让模型外部的执行系统,也能在任务反馈中持续进化。

先对齐概念,为什么要 Auto Harness

先快速对齐一下概念。

如果把 LLM 比作大脑,Harness 就是大脑外面那一整套 让它能干活的东西 ——它怎么知道现在该调哪个工具、怎么记住上一轮发生了什么、什么时候该停下来想一想、什么时候该让另一个 Agent 接手。

所有这些“能干活“的逻辑,都不在模型权重里,而在 Harness 里。

公式就是那个大家耳熟能详的:

Agent = Model + Harness

听起来挺顺,问题是这两边的进化速度完全不对等。

模型这边,从 RLHF 到 DPO 到 GRPO, 后训练已经卷出了完整的方法论。模型表现不行?可以训。

Harness 这边呢? 至今还在靠人手工调

做过的人应该都有体感——

一个 prompt 改一个词,Agent 行为大变样。

一个工具描述里少写一句“请优先使用“,模型就会自己瞎搞。

一个 rail 钩子加错位置,整个 loop 就转不下去了。

更要命的是, 这套手感几乎没法复用。换一个场景、换一个垂域、换一个客户,前一套调好的 Harness 基本得推倒重来。

这就是 Auto Harness 要解决的事。

Auto Harness 到底在优化什么?

openJiuwen 把 Harness 拆成了 两层:底层是所有 Agent 共用的 通用底座 (Meta),上层是各种 可插拔的领域扩展包 (Expert)。

Auto Harness 则让 Agent 自己去优化这两层 ——你给它一个目标,它就自己生成评测题、自己跑、自己看哪里不行、自己改、再自己验证。

整个循环里,都不需要人去调研、评测、验证...

光这么说可能没什么感觉, 直接看 demo。

Auto Harness 跑起来什么样

回到开头那个画面——我们先把过程详细拆一下,再看另一个不一样的 case。

基座层优化(Meta Harness):Agent 自己抄了 Claude Code 的作业

/auto-harness run --pipeline optimize_meta_harness 调研当前和 Claude Code 在上下文压缩特性上的差异和不足,吸收提升自己能力

程序员敲完指令之后:

第一步:调研

启动 Meta Harness 优化的 Pipeline,先自己去搜 Claude Code 公开的实现细节,翻文档、读源码、扒 commit history,学习 Claude Code 是如何做上下文压缩的。

第二步:制定优化计划

对比当前系统与 Claude Code 在上下文压缩方面的关键差异,然后制定具体的优化任务:

如增加上下文压缩的可控性,允许用户通过 hook 拦截或监控压缩过程,提升系统扩展性。

第三步:动手改

但不是直接动主干,而是开了一个独立的 git worktree,在里面新加 上下文压缩 Rail、修改触发逻辑、补单元测试。改完之后跑 CI, 跑挂了自己回头修,修到 CI 通过为止

第四步:提 PR

它没自己合主干,而是给仓库提了一个 PR,讲清楚这次改了什么、为什么这么改、验证结果是什么。

整个过程拆下来,等价于“自动竞品分析师 + 自动 PR 工程师“:

24 小时盯着业界,看到好东西自己抄回来,抄完还自己测、自己写 PR 说明、自己交。

Meta Harness 优化完整流程如下:

更狠的是,这套机制还可以 定时跑

挂一个任务上去:每 48 小时自动盯一次某个对标产品的更新、自动评测、自动改、自动提 PR—— 人睡觉的时候,它在帮你吸收业界最佳实践

专属扩展包 (Expert Harness):给 Agent 配上领域专家

如果说前一个 demo 是“自己改基座代码“,这一个则是“自己学新能力“。

比如想让当前 Agent 的办公能力更强

/auto-harness run --pipeline optimize_expert_harness 提升一下你自己的办公能力:擅长做图文并茂、逻辑清晰的 PPT;熟练进行 word 操作;熟练处理财务相关的 excel 表格;所有生成的文件要做敏感信息检查,这是硬性约束,在写入文件前强制检查

接收指令后,JiuwenSwarm 启动 Expert Harness Pipeline。

Agent 跑了一遍自评,诊断结果挺诚实:PPT 排版混乱、Excel 公式错误率高、Word 磕磕绊绊,敏感信息检查缺失。

然后开始设计优化计划,创建 PPT 生成、Excel、Word 处理、敏感信息检查等多条优化点,然后开始 并行处理

加工具、加技能、加 Rail、跑测试,全跑通之后生成 Harness Package, 直接在 Web 端热加载激活,Agent 不用重启,下一秒就能用

完整流程如下:

味道和前一个 case 完全不一样——

前者是动基座、改代码、提 PR。

这一个则是“ 给 Agent 装上领域专家能力 ”——需要什么能力告诉它,它自己学、自己测、热生效。

而且这些“专家“可以 叠加挂载到同一个 Agent:同时挂办公专家、内容生产专家、合规专家都行。来什么任务,调哪几个。

一个 Auto Harness,两种优化路线。基座层慢工出细活,扩展层按需启动——这是它两层架构最直接的产品化体现。

这套设计最聪明的地方

case 看完,可以回头看看 openJiuwen Auto Harness 这套设计真正聪明的地方了。先看路径—— Auto Harness 的两种优化路径,对应两个 pipeline:一个改基座,一个生成扩展包。

但不管走哪条 pipeline,核心都是同一个机制: 评测驱动的闭环优化

跑评测 → 看哪里不行 → 想怎么改(规划)→ 实施修改 → 再跑评测

Meta Harness 优化在此基础上增加了定时任务(流程前)、业界调研(流程前)、提交 PR(流程后)。

最值得提的一点是, Meta Harness 和 Expert Harness 的双层优化架构 ——既克制又实用。

基座层每次改动后需要提交 PR 评审、合不合入需要人来决定;

扩展层则是跑完即生成优化包,热加载、即插即用, 该灵活的地方足够灵活

这种边界感是同类工作里普遍处理得不太好的——很多论文 /Demo 一上来就追求“全自动“的故事,但真要往生产环境里放, 没有这条边界,没人敢用

Swarm 能不能后训练?

单 Agent 的 Auto Harness 搞定了,随之而来的是 Swarm 群体优化。

openJiuwen 社区已经设计好了下一步: Swarm Post-Training

单个 Agent 再聪明也有上限。一个写代码的 Agent 再强,对于大型工程也很吃力;一个做调研的 Agent 再厉害,也难以全面覆盖复杂的尽调。

真正的答案在 多 Agent 协同 里——

Swarm 里的每个 Agent 的 Harness 随群体协同自动优化。

Agent 的整个后训练范式, 从“模型变强 + 单兵变强 + 团队变强“,会被串成完整一条线。

  • Model Post-training:让模型自己变强;

  • Auto Harness:让单个 Agent 的 Harness 自己变强;

  • Swarm Post-Training:让一群 Agent 的协作自己变强。

这三件事如果都能各自跑起来、还能互相打通,那 Agent 这件事的“工程化天花板“就被整体顶上去了。

写在最后

回到这次更新本身,Auto Harness 的意义不只是新增了一个功能,而是把 Agent 落地中的一个关键问题推到了台前:当模型能力逐渐接近,真正拉开差距的,往往是模型外部那套 Harness。

同一个模型,放在不同的上下文管理、工具编排、权限控制、错误恢复和任务验证体系里,最终表现可能完全不同。过去,调 Harness 更像一门手艺,依赖工程师经验,也依赖大量试错。Auto Harness 试图把这件事变成一套可评测、可迭代、可回滚的工程流程。

这也是 openJiuwen 持续推进的方向。此前,社区已经提出 Coordination Engineering,关注多智能体如何分工、协作和沉淀经验;这一次 Auto Harness 则进一步补上了单个 Agent 如何自我优化的问题。

从单个 Agent 的 Harness 自动进化,到多个 Agent 的协同优化,JiuwenSwarm 想要构建的,不只是更强的 Agent,而是一套可持续进化的 Agent 工程体系,引领 Agentic AI 时代的 AgentOS 标杆。

openJiuwen 再下一步的 Swarm Post-Training,我们也拭目以待。

上手试用

参考 JiuwenSwarm 快速开始:https://openjiuwen.com/jiuwenswarm#quick-start

安装启动 JiuwenSwarm 后:

pip install jiuwenswarm-tuijiuwenswarm-tui# 启动后输入 /auto-harness 触发
复制代码

相关子命令

图片