全球首个完全AI编写的训练框架来了，速度反超英伟达：面壁要用 AI 把国产算力软件重写一遍

英伟达最难被替代的，从来不是一张 GPU，而是 CUDA 背后十几年积累出来的软件生态。

现在，面壁智能想用 AI 来压缩这十几年。

近日，面壁智能发布了全球首个全部由 AI 编写、零人介入、面向大模型训练基础设施的生产级训练框架 ForgeTrain。据面壁方面介绍，ForgeTrain 已经在华为昇腾系列上完成 MiniCPM5-1B 的训练验证，整体速度提升 10%。通过此框架， MiniCPM5-1B 的预训练耗时为 3-5 天，MiniCPM4-0.5B 在英伟达 GPU 上预训练用了两天。

面壁通过此框架想要验证：当大模型 coding 能力足够强、成本趋近于零时，我们不一定要继续做一个大而全的通用框架，而可以围绕每个模型、每类芯片和每个训练任务，现场“锻造”一套更合适的实现。

AI 写代码，人来加 Harness

在英伟达的 VibeTensor（作者包括陈天奇、贾扬清等）证明了 AI Agent 能写出复杂系统软件后，ForgeTrain 则围绕具体模型、芯片和训练任务现场生成生产级训练框架，目标更偏工程落地。

面壁团队介绍了 ForgeTrain 的三阶段构建方法论：

1. 从现有训练框架采集关键数据形成评测标准和 Harness；

2. 从评测 Harness 构建二进制一致的训练框架版本（目前已经完成多机多卡版本，比英伟达 Megatron 训练速度快 10%）；

3. 解除二进制一致的限制，迭代优化到超越 Megatron 的性能。

按照其说法，ForgeTrain 通过搭建一套专用 Harness，让 AI 在闭环环境中不断满足评测指标，并最终写出了一套训练框架。这个过程一旦启动，人类不再参与代码编写和中间修改，而是仅在最后进行验收。ForgeTrain 目前主要覆盖框架和算子层面，算法调参尚未开始从零交给 AI。

在实际效果上，ForgeTrain 已经能训练出与 Megatron 结果一致的模型。面壁称，在 MiniCPM 模型上，ForgeTrain 训练结果在人评和机评上与原有训练框架保持一致，同时在核心速度和成本指标上优于英伟达 Megatron，提升 10%。

面壁智能 AI Infra 负责人李宇轩向 InfoQ 表示，在面壁团队的实践中，大部分工程约束是由模型自主处理的。少部分模型当前还做不到的部分，则会被融入 Harness 中，作为生成训练框架时的先验约束或评测规则。比如，在内存约束方面，AI 自己写出的框架在人的合适引导下，显存使用甚至低于 Megatron。未来，团队会逐渐提高 Harness 层面中的 AI 参与比例。

面壁团队在构建 Harness 时，会尽量加入更具第一性的工程方法论，让尽可能多的失败在代码生成阶段就被测出，并由 AI 自行修复，依次减少训练失败率。据介绍，从目前结果看，ForgeTrain 相对稳定，可以连续运行数天并完成模型训练。

“我们已经拿 ForgeTrain 训出来模型了，而且训出来的模型和我们用 Megatron 训出来的模型效果是一致的。”李宇轩表示，这直接就证明了 ForgeTrain 的生产级可靠性。

他进一步解释称，所谓生产级，并不是说 ForgeTrain 已经可以立刻覆盖全球所有模型训练场景，而是至少在 MiniCPM 上，它已经完成了从框架生成到实际训练再到效果验证的闭环。训练出的模型在人评和机评上与原有模型一致，因此它在该场景中已经达到了生产级水平。

据悉，ForgeTrain 在内部 8B 模型的验证也已经完成，接下来团队会继续推进 MoE 等更复杂模型，向更大、更复杂模型扩展，并可能在一两个月内取得进展。

当写代码没有成本，软件就应“现场锻造”

过去几年，大模型进步主要依赖三件事：更多数据、更大算力和更高资本投入。但现在，高质量互联网数据正在被快速消耗，GPU、数据中心、电力等基础设施越来越紧张，继续靠“堆资源”推动模型进化，成本越来越高，边际收益也在下降。

在这种背景下，行业必须寻找新的效率来源，面壁则将目标对准了“AI 研发 AI ”。

AI 研发 AI 的价值就在于给定资源下的研发效率提升。人类工程师写代码、跑实验、调框架、做数据管线，往往需要数天、数周甚至数月；而 AI 在部分任务上可以把效率提升 10 倍到 100 倍。如果 AI 能参与代码生成、训练框架开发、算子优化、数据生成、评测反馈、实验迭代甚至模型架构探索，整个 AI 研发链条就会被大幅加速。

“AI 研发 AI 研究”并非处于概念阶段，海外头部模型公司已经逐渐实践。

早在 2024 年 10 月，Anthropic 创始人 Dario Amodei 就将“自动化 AI 研究”视为 AGI 时间表中最强的加速器之一，当前 Claude 系列模型也实现了自我递归迭代；今年 3 月，Andrej Karpathy 提出并开源“自动研究员”项目，尝试让 AI 自主研究如何优化模型训练。与 ForgeTrain 更偏训练框架和基础设施层不同，Karpathy 的项目主要聚焦算法层面。

如何让 AI 真正接管 AI 研发？李宇轩认为，关键在于一个共识：可评测的问题最终会被 AI 解决，即只要一个问题能够被高效评测，并且能够为模型准备足够专家数据，再通过强化学习将能力回流到模型，AI 就会逐渐把这个问题做得越来越好。

这一方法已经在博弈、数学、代码等领域得到验证，但 AI 研发本身并没有天然存在的评测环境，AI 训练框架、算法创新、数据管线等任务往往更复杂、更昂贵，也更难被包装成一个稳定的评测系统。

这正是 Harness 的意义。Harness 本质上是把一个目标包装成一整套系统：包括环境、上下文、工具、任务流程和评分标准。将 AI 放入这个系统后，它可以根据反馈不断完成任务、修正错误并提升能力。

传统任务之所以更容易被 AI 学会，是因为 Harness 天然存在。比如代码任务有编译器、单元测试和运行结果；数学任务有形式化验证或标准答案；游戏任务有胜负机制。相比之下，“AI 制造 AI”没有现成 Harness，而且运行成本很高，因此发展更慢。

面壁现在就是为“AI 制造 AI”建立“考场”。当 AI 研发任务能够被包装成可评测环境，AI 就可以在其中训练、试错和提升。ForgeTrain 正是在训练基础设施层面搭建这样一个 Harness 的尝试。

并且，基于这一思路，面壁提出了 Forge Engineering，即“锻造工程”。此次发布的 ForgeTrain，正是 Forge Engineering 在大模型训练基础设施上的具体实践。

李宇轩表示，过去软件工程追求大型通用框架，是因为人类写代码、维护代码的成本很高。一个训练框架往往需要支持大量模型结构，包括普通稠密模型、MoE 模型、不同参数规模、不同并行策略等。为了降低开发和维护成本，行业不得不把复杂功能整合进一套大而全的通用系统中。

但在 AI 写代码能力快速提升后，代码生产成本正在接近于零。如果写代码已经不再是主要负担，那么就没有必要把本不该强行通用的东西捏合在一起，而可以为每一种具体需求重新生成一份最适合它的代码。

这就是 Forge Engineering 的核心：并非让 AI 继续写越来越庞大的通用框架，而是让 AI 像工匠一样，为不同模型、不同芯片、不同训练任务“现场锻造”一套高度定制化的软件系统。

ForgeTrain 能在核心效率指标上相比 Megatron 10% 的提升，李宇轩认为，这背后的关键原因，并不是它写出了一个更庞大的通用框架，而是它可以针对某一种模型类型做深度定制优化。

Megatron 需要覆盖更广模型和场景，因此必须在通用性和性能之间做权衡；ForgeTrain 则可以为特定模型从零生成一套更贴合需求的框架，从而获得更细粒度优化空间。

“到年底能把国产算力软件全做一遍”

ForgeTrain 的另一个重要意义，在于它为国产算力软件生态的赶超提供了一种新思路。

李宇轩表示，英伟达生态之所以好用，并不是某一个框架单点优秀，而是它长期积累了大量开发者和工程实践。各种坑已经被开发者反复踩过，各种工具链和细节也在长期迭代中被打磨成熟。相比之下，国产算力生态起步较晚，同时英伟达还在投入，若仍依靠人类开发者一点点打磨生态，追赶难度很高。

业界也曾尝试通过 TVM 等开源编译框架实现“一次编写，自动适配所有硬件”，但不同算法与不同芯片架构的组合优化方案近乎无穷，传统规则搜索方式难以覆盖；而为兼容所有硬件而构建的通用抽象层，不仅牺牲性能，还带来巨大的维护工作量，最终解决问题的工具反而成了问题本身。

“AI 可能改变这一局面。”李宇轩认为，人类开发者再多，也不如 AI 不知疲倦地打磨各个细节。真正让国产软件生态接近英伟达的方法，可能是让 AI 成为大量开发者本身，持续优化训练框架、推理框架、算子、数据管线、工具链和各类工程细节。

“ForgeTrain 是这一方向的第一步。面壁已经能够在华为昇腾生态上生成新的训练框架。未来，当用户需要训练一种新模型时，只要把模型需求告诉系统，系统就有可能直接生成对应框架。”李宇轩说道，用户需要什么，生态就能给出什么，这才是一个好生态的理想状态。

从客观上说，这件事大家都可以做。但李宇轩表示，就像所有公司都可以做 coding 模型，但真正做到最好并形成优势的公司仍然有限。

今年，面壁的目标，就是把模型训练环节中不好用的软件用 AI 重写，并且重写 AI 的软件可以很快再帮其他家模型重写一个框架。面壁表示，到年底能把头部国产算力软件全做一遍。

未来，面壁希望用同一套技术路线覆盖训练框架、推理框架、强化学习框架、数据管线和算法范式，并适配国产算力、英伟达以及其他端侧芯片。

Harness 仍处蛮荒期，Forge 的前提是成本

值得注意的是，随着 AI 接管更多研发环节，人类在研发流程中的位置也在变化。

”原来是大家都在讲 Human in the Loop，但是今年大家至少已经开始转型成 Human on the Loop。前者是说在整个环节里面， AI 已经在跑一些环节，但一些环节会有人看着；后者是说 AI 已经自主运转了，人只盯着这个系统里面有没有什么问题，有问题了再调整。”李宇轩说道，面壁目前就在往 Human on the Loop 方向转型。

而这种变化也会影响研发组织。李宇轩认为，从表面看，组织结构可能还没有发生剧烈变化，但研发范式和人与人之间的协作关系事实上已经在改变。随着 AI 在更多研发任务中成为主体，形式上的组织变化可能会在合适的时机自然发生。

近期，有消息称 DeepSeek 等公司正在组建 Harness 相关团队。

对于 Harness 团队，李宇轩认为，不同公司可以选择集中式团队，也可以由多个团队分散建设，关键要因地制宜。但无论组织形态如何，核心理念应当一致：让 AI 尽可能获得更多信息，尝试让它接手更多事情，并在这个过程中识别 AI 仍然做不好的部分，再进行针对性解决和快速迭代。

尽管 Harness 成为行业热词，但李宇轩也强调，当前行业对 Harness 的理解还没有完全形成共识。

有些人认为 Harness 只是“新瓶装旧酒”，因为软件工程中早已有框架、工具链、执行环境、评测系统等概念。但这个词之所以在当下变得重要，是因为模型能力进入了新的阶段，模型外部的环境设计和工具组织开始成为能力突破的关键。

目前，OpenClaw、Claude Code、Hermes Agent 等都可能被称为 Harness，但它们目标并不相同。有些 Harness 是在模型外部套一层壳，让模型在各种任务上都表现得还不错；有些 Harness 是为了让最强模型变得更强；还有一些 Harness 的目标，是让较弱模型对齐 Claude Code 或 Anthropic 模型的能力。

ForgeTrain 的 Harness 则是另一类。它不是通用 Harness，而是为“AI 制造 AI”中的训练框架生成任务设计的专用 Harness，目标是让模型在一个垂直领域里能力大幅增强，而不是让模型在所有任务上都泛化表现。

Forge 工程则是在 Harness 工程之上的一种软件生产范式。它的核心前提是：AI 写代码的成本会快速下降。当代码生成变得足够便宜、足够快，软件工程就不必继续把所有需求都压进一个大而全的通用系统，而可以为每个具体任务生成高度定制的软件系统。

以训练框架为例，传统框架可能要同时支持千问、Llama、DeepSeek、MiniCPM、MoE 等大量模型。但在 Forge Engineering 中，如果千问和 Llama 足够相似，可以共用一套框架；如果千问和 DeepSeek 差异很大，就可以从零写两套框架，让各自都得到更好优化。

李宇轩用手机作比喻：今天的 iPhone 是非常优秀的通用产品，因为背后有一家大型公司长期优化。但如果未来生产效率足够高，最理想的产品可能不是一台通用手机，而是“乔布斯坐在你旁边，用一天时间为你打造一台完全满足你需求的手机”。Forge Engineering 希望在软件层面实现类似效果。

李宇轩认为，当前 Harness 行业整体仍处于蛮荒状态。不同团队的目标、方法、评测标准和技术路径都可能不同。但它们的共同点在于：都试图在模型之上建立一套“缰绳”，为模型提供稳定环境、工具、上下文和行动指引，让模型能够完成更复杂的任务。

创作场景

全球首个完全 AI 编写的训练框架来了，速度反超英伟达：面壁要用 AI 把国产算力软件重写一遍

AI 写代码，人来加 Harness

当写代码没有成本，软件就应“现场锻造”

“到年底能把国产算力软件全做一遍”

Harness 仍处蛮荒期，Forge 的前提是成本