基于去中心化强化学习训练的320亿参数模型_AI&大模型



 写点什么



大小：470.54K时长：02:40

Prime Intellect 正式发布 INTELLECT-2 语言模型，该模型拥有 320 亿参数，通过完全异步的强化学习技术在一个去中心化计算节点网络中完成训练。与传统集中式模型训练不同，INTELLECT-2 基于无需许可的基础设施开发，其轨迹生成、策略更新和训练过程均采用分布式松耦合架构。

该系统的核心是 PRIME-RL 新型训练框架，专为不可信环境下的异步强化学习设计。它将轨迹生成、模型更新和权重广播三个核心任务解耦：策略更新由 SHARDCAST 组件负责，该组件通过树状 HTTP 网络分发模型权重；计算节点提交的推理轨迹需通过 TOPLOC 验证，这种局部敏感哈希机制可检测数据篡改或数值偏差，确保异常结果不会影响训练过程。

来源：https://arxiv.org/html/2505.07291v1

INTELLECT-2 的训练数据包含 285,000 项数学与编程任务，数据源包括 NuminaMath-1.5 和 SYNTHETIC-1 等数据集。其奖励机制融合了二元任务的成功判定与基于令牌长度的惩罚/奖励机制，实现了对推理阶段算力预算的细粒度控制。训练稳定性通过双面 GRPO 裁剪、梯度范数管理以及高价值任务的离线/在线筛选等技术保障。

该异步训练过程实现了推理、通信和模型更新的并行化，规避了传统集中式强化学习系统的典型瓶颈。基于 Rust 语言开发的协调器运行在测试网络上，负责全局计算节点池的协调工作，包括硬件检查、心跳监测、任务分配和贡献追踪——其运作机制类似于点对点网络或区块链系统。

性能评估显示，该模型在目标数学与编程任务上表现优于先前采用强化学习训练的 QwQ-32B 模型，但通用基准测试的提升则较为有限，意味着其性能增益主要集中在训练数据相关领域。Prime Intellect 指出，若采用 Qwen3 等更强基础模型，或整合更复杂的环境与推理工具，改进幅度可能更为显著。

一位 Reddit 用户评论其潜在影响：

分布式训练与分布式推理目前来看是未来方向。或许可以借鉴 P2P 或区块链机制，对算力贡献或交易行为给予某种奖励。我们未必需要创造新加密货币，但可以通过积分形式兑换网络免费算力。

Prime Intellect 的未来计划包括：提高推理与训练算力配比、整合网络搜索或 Python 等工具实现多轮推理、众包强化学习任务，以及试验 DiLoCo 等去中心化模型融合方法。

模型参数、代码、训练框架及相关文档已在 Prime Intellect 官网公开，同时提供 Hugging Face 模型发布和聊天演示等工具接口。

发布

暂无评论

创作场景

基于去中心化强化学习训练的 320 亿参数模型

评论

第十三周作业

架构师13周练习

JavaScript中的原型到底该如何理解？

北京或先行落地央行数字货币人民币3.0时代将来临

架构师课程第十三周总结

架构师训练营第十三周作业

大数据解答(二)

Linux 基础操作

从零开始搭建完整的电影全栈系统（二）——简单的WEB展示网站的搭建

【DevCloud · 敏捷智库】暴走在发布前夜的开发，你怕不怕？

微信群总是有人发广告？看我用Python写一个自动化机器人消灭他！

CommonMistakes

到底什么是分布式系统？你需要了解这些

云栖大会倒计时8天，新一代CDN的技术突破和应用实践专场有什么看点？

打破Scrum的五个误区(译)

架构师0期Week13总结

常用数据分析指标

搜索引擎如何推荐网页

java安全编码指南之:表达式规则

Securecrt 使用

大数据2学习总结

JavaScript 简介

区块链赋能数字经济，为知识和版权确权定价

淘宝服务端高并发分布式架构演进之路

架构师训练营-第十二周作业

捡到宝啦！阿里内部人手一本的Springboot进阶手册，先学为敬

为什么说区块链是制造信任的机器？

35岁以上的程序员们，后来都干什么去了？

物联网为什么需要5G？

架构师训练营-第十一周作业

够开放吗？来，和一群开发者搞事情！

创作场景

基于去中心化强化学习训练的 320 亿参数模型

评论

推荐阅读

电子书

大厂实战PPT下载