写点什么

基于去中心化强化学习训练的 320 亿参数模型

作者:Robert Krzaczyński

  • 2025-05-26
    北京
  • 本文字数:951 字

    阅读完需:约 3 分钟

大小:470.54K时长:02:40
基于去中心化强化学习训练的320亿参数模型

Prime Intellect 正式发布 INTELLECT-2 语言模型,该模型拥有 320 亿参数,通过完全异步的强化学习技术在一个去中心化计算节点网络中完成训练。与传统集中式模型训练不同,INTELLECT-2 基于无需许可的基础设施开发,其轨迹生成、策略更新和训练过程均采用分布式松耦合架构。

 

该系统的核心是 PRIME-RL 新型训练框架,专为不可信环境下的异步强化学习设计。它将轨迹生成、模型更新和权重广播三个核心任务解耦:策略更新由 SHARDCAST 组件负责,该组件通过树状 HTTP 网络分发模型权重;计算节点提交的推理轨迹需通过 TOPLOC 验证,这种局部敏感哈希机制可检测数据篡改或数值偏差,确保异常结果不会影响训练过程。


来源:https://arxiv.org/html/2505.07291v1

 

INTELLECT-2 的训练数据包含 285,000 项数学与编程任务,数据源包括 NuminaMath-1.5SYNTHETIC-1 等数据集。其奖励机制融合了二元任务的成功判定与基于令牌长度的惩罚/奖励机制,实现了对推理阶段算力预算的细粒度控制。训练稳定性通过双面 GRPO 裁剪、梯度范数管理以及高价值任务的离线/在线筛选等技术保障。

 

该异步训练过程实现了推理、通信和模型更新的并行化,规避了传统集中式强化学习系统的典型瓶颈。基于 Rust 语言开发的协调器运行在测试网络上,负责全局计算节点池的协调工作,包括硬件检查、心跳监测、任务分配和贡献追踪——其运作机制类似于点对点网络或区块链系统。

 

性能评估显示,该模型在目标数学与编程任务上表现优于先前采用强化学习训练的 QwQ-32B 模型,但通用基准测试的提升则较为有限,意味着其性能增益主要集中在训练数据相关领域。Prime Intellect 指出,若采用 Qwen3 等更强基础模型,或整合更复杂的环境与推理工具,改进幅度可能更为显著。

 

一位 Reddit 用户评论其潜在影响:


分布式训练与分布式推理目前来看是未来方向。或许可以借鉴 P2P 或区块链机制,对算力贡献或交易行为给予某种奖励。我们未必需要创造新加密货币,但可以通过积分形式兑换网络免费算力。

 

Prime Intellect 的未来计划包括:提高推理与训练算力配比、整合网络搜索或 Python 等工具实现多轮推理、众包强化学习任务,以及试验 DiLoCo 等去中心化模型融合方法。

 

模型参数、代码、训练框架及相关文档已在 Prime Intellect 官网公开,同时提供 Hugging Face 模型发布和聊天演示等工具接口。

2025-05-26 16:003478

评论

发布
暂无评论

第十三周作业

Linuxer

架构师13周练习

小蚂蚁

JavaScript中的原型到底该如何理解?

Walker

Java 大前端 面向对象编程 原型

北京或先行落地央行数字货币 人民币3.0时代将来临

CECBC

数字货币 银行 人民币

架构师课程第十三周总结

dongge

架构师训练营第十三周作业

叮叮董董

大数据解答(二)

dony.zhang

数据分析

Linux 基础操作

yuanhang

linux命令

从零开始搭建完整的电影全栈系统(二)——简单的WEB展示网站的搭建

刘强西

Yii2 yii

【DevCloud · 敏捷智库】暴走在发布前夜的开发,你怕不怕?

华为云开发者联盟

版本控制 系统集成 发布

微信群总是有人发广告?看我用Python写一个自动化机器人消灭他!

刘早起😶

Python

CommonMistakes

卓丁

到底什么是分布式系统?你需要了解这些

华为云开发者联盟

分布式 部署

云栖大会倒计时8天,新一代CDN的技术突破和应用实践专场有什么看点?

阿里云Edge Plus

CDN CDN加速

打破Scrum的五个误区(译)

Bruce Talk

Scrum 敏捷开发 Agile

架构师0期Week13总结

Nan Jiang

常用数据分析指标

纯纯

搜索引擎如何推荐网页

dongge

java安全编码指南之:表达式规则

简爱W

Java java架构师

Securecrt 使用

yuanhang

securecrt

大数据2学习总结

周冬辉

JavaScript 简介

InfoQ_34a83d636158

区块链赋能数字经济,为知识和版权确权定价

CECBC

区块链 知识产权 数字经济

淘宝服务端高并发分布式架构演进之路

简爱W

Java java架构师

架构师训练营-第十二周作业

腾志文(清样)

捡到宝啦!阿里内部人手一本的Springboot进阶手册,先学为敬

Java架构师迁哥

为什么说区块链是制造信任的机器?

CECBC

区块链 不可篡改

35岁以上的程序员们,后来都干什么去了?

华为云开发者联盟

程序员 职业规划 架构师

物联网为什么需要5G?

华为云开发者联盟

5G 物联网

架构师训练营-第十一周作业

腾志文(清样)

够开放吗?来,和一群开发者搞事情!

易观大数据

基于去中心化强化学习训练的320亿参数模型_AI&大模型_InfoQ精选文章