写点什么

基于去中心化强化学习训练的 320 亿参数模型

作者:Robert Krzaczyński

  • 2025-05-26
    北京
  • 本文字数:951 字

    阅读完需:约 3 分钟

大小:470.54K时长:02:40
基于去中心化强化学习训练的320亿参数模型

Prime Intellect 正式发布 INTELLECT-2 语言模型,该模型拥有 320 亿参数,通过完全异步的强化学习技术在一个去中心化计算节点网络中完成训练。与传统集中式模型训练不同,INTELLECT-2 基于无需许可的基础设施开发,其轨迹生成、策略更新和训练过程均采用分布式松耦合架构。

 

该系统的核心是 PRIME-RL 新型训练框架,专为不可信环境下的异步强化学习设计。它将轨迹生成、模型更新和权重广播三个核心任务解耦:策略更新由 SHARDCAST 组件负责,该组件通过树状 HTTP 网络分发模型权重;计算节点提交的推理轨迹需通过 TOPLOC 验证,这种局部敏感哈希机制可检测数据篡改或数值偏差,确保异常结果不会影响训练过程。


来源:https://arxiv.org/html/2505.07291v1

 

INTELLECT-2 的训练数据包含 285,000 项数学与编程任务,数据源包括 NuminaMath-1.5SYNTHETIC-1 等数据集。其奖励机制融合了二元任务的成功判定与基于令牌长度的惩罚/奖励机制,实现了对推理阶段算力预算的细粒度控制。训练稳定性通过双面 GRPO 裁剪、梯度范数管理以及高价值任务的离线/在线筛选等技术保障。

 

该异步训练过程实现了推理、通信和模型更新的并行化,规避了传统集中式强化学习系统的典型瓶颈。基于 Rust 语言开发的协调器运行在测试网络上,负责全局计算节点池的协调工作,包括硬件检查、心跳监测、任务分配和贡献追踪——其运作机制类似于点对点网络或区块链系统。

 

性能评估显示,该模型在目标数学与编程任务上表现优于先前采用强化学习训练的 QwQ-32B 模型,但通用基准测试的提升则较为有限,意味着其性能增益主要集中在训练数据相关领域。Prime Intellect 指出,若采用 Qwen3 等更强基础模型,或整合更复杂的环境与推理工具,改进幅度可能更为显著。

 

一位 Reddit 用户评论其潜在影响:


分布式训练与分布式推理目前来看是未来方向。或许可以借鉴 P2P 或区块链机制,对算力贡献或交易行为给予某种奖励。我们未必需要创造新加密货币,但可以通过积分形式兑换网络免费算力。

 

Prime Intellect 的未来计划包括:提高推理与训练算力配比、整合网络搜索或 Python 等工具实现多轮推理、众包强化学习任务,以及试验 DiLoCo 等去中心化模型融合方法。

 

模型参数、代码、训练框架及相关文档已在 Prime Intellect 官网公开,同时提供 Hugging Face 模型发布和聊天演示等工具接口。

2025-05-26 16:003352

评论

发布
暂无评论

开发HarmonyOS NEXT版五子棋游戏实战

威哥爱编程

游戏 HarmonyOS ArkTS HarmonyOS NEXT

震撼发布!CodeArts 解锁全新技能,鸿蒙应用与元服务开发轻松拿捏

华为云开发者联盟

harmoyos

经典音频效果器合集 FabFilter Total Bundle 2019下载安装

Rose

APP蓝牙通讯的异常处理

北京木奇移动技术有限公司

软件外包公司 APP外包 蓝牙通讯

管理会计数据融合专题论坛,在京成功召开!

用友智能财务

AI 财经 会计

管理 Android 设备从未如此简单! MacDroid Pro 来帮你

Rose

foobar2000汉化版 高级音频播放器

Rose

APP蓝牙通信的开发

北京木奇移动技术有限公司

APP开发 软件外包公司 蓝牙通讯

【iOS逆向与安全】在iOS状态栏中实现秒表功能的插件开发指南

小陈

ios开发 移动端 iOS逆向 ios安全 Android 逆向

上市老总复仇记:等保测评,企业安全航行的坚实护航者

黑龙江陆陆信息测评部

ON1 Photo RAW MAX 2024 for Mac 中文激活版 专业的照片编辑管理器

Rose

Noir – Dark Mode for Safari (Safari 扩展程序) v2025.1.2激活版

Rose

出租屋管理系统(源码+文档+讲解+演示)

深圳亥时科技

加油站运营系统(源码+文档+讲解+演示)

深圳亥时科技

面试官:谈谈你对线程池拒绝策略的理解?

王磊

Set A Light 3D Studio for Mac(3D摄影棚布光工具)v2.58d永久试用版

Rose

案例 | 期货交易所建设立体式身份认证体系

芯盾时代

双因子认证 iam 多因素身份验证

数字化档案管理系统建设方案(Word资料)

金陵老街

数字化 电子档案 电子会计档案

后 DeepSeek R1 时代:从资本壁垒到技术普惠

Baihai IDP

程序员 AI LLMs Baihai IDP DeepSeek

NewTek LightWave 3D for mac(3D动画制作软件)v2024.1.0激活版

Rose

DockView for Mac(Dock窗口预览工具)v1.4激活版

Rose

Dash for Mac 最好用的API文档工具

Rose

成功案例丨开发时间从1小时缩短到3分钟:如何利用历史数据训练AI模型,预测设计性能?

Altair RapidMiner

机器学习 AI 制造业 仿真 altair

Axure RP 9密钥及安装教程分享-Axure RP 9下载中文版

Rose

Mouse And Keyboard Recorder mac(自动记录记录鼠标点击和按键)v54.9

Rose

通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统

阿里云大数据AI技术

大数据 向量检索 Milvus rag

电影院需要采购堡垒机吗?为什么?

行云管家

网络安全 堡垒机 电影院

项目申报评审系统(源码+文档+讲解+演示)

深圳亥时科技

基于去中心化强化学习训练的320亿参数模型_AI&大模型_InfoQ精选文章