53万美金训练出顶级AI？揭秘MiniMax的「省钱」绝招_AI&大模型_刘杨楠

Agentic AI、具身智能、强化学习框架、端侧大模型……来QCon上海站，感受AI的未来！了解详情 



 写点什么



1.0x 

大小：2.15M时长：12:33

这几天，MiniMax 搞起了技术周，第一天就放出“王炸”，开源了全球首个大规模混合架构推理模型 MiniMax-M1。据最新消息，M1 已经成为全球前二的开源模型。

MiniMax 分别用最大生成长度的 40K 和 80K token，训练了两个版本的 MiniMax-M1 模型——MiniMax-M1-40k 和 MiniMax-M1-80k。MiniMax-M1-80k 在复杂的数学和编码任务上优于 MiniMax-M1-40k。

据观察，MiniMax-M1 在全球科技领域引起了强烈的反响。产品不仅迅速占据海外主流媒体如 VentureBeat、Seekingalpha 等重要版面，更获得 Aran Komatsuzaki 等行业 KOL 的深度解读，同时在 TestTM 等国际社交平台引发讨论，形成多维度、跨圈层的传播矩阵。

（全球科技领域大V评论截图）

（VentureBeat 报道截图）

而引发海外关注的原因，来自于 M1 的三个核心能力——长上下文窗口、RL 训练成本上的优势、Agent 工具调用。

M1 技术报告显示，在业内主流的 17 个评测集上，M1 的性能表现超越了当前很多头部模型。例如 MiniMax-M1-40k 和 MiniMax-M1-80k 在 SWE-bench 验证基准上分别取得 55.6% 和 56.0% 的优异成绩。在长上下文理解任务中，全面超越所有开源权重模型。在代理工具使用场景（TAU-bench）中，MiniMax-M1-40k 同样领跑所有开源权重模型，并战胜 Gemini-2.5 Pro。

全球最长上下文，MiniMax-M1 是如何做到的？

MiniMax-M1 基于之前的 MiniMax-Text-01 模型开发，总共包含 4560 亿个参数，459 亿个激活函数，并具备 32 层架构，其最大的亮点是支持目前业内最高的 100 万上下文的输入。

从报告测评结果来看，MiniMax-M1 的上下文输入长度达到 1M，与闭源模型中的 Google Gemini 2.5 Pro 持平，却是 DeepSeek R1（128K）的 8 倍。

不仅如此，MiniMax-M1 的推理输出可达 8 万 Token，同样位居业内之首。这使得 M1 特别适合解决需要处理长文本（比如代码、论文）和复杂推理（比如数学题、软件调试）的任务。

依托其百万级上下文窗口，M1 系列在长上下文理解任务中表现卓越，其中在上下文能力的评测基准 OpenAI-MRCR (128k/1M) 以及 LongBench-v2 中，M1 的表现远超包括 DeepSeek-R1-0528 和 Qwen3-235B 在内的所有开源模型，甚至超越 OpenAI o3 和 Claude 4 Opus，仅以微弱差距落后于 Gemini 2.5 Pro。

目前，超长上下文在多个领域展现出了更多的实际应用价值。例如在文档分析领域，百万级上下文窗口能够处理超长合同、科研文献等复杂文档，提升信息提取和理解的准确性；在代码生成领域，百万级上下文窗口能够理解并修复整个代码库中的问题，甚至生成完整的长篇代码。

以文档分析写作领域为例，过去，“写一篇 10000 字的长文，详细分析 XX 议题”这种看似简单的要求，实际上有一些大模型做不到，而现在极有可能实现。

M1 模型上下文能力的提升，得益于 MiniMax 独创了 Lightning Attention（闪电注意力）神经网络架构，以及全新的强化学习算法 CISPO（Clipped IS-weight Policy Optimization）。

当前，主流大语言模型的核心架构均以 Transfolmer 架构为基础框架。然而，传统 Transformer 架构在处理长序列时存在明显弊端，其注意力机制的计算量会随序列长度呈平方级增长，进而导致显存占用和计算成本急剧上升。

而 MiniMax 一直对非传统 Transformer 路线十分感兴趣，动作积极，并且实践了“非主流”的线性注意力机制。

双重创新，RL 训练成本降至 53 万美金

MiniMax-M1 和 MiniMax-Text-01 系列，都是基于闪电注意力机制开发的。

其中，MiniMax-M1 中每 7 个带有闪电注意力的 Transformer 模块后会跟一个带有 softmax 注意力的 Transformer 模块。这种设计理论上可以将推理长度高效扩展到数十万个，同时大幅降低成本。

从图中可以看到，和 DeepSeek R1 相比，M1 在 64 个 token 的生成长度下，消耗的 FLOP 不到 50%，在 100K 个 token 长度下消耗 FLOP 约为 25%。

闪电注意力机制实则是线性注意力机制变体的 I/O 感知实现。

具体来看，传统 Transformer 的 Softmax 注意力机制需要为输入序列构建一个 N×N 的全连接矩阵，用以计算注意力权重，当处理超长序列时，这个矩阵会变得极其庞大，导致计算和存储成本急剧增加。

闪电注意力机制等线性注意力机制采用“分块计算”策略，将长序列分割成多个小块，先在小块内部计算词与词之间的关系，再通过块间信息传递整合全局语义，这种方法显著降低了计算复杂度，同时仍能捕捉到长距离的语义关联。

这种模式下，计算复杂度不再是随着序列长度的增加指数级上升，而是变成了和序列长度成线性关系，也就是说，序列变长时，计算量也只按比例增加，大大提高了处理效率。

它先确保了计算复杂度是线性的，在此基础上，再结合输入数据的稀疏性、结构等特性，以及输出任务的具体需求，甚至还考虑了底层硬件的内存访问效率，去对线性注意力的计算和实现方式进行设计或调整。这样做的目的，就是在保持线性复杂度的同时，让模型在特定任务或数据上能获得更优表现，比如运行速度更快、内存占用更少，或者能生成更相关的注意力分布，从而提升整体效果。

换句话说，这本身就是一种更精细化、更贴合实际应用场景的优化思路。

正是这种独特的架构设计，让采用它的 M1 模型在处理那些非常长的序列数据时表现特别出色，能够在保证处理效果（性能）的同时，也兼顾了计算速度（效率）。

但由此带来的问题是，高速推理会加速强化学习（RL）的缩放进程，让模型生成的响应越来越长，变得冗余。而且，传统混合架构模型所使用的 RL 算法，在这种快速变化的环境下，很容易因为各种未知因素而变得不稳定，进而影响模型的整体表现和可靠性。

为此，MiniMax 用两种方法来稳定提高 RL 的缩放效率。

首先是 RL 算法的创新。M1 技术报告中提到，在零 RL 设置下的混合架构的初步实验中，GRPO 算法对训练性能反而产生了不利影响，并且无法促进长 CoT 推理为的出现。

MiniMax 提出了一种新的强化学习算法 CISPO。CISPO 不直接裁剪 token，而是保留所有 token 的更新，修剪重要性采样（importance sampling）权重来保持训练的稳定性。

实验显示，在相同训练步数下，CISPO 的性能优于 GRPO 和 DAPO，并且只用一半的训练步数就能达到与 DAPO 相当的性能。

此外，MiniMax 还注意到，M1 的混合注意力机制的设计还会 RL 扩展的稳定性带来挑战。

例如，模型训练架构的训练内核和推理内核之间精度不匹配（如下图左图所示）。这导致训练内核学到的策略可能无法在推理阶段被准确执行，导致实际执行的动作与预期策略存在偏差。简单来说，就像大脑（训练内核）想好了最优方案，但手脚（推理内核）却跟不上或执行不到位，自然难以取得好成绩。

在一系列调整后，MiniMax-M1 将训练概率和推理概率之间的相关性从 0.9 倍提升至 0.99 倍（如下图右图所示）。

上述一系列优化下，MiniMax 最终将 MiniMax-M1 整个强化训练成本打下了一个数量级，只用 512 块 H800，用时三周，租赁成本只有 53.74 万美金。

从 Demo 到生产力，工具才是 Agent 的终极“外挂”

无论是长上下文窗口，还是强化学习训练成本上的优势，本质都是为上层 Agent 应用提供底层支撑，加速规模化落地。

但真正决定 Agent 应用在复杂场景中用得好不好，更多取决于其能否与外部系统无缝协同。这也是为什么越来越多的企业和开发者开始将工具使用（Tool Use）视作 Agent 最重要的能力。MiniMax-M1 能在海内外引起广泛讨论的一部分原因，也来自于此。

在代理工具使用场景（TAU-bench）中，MiniMax-M1-40k 领跑所有开源权重模型，在 30 多轮长链路思考与工具调用任务中，展现出极高的稳定性。

TAU-bench 被视为评估 Agent 工具使用能力的“黄金标准”，其由顶尖 AI 研究机构联合推出，通过对 Agent 在航空、零售两个垂直领域的场景评测，衡量 Agent 在复杂现实任务中，与用户和工具交互的能力。对于开发者、企业甚至是研究机构而言，TAU-bench 的评测结果都具有重要的参考价值。

稳定是工具能力的基础，易用性则决定了工具能否被广泛应用。这也是 MiniMax-M1 在工具调用方面，区别于传统模型的关键。

在传统方案中，开发者需要为每个 API 单独设计 Prompt 模板、处理参数映射、调试上下文传递，这种方式不仅效率低，还严重依赖开发者个人经验。MiniMax-M1 支持开发者以简单的 XML 格式工具结构描述工具功能，模型能够自动理解工具的输入输出、参数约束，并生成符合要求的调用代码。开发者甚至不需要专门学习工具的使用方法，就能实现工具调用。

在实际的应用场景中，MiniMax-M1 在工具调用能力上的优势得到了进一步放大。在 MiniMax-M1 的 Hugging Face 主页上，专门设置了一个“代码游乐场”，用户可以通过这个交互式环境，快速且直观地感受 MiniMax-M1 工具调用能力对开发效率的提升。

比如，MiniMax-M1 内置了很多 UI 组件。通过输入提示词，MiniMax-M1 能快速生成 3D 翻转卡片动画，也能立即创建一个具有粒子动画背景的 HTML 页面。

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

MiniMax-M1 还支持交互式应用程序。以打字速度测试工具为例，MiniMax-M1 能够快速生成包含实时打字速度（以每分钟字数 WPM 计算）的 Web 应用，整个过程不需要任何插件，也不需要做额外的设置。

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

此外，MiniMax-M1 还支持工具 & 编辑器、游戏 & 可视化能力。比如，输入提示词：“创建一个迷宫生成器和路径寻找可视化工具，随机生成迷宫并用 A* 算法逐步可视化解法。使用 canvas 和动画呈现，视觉效果炫酷。”MiniMax-M1 快速就能做出一个迷宫小游戏，可玩性也相当不错。

00:00 / 00:00

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

当 Agent 规模化应用已成定局，MiniMax-M1 开源更大的意义在于，给行业提供了一个新思路：RAG 等“外挂”或许能短期内提高 Agent 的落地效果，但长期来看，基座模型本身的持续进化，或许才是解决 Agent 落地难题的“第一性原理”。

MiniMax 围绕模型升级的重点之一，始终是上下文处理能力，迭代速度堪称迅猛。年初，MiniMax 发布并开源 MiniMax-01 系列模型，其中，MiniMax-Text-01 模型能够高效处理多达 400 万 token 的上下文，这一数据是 GPT-4o 的 32 倍，更是 Claude-3.5-Sonnet 的 20 倍。如今 MiniMax-M1 支持 100 万上下文输入，不难发现，MiniMax 在技术路线与战略方向上，始终保持着连贯性与坚定性。

这是因为在 Agent 系统里，无论是单 Agent 实现长期记忆，还是多 Agent 达成协同通信，都高度依赖强大的上下文处理能力。另外，随着 AI Agent 逐渐进入企业生产环境，来自各领域大量的上下文信息正在输入，不确定性很高，支持的上下文长度越大，对业务的兼容性越好。

与市面上的基础模型厂商不同，MiniMax 对技术的考量，是以业务为中心的，“技术摸高”是 MiniMax 的重要任务，但不是唯一任务。而随着企业对 AI 的需求越来越贴合业务实际情况，MiniMax 这样的厂商，无疑增强了企业对 AI 的信心。在本次 MiniMax-M1 开源后，我们完全可以期待 2025 下半年 AI 市场的增长曲线，将因此抵达新的高峰。

发布

暂无评论

创作场景

53 万美金训练出顶级 AI？揭秘 MiniMax 的「省钱」绝招

全球最长上下文，MiniMax-M1 是如何做到的？

双重创新，RL 训练成本降至 53 万美金

从 Demo 到生产力，工具才是 Agent 的终极“外挂”

评论

mcgs笔记构件查看帮助文档

TDengine 签约前晨汽车，解锁智能出行的无限潜力

远航汽车远勤山：品质技术服务放首位扎根新能源汽车赛道持续远航

阿里云 EMR StarRocks 在七猫的应用和实践

mcgs笔记工具箱构件展示

mcgs笔记工具箱元件库（公共图库）展示（中）

西部数据正式推出获PS5™官方授权的8TB超大容量SSD

mcgs笔记构成工程的五个部分

襄阳等保测评机构有哪些？在哪里？

How Can Unity+腾讯云开发=微信小游戏?

交换机是什么？云管理平台可以管理交换吗？

mcgs笔记工具箱元件库（公共图库）展示（上）

mcgs笔记工具箱元件库（四种风格）展示

mcgs笔记设备窗口查看子设备的参数配置说明

mcgs笔记设备窗口添加父设备与子设备

mcgs笔记新建工程与模拟运行

Percona Toolkit 神器全攻略（性能类）

🌍 "独立开发者出海技术栈和工具" 现已上线!

天猫商品详情数据接口：利用接口工具获取数据

NPU 与 GPU 相比，有什么差别？| 技术速览

软件测试 | 手工转测试开发轻松实现薪资 50%涨幅的逆袭之路

【黄金圆环】在研发领域的实践分享

动物目标检测——基于YOLOv5和树莓派4B平台

LeetCode：240. 搜索二维矩阵 II，直接查找，详细注释

强化安全防线：融合反射API与代码注入防护的先进策略

三国策略游戏下载：三国志11威力加强版 (Win&Mac)版下载

创作场景

53 万美金训练出顶级 AI？揭秘 MiniMax 的「省钱」绝招

全球最长上下文，MiniMax-M1 是如何做到的？

双重创新，RL 训练成本降至 53 万美金

从 Demo 到生产力，工具才是 Agent 的终极“外挂”

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载