Agentic AI、具身智能、强化学习框架、端侧大模型……来QCon上海站,感受AI的未来! 了解详情
写点什么

53 万美金训练出顶级 AI?揭秘 MiniMax 的「省钱」绝招

  • 2025-06-20
    北京
  • 本文字数:4275 字

    阅读完需:约 14 分钟

大小:2.15M时长:12:33
53万美金训练出顶级AI?揭秘MiniMax的「省钱」绝招

这几天,MiniMax 搞起了技术周,第一天就放出“王炸”,开源了全球首个大规模混合架构推理模型 MiniMax-M1。据最新消息,M1 已经成为全球前二的开源模型。



MiniMax 分别用最大生成长度的 40K 和 80K token,训练了两个版本的 MiniMax-M1 模型——MiniMax-M1-40k 和 MiniMax-M1-80k。MiniMax-M1-80k 在复杂的数学和编码任务上优于 MiniMax-M1-40k。


据观察,MiniMax-M1 在全球科技领域引起了强烈的反响。产品不仅迅速占据海外主流媒体如 VentureBeat、Seekingalpha 等重要版面,更获得 Aran Komatsuzaki 等行业 KOL 的深度解读,同时在 TestTM 等国际社交平台引发讨论,形成多维度、跨圈层的传播矩阵。


(全球科技领域大V评论截图)


(VentureBeat 报道截图)


而引发海外关注的原因,来自于 M1 的三个核心能力——长上下文窗口、RL 训练成本上的优势、Agent 工具调用


M1 技术报告显示,在业内主流的 17 个评测集上,M1 的性能表现超越了当前很多头部模型。例如 MiniMax-M1-40k 和 MiniMax-M1-80k 在 SWE-bench 验证基准上分别取得 55.6% 和 56.0% 的优异成绩。在长上下文理解任务中,全面超越所有开源权重模型。在代理工具使用场景(TAU-bench)中,MiniMax-M1-40k 同样领跑所有开源权重模型,并战胜 Gemini-2.5 Pro。


全球最长上下文,MiniMax-M1 是如何做到的?


MiniMax-M1 基于之前的 MiniMax-Text-01 模型开发,总共包含 4560 亿个参数,459 亿个激活函数,并具备 32 层架构,其最大的亮点是支持目前业内最高的 100 万上下文的输入。


从报告测评结果来看,MiniMax-M1 的上下文输入长度达到 1M,与闭源模型中的 Google Gemini 2.5 Pro 持平,却是 DeepSeek R1(128K)的 8 倍。


不仅如此,MiniMax-M1 的推理输出可达 8 万 Token,同样位居业内之首。这使得 M1 特别适合解决需要处理长文本(比如代码、论文)和复杂推理(比如数学题、软件调试)的任务。


依托其百万级上下文窗口,M1 系列在长上下文理解任务中表现卓越,其中在上下文能力的评测基准 OpenAI-MRCR (128k/1M) 以及 LongBench-v2 中,M1 的表现远超包括 DeepSeek-R1-0528 和 Qwen3-235B 在内的所有开源模型,甚至超越 OpenAI o3 和 Claude 4 Opus,仅以微弱差距落后于 Gemini 2.5 Pro。



目前,超长上下文在多个领域展现出了更多的实际应用价值。例如在文档分析领域,百万级上下文窗口能够处理超长合同、科研文献等复杂文档,提升信息提取和理解的准确性;在代码生成领域,百万级上下文窗口能够理解并修复整个代码库中的问题,甚至生成完整的长篇代码。


以文档分析写作领域为例,过去,“写一篇 10000 字的长文,详细分析 XX 议题”这种看似简单的要求,实际上有一些大模型做不到,而现在极有可能实现。


M1 模型上下文能力的提升,得益于 MiniMax 独创了 Lightning Attention(闪电注意力)神经网络架构,以及全新的强化学习算法 CISPO(Clipped IS-weight Policy Optimization)。


当前,主流大语言模型的核心架构均以 Transfolmer 架构为基础框架。然而,传统 Transformer 架构在处理长序列时存在明显弊端,其注意力机制的计算量会随序列长度呈平方级增长,进而导致显存占用和计算成本急剧上升。


而 MiniMax 一直对非传统 Transformer 路线十分感兴趣,动作积极,并且实践了“非主流”的线性注意力机制。

双重创新,RL 训练成本降至 53 万美金


MiniMax-M1 和 MiniMax-Text-01 系列,都是基于闪电注意力机制开发的。


其中,MiniMax-M1 中每 7 个带有闪电注意力的 Transformer 模块后会跟一个带有 softmax 注意力的 Transformer 模块。这种设计理论上可以将推理长度高效扩展到数十万个,同时大幅降低成本。



从图中可以看到,和 DeepSeek R1 相比,M1 在 64 个 token 的生成长度下,消耗的 FLOP 不到 50%,在 100K 个 token 长度下消耗 FLOP 约为 25%。


闪电注意力机制实则是线性注意力机制变体的 I/O 感知实现。


具体来看,传统 Transformer 的 Softmax 注意力机制需要为输入序列构建一个 N×N 的全连接矩阵,用以计算注意力权重,当处理超长序列时,这个矩阵会变得极其庞大,导致计算和存储成本急剧增加。


闪电注意力机制等线性注意力机制采用“分块计算”策略,将长序列分割成多个小块,先在小块内部计算词与词之间的关系,再通过块间信息传递整合全局语义,这种方法显著降低了计算复杂度,同时仍能捕捉到长距离的语义关联。


这种模式下,计算复杂度不再是随着序列长度的增加指数级上升,而是变成了和序列长度成线性关系,也就是说,序列变长时,计算量也只按比例增加,大大提高了处理效率。


它先确保了计算复杂度是线性的,在此基础上,再结合输入数据的稀疏性、结构等特性,以及输出任务的具体需求,甚至还考虑了底层硬件的内存访问效率,去对线性注意力的计算和实现方式进行设计或调整。这样做的目的,就是在保持线性复杂度的同时,让模型在特定任务或数据上能获得更优表现,比如运行速度更快、内存占用更少,或者能生成更相关的注意力分布,从而提升整体效果。


换句话说,这本身就是一种更精细化、更贴合实际应用场景的优化思路。


正是这种独特的架构设计,让采用它的 M1 模型在处理那些非常长的序列数据时表现特别出色,能够在保证处理效果(性能)的同时,也兼顾了计算速度(效率)。


但由此带来的问题是,高速推理会加速强化学习(RL)的缩放进程,让模型生成的响应越来越长,变得冗余。而且,传统混合架构模型所使用的 RL 算法,在这种快速变化的环境下,很容易因为各种未知因素而变得不稳定,进而影响模型的整体表现和可靠性。


为此,MiniMax 用两种方法来稳定提高 RL 的缩放效率。


首先是 RL 算法的创新。M1 技术报告中提到,在零 RL 设置下的混合架构的初步实验中,GRPO 算法对训练性能反而产生了不利影响,并且无法促进长 CoT 推理为的出现。


MiniMax 提出了一种新的强化学习算法 CISPO。CISPO 不直接裁剪 token,而是保留所有 token 的更新,修剪重要性采样(importance sampling)权重来保持训练的稳定性。


实验显示,在相同训练步数下,CISPO 的性能优于 GRPO 和 DAPO,并且只用一半的训练步数就能达到与 DAPO 相当的性能。



此外,MiniMax 还注意到,M1 的混合注意力机制的设计还会 RL 扩展的稳定性带来挑战。


例如,模型训练架构的训练内核和推理内核之间精度不匹配(如下图左图所示)。这导致训练内核学到的策略可能无法在推理阶段被准确执行,导致实际执行的动作与预期策略存在偏差。简单来说,就像大脑(训练内核)想好了最优方案,但手脚(推理内核)却跟不上或执行不到位,自然难以取得好成绩。


在一系列调整后,MiniMax-M1 将训练概率和推理概率之间的相关性从 0.9 倍提升至 0.99 倍(如下图右图所示)。



上述一系列优化下,MiniMax 最终将 MiniMax-M1 整个强化训练成本打下了一个数量级,只用 512 块 H800,用时三周,租赁成本只有 53.74 万美金。

从 Demo 到生产力,工具才是 Agent 的终极“外挂”


无论是长上下文窗口,还是强化学习训练成本上的优势,本质都是为上层 Agent 应用提供底层支撑,加速规模化落地。


但真正决定 Agent 应用在复杂场景中用得好不好,更多取决于其能否与外部系统无缝协同。这也是为什么越来越多的企业和开发者开始将 工具使用(Tool Use) 视作 Agent 最重要的能力。MiniMax-M1 能在海内外引起广泛讨论的一部分原因,也来自于此。


在代理工具使用场景(TAU-bench)中,MiniMax-M1-40k 领跑所有开源权重模型,在 30 多轮长链路思考与工具调用任务中,展现出极高的稳定性。


TAU-bench 被视为评估 Agent 工具使用能力的“黄金标准”,其由顶尖 AI 研究机构联合推出,通过对 Agent 在航空、零售两个垂直领域的场景评测,衡量 Agent 在复杂现实任务中,与用户和工具交互的能力。对于开发者、企业甚至是研究机构而言,TAU-bench 的评测结果都具有重要的参考价值。


稳定是工具能力的基础,易用性则决定了工具能否被广泛应用。这也是 MiniMax-M1 在工具调用方面,区别于传统模型的关键。


在传统方案中,开发者需要为每个 API 单独设计 Prompt 模板、处理参数映射、调试上下文传递,这种方式不仅效率低,还严重依赖开发者个人经验。MiniMax-M1 支持开发者以简单的 XML 格式工具结构描述工具功能,模型能够自动理解工具的输入输出、参数约束,并生成符合要求的调用代码。开发者甚至不需要专门学习工具的使用方法,就能实现工具调用。


在实际的应用场景中,MiniMax-M1 在工具调用能力上的优势得到了进一步放大。在 MiniMax-M1 的 Hugging Face 主页上,专门设置了一个“代码游乐场”,用户可以通过这个交互式环境,快速且直观地感受 MiniMax-M1 工具调用能力对开发效率的提升。


比如,MiniMax-M1 内置了很多 UI 组件。通过输入提示词,MiniMax-M1 能快速生成 3D 翻转卡片动画,也能立即创建一个具有粒子动画背景的 HTML 页面。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      MiniMax-M1 还支持交互式应用程序。以打字速度测试工具为例,MiniMax-M1 能够快速生成包含实时打字速度(以每分钟字数 WPM 计算)的 Web 应用,整个过程不需要任何插件,也不需要做额外的设置。


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        此外,MiniMax-M1 还支持工具 & 编辑器、游戏 & 可视化能力。比如,输入提示词:“创建一个迷宫生成器和路径寻找可视化工具,随机生成迷宫并用 A* 算法逐步可视化解法。使用 canvas 和动画呈现,视觉效果炫酷。”MiniMax-M1 快速就能做出一个迷宫小游戏,可玩性也相当不错。


        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          当 Agent 规模化应用已成定局,MiniMax-M1 开源更大的意义在于,给行业提供了一个新思路:RAG 等“外挂”或许能短期内提高 Agent 的落地效果,但长期来看,基座模型本身的持续进化,或许才是解决 Agent 落地难题的“第一性原理”。


          MiniMax 围绕模型升级的重点之一,始终是上下文处理能力,迭代速度堪称迅猛。年初,MiniMax 发布并开源 MiniMax-01 系列模型,其中,MiniMax-Text-01 模型能够高效处理多达 400 万 token 的上下文,这一数据是 GPT-4o 的 32 倍,更是 Claude-3.5-Sonnet 的 20 倍。如今 MiniMax-M1 支持 100 万上下文输入,不难发现,MiniMax 在技术路线与战略方向上,始终保持着连贯性与坚定性。


          这是因为在 Agent 系统里,无论是单 Agent 实现长期记忆,还是多 Agent 达成协同通信,都高度依赖强大的上下文处理能力。另外,随着 AI Agent 逐渐进入企业生产环境,来自各领域大量的上下文信息正在输入,不确定性很高,支持的上下文长度越大,对业务的兼容性越好。


          与市面上的基础模型厂商不同,MiniMax 对技术的考量,是以业务为中心的,“技术摸高”是 MiniMax 的重要任务,但不是唯一任务。而随着企业对 AI 的需求越来越贴合业务实际情况,MiniMax 这样的厂商,无疑增强了企业对 AI 的信心。在本次 MiniMax-M1 开源后,我们完全可以期待 2025 下半年 AI 市场的增长曲线,将因此抵达新的高峰。

          2025-06-20 18:058822

          评论

          发布
          暂无评论
          发现更多内容

          mcgs笔记 构件 查看帮助文档

          万里无云万里天

          自动化 HMI mcgs

          TDengine 签约前晨汽车,解锁智能出行的无限潜力

          TDengine

          数据库 tdengine 时序数据库

          远航汽车远勤山:品质技术服务放首位 扎根新能源汽车赛道持续远航

          极客天地

          阿里云 EMR StarRocks 在七猫的应用和实践

          阿里云大数据AI技术

          云计算 大数据 阿里云 EMR

          mcgs笔记 工具箱 构件展示

          万里无云万里天

          自动化 HMI mcgs

          mcgs笔记 工具箱 元件库(公共图库)展示(中)

          万里无云万里天

          自动化 HMI mcgs

          西部数据正式推出获PS5™官方授权的8TB超大容量SSD

          极客天地

          mcgs笔记 构成工程的五个部分

          万里无云万里天

          自动化 HMI mcgs

          襄阳等保测评机构有哪些?在哪里?

          行云管家

          等保 等保测评

          How Can Unity+腾讯云开发=微信小游戏?

          蛋先生DX

          腾讯云 Unity 数据模型 云开发 微信小游戏

          交换机是什么?云管理平台可以管理交换吗?

          行云管家

          云计算 云服务 交换机 云管理

          mcgs笔记 工具箱 元件库(公共图库)展示(上)

          万里无云万里天

          自动化 HMI mcgs

          mcgs笔记 工具箱 元件库(四种风格)展示

          万里无云万里天

          自动化 HMI mcgs

          mcgs笔记 设备窗口 查看子设备的参数配置说明

          万里无云万里天

          自动化 HMI mcgs

          mcgs笔记 设备窗口 添加父设备与子设备

          万里无云万里天

          自动化 HMI mcgs

          mcgs笔记 新建工程与模拟运行

          万里无云万里天

          自动化 HMI mcgs

          Percona Toolkit 神器全攻略(性能类)

          GreatSQL

          🌍 "独立开发者出海技术栈和工具" 现已上线!

          Immerse

          独立开发者 工具 技术栈 出海 工具站

          天猫商品详情数据接口:利用接口工具获取数据

          tbapi

          天猫API接口 天猫商品详情接口

          NPU 与 GPU 相比,有什么差别?| 技术速览

          Baihai IDP

          程序员 AI gpu 企业 9 月 PK 榜 NPU

          软件测试 | 手工转测试开发轻松实现薪资 50%涨幅的逆袭之路

          测试人

          软件测试

          【黄金圆环】在研发领域的实践分享

          京东科技开发者

          动物目标检测——基于YOLOv5和树莓派4B平台

          芯动大师

          人工智能 机器学习 AIGC

          LeetCode:240. 搜索二维矩阵 II,直接查找,详细注释

          Lee Chen

          强化安全防线:融合反射API与代码注入防护的先进策略

          代码忍者

          API 测试 pinduoduo API

          三国策略游戏下载:三国志11威力加强版 (Win&Mac)版下载

          你的猪会飞吗

          三国志11威力加强版 Mac游戏下载 mac破解软件下载

          53万美金训练出顶级AI?揭秘MiniMax的「省钱」绝招_AI&大模型_刘杨楠_InfoQ精选文章