MiniMax发布M1模型：专为长上下文推理与软件任务设计的4560亿参数混合注意力模型_AI&大模型_InfoQ精选文章

2天时间，聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情 



 写点什么

登录/注册



大小：443.43K时长：02:31

MiniMax发布M1模型：专为长上下文推理与软件任务设计的4560亿参数混合注意力模型

MiniMax 推出了MiniMax-M1，这是一款专为长上下文推理和工具使用设计的开放权重语言模型。该模型是基于早期的MiniMax-Text-01构建，采用了混合专家模型（MoE）架构和新型“闪电注意力”（lightning attention）机制。模型总容量达 4560 亿参数，每 token 激活 459 亿参数，并支持高达 100 万 token 的上下文长度。

M1 的核心优势在于其计算效率高且擅长长文本推理。其闪电注意力机制显著降低了推理时的计算量，处理 10 万 token 序列所需的FLOP计算量仅为DeepSeek R1的 25%。该模型通过跨领域的大规模强化学习进行训练，涵盖数学解题和软件工程等场景。

模型提供两个版本，并采用定制的强化学习评估方法。特别值得一提的是，MiniMax 创新性地提出了 CISPO 算法，该算法通过裁剪重要性采样权重而非 token 更新，相比传统方法显著提升了稳定性和性能。

在各项基准测试中，MiniMax-M1-80K 在开源模型中表现突出：

长文本任务：OpenAI-MRCR 128K：73.4%，LongBench-v2：61.5%
软件工程：SWE-bench Verified：56.0%
工具使用：TAU-bench airline：62.0%，retail：63.5%
数学推理：AIME 2024：86.0%

有 Reddit 用户评价该模型优势：

目测很好，在函数调用（Tau-bench）和长文本处理方面表现惊艳，堪称开源权重模型种的新标杆（SOTA），特别是长文本处理能力优势明显，我觉得这点完全不意外，他们之前分非推理模型再这方面就已经很棒了。

但也有用户指出其实际使用中的局限性，用户 dubesor86 就分享一则小故事：

但也很不稳定。让它下一盘通常几分钟就能完成的国际象棋，结果运行了一整晚都没完成。再高的分数，如果实际不可用也是毫无意义的。

MiniMax-M1 还支持结构化函数调用，因此也适用于智能体框架的开发。该模型提供两个版本（40K 和 80K），可通过HuggingFace获取。团队推荐使用vLLM进行部署，该工具可提供优化的服务、内存管理和批处理性能。开发者也可以通过MiniMax MCP Server进行实验，该平台集成了 API 访问及视频和图像生成、语音合成和声音克隆等功能。

评论

发布

暂无评论

json处理

高光时刻！美团推出Spring源码进阶宝典：脑图+视频+文档

spring 源码架构笔记

Locust快速上手指南

3面抖音犹如开挂，一周直接拿下offer，全靠这份啃了两个月「Java进阶手册」+[Java面试宝典]

编程程序员面试计算机

15天成功拿到阿里offer 我是如何逆袭成功？全靠“Java程序员面试笔试通关宝典”真够可以！

Java 编程架构面试程序人生

接口自动化传值处理

软件测试中需要使用的工具

测试人生路

得物App亮相QCon全球软件开发大会，分享百倍增长背后的技术力量

效率技术得物得物技术 Qcon

《迅雷链精品课》第十三课：PBFT算法

5年Java高工经验，我是如何成功拿下滴滴D7Offer的？

Java架构追梦

Java 学习架构面试滴滴

AOFEX交易所APP系统开发|AOFEX交易所软件开发

LeetCode题解：42. 接雨水，动态规划，JavaScript，详细注释

算法大前端 LeetCode

小程序市场的「App Store」来了！你准备好吃“螃蟹”了吗？

蚂蚁集团移动开发平台 mPaaS

小程序生态 mPaaS appstore

自定义TBE算子入门，不妨从单算子开发开始

华为云开发者联盟

算法算子自定义

iOS面试基础知识（五）

ios 面试底层知识

数字货币交易所系统开发，区块链交易所搭建

薇電13242772558

区块链数字货币

jenkins实现接口自动化持续集成（python+pytest+ Allure+git）

XDAG技术详解1

腾讯五面、快手三面已拿offer（Java岗位），分享个人面经

程序员知识圈

Java 程序员架构面试编程语言

资深码农：拿下软件测试，只需掌握好这两种方法！

华为云开发者联盟

软件工具测试

如何从危机中提炼总结，做好2020年的复盘？

盘点 2020 ｜协作，是另外一种常态

领域驱动设计 DDD 协作远程协作盘点2020

浅谈 WebRTC 的 Audio 在进入 Encoder 之前的处理流程

阿里云CloudImagine

阿里云音视频 WebRTC 音频技术音频

【得物技术】如何测试概率性事件-二项分布置信区间

测试开发概率得物得物技术

华为全栈AI技术干货深度解析，解锁企业AI开发“秘籍”

华为云开发者联盟

AI 全栈开发

排查指南 | mPaaS 小程序被卡在了三个蓝点

蚂蚁集团移动开发平台 mPaaS

小程序问题排查 mPaaS

我的 500 张技术配图是怎么画的？

程序人生画图软件

观察者模式

设计模式观察者模式七日更

双循环背景下的全球供应链机遇与挑战

供应链物流

为什么要在以太坊上构建去中心化缓存层？到底要怎样做呢？

接口自动化测试的实现