
MiniMax 推出了MiniMax-M1,这是一款专为长上下文推理和工具使用设计的开放权重语言模型。该模型是基于早期的MiniMax-Text-01构建,采用了混合专家模型(MoE)架构和新型“闪电注意力”(lightning attention)机制。模型总容量达 4560 亿参数,每 token 激活 459 亿参数,并支持高达 100 万 token 的上下文长度。
M1 的核心优势在于其计算效率高且擅长长文本推理。其闪电注意力机制显著降低了推理时的计算量,处理 10 万 token 序列所需的FLOP计算量仅为DeepSeek R1的 25%。该模型通过跨领域的大规模强化学习进行训练,涵盖数学解题和软件工程等场景。
模型提供两个版本,并采用定制的强化学习评估方法。特别值得一提的是,MiniMax 创新性地提出了 CISPO 算法,该算法通过裁剪重要性采样权重而非 token 更新,相比传统方法显著提升了稳定性和性能。
在各项基准测试中,MiniMax-M1-80K 在开源模型中表现突出:
长文本任务:OpenAI-MRCR 128K:73.4%,LongBench-v2:61.5%
软件工程:SWE-bench Verified:56.0%
工具使用:TAU-bench airline:62.0%,retail:63.5%
数学推理:AIME 2024:86.0%
有 Reddit 用户评价该模型优势:
目测很好,在函数调用(Tau-bench)和长文本处理方面表现惊艳,堪称开源权重模型种的新标杆(SOTA),特别是长文本处理能力优势明显,我觉得这点完全不意外,他们之前分非推理模型再这方面就已经很棒了。
但也有用户指出其实际使用中的局限性,用户 dubesor86 就分享一则小故事:
但也很不稳定。让它下一盘通常几分钟就能完成的国际象棋,结果运行了一整晚都没完成。再高的分数,如果实际不可用也是毫无意义的。
MiniMax-M1 还支持结构化函数调用,因此也适用于智能体框架的开发。该模型提供两个版本(40K 和 80K),可通过HuggingFace获取。团队推荐使用vLLM进行部署,该工具可提供优化的服务、内存管理和批处理性能。开发者也可以通过MiniMax MCP Server进行实验,该平台集成了 API 访问及视频和图像生成、语音合成和声音克隆等功能。
评论