2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

MiniMax 发布 M1 模型:专为长上下文推理与软件任务设计的 4560 亿参数混合注意力模型

作者:Robert Krzaczyński

  • 2025-06-26
    北京
  • 本文字数:802 字

    阅读完需:约 3 分钟

大小:443.43K时长:02:31
MiniMax发布M1模型:专为长上下文推理与软件任务设计的4560亿参数混合注意力模型

MiniMax 推出了MiniMax-M1,这是一款专为长上下文推理和工具使用设计的开放权重语言模型。该模型是基于早期的MiniMax-Text-01构建,采用了混合专家模型(MoE)架构和新型“闪电注意力”(lightning attention)机制。模型总容量达 4560 亿参数,每 token 激活 459 亿参数,并支持高达 100 万 token 的上下文长度。

 

M1 的核心优势在于其计算效率高且擅长长文本推理。其闪电注意力机制显著降低了推理时的计算量,处理 10 万 token 序列所需的FLOP计算量仅为DeepSeek R1的 25%。该模型通过跨领域的大规模强化学习进行训练,涵盖数学解题和软件工程等场景。

 

模型提供两个版本,并采用定制的强化学习评估方法。特别值得一提的是,MiniMax 创新性地提出了 CISPO 算法,该算法通过裁剪重要性采样权重而非 token 更新,相比传统方法显著提升了稳定性和性能。

 

在各项基准测试中,MiniMax-M1-80K 在开源模型中表现突出:


  • 长文本任务:OpenAI-MRCR 128K:73.4%,LongBench-v2:61.5%

  • 软件工程:SWE-bench Verified:56.0%

  • 工具使用:TAU-bench airline:62.0%,retail:63.5%

  • 数学推理:AIME 2024:86.0%

 

有 Reddit 用户评价该模型优势:


目测很好,在函数调用(Tau-bench)和长文本处理方面表现惊艳,堪称开源权重模型种的新标杆(SOTA),特别是长文本处理能力优势明显,我觉得这点完全不意外,他们之前分非推理模型再这方面就已经很棒了。


但也有用户指出其实际使用中的局限性,用户 dubesor86 就分享一则小故事:


但也很不稳定。让它下一盘通常几分钟就能完成的国际象棋,结果运行了一整晚都没完成。再高的分数,如果实际不可用也是毫无意义的。

 

MiniMax-M1 还支持结构化函数调用,因此也适用于智能体框架的开发。该模型提供两个版本(40K 和 80K),可通过HuggingFace获取。团队推荐使用vLLM进行部署,该工具可提供优化的服务、内存管理和批处理性能。开发者也可以通过MiniMax MCP Server进行实验,该平台集成了 API 访问及视频和图像生成、语音合成和声音克隆等功能。

2025-06-26 18:007117

评论

发布
暂无评论

json处理

Isuodut

高光时刻!美团推出Spring源码进阶宝典:脑图+视频+文档

996小迁

spring 源码 架构 笔记

Locust快速上手指南

行者AI

3面抖音犹如开挂,一周直接拿下offer,全靠这份啃了两个月「Java进阶手册」+[Java面试宝典]

编程 程序员 面试 计算机

15天成功拿到阿里offer 我是如何逆袭成功?全靠“Java程序员面试笔试通关宝典”真够可以!

比伯

Java 编程 架构 面试 程序人生

接口自动化传值处理

行者AI

软件测试中需要使用的工具

测试人生路

软件测试

得物App亮相QCon全球软件开发大会,分享百倍增长背后的技术力量

得物技术

效率 技术 得物 得物技术 Qcon

《迅雷链精品课》第十三课:PBFT算法

迅雷链

区块链

5年Java高工经验,我是如何成功拿下滴滴D7Offer的?

Java架构追梦

Java 学习 架构 面试 滴滴

AOFEX交易所APP系统开发|AOFEX交易所软件开发

系统开发

LeetCode题解:42. 接雨水,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

小程序市场的「App Store」来了!你准备好吃“螃蟹”了吗?

蚂蚁集团移动开发平台 mPaaS

小程序生态 mPaaS appstore

自定义TBE算子入门,不妨从单算子开发开始

华为云开发者联盟

算法 算子 自定义

iOS面试基础知识 (五)

iOSer

ios 面试 底层知识

数字货币交易所系统开发,区块链交易所搭建

薇電13242772558

区块链 数字货币

jenkins实现接口自动化持续集成(python+pytest+ Allure+git)

行者AI

XDAG技术详解1

老五

腾讯五面、快手三面已拿offer(Java岗位),分享个人面经

程序员知识圈

Java 程序员 架构 面试 编程语言

资深码农:拿下软件测试,只需掌握好这两种方法!

华为云开发者联盟

软件 工具 测试

如何从危机中提炼总结,做好2020年的复盘?

CECBC

复盘 经济

盘点 2020 |协作,是另外一种常态

冯文辉

领域驱动设计 DDD 协作 远程协作 盘点2020

浅谈 WebRTC 的 Audio 在进入 Encoder 之前的处理流程

阿里云CloudImagine

阿里云 音视频 WebRTC 音频技术 音频

【得物技术】如何测试概率性事件-二项分布置信区间

得物技术

测试 开发 概率 得物 得物技术

华为全栈AI技术干货深度解析,解锁企业AI开发“秘籍”

华为云开发者联盟

AI 全栈 开发

排查指南 | mPaaS 小程序被卡在了三个蓝点

蚂蚁集团移动开发平台 mPaaS

小程序 问题排查 mPaaS

我的 500 张技术配图是怎么画的?

小林coding

程序人生 画图软件

观察者模式

soolaugust

设计模式 观察者模式 七日更

双循环背景下的全球供应链机遇与挑战

CECBC

供应链物流

为什么要在以太坊上构建去中心化缓存层?到底要怎样做呢?

CECBC

以太坊

接口自动化测试的实现

行者AI

MiniMax发布M1模型:专为长上下文推理与软件任务设计的4560亿参数混合注意力模型_AI&大模型_InfoQ精选文章