2025云栖大会,开启通往AGI的未来之旅 了解详情
写点什么

MiniMax 发布 M1 模型:专为长上下文推理与软件任务设计的 4560 亿参数混合注意力模型

作者:Robert Krzaczyński

  • 2025-06-26
    北京
  • 本文字数:802 字

    阅读完需:约 3 分钟

大小:443.43K时长:02:31
MiniMax发布M1模型:专为长上下文推理与软件任务设计的4560亿参数混合注意力模型

MiniMax 推出了MiniMax-M1,这是一款专为长上下文推理和工具使用设计的开放权重语言模型。该模型是基于早期的MiniMax-Text-01构建,采用了混合专家模型(MoE)架构和新型“闪电注意力”(lightning attention)机制。模型总容量达 4560 亿参数,每 token 激活 459 亿参数,并支持高达 100 万 token 的上下文长度。

 

M1 的核心优势在于其计算效率高且擅长长文本推理。其闪电注意力机制显著降低了推理时的计算量,处理 10 万 token 序列所需的FLOP计算量仅为DeepSeek R1的 25%。该模型通过跨领域的大规模强化学习进行训练,涵盖数学解题和软件工程等场景。

 

模型提供两个版本,并采用定制的强化学习评估方法。特别值得一提的是,MiniMax 创新性地提出了 CISPO 算法,该算法通过裁剪重要性采样权重而非 token 更新,相比传统方法显著提升了稳定性和性能。

 

在各项基准测试中,MiniMax-M1-80K 在开源模型中表现突出:


  • 长文本任务:OpenAI-MRCR 128K:73.4%,LongBench-v2:61.5%

  • 软件工程:SWE-bench Verified:56.0%

  • 工具使用:TAU-bench airline:62.0%,retail:63.5%

  • 数学推理:AIME 2024:86.0%

 

有 Reddit 用户评价该模型优势:


目测很好,在函数调用(Tau-bench)和长文本处理方面表现惊艳,堪称开源权重模型种的新标杆(SOTA),特别是长文本处理能力优势明显,我觉得这点完全不意外,他们之前分非推理模型再这方面就已经很棒了。


但也有用户指出其实际使用中的局限性,用户 dubesor86 就分享一则小故事:


但也很不稳定。让它下一盘通常几分钟就能完成的国际象棋,结果运行了一整晚都没完成。再高的分数,如果实际不可用也是毫无意义的。

 

MiniMax-M1 还支持结构化函数调用,因此也适用于智能体框架的开发。该模型提供两个版本(40K 和 80K),可通过HuggingFace获取。团队推荐使用vLLM进行部署,该工具可提供优化的服务、内存管理和批处理性能。开发者也可以通过MiniMax MCP Server进行实验,该平台集成了 API 访问及视频和图像生成、语音合成和声音克隆等功能。

2025-06-26 18:006976

评论

发布
暂无评论

跨云迁移过程中的数据同步及一致性校验实践(二)

UCloud技术

迁移 数据传输 数据库迁移 数据迁移

vivo 官网资源包适配多场景的应用

vivo互联网技术

低代码 无服务器云函数

Mac 下配置 Intellij IDEA + Tomcat 出现权限问题的解决办法

少平

tomcat

华为AR&VR黑科技:以“自由视角”360度尽展舞台唯美

华为云开发者联盟

华为 算法 视频 AR&VR 全息显示

数据产品经理实战-用户运营体系搭建

第519区

算法 数据产品 数据运营

ETL工具—Taskctl 如何搭建配置作业类型的管理

敏捷调度TASKCTL

大数据 kettle 运维自动化 海豚调度 ETL

Elasticsearch Search Options 搜索参数

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

产品训练营-第五周作业

羽室

跨云迁移过程中的数据同步及一致性校验实践(一)

UCloud技术

迁移 数据传输 数据库迁移 数据迁移

隧道建设手段结合科技能有多强大?盾构机可视化让工程化繁为简

一只数据鲸鱼

物联网 数据可视化 3D可视化 盾构机 隧道工程

“蚂蚁牙黑”太火,想玩就用ModelArts做一个

华为云开发者联盟

AI 动画 modelarts 图像

Spring中的事务使用注意事项

少平

spring

开工第一周,有哪些助你弯道超车的好书?

博文视点Broadview

SARIF:DevSecOps工具与平台交互的桥梁

华为云开发者联盟

安全 DevSecOps SARIF 自动化平台 OASIS

一场由fork引发的超时,让我们重新探讨了Redis的抖动问题

华为云开发者联盟

数据库 redis 华为云 GaussDB fork

阿里巴巴Druid,轻松实现MySQL数据库加密!

王磊

Java springboot Druid

产品训练营 - 第五周 - 作业

邹小胖

产品经理训练营

Java 中各种DTO,POJO 等的概念

少平

Linux入门篇 —— 手把手教你 Linux 三种网络配置方法

若尘

Linux 网络

关于 Synchronized 的一个点,网上99%的文章都错了

yes

Java JVM

神经网络攻防:01.模型到底是什么?

P小二

神经网络 网络安全 AIPwn AI安全 P小二

一个15年的架构师谈“如何成为一名优秀的解决方案架构师”

华为云开发者联盟

架构 软件 架构师 华为云

力扣 (LeetCode)-两数之和,有效的括号,两数相加

我是哪吒

面试 算法 LeetCode 28天写作

FindBugs:Java 静态代码检查

少平

代码审查

云计算带来的变革将如何在2021年加速创新

云计算

工作日志3-1

技术骨干

公安合成作战系统!智慧警务情指行一体化建设解决方案

源中瑞-龙先生

公安合成作战系统开发 产品解决方案 情指行一体化 公安

小心你的个人信息——GitHub 热点速览 v.21.09

HelloGitHub

GitHub 开源 终端工具 社交

字节跳动力推的OKR,是未来企业发展的标配吗?

ToB行业头条

入选SIGMOD2021的时间序列多周期检测通用框架RobustPeriod如何支撑阿里业务场景?

阿里云大数据AI技术

人工智能 数据库 大数据

重磅!京东云自研第四代云主机发布;曝国外物理学家开发出用于量子计算机的汇编语言

京东科技开发者

微软 开发者 量子计算机 谷歌

MiniMax发布M1模型:专为长上下文推理与软件任务设计的4560亿参数混合注意力模型_AI&大模型_InfoQ精选文章