写点什么

MiniMax 发布 M1 模型:专为长上下文推理与软件任务设计的 4560 亿参数混合注意力模型

作者:Robert Krzaczyński

  • 2025-06-26
    北京
  • 本文字数:802 字

    阅读完需:约 3 分钟

大小:443.43K时长:02:31
MiniMax发布M1模型:专为长上下文推理与软件任务设计的4560亿参数混合注意力模型

MiniMax 推出了MiniMax-M1,这是一款专为长上下文推理和工具使用设计的开放权重语言模型。该模型是基于早期的MiniMax-Text-01构建,采用了混合专家模型(MoE)架构和新型“闪电注意力”(lightning attention)机制。模型总容量达 4560 亿参数,每 token 激活 459 亿参数,并支持高达 100 万 token 的上下文长度。

 

M1 的核心优势在于其计算效率高且擅长长文本推理。其闪电注意力机制显著降低了推理时的计算量,处理 10 万 token 序列所需的FLOP计算量仅为DeepSeek R1的 25%。该模型通过跨领域的大规模强化学习进行训练,涵盖数学解题和软件工程等场景。

 

模型提供两个版本,并采用定制的强化学习评估方法。特别值得一提的是,MiniMax 创新性地提出了 CISPO 算法,该算法通过裁剪重要性采样权重而非 token 更新,相比传统方法显著提升了稳定性和性能。

 

在各项基准测试中,MiniMax-M1-80K 在开源模型中表现突出:


  • 长文本任务:OpenAI-MRCR 128K:73.4%,LongBench-v2:61.5%

  • 软件工程:SWE-bench Verified:56.0%

  • 工具使用:TAU-bench airline:62.0%,retail:63.5%

  • 数学推理:AIME 2024:86.0%

 

有 Reddit 用户评价该模型优势:


目测很好,在函数调用(Tau-bench)和长文本处理方面表现惊艳,堪称开源权重模型种的新标杆(SOTA),特别是长文本处理能力优势明显,我觉得这点完全不意外,他们之前分非推理模型再这方面就已经很棒了。


但也有用户指出其实际使用中的局限性,用户 dubesor86 就分享一则小故事:


但也很不稳定。让它下一盘通常几分钟就能完成的国际象棋,结果运行了一整晚都没完成。再高的分数,如果实际不可用也是毫无意义的。

 

MiniMax-M1 还支持结构化函数调用,因此也适用于智能体框架的开发。该模型提供两个版本(40K 和 80K),可通过HuggingFace获取。团队推荐使用vLLM进行部署,该工具可提供优化的服务、内存管理和批处理性能。开发者也可以通过MiniMax MCP Server进行实验,该平台集成了 API 访问及视频和图像生成、语音合成和声音克隆等功能。

2025-06-26 18:006357

评论

发布
暂无评论

MobPush智能推送:数智化运营释放APP用户生命周期价值

MobTech袤博科技

.NET CORE 之gRpc使用

gogo

HarmonyOS数据管理与应用数据持久化(二)

HarmonyOS开发者

git原理与基本应用

丛风

git

Techwalk攻略 | 来北京与OpenHarmony技术大会一起技术漫游!

OpenHarmony开发者

文心一言 VS 讯飞星火 VS chatgpt (127)-- 算法导论11.2 2题

福大大架构师每日一题

福大大架构师每日一题

云行| 速智未来 鹭岛展翼!中国电信天翼云推动数字厦门新跨越

天翼云开发者社区

人工智能 云计算 大数据

无纸化登记二维码应用方案:扫码填写表单,信息收集无纸化

草料二维码

二维码 无纸化登记

一图看懂华为云CodeArts Link六大特性,带你体验一站式跨平台数据互联

云计算 软件开发 华为云

企业级API资产如何管理

RestCloud

API 资产管理 API 接口

如何使用商品详情API接口获取商品数据:一篇详尽的论述

Noah

云行| 天翼铸云,百业腾飞!天翼云为“数字茂名”建设注智赋能

天翼云开发者社区

云计算 大数据

每个程序员都应该知道的六种负载均衡算法

树上有只程序猿

负载均衡

文心一言 VS 讯飞星火 VS chatgpt (127)-- 算法导论11.2 2题

福大大架构师每日一题

福大大架构师每日一题

数字先锋| 打造生态环境监测新范式,天翼云助力青海“生态之窗”数字化升级!

天翼云开发者社区

云计算 大数据

最全对比!8款UML图工具究竟哪个最适合你?

职场工具箱

可视化 UML UML图工具

GPT-4 变笨加剧,一个笑话讲八百遍;ChatGPT 之父剑桥演讲遭抵制丨 RTE 开发者日报 Vol.77

声网

Flink JobManager内存管理机制介绍与调优总结

腾讯云大数据

flink、

Util应用框架介绍

何镇汐

C# 后端 软件开发 开源框架’

Util应用框架概述

何镇汐

如何使用商品详情API接口来获取想要的商品数据?

Noah

进击的代码之路:如何培养解决问题的架构思维?

互联网工科生

架构 架构师

ER图:改变你数据库设计流程的神器!

职场工具箱

ER图 实体关系图 数据库设计流程

企业几种快速传输大文件的使用方法,你GET到了吗

镭速

大文件传输 传输大文件

喜讯!云起无垠获评GEEKCON 2023"前沿突破奖"

云起无垠

DAPP合约代币质押算力挖矿系统开发

l8l259l3365

MiniMax发布M1模型:专为长上下文推理与软件任务设计的4560亿参数混合注意力模型_AI&大模型_InfoQ精选文章