阿里云飞天发布时刻,领先大模型限免,超7000万 tokens免费体验 了解详情
写点什么

MiniMax 发布 M1 模型:专为长上下文推理与软件任务设计的 4560 亿参数混合注意力模型

作者:Robert Krzaczyński

  • 2025-06-26
    北京
  • 本文字数:802 字

    阅读完需:约 3 分钟

大小:443.43K时长:02:31
MiniMax发布M1模型:专为长上下文推理与软件任务设计的4560亿参数混合注意力模型

MiniMax 推出了MiniMax-M1,这是一款专为长上下文推理和工具使用设计的开放权重语言模型。该模型是基于早期的MiniMax-Text-01构建,采用了混合专家模型(MoE)架构和新型“闪电注意力”(lightning attention)机制。模型总容量达 4560 亿参数,每 token 激活 459 亿参数,并支持高达 100 万 token 的上下文长度。

 

M1 的核心优势在于其计算效率高且擅长长文本推理。其闪电注意力机制显著降低了推理时的计算量,处理 10 万 token 序列所需的FLOP计算量仅为DeepSeek R1的 25%。该模型通过跨领域的大规模强化学习进行训练,涵盖数学解题和软件工程等场景。

 

模型提供两个版本,并采用定制的强化学习评估方法。特别值得一提的是,MiniMax 创新性地提出了 CISPO 算法,该算法通过裁剪重要性采样权重而非 token 更新,相比传统方法显著提升了稳定性和性能。

 

在各项基准测试中,MiniMax-M1-80K 在开源模型中表现突出:


  • 长文本任务:OpenAI-MRCR 128K:73.4%,LongBench-v2:61.5%

  • 软件工程:SWE-bench Verified:56.0%

  • 工具使用:TAU-bench airline:62.0%,retail:63.5%

  • 数学推理:AIME 2024:86.0%

 

有 Reddit 用户评价该模型优势:


目测很好,在函数调用(Tau-bench)和长文本处理方面表现惊艳,堪称开源权重模型种的新标杆(SOTA),特别是长文本处理能力优势明显,我觉得这点完全不意外,他们之前分非推理模型再这方面就已经很棒了。


但也有用户指出其实际使用中的局限性,用户 dubesor86 就分享一则小故事:


但也很不稳定。让它下一盘通常几分钟就能完成的国际象棋,结果运行了一整晚都没完成。再高的分数,如果实际不可用也是毫无意义的。

 

MiniMax-M1 还支持结构化函数调用,因此也适用于智能体框架的开发。该模型提供两个版本(40K 和 80K),可通过HuggingFace获取。团队推荐使用vLLM进行部署,该工具可提供优化的服务、内存管理和批处理性能。开发者也可以通过MiniMax MCP Server进行实验,该平台集成了 API 访问及视频和图像生成、语音合成和声音克隆等功能。

2025-06-26 18:002

评论

发布
暂无评论

聊聊低代码产品的应用场景

互联网工科生

为什么Solana在区块链生态系统中脱颖而出

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

网站首屏优化 | 提升首屏的几个简单手段

观测云

性能优化 前端

数据安全之路:Databend 用户策略指南

Databend

无人不识又无人不迷糊的this

不在线第一只蜗牛

Java 前端 开发语言

浅谈开放词汇目标检测

inBuilder低代码平台

目标检测

掌握ADB:详解操作命令及完整用法指南

霍格沃兹测试开发学社

JMeter读取CSV文件实现参数化技术指南

霍格沃兹测试开发学社

一个基于.NET Core构建的简单、跨平台、模块化的商城系统

不在线第一只蜗牛

小程序 .net core

【FAQ】HarmonyOS SDK 闭源开放能力 —Scan Kit

HarmonyOS SDK

HarmonyOS

左手医生:医疗 AI 企业的云原生提效降本之路

阿里巴巴云原生

阿里云 容器 云原生

聚道云助力:易快报CDP无缝对接,登录同步一步到位!

聚道云软件连接器

案例分享

云原生最佳实践系列 4:基于 MSE 和 SAE 的微服务部署与压测

阿里巴巴云原生

阿里云 微服务 云原生

怎样让 API 快速且轻松地提取所有数据?

技术冰糖葫芦

API 接口 API 文档

小程序应用市场发展趋势分析

Onegun

小程序 小程序平台

让 AI 帮你写代码,开发提效神器来了

阿里巴巴云原生

阿里云 AI 云原生

28+岗位!百度安全2025届实习生招聘火热进行中

百度安全

如何利用ChatGPT进行翻译--精准翻译篇

三七互娱后端技术团队

AI翻译

如何利用ChatGPT进行翻译--通用翻译篇

三七互娱后端技术团队

AI翻译

Golang DB连接池ErrBadConn的应用

三七互娱后端技术团队

golang MySQL

如何提升买家对独立站的信任感?提升转化率的技巧

技术冰糖葫芦

API 接口 API 文档

JavaScript混淆工具选择与使用指南

深入了解 Docker Compose:简化容器化应用部署的利器

霍格沃兹测试开发学社

MiniMax发布M1模型:专为长上下文推理与软件任务设计的4560亿参数混合注意力模型_AI&大模型_InfoQ精选文章