写点什么

M2 模型杀回 Coding 和 Agent 领域,MiniMax 想要「普惠智能」

  • 2025-10-28
    北京
  • 本文字数:3178 字

    阅读完需:约 10 分钟

大小:1.59M时长:09:16
M2模型杀回Coding和Agent领域,MiniMax想要「普惠智能」

如今的大模型,早已告别参数竞赛的初级阶段,将竞争焦点转向实际智能水平、落地效率、成本控制与商业价值的综合比拼。


在这样的关键节点,真正的行业分野,或许不仅在于实力过硬,还在于如何让智能普惠,如何为用户创造实实在在的价值。


最近,MiniMax 发布并开源全新的 M2 模型,正是这一方向的典型实践:不仅在权威测评中跻身全球第一梯队,更以极致性能与性价比的双重突破,再次印证了其在大模型下半场竞争中的领先身位。


真实开发者的使用数据最具说服力,因为 M2 模型开源后官方 API 和 Agent 限时免费,在全球极具影响力的 AI 模型聚合与调用平台 OpenRouters 上数据显示: 仅仅开源后的第一天,MiniMax-M2 的模型调用量就冲到了全球前十。



Artificial Analysis 榜单全球前五,MiniMax-M2 凭什么


相比此前的 M1,MiniMax-M2 定位轻量级模型,但综合性能绝对不容小觑。


在全球权威测评榜单 Artificial Analysis(简称 AA)中,MiniMax-M2 不仅总分成功跻身全球前五,在国内同类模型中更是位列第一,充分体现出其在综合智能水平上的竞争力。


在与 GPT-5、Claude Sonnet 4.5 这些最新海外顶尖模型的基础性能测试对比中,MiniMax-M2 在多项核心任务中的表现毫不逊色,某些能力甚至更胜一筹。



具体来看,在τ²-Bench-Telecom(代理工具使用)的测试中,M2 的成绩与 GPT-5 并列第二, 仅以微弱差距落后于 GPT-5 Codex;其 IFBench(指令遵循能力)的表现接近 GPT-5 系列水平,显著高于其他顶尖模型;LiveCodeBench(编程能力)同样表现强劲,甚至超过了以编程能力见长的 Claude Sonnet 4.5。


可以发现,在综合性能稳居于行业前列的基础上,MiniMax-M2 最大的亮点,就是 Coding 与 Agentic 能力,称其“专为编码和智能体而生”名副其实。


近期全球头部厂商的动作也印证了编码和智能体的重要性。9 月底,Anthropic 直接将新推出的 Claude Sonnet 4.5 定位为“世界上最强的编程模型”,明确强化其编码能力;10 月初,OpenAI 在开发者大会上发布的 GPT-5 Pro,将精准编码与智能体构建作为核心升级方向,配套的 Codex 工具还实现了与主流开发环境的深度集成。


在编码任务上,MiniMax-M2 具备强大的端到端开发能力,能应对多代码文件处理需求,完成 “编码 - 运行 - 调试” 的完整流程,还能通过测试验证来自动修复代码。


在 SWE-bench、Terminal-Bench 等模拟开发者真实工作流的测试中,与包括 Claude Sonnet 4.5、GPT-5(thinking)等在内的多款顶尖模型相比,MiniMax-M2 表现突出,超过 Gemini 2.5 Pro、DeepSeekV3.2、GLM-4.6 等。



在智能体能力上,MiniMax-M2 能够出色规划并执行复杂的工具链,协同调用 Shell、浏览器、Python 代码执行器和各种 MCP 工具,高效完成多步骤任务。


在 BrowseComp 评测中,M2 的表现位居一众头部模型前列,进一步凸显竞争力。它不仅可以挖掘到常规模型难以定位的信息源并保持来源可追溯,还具备自我纠错与任务恢复的能力。



此外,MiniMax-M2 的深度搜索能力也足够亮眼。不仅在 BrowseComp 上取得出色成绩,更在 Xbench-DeepSearch 基准上全球前二、仅次于 GPT-5,在字节新推出的金融搜索基准 FinSearchComp-global 上全球前二、仅次于 Grok4。


作为轻量级模型,M2 上下文能力也保持强势,输入长度达到 200k,输出长度可达 128k,在长文本处理、复杂推理等任务处理方面更具实用性。

既要顶尖性能,也要极致性价比


尽管大模型行业整体正在迈入更加务实的阶段,但仍普遍面临着性能和价格难以平衡的挑战。


以同样擅长编程和智能体能力的 GPT-5 和 Claude 4.5 Sonnet 为例,二者虽能在复杂代码开发、多工具协同任务中展现出顶尖性能,但高昂的使用成本,让多数开发者甚至中小企业都望而却步。国内的同类模型价格虽然相对便宜,但是性能和推理速度却不尽人意。


正是在这样的行业矛盾下,MiniMax-M2 的定位尤为关键,作为一款轻量、快速且极具成本效益的模型,主打全球最高性价比与极致速度,恰好切中了市场对智能普惠的广泛需求。


为了实现这一目标,在保持核心性能竞争力的同时,MiniMax 通过底层架构优化、算法创新等技术手段,将 M2 的综合成本大幅压低。


反映在具体定价上,M2 也具有压倒性优势:每百万 token 输入价格为 $0.3(约 2.1 元),输出价格为 $1.2(约 8.4 元)。这个价格仅为国际头部模型 Claude Sonnet 4.5 的 8%、GPT-5 的 15%,也显著低于国内模型 K2、GLM4.6 等,可以说是当前全球范围内性价比最高的模型。



更重要的是,MiniMax-M2 的性价比优势并非以牺牲使用体验为代价,其极速响应能力进一步放大了产品的实用价值。约 100 TPS 的推理速度,比 Claude Sonnet 4.5 快了接近一倍,且还在持续提速。


在发布 MiniMax-M2 的同时,MiniMax 也同步完成了 Agent 产品的升级,不仅将 M2 接入 MiniMax Agent,把顶级的编程、工具调用、多模态理解与任务执行能力整合到一起,还通过优化降低了响应延迟、提升了吞吐量,对于在实际业务中的应用至关重要。


MiniMax Agent 提供两种模式:一类是 pro 专业模式,主打专业 Agent 能力;另一类是 lightning 高效模式,属于高效极速版 Agent,可实现极速输出。


除了核心能力升级,MiniMax 首次推出了 MiniMax Agent 的安卓与 iOS APP 版本,让用户可以通过移动端随时调用 Agent 功能,进一步降低了使用门槛。


在实际应用中,可以直观感受到 M2 在编程和工具调用能力上的优势得到了进一步放大。


比如直接在 MiniMax Agent 平台上,开发一个 AI 音乐 playlist 网站,AI 音乐和背景视频都由模型生成。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    在海外,也有开发者展示了自己调用 API 在 Cursor 上体验 MiniMax-M2 的成果,可以说效果非常不错。



    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      值得关注的是,MiniMax 此次还同步推出了“Agent 和模型全球限时免费”活动。同时 MiniMax 继续保持开放的态度,开源 M2 模型权重已开源,可以本地部署使用,通过社区力量加速模型进化。


      这种“技术普惠”策略,让全球不同规模、不同行业的用户都能零成本体验顶尖 AI 能力,实现了全球范围内首次“让最领先的代码能力与 Agentic 能力被大规模畅快使用”。

      全模态领先背后,硬实力和普惠初心缺一不可


      随着大模型逐步成为行业基础设施,模型的性能顶尖和极致性价比是竞争关键。而对于大模型企业来说,更重要的是通过全模态多元能力的构建,提供端到端的完整智能体验。


      目前,MiniMax 已构建起全栈领先的多模态矩阵,各模态模型在国际权威测评中均表现突出。其中,音频模型 Speech-02 登顶全球第一,视频模型 Hailuo 02 斩获全球第二,文本模型 M2 则跻身全球前五。可以看出,这三大模态相互协同、形成共振,构筑起 MiniMax 独特的技术壁垒。


      而这种全栈领先的局面并非偶然。从模型性能到产品体验,从成本控制到生态落地,MiniMax 展现的多维度优势,本质上是其整体技术实力的集中体现。根源在于 MiniMax 在底层架构与算法层面的持续创新与突破,正是底层技术的不断打磨,才支撑起各模态模型的高性能表现。


      在底层架构层面,MiniMax 善于颠覆经典,从传统 Transformer 架构出发,在国内率先采用大规模混合架构(MoE),让模型能够在处理复杂任务是拥有更大参数量,保证性能的同时兼顾计算效率。


      在架构创新的基础上,MiniMax 在算法层面的突破同样关键,其创新提出的强化学习算法 CISPO,让训练效率与稳定性都得到了显著提升,明显提高训练和推理一致性。这项算法也被硅谷 AI 巨头 Meta 在最新发布的强化学习(RL)论文中验证,并被推荐为首选的 Loss Function。


      实际上,从 DeepSeek V3 的 GRPO 到 MiniMax 的 CISPO,中国 AI 团队正以持续的技术创新,在大模型关键领域实现突破并引领发展。这一系列成果不仅夯实了中国科技领域的竞争力,更为中国 AI 技术未来参与国际标准制定奠定了坚实基础。



      而支撑这一切技术探索的,是 MiniMax 从未动摇的智能普惠初心。这也意味着 MiniMax 更懂行业需求,能将技术优势转化为用户可感知的实用价值,其对“Intelligence with Everyone”理念的坚守,必将收获更多回响。

      2025-10-28 17:304513

      评论

      发布
      暂无评论

      文心一言 VS 讯飞星火 VS chatgpt (116)-- 算法导论10.3 1题

      福大大架构师每日一题

      福大大架构师每日一题

      分享10个免费的Python代码仓库,轻松实现自动化办公(上)

      程序员晚枫

      Python

      注释在编程中的重要性:理解程序员的两难选择

      小魏写代码

      Markdown文本写作软件 Ulysses for Mac

      展初云

      markdown Mac软件 写作软件

      SMT组装工艺流程的应用场景

      华秋电子

      SMT

      软件测试|火焰杯”软件测试高校就业选拔赛获奖名单揭晓,我院两名学子上榜,奖金2万元!

      霍格沃兹测试开发学社

      Elasticsearch向量检索的演进与变革:从基础到应用

      汀丶人工智能

      自然语言处理 Elastic Search 语义搜索系统 向量搜索

      Linux远程管理协议

      芯动大师

      iPhone垃圾清理器 AnyMP4 iOS Cleaner最新中文版

      胖墩儿不胖y

      Mac软件 清理工具 清理器

      Flink OLAP 在字节跳动的查询优化和落地实践

      Apache Flink

      大数据 flink 实时计算

      PCB打板省钱小妙招,强烈建议收藏!

      华秋电子

      PCB

      把您的 PCB 艺术品带来 KiCon 吧:SAO Hat 作品招募中

      华秋电子

      kicad

      LeetCode题解:剑指 Offer 03. 数组中重复的数字,原地置换,JavaScript,详细注释

      Lee Chen

      LeetCode

      基于 Apache Kyuubi 实现分布式 Flink SQL 网关

      网易数帆

      大数据 flink 开源 Apache Kyuubi

      Mac平台好用的文件对比工具 Beyond Compare 4

      展初云

      Mac软件 Beyond Compare 4 for Mac 文件对比工具

      CNCF即将推出平台成熟度模型丨亮点导览

      SEAL安全

      运维 成熟度模型 企业号10月PK榜

      AI干货大FUN送!程序员节来AI Show“集市”行乐

      飞桨PaddlePaddle

      AI 程序员节

      AI 鲲鹏独角兽 | Kyligence 荣登毕马威中国人工智能创新双30企业榜单

      Kyligence

      数据分析 Data + AI

      敏捷开发的核心原则和方法实践-深入理解Scrum

      顿顿顿

      Scrum 敏捷开发 敏捷研发工具 敏捷管理工具 scrum管理工具

      MacOS系统设置一键切换开关 One Switch

      展初云

      Mac软件 一键开关

      实用的数据集成方式

      谷云科技RestCloud

      数据同步 ETL 实时数据

      软件依赖管理-源码依赖、接口依赖、服务依赖

      laofo

      DevOps cicd 研发效能 持续交付

      火山引擎DataTester:AB测试技术揭秘及应用分享

      字节跳动数据平台

      大数据 ab测试 对比实验 数字化增长 企业号10月PK榜

      MySQL Command Line Client登录 及系统设置

      小齐写代码

      M2模型杀回Coding和Agent领域,MiniMax想要「普惠智能」_生成式 AI_棱镜_InfoQ精选文章