写点什么

M2 模型杀回 Coding 和 Agent 领域,MiniMax 想要「普惠智能」

  • 2025-10-28
    北京
  • 本文字数:3178 字

    阅读完需:约 10 分钟

大小:1.59M时长:09:16
M2模型杀回Coding和Agent领域,MiniMax想要「普惠智能」

如今的大模型,早已告别参数竞赛的初级阶段,将竞争焦点转向实际智能水平、落地效率、成本控制与商业价值的综合比拼。


在这样的关键节点,真正的行业分野,或许不仅在于实力过硬,还在于如何让智能普惠,如何为用户创造实实在在的价值。


最近,MiniMax 发布并开源全新的 M2 模型,正是这一方向的典型实践:不仅在权威测评中跻身全球第一梯队,更以极致性能与性价比的双重突破,再次印证了其在大模型下半场竞争中的领先身位。


真实开发者的使用数据最具说服力,因为 M2 模型开源后官方 API 和 Agent 限时免费,在全球极具影响力的 AI 模型聚合与调用平台 OpenRouters 上数据显示: 仅仅开源后的第一天,MiniMax-M2 的模型调用量就冲到了全球前十。



Artificial Analysis 榜单全球前五,MiniMax-M2 凭什么


相比此前的 M1,MiniMax-M2 定位轻量级模型,但综合性能绝对不容小觑。


在全球权威测评榜单 Artificial Analysis(简称 AA)中,MiniMax-M2 不仅总分成功跻身全球前五,在国内同类模型中更是位列第一,充分体现出其在综合智能水平上的竞争力。


在与 GPT-5、Claude Sonnet 4.5 这些最新海外顶尖模型的基础性能测试对比中,MiniMax-M2 在多项核心任务中的表现毫不逊色,某些能力甚至更胜一筹。



具体来看,在τ²-Bench-Telecom(代理工具使用)的测试中,M2 的成绩与 GPT-5 并列第二, 仅以微弱差距落后于 GPT-5 Codex;其 IFBench(指令遵循能力)的表现接近 GPT-5 系列水平,显著高于其他顶尖模型;LiveCodeBench(编程能力)同样表现强劲,甚至超过了以编程能力见长的 Claude Sonnet 4.5。


可以发现,在综合性能稳居于行业前列的基础上,MiniMax-M2 最大的亮点,就是 Coding 与 Agentic 能力,称其“专为编码和智能体而生”名副其实。


近期全球头部厂商的动作也印证了编码和智能体的重要性。9 月底,Anthropic 直接将新推出的 Claude Sonnet 4.5 定位为“世界上最强的编程模型”,明确强化其编码能力;10 月初,OpenAI 在开发者大会上发布的 GPT-5 Pro,将精准编码与智能体构建作为核心升级方向,配套的 Codex 工具还实现了与主流开发环境的深度集成。


在编码任务上,MiniMax-M2 具备强大的端到端开发能力,能应对多代码文件处理需求,完成 “编码 - 运行 - 调试” 的完整流程,还能通过测试验证来自动修复代码。


在 SWE-bench、Terminal-Bench 等模拟开发者真实工作流的测试中,与包括 Claude Sonnet 4.5、GPT-5(thinking)等在内的多款顶尖模型相比,MiniMax-M2 表现突出,超过 Gemini 2.5 Pro、DeepSeekV3.2、GLM-4.6 等。



在智能体能力上,MiniMax-M2 能够出色规划并执行复杂的工具链,协同调用 Shell、浏览器、Python 代码执行器和各种 MCP 工具,高效完成多步骤任务。


在 BrowseComp 评测中,M2 的表现位居一众头部模型前列,进一步凸显竞争力。它不仅可以挖掘到常规模型难以定位的信息源并保持来源可追溯,还具备自我纠错与任务恢复的能力。



此外,MiniMax-M2 的深度搜索能力也足够亮眼。不仅在 BrowseComp 上取得出色成绩,更在 Xbench-DeepSearch 基准上全球前二、仅次于 GPT-5,在字节新推出的金融搜索基准 FinSearchComp-global 上全球前二、仅次于 Grok4。


作为轻量级模型,M2 上下文能力也保持强势,输入长度达到 200k,输出长度可达 128k,在长文本处理、复杂推理等任务处理方面更具实用性。

既要顶尖性能,也要极致性价比


尽管大模型行业整体正在迈入更加务实的阶段,但仍普遍面临着性能和价格难以平衡的挑战。


以同样擅长编程和智能体能力的 GPT-5 和 Claude 4.5 Sonnet 为例,二者虽能在复杂代码开发、多工具协同任务中展现出顶尖性能,但高昂的使用成本,让多数开发者甚至中小企业都望而却步。国内的同类模型价格虽然相对便宜,但是性能和推理速度却不尽人意。


正是在这样的行业矛盾下,MiniMax-M2 的定位尤为关键,作为一款轻量、快速且极具成本效益的模型,主打全球最高性价比与极致速度,恰好切中了市场对智能普惠的广泛需求。


为了实现这一目标,在保持核心性能竞争力的同时,MiniMax 通过底层架构优化、算法创新等技术手段,将 M2 的综合成本大幅压低。


反映在具体定价上,M2 也具有压倒性优势:每百万 token 输入价格为 $0.3(约 2.1 元),输出价格为 $1.2(约 8.4 元)。这个价格仅为国际头部模型 Claude Sonnet 4.5 的 8%、GPT-5 的 15%,也显著低于国内模型 K2、GLM4.6 等,可以说是当前全球范围内性价比最高的模型。



更重要的是,MiniMax-M2 的性价比优势并非以牺牲使用体验为代价,其极速响应能力进一步放大了产品的实用价值。约 100 TPS 的推理速度,比 Claude Sonnet 4.5 快了接近一倍,且还在持续提速。


在发布 MiniMax-M2 的同时,MiniMax 也同步完成了 Agent 产品的升级,不仅将 M2 接入 MiniMax Agent,把顶级的编程、工具调用、多模态理解与任务执行能力整合到一起,还通过优化降低了响应延迟、提升了吞吐量,对于在实际业务中的应用至关重要。


MiniMax Agent 提供两种模式:一类是 pro 专业模式,主打专业 Agent 能力;另一类是 lightning 高效模式,属于高效极速版 Agent,可实现极速输出。


除了核心能力升级,MiniMax 首次推出了 MiniMax Agent 的安卓与 iOS APP 版本,让用户可以通过移动端随时调用 Agent 功能,进一步降低了使用门槛。


在实际应用中,可以直观感受到 M2 在编程和工具调用能力上的优势得到了进一步放大。


比如直接在 MiniMax Agent 平台上,开发一个 AI 音乐 playlist 网站,AI 音乐和背景视频都由模型生成。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    在海外,也有开发者展示了自己调用 API 在 Cursor 上体验 MiniMax-M2 的成果,可以说效果非常不错。



    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      值得关注的是,MiniMax 此次还同步推出了“Agent 和模型全球限时免费”活动。同时 MiniMax 继续保持开放的态度,开源 M2 模型权重已开源,可以本地部署使用,通过社区力量加速模型进化。


      这种“技术普惠”策略,让全球不同规模、不同行业的用户都能零成本体验顶尖 AI 能力,实现了全球范围内首次“让最领先的代码能力与 Agentic 能力被大规模畅快使用”。

      全模态领先背后,硬实力和普惠初心缺一不可


      随着大模型逐步成为行业基础设施,模型的性能顶尖和极致性价比是竞争关键。而对于大模型企业来说,更重要的是通过全模态多元能力的构建,提供端到端的完整智能体验。


      目前,MiniMax 已构建起全栈领先的多模态矩阵,各模态模型在国际权威测评中均表现突出。其中,音频模型 Speech-02 登顶全球第一,视频模型 Hailuo 02 斩获全球第二,文本模型 M2 则跻身全球前五。可以看出,这三大模态相互协同、形成共振,构筑起 MiniMax 独特的技术壁垒。


      而这种全栈领先的局面并非偶然。从模型性能到产品体验,从成本控制到生态落地,MiniMax 展现的多维度优势,本质上是其整体技术实力的集中体现。根源在于 MiniMax 在底层架构与算法层面的持续创新与突破,正是底层技术的不断打磨,才支撑起各模态模型的高性能表现。


      在底层架构层面,MiniMax 善于颠覆经典,从传统 Transformer 架构出发,在国内率先采用大规模混合架构(MoE),让模型能够在处理复杂任务是拥有更大参数量,保证性能的同时兼顾计算效率。


      在架构创新的基础上,MiniMax 在算法层面的突破同样关键,其创新提出的强化学习算法 CISPO,让训练效率与稳定性都得到了显著提升,明显提高训练和推理一致性。这项算法也被硅谷 AI 巨头 Meta 在最新发布的强化学习(RL)论文中验证,并被推荐为首选的 Loss Function。


      实际上,从 DeepSeek V3 的 GRPO 到 MiniMax 的 CISPO,中国 AI 团队正以持续的技术创新,在大模型关键领域实现突破并引领发展。这一系列成果不仅夯实了中国科技领域的竞争力,更为中国 AI 技术未来参与国际标准制定奠定了坚实基础。



      而支撑这一切技术探索的,是 MiniMax 从未动摇的智能普惠初心。这也意味着 MiniMax 更懂行业需求,能将技术优势转化为用户可感知的实用价值,其对“Intelligence with Everyone”理念的坚守,必将收获更多回响。

      2025-10-28 17:304269

      评论

      发布
      暂无评论

      架构实战营毕业总结

      林子钧

      架构实战营 毕业总结

      悄悄学习Doris,偷偷惊艳所有人 | Apache Doris四万字小总结

      王知无

      OpenYurt 联手 eKuiper,解决 IoT 场景下边缘流数据处理难题

      阿里巴巴云原生

      云计算 阿里云 开源 云原生 中间件

      netty系列之:自定义编码解码器

      程序那些事

      Java Netty 程序那些事

      导播上云,把 “虚拟演播厅” 搬到奥运村

      阿里云CloudImagine

      阿里云 视频处理 视频直播 视频云 云导播

      Seata TCC模式原理与实战

      码农参上

      分布式事务 seata SpringCloud Alibaba 8月日更

      Spark RDD模型

      丛培欣

      spark

      为什么区块链是互联网的100倍?

      CECBC

      LeetCode题解:220. 存在重复元素 III,暴力法,JavaScript,详细注释

      Lee Chen

      算法 大前端 LeetCode

      Fastdata for TSDB: SQL使时序数据可扩展

      数据库 大数据 时序数据库 tsdb 数据智能

      用Java仿一个低配版的Everything软件

      Regan Yue

      Java 8月日更 Everything

      数据加密和BCrypt哈希算法应用 | StartDT Tech Lab 15

      奇点云

      【Vue2.x 源码学习】第三十七篇 - 组件部分 - 组件的合并

      Brave

      源码 vue2 8月日更

      智能时代的信任口诀:让计算远离算计

      白洞计划

      趣说开源|学生如何参与开源社区?

      SphereEx

      数据库 开源

      Compose 中的主题

      Changing Lin

      8月日更

      区块链技术:为什么说波卡能加速区块链行业的发展?

      CECBC

      从0开始的TypeScriptの九:接口Interfaces · 中

      空城机

      typescript 大前端 8月日更

      手撸二叉树之递增顺序搜索树

      HelloWorld杰少

      数据结构与算法 8月日更

      Go语言:如何通过Go来更好的开发并发程序 ?

      微客鸟窝

      Go 语言

      Python入门:ChainMap 有效管理多个上下文

      华为云开发者联盟

      Python 字典 上下文 映射 ChainMap

      高并发中,那些不得不说的线程池与ThreadPoolExecutor类

      华为云开发者联盟

      Java 线程 高并发 线程池 ThreadPoolExecutor类

      百亿级分布式文件系统之元数据设计

      焱融科技

      云计算 技术 分布式 高性能 文件存储

      讲透学烂二叉树(六):二叉树的笔试题:翻转|宽度|深度

      zhoulujun

      二叉树 二叉树遍历 二叉树翻转

      传统企业数字化转型的三大技术误区

      码猿外

      数字化转型 敏捷精益

      架构实战营 - 模块五作业

      思梦乐

      【Flutter 专题】68 图解基本约束 Box (三)

      阿策小和尚

      Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 8月日更

      你真的了解 fail-fast 和 fail-safe 吗

      4ye

      Java 后端 并发 map 8月日更

      docker的使用

      Rubble

      8月日更

      Excelize 发布 2.4.1 版本,新增并发安全支持

      xuri

      Excel Go 语言 Excelize #Github

      FastApi-15-文件上传-3

      Python研究所

      FastApi 8月日更

      M2模型杀回Coding和Agent领域,MiniMax想要「普惠智能」_生成式 AI_棱镜_InfoQ精选文章