写点什么

罗福莉执掌小米大模型首秀!定调下一代模型,全新 MiMo-V2 开源还横扫 Agent 第一梯队

  • 2025-12-17
    北京
  • 本文字数:4350 字

    阅读完需:约 14 分钟

大小:2.14M时长:12:28
罗福莉执掌小米大模型首秀!定调下一代模型,全新MiMo-V2开源还横扫Agent第一梯队

今天上午,在 2025 小米人车家全生态合作伙伴大会上,罗福莉首次公开亮相,Title 是 Xiaomi MiMo 大模型负责人


罗福莉还在会上发表演讲,解读了小米的全新大模型 MiMo-V2-Flash 以及背后团队的故事。



MiMo-V2-Flash,是小米在今天凌晨发的新一代 MiMo 模型,而且还给开源了



这里简单回顾下 MiMo 模型是什么:它是小米自研的大语言模型(LLM)系列;而 MiMo-V2-Flash 不仅在通用基准测试中和 DeepSeek-V3.2 相当,同时还拉爆性价比,对 Agent 场景友好。


MiMo-V2-Flash 采用了当前很流行但工程难度也很高的 MoE(混合专家)架构,其总参数规模达 3090 亿,但在每次推理时,真正被“点亮”的只有约 150 亿参数。


此外,它还搭载了多词元预测(MTP)技术,专为高速推理和 Agent 工作流程而设计。与很多追求“参数越大越好”的模型不同,MiMo-V2-Flash 的设计目标可谓是:“要跑得快、跑得久、被高频调用也跑得起”。


不过在罗福莉看来,MiMo-V2-Flash 还处于小米在大模型和 AI 探索的早期阶段:


“这只是我们在 AGI 路线图上的第二步。”



跟着罗福莉的视角,看懂 MiMo-V2-Flash


罗福莉,就是那位网传“雷军用千万年薪挖来”的 AI 技术大牛。


她硕士毕业于北大计算机体系,在校期间就曾一次性在国际顶会 ACL 中标 8 篇论文,其中 2 篇一作,还登上过知乎热搜。


毕业后,曾前后加入阿里巴巴达摩院DeepSeek 母公司幻方量化,在幻方期间曾担任 DeepSeek 的深度学习研究员,参与研发 DeepSeek-V2 等火出圈的模型。


今年 11 月 12 日,罗福莉对外官宣了她加入小米并任职一事。



今天是罗福莉入职小米后的首次公开演讲,有点小紧张,但她依然条理清晰地向大家讲清了 MiMo-V2-Flash 背后的技术取舍。她没有按普通新品发布套路那样去讲,而是给大家讲清了为什么下一代大模型必须为 Agent 和真实世界而设计



首先,她对当下大模型的发展状态做出了一个清晰的定界:语言模型通过规模化训练确实取得了突破,但本质上,它们更多是解码了人类思维在文本空间中的一种投影,是一条自顶向下的捷径,而非真正理解了物理世界

这一判断,为后续所有技术选择提供了前提——语言是强工具,但不是终点


然后,她解释了 MiMo-V2-Flash 背后的工程逻辑:该模型的设计目标并不是“更聪明”,而是更好用、更可部署


她将问题归结为三个现实挑战

  • 一是 Agent 需要高效的“沟通语言”,这意味着代码能力和工具调用能力要优先于泛聊天;

  • 二是 Agent 之间的交互带宽过低,因此推理效率必须成为第一设计目标;

  • 三是模型范式正在从预训练转向后训练和强化学习,这要求一个稳定、可扩展的训练体系来承载持续演化。


所以,MiMo-V2-Flash 无论是采用 MoE 架构、控制活跃参数规模,还是引入混合注意力、多词元预测以及面向后训练的蒸馏范式,本质上都是被 Agent 场景“倒逼”出来的工程取舍,而非单纯的技术炫技


罗福莉指出,虽然 MiMo-V2-Flash 这个模型规模不算很大,但他们通过大量结构和工程优化,让其达到了更极致的推理效率


她分享称,在推理阶段,团队使用三层 MTP 并行推理,在实际场景中实现了约 2 到 2.6 倍的推理加速。


从社区测试结果来看,在三层 MTP 的情况下,模型输出吞吐与成本高度相关。在单机环境下,吞吐可以达到 5000 到 15000 token/s,而单请求输出速度也能达到 150 token/s。相比不使用 MTP,整体速度提升约 2-3 倍。



小米官方也公布了 MiMo-V2-Flash 在 7 项主流评测中的成绩,覆盖 Agent、代码、工具调用、数学、科学、学术推理和综合能力;并且和开源的 DeepSeek-V3.2、K2-Thinking,以及闭源的 Claude Sonnet 4.5、GPT-5(High)、Gemini 3.0 Pro“掰手腕”。


结果显示,MiMo-V2-Flash 在 Agent、代码、工具调用、复杂任务执行方面已进入第一梯队。


尤其在 SWE-Bench(评估“LLM 在真实软件工程任务中表现”的权威基准测试)中, MiMo-V2-Flash 在多语言模式下,还以 71.7%的准确率斩获了一项第一



在演讲的后半段,罗福莉将视角拉高,把讨论从模型本身推向更长远的方向。


她强调,当前的大模型已经可以写代码、解奥数、模仿文学风格,但并不真正理解物理一致性、时空连续性以及与环境之间的因果关系,这也是“具身幻觉”频繁出现的根源。


在她看来,真正的下一代智能体,必须能够与真实环境持续交互。


这意味着,通往下一阶段智能的路径,并不只是增加多模态输入,而是构建一个统一、动态的世界模型:


智能不是从文本中‘读出来的’,而是要在交互中‘活出来的’。”


这种判断,也构成了她对 AGI 路线的基本立场:她并不否认语言路线的价值,但并不认为只凭语言就能自然通向 AGI。


这种克制的态度同样体现在她对开源的理解中。在她看来,开源并不仅仅是共享模型权重或代码,更是一种分布式的技术加速机制,是缩短开源与闭源差距、推动 AGI 走向普惠化的现实路径。


以下为罗福莉本次讲演全文速记,AI 前线在不改变原意的情况下进行了订正编辑。


其实,大模型是通过语言能力的爆发,通过不断 scaling 计算力、scaling 数据,逐渐理解了人类的思维方式,以及人类对世界的认知。


但严格来说,它(大模型)并不像人类一样真正具备对整个物理世界的感知能力。更严谨地说,它是成功解码了人类思维在文本空间中的一种投影。



大家也能看到,这其实是一种自顶向下的捷径:模型学习到的是智能的结果,再去倒推智能产生的过程。


但不管怎么说,语言本身包含了人类对世界的极致压缩,是智慧的结晶;同时,它也是高阶智能体之间进行高效协作的关键工具。


因此,小米选择从语言出发,去构建新一代面向 Agent 的基座模型 MiMo-V2-Flash


在研发之初,我们主要围绕三个非常关键的问题展开


  • 第一个,我们认为当代的智能体必须具备一种高效的沟通语言,而这种语言主要体现在代码能力和工具调用能力上。

  • 第二个,目前智能体之间的沟通带宽其实是非常低的,我们需要思考如何去加速这种带宽。这就要求模型具备非常高的推理效率,因此我们需要围绕推理效率,重新设计模型结构。

  • 第三个,大模型的范式正在逐步从预训练转向后训练,尤其是在强化学习阶段,需要投入更多算力 compute。这就非常依赖一个稳定、可扩展的后训练范式。


这三个问题,是我们在构建 MiMo-V2-Flash 这一代模型时,最核心关注的方向。


在这三个问题的驱动下,我们看到了 MiMo-V2-Flash 作为基座模型的巨大潜能。虽然从参数规模上看,它并不算一个“非常大的模型”,我甚至不太愿意称它为一个大模型——它的总参数量是 309B,激活参数约为 15B。


但在代码能力和 Agent 能力相关的世界级、公开且公正的评测榜单中,在我看来,它已经进入了全球开源模型的第一梯队,整体表现与 DeepSeek-V3.2、Kimi-K2-Thinking 基本相当,而这些模型的总参数规模往往是 MiMo-V2-Flash 的两到三倍。


虽然模型规模不大,但我们通过大量结构和工程优化,达到了更极致的推理效率。这里这张图展示的是,在全球同一水平线的大模型中,它们在推理价格和推理速度上的对比。



横轴是推理成本,从高到低;纵轴是推理速度,从低到高。可以看到,MiMo-V2-Flash 位于右上角,代表着低成本和高速度。


举两个 baseline 对比:

  • 以 DeepSeek-V3.2 为例,MiMo-V2-Flash 的推理成本略低,但推理速度大约是 V3.2 的三倍左右;

  • 再比如与综合能力相近的 Gemini 2.5 Pro 相比,MiMo-V2-Flash 的推理速度接近,但推理成本大约低了 20 倍。


那么我们是如何做到这一点的?核心在于围绕极致推理效率重新设计模型结构,主要依赖两项创新。


第一是 Hybrid Attention 结构,我们将 Sliding Window Attention 和 Full Attention 进行混合,比例大约是 5:1。


我们之所以选择 Sliding Window Attention,是因为尽管它看起来非常简单,只关注局部的 128 个 token,但通过大量实验发现,在兼顾长短文本推理和知识检索方面,它的综合表现反而优于一些复杂的注意力结构。同时,Sliding Window Attention 的 KV Cache 是固定的,非常适合现有推理基础设施。


此外,我们也进一步挖掘了 MTP(多词元预测)的潜力


MTP 最早是作为一种推理加速方法提出的,后来 DeepSeek 将其用于提升基座模型能力。我们在预训练阶段引入 MTP 层,以提升基座模型潜能;在微调阶段加入更多 MTP 层,用很少的算力提升了模型的接受率。


最终,在推理阶段,我们使用三层 MTP 并行推理,在实际场景中实现了约 2 到 2.6 倍的推理加速。


从社区测试结果来看,在三层 MTP 的情况下,模型输出吞吐与成本高度相关。在单机环境下,吞吐可以达到 5000 到 15000 token/s,而单请求输出速度也能达到 150 token/s。相比不使用 MTP,整体速度提升约 2 到 3 倍。


在后训练阶段,我们同样围绕如何充分利用高效结构,去扩展强化学习的 compute。强化学习训练往往不稳定,因此我们提出了一种 Multi-Teacher On-Policy Distillation(MOPD)范式



其核心在于:Student 模型基于自身概率分布进行 rollout,由多个专家模型对序列进行 token-level 的概率打分,提供非常稠密的监督信号。这种学习方式效率极高,通常只需几十步训练,就能将多个专家模型的能力蒸馏到 Student 模型中。


我们还观察到一个有趣的现象:当 Student 很快超过 Teacher 后,是否可以用 Student 替换 Teacher,继续自我迭代提升?这仍然是一个进行中的研究方向。


我们也发现,MiMo-V2-Flash 已经初步具备在语言空间中模拟世界的能力。当然,这种模拟仍然是通过语言完成的,并不是真正的物理感知。比如,它可以通过 HTML 模拟一个操作系统,或者模拟整个太阳系的运行,甚至可以用来做一些小 demo,比如画一棵圣诞树,并与用户产生交互。


昨天,MiMo-V2-Flash 已经正式发布并开源,我们同步开放了模型权重和技术报告,也提供了 API,方便开发者接入到 Web Coding、IDE 等场景中。同时,体验 Web 也已经上线,大家可以直接和模型进行交互。


但即便如此,我认为大家仍然很难放心把复杂任务完全交给模型。因为真正的下一代智能体系统,并不只是一个语言模拟器,而是需要与真实世界共存的智能体。


在我看来,下一代智能体至少需要具备两个潜能:

  • 第一,它要从“回答问题”转向“完成任务”;

  • 第二,它必须具备与世界交互的能力


这也意味着,它需要具备记忆、推理、自主决策和规划等能力。


更重要的是,它需要一个统一的、动态的系统,用来理解和模拟真实世界。在此基础上,模型才能更自然地嵌入到眼镜等智能终端中,真正融入生活流。


回到大模型本身,它本质上依赖的是算力的“暴力美学”,在语言和强化学习层面取得了突破,但跳过了对世界感知、世界模拟以及实体交互等关键步骤。


这也是为什么当前模型可以解数学竞赛、模仿文学风格,却并不真正理解重力等物理概念,甚至会产生具身幻觉——它们拥有精致的语言外壳,却缺乏锚定现实世界的物理模型。


因此我认为,AI 进化的下一个关键点,一定是能够与真实环境持续交互的物理模型。真正的智能不是从文本中“读出来的”,而是要在交互中“活出来的”。


参考链接:

https://x.com/XiaomiMiMo/status/2000929154670157939

https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash

2025-12-17 18:3113
用户头像

发布了 34 篇内容, 共 18.5 次阅读, 收获喜欢 18 次。

关注

评论

发布
暂无评论

聊聊数据仓库建设

水滴

数据仓库 数仓 数仓架构 主数据管理 标签体系

语言特性实战(一)

南冥

Rancher × Apache APISIX:极速部署更好用的开源网关和 Ingress Controller

API7.ai 技术团队

Kubernetes 网关 rancher APISIX

大专的我,闭关56天,含泪拿下阿里offer,五轮面试,六个小时灵魂拷问

异常是怎么被处理的?这题的答案不在源码里面。

why技术

面试 JVM 字节码

阿里大佬的「算法界Offer收割机」火爆Github,一夜获上万star

Java 编程 程序员 架构师 计算机

iOS底层面试题(上篇)

程序员 面试

程序员是如何看待程序员的,程序员是做什么的?

Linux安装与常用命令

IT视界

Linux linux命令 Linux安装

直接裂开!京东二面被问SpringBoot整合MongoDB,我不会啊

Java架构没有996

Java mongodb 程序员 后端 JAVA开发

一萌妹子的面试经历,美团四面三小时,成功拿到Java岗offer

白亦杨

Java 编程 程序员 架构师 计算机

云原生时代,服务网格能给企业带来哪些价值?

行云创新

云原生 解决方案 服务网格

Linux文件查找常用命令-详细笔记

学神来啦

云计算 Linux 运维

DataPipeline正式成为信创工委会会员单位!致力于为世界级用户提供更优质产品和服务

DataPipeline数见科技

大数据 数据融合 数据管理

应聘高级Android工程师历程感言,你不懂还不学?

欢喜学安卓

android 程序员 面试 移动开发

从零开始学习3D可视化之演示项目

ThingJS数字孪生引擎

大前端 可视化 3D 3D可视化

海归硕士程序员吐槽:回国一个月都没找到工作,我书都白读了?

架构之:REST和HATEOAS

程序那些事

架构 系统架构 Rest 软件架构

技术解码丨实时音视频与PSTN融合的解决方案

腾讯云音视频

腾讯云 音视频 PSTN

程序员工资高,到底程序员的工资有多高?你不了解的程序员!

DEMO CHINA带着1000+投资人,500+好项目首登重庆

创业邦

创业 投资

HarmonyOS走进西安电子科技大学国际双创周

科技汇

毕业总结

菲尼克斯

架构实战营

花费近一年时间整理的Android核心知识清单,面试篇

欢喜学安卓

android 程序员 面试 移动开发

关于程序猿的28个经典段子

Optional 的使用会导致性能下降吗

小技术君

性能优化 Optional

融云技术分享:全面揭秘亿级IM消息的可靠投递机制

JackJiang

即时通讯 IM 可靠消息最终一致 融云

最壕58人逆天改命:四面阿里拿offer后,才发现师哥给的面试笔记有多强大

Java架构师迁哥

「腾讯面试题」兔子试毒

程序员没两把刷子,就别送外卖了!!!

SpringBoot中时间格式化的5种方法!

王磊

spring springboot

罗福莉执掌小米大模型首秀!定调下一代模型,全新MiMo-V2开源还横扫Agent第一梯队_AI 工程化_木子_InfoQ精选文章