写点什么

不止于快!美团新推理模型正在重新定义「实用主义 AI」

  • 2025-09-22
    北京
  • 本文字数:5219 字

    阅读完需:约 17 分钟

大小:2.48M时长:14:26
不止于快!美团新推理模型正在重新定义「实用主义AI」

导语:在大模型竞赛围绕参数规模和跑分展开时,美团发布的新一代大模型选择了一条不同的路径:一切围绕能否真正解决问题展开。它不仅在国际权威的数学、代码测评中达到了顶级水平,更在晚上吃什么?礼物怎么选?这类具体而微小的生活难题中,展现出的理解力和实用性。本文将结合技术报告与实测体验,观察美团新发布的推理模型 LongCat-Flash-Thinking 如何将技术性能转化为生活场景中的实用能力。


在 9 月 1 日发布 LongCat-Flash-Chat 后,不到一个月,美团又发布并开源了 LongCat-Flash-Thinking 推理模型。实际上,此前在 LongCat 的网页端界面中,已有用户注意到「深度思考」按钮的出现,只是当时尚未开放使用。


9 月 22 日,美团正式公布了 LongCat-Flash-Thinking 的技术报告,并且在官网https://longcat.ai/正式上线了深度思考功能。我们第一时间体验了这款来自美团的推理模型,这篇文章就让我们聚焦美团刚刚发布的 LongCat-Flash-Thinking,并走进美团的大模型布局。


技术锚点:美团新推理模型如何实现更快、更能干、更可靠?


先看技术报告中的测评结果,可以看到 LongCat-Flash-Thinking 在多项权威评测中表现突出。尤其是在今年 6 月刚刚更新的 τ2-Bench 基准测试中,该模型在整体测试中取得 74.0 的分数,并在 Airline 细分场景中获得 67.5 分,超过了多款开源与闭源模型。同时,它在数学和编程任务上的表现也已接近主流顶尖模型的水平。


图 LongCat-Flash-Thinking 在推理基准测试上的平均性能比较


美团也是第一时间发布了 LongCat-Flash-Thinking 的技术报告。报告不仅公布了模型的整体规模和训练基础,还详细拆解了在效率、能力和可靠性上的多项创新。接下来,就让我们从报告出发,一探这款新模型的核心能力。


LongCat-Flash-Thinking 是一个 MoE 推理模型,总参数量 5600 亿,激活参数量 270 亿,在美团 LongCat-Base 的基础上训练而成。


从设计策略来看,LongCat-Flash-Thinking 极为强调推理能力和效率。


美团首先在底层架构上做了创新。报告指出,其在冷启动训练阶段引入了零计算专家机制与 Shortcut-Connected MoE(ScMoE)架构,使得模型在同等性能条件下展现出显著的计算效率优势。这一设计不仅降低了推理过程中的冗余开销,还保证了大规模推理任务的可扩展性,从而为模型的高效推理奠定了坚实基础。换句话说,模型不必每次都调动全部资源,而是像高速公路上的分流系统,能根据任务大小自动选择最合适的车道,从而实现更快的整体通行效率。


其他两项创新则集中于训练与推理机制。首先,团队提出了领域并行强化学习训练方法(Domain-Parallel RL Training and Fusion Methodology),将 STEM、代码和智能体三大领域分别训练,再通过参数融合构建出一个近乎帕累托最优的统一模型。这种方式避免了传统混合训练中容易出现的负迁移,使模型在不同专业任务中都能保持高水准的表现。


图 LongCat-Flash-Thinking 的训练流程


其次,模型在智能体推理环节引入了双路径框架。报告指出,为提升 Agent 能力,团队构建了一个结合可学习的路径选择器与工具增强推理轨迹合成的机制:一方面,路径选择器能够动态评估任务需求,判断哪些问题需要外部工具辅助,哪些可以依靠模型自身能力解决。另一方面,模型会生成高质量的、包含工具调用的推理轨迹,用于训练和强化自身的智能体能力。


这种设计让模型不仅能在面对复杂任务时知道是否需要借助工具,还能逐步学会如何高效使用工具,在推理深度与灵活性之间取得平衡。可以形象地理解为,LongCat-Flash-Thinking 不仅像一位多才多艺的专家,在不同学科领域各展所长,还像一名善用工具的工程师,能根据情境灵活选择最合适的解决方案,从而在复杂环境中更加游刃有余。


在可靠性方面,LongCat-Flash-Thinking 兼容了形式化推理 (Formal Reasoning)和非形式化推理(Informal Reasoning)。形式化推理使用严格的公理体系、定理和推理规则,从而确保每一步推理的严密性和准确性。但两者的融合颇具挑战,为此,团队提出了一套系统化的方法论:通过命题形式化(Statement Formalization)将自然语言问题转化为逻辑命题;利用迭代式证明合成(Iterative Proof Synthesis)逐步构建并修正证明链条;并与 Lean4 验证器深度集成,确保生成的证明能够通过独立工具的验证。这意味着模型不仅能给出答案,还能像数学家一样写出完整、可检验的证明过程,为科研和工程等高可靠场景的应用奠定了坚实基础。


通过以上提到的多种创新方法,LongCat-Flash-Thinking 展现出了更快、更能干、更可靠的特质。但在美团看来,跑分只是副产品,真正的目标从来不是炫技,而是让技术转化为可感知的价值。而这,正是第二部分我们想要探讨的。


从技术到业务:务实为先,回归业务效果


换句话说,这些复杂的技术最终都指向一个简单的目标:让模型能干可靠,即时交付的结果让人省心。

从实际测试感受来说,无论是更丝滑的用户体验,还是提供个性化的推荐与可执行的方案,美团的新模型似乎都在努力把技术实力落地为实际场景下的服务能力。设计之初,这支团队或许也把业务场景作为重要的考量维度之一。而技术,终究要落地到业务和用户中去。


在效率层面,LongCat-Flash-Thinking 能够智能调度计算资源,用最少的激活参数完成最优推理路径。结合美团的本地生活场景,这种高效性将转化为用户侧的即时体验:这意味着用户等待 AI 思考的时间大幅减少,即使使用了推理模型,交互也能像日常对话一样自然、连贯。无论是外卖下单的推荐反馈,还是酒店预订的结果查询,用户都能更快获得响应,真正感受到技术消解等待焦虑的价值。


在能力层面,模型通过灵活的推理框架和强化学习优化,这使得模型在面对复杂任务时,既能依靠自身知识完成推理,又能灵活调用工具优化决策。结合美团的业务场景,这种灵活性意味着模型能够在推荐时可综合考虑用户偏好与实时运力信息,动态生成即时最合适的推荐:外卖场景中,既符合口味偏好,又能保证快速送达;出行场景中,则结合用户出行习惯与实时路况,给出合理方案。技术上的更能干,由此转化为服务上的更贴心,让每一次决策都更符合实际需求。


报告在总结中强调了模型在不同任务和场景中稳定可靠的表现,并提出强化学习与工具增强方法能保证推理逻辑的严谨性。虽然报告未直接涉及本地生活,但美团的天然优势在于长期沉淀的本地生活场景数据、用户行为偏好以及实时供给与运力能力。当这些数据与模型的推理框架结合时,每一次推荐和决策都有坚实的逻辑支撑。用户在接受结果时,不仅能获得准确答案,还能因为背后有真实数据作保障而更加放心。技术上的可靠性,在业务层面转化为能依赖、能信任的使用体验


从更即时的响应,到更贴心的理解,再到更放心的可靠性,美团的新模型正在把技术创新转化为用户可感知的体验。但这些优势是否只停留在理论层面?能否在真实场景中经受考验?


实战检验:不仅能解题,还能解生活


前文我们已经梳理了 LongCat-Flash-Thinking 的多项技术突破,但关键问题是:模型能否把技术突破落实在真实场景中?带着这个问题,我们设计了几组测试,覆盖了从学术推理到生活服务的典型需求。

这些测试既包含数学和语言推理这样的通用能力,也涉及礼品推荐、行程规划等贴近日常生活的应用场景。换句话说,我们并不只关注它是否答对了题,而是更关心:它是否能像一个值得依赖的智能助手那样,把复杂问题转化为可执行的解决方案。


我们先从一道基础的概率题出发,让 LongCat-Flash-Thinking 先模拟抛 10000 次硬币,计算正面朝上的概率。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00

    视频 LongCat-Flash-Thinking 的回答一

     

    首先第一印象是 LongCat-Flash-Thinking 回答速度确实很快,整个过程在不到 10 秒的时间里就完成了。然后当我们打开思考过程时,可以发现 LongCat-Flash-Thinking 自主调用了代码工具,去进行模拟和计算。最终输出的结果在 0.5 附近波动,符合常识预期。


    这道看似简单的题目,其实验证了几个关键点:模型不仅能准确调用工具解决问题,而且能给出符合统计学常识的解释,展现出逻辑推理与工具使用的结合能力。




    图 LongCat-Flash-Thinking 的回答一

     

    第二道题,我们选择了一道全国大学生数学竞赛初赛的证明题,来看看 LongCat-Flash-Thinking 在数学推理方面的表现吧。



    让我们来看看 LongCat-Flash-Thinking 给出的过程思考和答案吧。先对照下结果,第一道题的答案为 1/α,恭喜 LongCat-Flash-Thinking 成功作答。而第二题的证明题,我们也能从解答过程中发现,LongCat-Flash-Thinking 通过和第一小问一样的方式,先证明了{Yn}严格单减且趋于零,然后通过推广 stolz 定理,成功证明题干结论。从这个过程可以看出,LongCat-Flash-Thinking 不只是会算,更会有条理地证明,而这在不少大模型里其实并不常见。






    图 LongCat-Flash-Thinking 的回答二

     

    第三道题,我们选择了和 LongCat-Flash-Thinking 玩一局中文成语版的 Wordle 游戏。规则很简单,同时考查三类要素:汉字所在的位置、汉字的拼音以及汉字的声调。在这次测试中,我们预设了前 5 个回合的游戏过程,并在每个回合中给出猜测答案对应的匹配反馈。模型需要根据这些反馈,逐步推理出最终的正确成语——「愤世嫉俗」。


    这一道题既考验了模型对语言和语音特征的敏感度,也考验了它的逻辑推理与排除能力。毕竟,锁定一个四字成语,不仅需要认字,还需要会推理。而 LongCat-Flash-Thinking 依然完美作答。


    图 LongCat-Flash-Thinking 的回答三

     

    第四道题,既然是美团发布的模型,怎么能不试试应用题呢?我们让模型在 500 元预算内挑选一个当天就能拿到的生日礼物,看看模型会怎么回答吧。





    图 LongCat-Flash-Thinking 的回答四

     

    可以看出,LongCat-Flash-Thinking 模型在选礼场景中表现得游刃有余,不仅熟悉礼物类型、优势和操作流程,还能给出具体的商品名、价格区间和配送方式,甚至贴心地补充了实操时的注意事项与优惠技巧,堪称懂生活的模型。当然,它在推荐上也兼顾了实物礼物(礼盒、蛋糕、鲜花)与体验类礼物(温泉、烘焙 DIY),充分考虑到不同用户的需求。

    相比之下,通用类模型虽然语言组织更流畅,但在具体礼品选择、购买路径、预算组合和运力保障等方面明显欠缺经验,更像是提供灵感的助手,而不是能真正帮你落实到细节的生活助理。


    图 某通用类模型产品的回答

     

    最后一道题,我们来试验一下 LongCat-Flash-Thinking 在行程规划上的能力。我们让模型以怀柔的红螺寺和雁栖湖为目的地,设计一次以徒步为目的的公共交通出行一日游。

    为了更真实地对比,首先先放一段原速视频,让大家感受一下 LongCat-Flash-Thinking 的推理和输出速度。


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00

      视频 LongCat-Flash-Thinking 的回答五

       

      可以看出,LongCat-Flash-Thinking 在此次回答中,不仅对于行程需求进行了清楚的拆解,并且在行程规划中,对实际车次、徒步路线、景点门票和注意事项等路径规划实际需要考虑的问题进行了深入的分析和梳理。为了让行程更贴合我的实际情况,我们按照「一人出行,体力很好,只想以公交出行,不想坐高铁」再次进行了输入。







      图 LongCat-Flash-Thinking 的回答五


      而这次的答案,与小编前不久自己制定的行程,已经有了高度重合度了,无论是公交的选择、徒步路线的选择都非常相近。同时在公交等待时间的提醒和费用的预算,也非常接近小编实际的支出情况,这真的算是意外之喜了。


      从几组实战测试可以看到,美团的新模型不仅在通用题目上展现了扎实的推理能力,更重要的是在真实生活场景中,能够给出具备执行性的解决方案。似乎,这只出生不久的“龙猫”,已经跑在了一个全新的赛道上。这也让人不禁追问:在大模型赛道竞争激烈的今天,美团模型的终局是什么?它又会如何能坚持跑到最后?


      美团的 AI 答案:深耕现实世界的人工智能


      当下,几乎所有科技公司都在讨论大模型,但仔细比较会发现,各家公司切入的角度有所不同:有人押注通用智能,有人专注企业服务,而美团选择了从业务场景出发的路线,将模型打造成能够落地的智能基础设施。这种做法体现了美团对 AI 实际应用价值的理解:解决问题、提升体验、增强信任。


      这种实用主义路径能够实现,依赖于美团长期积累的本地生活、即时零售和服务供给数据。与仅依赖公开数据集的模型不同,美团的模型从一开始就接触复杂的现实世界场景:从餐饮、零售到出行,每一环节都包含大量即时、动态的信息。这让模型在语义理解和推理上更贴近实际,也能在决策时综合考虑供给、时效和用户偏好,从而具备较强的应用适配能力。


      因此,美团的 AI 不仅能完成实验室中的算法测试,也能在真实业务中发挥作用,让技术转化为用户可感知的体验:更即时的响应、更贴心的理解、更可靠的结果。整体来看,这条从现实出发的路径,是一种稳健、长期可持续的实践。


      也许,是时候不再把美团仅看作一家外卖公司,而是以 AI 公司的视角重新理解这家公司,并理解美团提供的实用主义 AI 方法——从生活中来,回到生活中去。

       

      技术论文:https://github.com/meituan-longcat/LongCat-Flash-Thinking/blob/main/tech_report.pdf

      网页版模型体验:https://longcat.ai/

      开源平台地址:

      HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

      GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking

      2025-09-22 19:354569

      评论

      发布
      暂无评论

      HTTP 请求流程

      coolion

      大前端 浏览器 HTTP

      软件测试---BUG的生命周期

      测试人生路

      软件测试

      云算力挖矿系统APP开发|云算力挖矿软件开发

      系统开发

      大数据应用及其价值

      Andy

      再见 2020!Apache RocketMQ 发布 4.8.0,DLedger 模式全面提升!

      阿里巴巴云原生

      阿里云 开发者 云原生 存储 消息中间件

      Filebeat同步写位点文件引发的磁盘IO问题

      秦宝齐

      算法学习手册

      田维常

      算法

      使用PG_SHOW_PLANS监控PostgreSQL执行计划

      PostgreSQLChina

      数据库 postgresql 开源

      AMD台式CPU市场份额距离英特尔还有多远?刚到四分之一

      E科讯

      惊艳!阿里人用29篇讲明白了多线程与高并发+设计模式,惊呆了!

      996小迁

      Java 面试 设计模式 多线程 高并发

      Java多线程并发控制工具CountDownLatch,实现原理及案例

      李尚智

      Java 并发编程 后端

      MySQL不会丢失数据的秘密,就藏在它的 7种日志里

      程序员小富

      MySQL

      换个角度,聊聊全链路压测

      老张

      性能测试 系统稳定性 全链路压测

      吴桐/数字化的下一个十年,你可能不会更幸福

      CECBC

      数字化时代

      泪目!美团点评APP在移动网络性能优化的实践,附赠课程+题库

      欢喜学安卓

      android 程序员 面试 移动开发

      看完老板哭着让我留下来!带你彻底搞懂Android启动速度优化!Android篇

      欢喜学安卓

      android 程序员 面试 移动开发

      python 技术面试没过,居然是没有用 pytest 测试框架

      和牛

      Python 测试 测试框架 pytest

      自学编程的4大误区,你中招了吗?

      田维常

      程序员

      VoltDB成功入选CNCF Landscape云原生数据库全景图

      VoltDB

      云原生 cncf VoltDB 分布式内存数据库

      加密数字货币钱包系统软件开发|加密数字货币钱包APP开发

      系统开发

      腾讯高工亲授“MySQL学习方法”【思维导图+学习笔记+实战文档+面试题库】让你站在数据库领域的顶峰 笑傲江湖!

      比伯

      Java 编程 架构 面试 计算机

      零基础也能看得懂!Android面试心得必备技能储备详解,Android面试题及解析

      欢喜学安卓

      android 程序员 面试 移动开发

      测开之函数进阶· 第8篇《多个装饰器装饰同一个函数,三个内置的装饰器》

      清菡软件测试

      测试开发

      Java多线程并发控制工具信号量Semaphore,实现原理及案例

      李尚智

      Java Java并发 并发编程 后端

      28天写作挑战——坚持28天,每天500字

      TGO鲲鹏会

      28天写作 热门活动

      Uniswap去中心化交易所系统开发

      W13902449729

      去中心化交易所系统开发 uniswap

      架构师第7周作业

      Geek_xq

      大数据指标分析思考

      Andy

      深入分析单例设计模式

      Andy

      年底了,你的数据库密码安全吗

      Simon

      MySQL 数据库

      如何在 OpenShift 中运行 Collabora Office

      东风微鸣

      openshift

      不止于快!美团新推理模型正在重新定义「实用主义AI」_AI&大模型_崔白洁 | InfoQ研究中心_InfoQ精选文章