Token 售卖已无溢价、大模型公司转型“系统商”?记忆张量 CTO 李志宇:智能体能力会拉开差距,长期记忆与状态管理成竞争核心

  • 2026-01-07
    北京
  • 本文字数:5756 字

    阅读完需:约 19 分钟

本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

我们采访了记忆张量 MemTensor CTO 李志宇,他指出 Scaling up 不再是单独成立的答案,虽模型规模扩大仍能提升能力,但经济效益下降,未来差距在于找到值得 Scaling 的点,如动态场景记忆。大模型公司正在变成系统公司,核心竞争力是长期记忆与状态管理能力,而非单一模型性能。2026 年若各家模型间拉不开代际差异,价格战将愈演愈烈,甚至因国产卡下场逼近冰点。

此外,他认为智能体是下一阶段核心主赛道,但现有模型推理稳定性、可持续性不足,难支撑真正自主智能体,竞争关键在记忆、推理和系统架构能力。

下面是详细对话内容,以飨读者。

“不少公司开始变得更理性”

InfoQ:您认为,2025 年跑出来了哪些明星公司,以及带来了怎样的行业影响?哪些企业相对落后了?

李志宇: 我觉得 2025 年跑出来了一些赛点公司,比如 MiniMax 和智谱,都开始冲击港股上市了,这个是令大家比较振奋的,但同时可从他们的上市招股书中看到当前大模型公司所面临的一些问题,比如投产比,亏损严重等等。当然,也有一些现象级的产品,例如 Mannus 等,给大家眼前一亮,让大家看到了一些 Agentic 产品或框架的商业化价值和面向应用场景的可行性。

InfoQ:科技公司 2025 年面临的压力如何?对此采取了什么样的应对措施?员工们的状态如何?

李志宇:2025 年科技公司面临的压力,其实是多层叠加的,而且比过去几年更“真实”。一方面是技术节奏在加快,但商业回报的不确定性也在同步放大,很多公司一边要持续投入算力、模型和系统建设,一边又要面对成本、现金流和落地周期的现实约束,包括很多 POC 项目都要去看收益了;另一方面,技术路线本身也在分化,哪些投入是长期能力,哪些只是短期跟风,这对管理层的判断提出了更高要求。

在应对上,我看到不少公司开始变得更理性,比如更强调系统效率、真实使用场景和可持续的技术积累,而不是单纯追逐参数规模或热点概念。员工层面,整体状态可以用“压力不小,但方向更清楚”来形容,节奏确实更紧张了,但同时很多工程师也意识到,行业正在从早期红利阶段,走向真正拼工程、拼长期价值的阶段,这种转变反而让一些人更专注、更务实。

InfoQ:经过一年竞赛,国内前沿 AI 水平取得了怎样的成绩?是否赶上了硅谷科技公司?

李志宇: 如果回头看这一年的竞赛,我认为国内前沿 AI 在整体能力上,已经取得了非常实质性的进展,而且在某些维度上,确实追得很快,包括在基础模型上也涌现出如 DeepSeek-R2、Qwen3 系列等优秀的模型。可以说无论是基础模型能力、多模态理解,还是推理效率和工程化落地,国内团队已经不再是简单的追随者,而是在成本控制、系统优化和应用适配上形成了自己的优势。

但如果问是否已经全面赶上硅谷,我的看法会更理性一些:在部分通用能力和工程执行层面,差距正在快速缩小,甚至在某些场景下具备竞争力;但在长期基础研究积累、原创范式探索,以及面向下一代智能形态的系统性布局上,整体仍然存在差距。不过,我认为这并不意味着悲观,反而说明竞争正在进入一个更健康的阶段——从单点能力对标,转向技术路线和系统能力的分化。接下来决定胜负的,不是谁先复制谁,而是谁能在自己的技术土壤和应用环境中,跑出真正可持续、可演化的 AI 体系。

InfoQ:您认为 2025 年科技圈的几个关键词是什么?您怎样总结自己这一年的收获与遗憾?

李志宇: 我的关键词有两个。一是“找增量”。过去的一年,大家开始更多从工具增强、记忆增强、推理增强去给大模型找增量,而不是一味的去 Scaling 模型参数。二是“拼成本”:从“六小龙”到“七小虎”,再到冲 IPO 二杰“MiniMax & 智谱”,大家越来越关注在实际场景里面训模型和商业化收益之间的关系,都开始找自己的生存点了。

我收获的是,这一年,我和团队一起将之前所坚信的“记忆增强”路线完成了第一轮工程化和产品化的实现,并逐步的进入了业界的关注点,同时庆幸的是:似乎我们一直走在正确的道路上,很多技术点也和 OpenAI、Google 等团队完全 Match 上了,这些 Match 也正好帮助我们公司在融资和成长上给与更多的正反馈。

遗憾的则是由于团队规模相对较小,很多产品层面的计划没来得及实现,特别是几个觉得比较有意思的 C 端的产品尝试,没有精力去好好的打磨。这点 2026 年可能需要有更多的投入。

Scaling up 不再是一个单独成立的答案

InfoQ:Scaling up 是否仍是最佳路线?

李志宇: 我不太认同“Scaling up 已经过时”这种说法。不管是语言模型还是多模态模型,过去一年的结果其实已经反复验证了,只要数据、训练方法和工程能力能跟上,模型规模继续扩大,整体能力依然会有一定的提升,只是似乎是经济效益没那么高了。

但问题在于,Scaling up 已经不再是一个可以单独成立的答案了。现在我们遇到的很多瓶颈,并不是模型不够大,而是模型“用不好已有的信息”,比如长上下文下的稳定性、跨时间的一致性、复杂任务的持续推理能力。多模态的发展反而把这个问题放大了,输入更长、信息更杂、状态更多,参数在变大,但真正可用、可持续的智能比例并没有同步提升。

所以我更倾向于认为,我们正在进入一个“Scaling 仍然继续,但对象正在发生变化”的阶段,下一步真正拉开差距的,不是谁把参数堆得最大,而是能找到值得 Scaling 的点,比如基于动态应用场景的记忆,去做 Scaling 。

InfoQ:大规模合成数据正在逐渐替代人工数据,您怎么看待这一趋势?在构建高质量推理数据集方面,你们有哪些方法论?

李志宇: 我认为“大规模合成数据替代人工数据”是一个正在发生、但很容易被误读的趋势。合成数据确实已经成为高质量训练数据的重要来源,尤其是在推理能力、复杂任务分解这类场景上,单纯依赖人工标注既慢又贵,而且一致性很难保证。但我不太赞同“合成数据完全替代人工数据”的说法,真正高价值的合成数据,并不是模型自己随便生成出来的,而是被严格约束、可验证、能放大信息增益的数据。

在我们构建高质量推理数据集时,更关注的是两点:第一,是否有明确的推理结构,比如中间状态、决策分支和失败路径,而不是只给最终答案;第二,是否引入了对抗性和反事实设计,刻意逼模型暴露盲区,而不是强化它已经会的模式。

InfoQ:相比去年,2025 年大模型能力有哪些显著发展?为此,技术路线出现了哪些关键变化?

李志宇: 如果和去年相比,我觉得 2025 年 大模型最明显的变化,不是“更聪明了多少”,而是“开始变得更可用了一点”。能力层面,模型在复杂指令理解、多步推理稳定性,以及跨模态任务的一致性上都有肉眼可见的进步,尤其是在不依赖极端 Prompt 的情况下完成完整任务链条,这是一个很重要的信号。

但更关键的变化其实发生在技术路线上:行业正在明显从训练时把模型做大,转向运行时让模型用得更好。

一方面,强化学习、测试时计算、显式推理结构被大规模引入,用来补足纯预训练的不足;另一方面,记忆、工具调用和系统编排开始成为核心能力,而不再只是外挂能力。这意味着模型能力的提升,正在从一次性的参数写入,转向可持续的系统演化,也正是从这一刻开始,大模型逐步从“通用模型”,走向真正可长期工作的智能体。

InfoQ: MoE 架构为什么会成为 2025 年的主流架构?其在参数效率与推理成本间的平衡能力,是否彻底改变了大模型的开发与部署逻辑?非 MoE 路线的企业如何构建差异化竞争力?

李志宇:MoE 在 2025 年成为主流,本质上是一次被成本和规模同时逼出来的工程选择。随着模型规模继续扩大,单一稠密模型在训练和推理上的成本已经接近不可接受,而 MoE 用“只激活少量专家”的方式,在参数规模和推理开销之间找到了一个现实可行的平衡点,这也是为什么它会迅速被主流厂商采用。

但我不认为 MoE 彻底改变了大模型的开发与部署逻辑,它更多是一次效率层面的重构,而不是智能范式的跃迁。MoE 解决的是“算力怎么省”的问题,而不是模型怎么长期变聪明的问题,这也意味着它本身并不会自动带来更好的推理稳定性或长期一致性。

对于非 MoE 路线的企业来说,差异化并不在于是否采用某一种架构,而在于是否能在系统层面构建独特能力,比如更有效的记忆机制、更稳定的推理流程,或者更贴近真实应用的数据闭环。换句话说,MoE 让规模变得更经济,但真正拉开差距的,仍然是架构之外的系统设计能力。

InfoQ:情境感知能力也成为大家追求的能力,这方面进展如何?

李志宇: 我觉得 2025 年大家对情境感知的理解,其实比能力本身进步得更快。如果放在去年,很多人谈情境感知,更多还是指上下文变长了、信息塞得更多了,但 2025 年一个明显的变化是,行业开始意识到情境感知并不等于上下文长度,而是一种对环境、历史、目标和约束的综合理解能力。

从进展上看,模型在短期情境理解、多轮对话连贯性、多模态即时状态感知上确实有提升,但在真正长期、跨任务、跨时间的情境一致性上,能力仍然非常有限。很多时候模型不是看不见情境,而是“记不住情境、用不好情境”。这也直接推动了技术路线的变化,大家开始把情境感知从模型内部的隐式能力,转向系统层面的显式建模,比如引入长期记忆、状态表示、环境建模和任务轨迹管理。

我的判断是,情境感知正在从一个模型特性,演变为一个系统能力,而这一步如果走不出来,所谓的智能体和长期智能,很难真正成立。

支持智能体,大模型需要在三个方面做优化

InfoQ:DeepSeek 等都在开发具有更强大 AI Agent 能力的新模型,大模型在支持智能体方面可以做哪些优化?从研发路线看,智能体会不会成为大模型竞争的第一主赛道?为什么?现有模型的推理能力是否足够支撑真正的自主智能体?瓶颈在哪里?

李志宇: 我个人认为,智能体能力正在成为大模型竞争中最现实、也最容易拉开差距的方向之一,但它不是靠“换一个模型名字”就能解决的。

从模型本身来看,要真正支持智能体,大模型至少需要在三个方面做优化:第一是推理从一次性回答转向过程可控,也就是能稳定地进行多步决策、反思和修正;第二是对状态的理解和保持能力,包括对任务目标、环境变化和历史行为的持续感知;第三是与工具、环境和记忆系统的协同能力,而不是把所有复杂性都塞进一次 forward 里。

从研发路线看,我确实认为智能体会成为下一阶段非常核心的主赛道,因为单点能力的提升已经很难再形成压倒性优势,真正有价值的是模型能否长期、自主地完成复杂任务。但客观说,现有模型的推理能力还不足以支撑真正意义上的自主智能体,瓶颈并不完全在算力或参数规模,而在稳定性和可持续性上——模型会漂移、会遗忘、会在长链路决策中逐步失真。所以今天看到的大多数 Agent,更像是系统在兜底、模型在执行,而不是模型本身已经具备了完整的自主智能,这也是为什么我认为,未来的竞争关键不只是模型能力,而是围绕模型构建的记忆、推理和系统架构能力。

单靠一个模型,很难支撑真实世界里的复杂应用

InfoQ:2025 年模型价格战最关键的影响是什么?价格战倒逼厂商做了哪些架构演进?低价趋势在 2026 年是否会继续延续?

李志宇: 我觉得最关键的影响是由于模型性能本身提升上限受阻,带来的模型 Tokens 售卖溢价降低所导致的。原来不同厂商之间的模型如 OpenAI、Qwen 和 Gemini 等之间的性能存在较大差异,大家可以通过这个“较大差异”来获取单纯售卖大模型 Tokens 溢价,但随着差异的减小和模型的开源,使得仅售卖纯模型 Token 无法获得企业的溢价认可。

因此,我个人判断,如果 2026 年模型层面的能力(开源模型和闭源模型、不同公司的模型)之间无法形成代际差,价格战仍然会继续,甚至愈演愈烈。同时,当部分国产卡下场且效率提升之后,由于算力补贴的存在,这个价格将会逼近冰点,甚至越用越亏。

所以,接下来模型厂商可能需要考虑的是,如何在现有的纯模型 Token 售卖模式上提供增值服务。比如:MCP 增值服务、记忆增值服务等等。通过额外的能力提升,来提供纯售卖 Tokens 的溢价空间。

InfoQ:有评论说,大模型公司正在从模型公司变成“系统公司”,您对此如何理解?

李志宇: 我其实非常认同“大模型公司正在变成系统公司”这个判断,因为单靠一个模型,已经很难支撑真实世界里的复杂应用了。模型能力当然重要,但现在决定体验和成本的,越来越多来自模型之外的系统能力,比如推理引擎怎么调度算力、数据如何持续进入并形成正反馈、Agent Framework 能不能稳定地执行长链路任务。

从这个角度看,我并不认为某一个单点最重要,它们更像是一套协同工作的系统,但如果一定要说一个核心,我会把它归结为“系统是否具备长期记忆与状态管理能力”。没有这层能力,再好的推理引擎也只能做一次性计算,再强的 Agent 框架也只能靠反复 Prompt 和兜底逻辑维持稳定。真正有竞争力的系统,应该能在模型、推理引擎、数据生态和 Agent 之间,建立起一套可管理、可复用、可演化的记忆机制,让 AI 不只是被调用,而是可以长期运行、持续进化。也正因为这样,未来的大模型公司,本质上更像是在构建一种新的智能基础设施,而不是单一的模型产品。

InfoQ:在您看来,2026 年大模型竞赛的核心是什么?您认为下一次“大模型代际飞跃”可能来自哪条技术路线?

李志宇: 如果从更长期、也更本质的角度看,我认为 2026 年大模型竞赛的核心,其实是在“记忆能力如何完成一次系统性升级”。过去模型主要依赖参数记忆,把能力一次性写死在权重里,但一旦进入智能体、长期任务和复杂应用场景,这种路径很快就会遇到天花板。

真正的变化在于,记忆开始被拆解、被管理、被调度,而不是混在一次推理里被消耗掉。我们看到的技术演进趋势,是从底层算力和 KV Cache 等激活记忆管理开始,到基模型层引入记忆原生机制,再到上层通过显式记忆支撑 Agent 和应用的长期运行能力,本质上是一条从 Infra 到模型、再到应用的完整记忆技术栈升级。

下一次真正的“大模型代际飞跃”,我认为很可能就来自这里:当模型不再只是一次性推理工具,而是能在系统层面管理参数记忆、激活记忆和显式记忆,跨推理过程进行调度、复用和隔离,AI 才真正具备长期演化和持续工作的能力。这种变化带来的不是 benchmark 上的小幅提升,而是智能形态本身的跃迁。