50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

从“云原生”到“智能原生”,AI 中间件走到哪一步了?

  • 2025-10-16
    北京
  • 本文字数:12227 字

    阅读完需:约 40 分钟

大小:6.01M时长:34:59
从“云原生”到“智能原生”,AI 中间件走到哪一步了?

在分布式和云原生时代,中间件通过屏蔽底层复杂性、提供标准化接口,大幅提升了软件研发效率。如今,AI 中间件也正在扮演类似的角色。那么,如何从“云原生”平滑过渡到“智能原生”?又该如何解决当前 AI 应用开发的核心痛点?


近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了蚂蚁集团 资深技术专家宋顺担任主持人,和蚂蚁集团 AI 中间件负责人章耿、记忆张量 CTO 李志宇博士一起,在 QCon 全球软件开发大会 2025 上海站 即将召开之际, 探讨 AI 中间件的基建之战。


部分精彩观点如下:


  • AI 中间件的核心价值在于:降低开发门槛、提升系统可靠性、保障安全可控。未来,谁能更好地掌握中间件的能力,谁就能在智能应用中占据先机。

  • 自研 AI 中间件不仅是“可以做”,而且是“必须做”的事情。它不是为了重复造轮子,而是为了打造一辆符合自己赛道规则、安全标准和成本要求的“超级赛车”。

  • 对于非核心、创新探索型业务。大胆拥抱开源和云厂商服务,快速试错,验证想法;对于核心业务、规模化应用:必须走自研或在开源基础上深度定制的道路。

  • 传统技术积累并没有过时,而是需要在新的框架下实现“重生”。


在 10 月 23-25 日将于上海举办的 QCon 全球软件开发大会 2025 上海站 上,我们特别设置了【AI 中间件:加速智能应用开发】专题。该专题聚焦 AI 中间件的关键技术、行业实践与未来趋势,分享 Agent 架构设计、多模态智能协作、生产环境落地经验等方面的前沿探索。查看大会日程解锁更多精彩内容。


以下内容基于直播速记整理,经 InfoQ 删减。

智能基建


宋顺:如果云原生基建的核心是调度和管理服务,那么在智能基建里,核心对象会变成 Agent、模型,还是记忆?这种对象层面的转变,会带来哪些新挑战?


章耿: 云原生时代,围绕的核心是云环境,所以云原生的核心思想是让应用“生于云,长于云”,从一开始就为云环境而设计,从而能最大限度地利用云平台的优势。云原生的四个典型技术——微服务、容器化、持续交付、DevOps,这些技术主要就要做到两点:第一、帮助开发者把业务应用的服务,变成标准化的、无状态的服务单元,第二点就是通过 K8S 调度 /ServiceMesh 等基础设施做到自动化的运维,让成千上万个服务能够稳定、高效、确定性地运行。


而在智能原生时代,围绕的核心是 AI,要做的同样是让应用能最大限度地利用 AI 的优势,比如如何快速调用大模型,如何提供出大模型友好的服务、数据,如何找到好用的 Memory 服务,如何构建稳定可靠的 Agent 等等。另外,智能原生里面的服务载体从微服务变成了 Agent 智能体,它融合了模型、记忆、工具等要素,但 Agent 和微服务同样是需要稳定、高效运行的,还是会用到已有的云基础设施,所以说智能原生和云原生不是替代关系,而是进化的关系,现在业界也有人提 AI Cloud Native 的概念。


这些改变也带来了不少新的挑战:


首先,底层调度的维度更多,除了云原生时代考虑的 CPU、内存、网络外,智能基建还需要考虑 GPU、TPU 等。那如何做到算力异构、智能调度都个全新的命题。


其次,出现全新的基础服务:智能原生的应用其实就是 Agent,构建 Agent 会依赖众多的服务,比如推理服务、RAG、Memory 等等,这是是之前没有的中间件,对应用最友好的做法就是把这些服务端也作为云服务。这里就会出现新的研发范式、通信协议、协调机制等等。


第三个状态管理的复杂性:云原生推崇无状态这样更容易伸缩,而 Agent 往往是有上下文、有记忆的。你要解决记忆持久化、跨会话迁移、隐私保护等工程问题。


最后一个也是最大的挑战就是不确定性。传统微服务,输入相同,输出必然相同,所以调用拓扑是静态的,行为是可预测的。但 LLM 的输出是概率性的,同一个问题问两遍,答案可能不一样,这就导致智能体的执行链路可能是动态的。这对于金融级应用要求的稳定性和可预测性是致命的,我们需要提供基建把这种不确定性“框”在一个可接受的范围内,这就依赖上下文工程,更强的可观测,评测体系、SLA 保障体系等等。


宋顺:如果把 AI 应用比作“数字大脑”,记忆服务是否可以类比为‘海马体’?在智能基建蓝图中,它更像是数据库式的底层基础设施,还是像应用层类库一样的可选能力?


李志宇: 人脑的海马体主要负责将短期记忆、感受和经历转化为可被提取和利用的长期记忆。如果海马体受损,人就难以将新的经验固化下来。即便在当下能够感知、理解并作出回应,过一段时间后也可能完全忘记刚刚发生的事情。对于人而言,缺失海马体意味着大脑无法完整发挥功能。从人工智能的角度来看,这一机制也有相似之处。


以 ChatGPT 为例,从 2023 年到 2024 年,它已经开始能够记住之前的一些对话内容。这个变化背后涉及一个关键机制——记忆机制。如果没有类似海马体的记忆机制,模型只能进行短期对话,每次提问都需要把之前的上下文完整复制粘贴给模型,才能得到合理回答。


我们在开发“MemOS”这一中间件时,一个核心目标就是模拟海马体的功能,将用户与大模型之间碎片化的对话沉淀为长期记忆。我们希望模型不仅能记住信息,还能在合适的时机调用过去的记忆和经验,并持续学习、动态适应未来的问题。从定位来看,它不仅仅是一个数据库。目前它可能还是一种增强型的可选工具,但随着 AI 原生应用以及可接入智能体的应用越来越多,记忆机制将从可选项逐渐变为必需组件。


正如人类缺失海马体会对生活造成巨大困扰,未来的 AI 也一样。如果不引入记忆机制,AI 只能解决当下的问题,无法满足人们对其更高层次的期望,如长期陪伴、持续进化、根据与用户的交互逐渐提升价值等。对企业而言,我们也希望用户在使用 AI 的过程中能逐步积累企业必需的经验,这些经验再被整合并用于提升后续服务的能力。这正是我们认为极其重要的一点。


宋顺: 从我们的实践来看,AI 中间件正在成为智能时代的“连接器”和“加速器”。它不仅要解决模型与业务之间的接口问题,更要处理上下文管理、记忆持久化、工具调度、安全管控等一系列工程挑战。就像云原生时代的 K8S 标准化了应用的部署与管理,AI 中间件也在逐步形成一套标准化的智能应用开发范式。它的核心价值在于:降低开发门槛、提升系统可靠性、保障安全可控。未来,谁能更好地掌握中间件的能力,谁就能在智能应用中占据先机。


宋顺:既然开源和 API 如此方便,企业为何还要自研中间件?它的不可替代性,是主要体现在技术上,还是业务安全和成本控制上?


章耿: 这是一个非常现实的问题,也是我们内部被反复挑战的问题。很多业务同学会问:“我用 LangChain 加上 OpenAI 的 API,几个小时就能搭个 Demo,为什么还要花大力气接你们的平台?”,我用 dify 就可以配置几个 Agent,你有什么差异的地方吗?我的回答是:一个能跑的 Demo 和一个能支撑千万级用户、满足金融级安全合规要求的企业级应用,中间隔着十万八千里,特别是安全、稳定性、成本等方面的考量,就像冰山在海平面下的部分。


对应蚂蚁这么大体量的研发群体来说,自研 AI 中间件存在不可替代性。首先是技术层面,不管是从公司统一的架构演进、还是研发效率的提升方面,都希望有统一的基础设施,我们不希望每个研发同学去关注很底层的一些技术实现,而是能够方便地获取基础服务(比如大模型服务、RAG 服务、网关等),更专注在业务创新上面,这些需要中间件去提供。另外蚂蚁的技术架构已经是高度定制化的,已经存在成千上万的 RPC 服务、消息队列、数据接口,让 AI 应用需要无缝地调用内部服务,都需要集成内部已有的基建,这种深度集成是任何外部方案都无法提供的。


其次就是安全和稳定性,这个是业务生命线,金融级应用对数据隐私和合规性有极高要求,开源方案难以满足,企业内部的数据安全合规、调用链路、业务流程是高度差异化的,需要中间件去适配和优化。


第三就是成本,这里包括研发效率提升,业务运行成本下降。比如通过统一的大模型云服务和服务,让开发者构建支持千万规模 Agent 的时间缩短一半,修复安全问题的时间缩短这些都是提升研发效率。另外通过默认的上下文工程、智能路由、请求合并等降低 token 消耗这些都算是降低运行成本。开源方案是无法满足企业内极致的成本优化与性能的需求,需要内部中间件去满足。


所以,自研中间件在蚂蚁不仅是“可以做”,而且是“必须做”的事情。它不是为了重复造轮子,而是为了打造一辆符合我们自己赛道规则、安全标准和成本要求的“超级赛车”。


宋顺:实现高效的“长期记忆”,最大的技术瓶颈是在数据的检索精度和速度上,还是在设计一个能让 AI 轻松理解和使用的记忆架构本身?当前向量数据库似乎是记忆存储的主流选择,这是终极方案吗?有没有其他更前沿的技术方向可能带来突破?


李志宇:在开发 MemOS 时,我们一直在思考这些问题。对于整个记忆框架而言,瓶颈不仅仅在检索的精度和准确性上。这两方面无论学术界还是产业界都在不断优化,真正的难点在于如何设计一套完整的记忆架构,使 AI 能像人一样理解、组织和使用记忆,提高其适人性。记忆管理是一项系统工程,并非简单地做一个最基础的 RAG 框架——把信息存进去、向量化再取出来就能完成。


要把记忆框架或系统做好,必须从入口到出口全面设计:包括记忆的读取、组织、存储、检索、更新,乃至记忆共享。每一步都涉及复杂机制,需要系统性思考,才能合理构建。例如,当用户完成一次对话后,哪些信息值得抽取为记忆?抽取出的记忆归属于哪些主体?这些记忆的优先级、时效性和版本如何管理?在需要时又如何高效检索、调用并准备好?在推理时,是采用明文记忆还是 KV 缓存记忆更好?这些问题远比“查得准、查得快”复杂得多,需要更深入地考虑记忆机制。


目前,很多看似具备记忆能力的框架都以向量数据库为主流选择,因为它能很好地解决语义相似性检索的问题。但在我看来,这只是相对快速的实现方式之一,并非完善的解决方案。举例来说,假设用户要去餐厅用餐,向大模型请求推荐菜品。如果只依赖向量数据库或语义相似性检索,大概率会召回用户历史偏好的菜式信息。但从更个性化、真实体感的角度出发,用户可能有过敏或健康相关信息,这些也应在推荐场景被召回。只有做到这一点,推荐才会更具拟人性和温度感。因此,单纯依赖向量数据库难以很好地解决问题,因为除了语义相似性,还需处理横向扩展、关联查询等更复杂的需求。


这也是我们在设计记忆整体存储时,调研大量框架并与 Nebula Graph 等团队合作的原因。它们是市面上少数能够同时支持图谱化检索和向量化检索的方案。我们希望把图谱和向量检索结合,在记忆场景下实现更完善的功能。从未来解决方案的角度看,我认为至少有三个方向值得重点关注。


第一,记忆的分层管理。不同类型的记忆,如模型参数化记忆、推理过程中形成的激活记忆、外部或内部的明文记忆,在不同场景下读写效率不同,需要面向应用场景进行精细管理。


第二,记忆的结构化、事件化、情景化组织和抽取。我们的目标不仅仅是把对话切分成 chunk、做 embedding 和相似性召回,更希望在相似度匹配之外,提供更可扩展的记忆检索因果链图谱,以提高模型召回和知识准确性。


第三,借鉴人脑记忆管理机制来优化系统。人脑在记忆管理上效率极高,同时具备如遗忘等特性以提高效率。我们是否可以吸收这些机制来反向优化记忆系统?记忆服务应当是一种类似操作系统的范式,能够对用户记忆进行全生命周期管理,具备记忆资产管理与治理特性,帮助用户在长期交互中让大模型真正理解用户、陪伴成长,并持续实现个性化与进化能力。


宋顺: 我们在推进 AI 与中间件融合的过程中,也遇到不少实际问题。比如上下文长度限制带来的性能瓶颈,我们通过引入分层记忆机制来优化;再比如工具调用的安全性,我们设计了沙箱环境和权限审批流程来保障。还有一个典型问题是 Agent 行为的不可预测性,我们正在构建一套基于模拟环境的测试框架,逐步实现对 AI 行为的可观测、可评估、可控制。这些实践告诉我们,AI 中间件不是一蹴而就的,它需要持续迭代和生态共建。


宋顺:如果未来所有大模型的能力都变得极度强大且非常低价,那么今天我们在讨论的 AI 中间件的哪些能力会被替代?哪些能力仍然是必需的?


李志宇: 假设未来模型既强大又便宜,这里的“强大”包括推理能力极强,单轮对话的上下文处理能力显著提升,同时通过极致的压缩与加速技术将成本大幅降低。就我看来,短期内要实现“强大、低价、通用”三者兼得极为困难。如果有团队能做到,他们必须同时具备训练基础模型的能力,才能在理解模型价格优化重点的前提下,明确在哪些部署环节进行针对性优化。除此之外,还需要结合特定应用场景,反向推动部署层面的策略优化,才能实现既强大又经济的效果。如果仅依靠应用场景反推部署和推理优化,就难以形成通用、高性能且低成本的服务。


假如未来真能实现,我认为中间件仍有切入点,尤其体现在行业专有知识与数据的接入,以及个性化交互方面。因为行业和个体层面的信息高度差异化,模型从通用角度难以覆盖这些需求。除此之外,中间件在安全、隐私、合规和审计层面也具有重要价值。当前大模型仍是概率模型,不可能百分之百保障安全与合规,因此需要通过中间件兜底。进一步来看,中间件还承担流程编排、工具调用、多系统集成以及多 GPU、多显卡调度等任务,而这些并非大模型能够直接完成。


整体而言,如果模型真的能做到极致强大和低价,我们需要重新思考中间件的角色——它将从过去弥补模型短板,转向承接行业和个体的复杂性与个性化需求。若能在这一方向上持续优化,并在差异化价值、安全合规等方面发挥作用,中间件在短期内仍然难以被替代。


章耿: 我非常期待未来大模型能力极度强大、成本极低,像水电一样无处不在,就像如今的 5G 流量。如果真有那么一天,创新成本将大幅降低,应用规模会迎来爆发式增长。同时一些能力必然会被替代,比如提示词封装、简单的工作流编排和基础的智能体功能。我们已经看到趋势,例如 OpenAI 推出的 response API,就是在往这个方向演进。但无论模型多强大,它始终不是业务本身。即便是 AI Native,也无法完全替代现有业务。


因此,中间件的核心价值在于连接业务与大模型。大模型越强大、应用规模越大,中间件的价值就越凸显。它将更加专注于编排、治理和协同,而不是教应用如何使用模型,或教模型如何完成任务。届时,中间件将像中枢系统一样,负责传递信号、进行控制和维持秩序,帮助业务更好地使用 AI,创造价值。

搭建企业级 AI 中间件


宋顺:如果云厂商提供一站式全托管平台,会不会让独立中间件失去空间?对于团队来说,如何在‘直接用开源’与‘建设自有中间件’之间做权衡?企业的自研中间件如何守住自己的护城河?


章耿: 首先,云厂商提供一站式平台是大势所趋,一定会挤压通用中间件的生存空间。对于很多中小型企业或者非核心业务场景,直接使用云厂商提供的 AI PaaS 平台,会是成本最低、效率最高的选择。这一点我们必须承认。


那么,如何权衡?我的建议是:对于非核心、创新探索型业务。大胆拥抱开源和云厂商服务,快速试错,验证想法;对于核心业务、规模化应用:必须走自研或在开源基础上深度定制的道路。但不是所有东西都自己造,我们的策略是“站在巨人的肩膀上”,积极拥抱开源,比如在底层使用 K8s、Istio 等云原生技术,在上层借鉴 LangChain 等框架的设计思想。我们的核心工作是把这些通用的技术,与蚂蚁的业务场景进行“淬炼”和“粘合”,打造出最适合我们自己的那一层“差异化价值”。


简而言之就是别人能做的我们用,但别人做不了的、跟我们业务命脉最相关的部分,我们必须自己牢牢掌握在手里,这就是护城河。那如何守住自研中间件的护城河呢?一是符合业务特性,跟业务深度集成绑定,让业务离不开你,比如蚂蚁业务要深度适配金融场景的安全合规能力,包括数据隐私、模型安全、供应链安全;二是极致性能优化带来的成本优势,不希望被任何一家云厂商或模型厂商绑定;三是与现有技术栈深度集成形成的生态壁垒,对系统的每一个环节都有绝对的控制力。第四个就是要开放,拥抱开源,预留扩展机制,跟业务、跟业界实践一起成长。


李志宇: 如果云厂商能够提供一站式的托管平台,那么很多通用型或底层的中间件功能,如模型调用、基础的工作流编排、检索组件等,企业直接采购并使用即可,性价比更高。但在研发过程中也必须考虑另一个问题:如果企业将所有能力都完全托管给云厂商,那么灵活性和差异化将丧失,核心命脉交到别人手里。尤其是在数据安全和合规要求极高的行业,如金融领域,云厂商的标准化方案往往难以满足企业特定需求。


在这种情况下,企业应当有节奏地推进自研和深度改造,利用开源中间件并进行定制化开发。这不仅能守住企业发展的核心资产,还能逐步形成不可复制的差异化能力。换句话说,可以在通用中间件的基础上做分支,沉淀出属于企业自身的特色。


至于如何选择开源组件还是中间件托管,这不是非此即彼的二选一,而是要分层、分阶段、有节奏地推进。底层基础部分完全可以依赖开源组件,从而降低研发成本;而在上层业务层面,则需要结合企业自身能力和可控成本进行定制和控制层开发,把安全要求和行业规范固化在自有流程中。这部分才是真正能体现企业差异化的地方,并推动自有中间件逐渐走向强大。


宋顺:搭建企业级 AI 中间件的成本天花板有多高?它可能是一个‘成本中心’还是未来能反哺业务的‘利润中心’?通常需要多久才能看到正向的 ROI ?


章耿: 如果你想从零开始,自研向量数据库、自研分布式训练 / 推理框架、自建 GPU 集群,那投入将是无底洞。一个成熟的 AI 基础设施团队,规模可能达到上百人,每年的研发和硬件成本可能是数千万甚至上亿。但如果我们把 AI 中间件的范围,还是聚焦在解决 AI 应用研发的“共性痛点”,那还是传统中间件的范围,这个成本还是可控的。


AI 中间件起步简单肯定是应该成本中心,你要投入同学去调用,去开发。但是它是可以迅速转变为“能力中心”或者“价值中心”,中间件的能力暂时不直接产生收入,但是可以跟公司的不同业务去复用,实现 N 倍的效率提升,比如前面提到的节约人力投入,节约 token 消耗,这些都是间接的价值。如果这些能力能够帮助在业务获得增长,或者打败对手,那这个价值就更大了。


至于长期看,AI 中间件能否能为利润中心,这个还是要看企业的策略,一般企业对内部中间件是没有利润的要求的。但像亚马逊、阿里云、蚂蚁数科,这些企业是有对外输出的需求的,如果 AI 中间件做得足够好、足够通用,那也会成为商业化产品。之前蚂蚁的 SOFAStack 就是从内部实践走向商业化的例子,所以这是可期的未来。


关于 ROI,这取决于你的切入点。如果你的策略是先建设、再推广,那可能需要 6-12 个月就能看到明显的 ROI。 但如果你的策略是深入业务解决实际问题,跟业务一起共建的话,一般 3 个月左右就能看到明显的 ROI。 但要追求更高的 ROI,还是需要 1 年甚至更长的时间去沉淀能力,沉淀产品的,毕竟在这个领域,大家都是新手。


跟所有的其它技术一样,只有足够低的开发成本,才能吸引到更多的开发者。你要提供配套的开源核心框架和组件、提供标准化的 SaaS 服务、同时还要建立开发者社区和生态。以蚂蚁目前的实践为例,对应低代码模式,提供了 Agent 平台上让业务同学去构建智能体;对于写代码的模式,我们同时建设 Java 和 Python 体系的框架和组件,配套文档、Demo、脚手架等等,提供通用的大模型服务、RAG、MCP、Memory 服务。也有丰富的文档、课程、Workshop、运营活动等等。总而言之就是就是让大家都可以低成本的 hands-on,亲自感受 AI 的魅力,只有当千千万万的开发者都能轻松参与进来,整个 AI 应用生态才能真正爆发。


宋顺:在优化 GPU 等昂贵算力资源上,AI 中间件有哪些‘独门秘籍’?是模型卸载、动态批处理,还是更智能的调度策略?


李志宇: 从我们的角度,尤其是 MemOS 的视角来看,要做好这件事的核心方向在于调度。以 GPU 使用为例,我们希望在长时间内尽可能压榨 GPU 的占用和使用效率。具体思路是“化整为零”,将单次推理的开销分散到用户与模型的各个交互环节,通过这种细碎的分散与填充来提升 GPU 的利用率。


对于记忆框架而言,调度不仅涉及算力层面,还扩展到记忆的管理。我们将记忆划分为参数化记忆、激活记忆和明文记忆,并统一纳入调度体系,就像操作系统管理 CPU 或显存资源一样。我们会根据用户需求和场景优先级来决定记忆的加载、缓存、转移和压缩,以确保调度高效、平稳。


如果调度能够做到位,那么即便用户尚未完整输入查询,我们也能预测其意图,并提前准备好相关记忆,包括 KV cache、参数化记忆和明文记忆。当用户完成输入时,系统只需简单操作即可作答,从而显著降低首 token 延迟,让使用过程更加流畅。同时,这种调度方式也能最大化 GPU 推理过程中的 buffer 利用率。此外,我们在 KV cache 上进行了一些编码和前置优化,希望通过“以空间换算力”的方式提升性能。尤其是在如 4090 这样算力相对有限的显卡上,效果会更加显著。

展望未来


观众:未来会做能够持续更新权重的参数化记忆框架吗?


李志宇: 我们对参数化记忆、激活记忆和明文记忆进行分层管理,原因在于它们的读写效率不同:参数化记忆写入效率低但读取效率高;明文记忆则相反,写入快但读取慢;激活记忆则介于两者之间。未来我们会重点推进参数化记忆。例如,对于单个用户或企业的一些高频偏好、规则,如果能通过数据增强和模型训练,将其固化到参数中,那么在日常高频使用场景中,读取效率将非常高,从而显著提升整体记忆管理效率。同时,参数化记忆的发展也会带来更多中间件层面的需求,例如如何灵活加载、缓存和管理参数记忆,如何设计调度和路由机制等,这些都将推动新的技术要求和功能衍生。


宋顺:未来 1–2 年,AI 中间件是否会出现类似 K8S 的“事实标准”?随着多模态和机器人技术的发展,对中间件会提出哪些新的要求?


李志宇: 从我的判断来看,未来确实可能会出现类似的标准。K8S 的成功在于抓住了云原生的核心矛盾,即如何对算力资源进行高效抽象与调度。而在 AI 场景下,矛盾则转化为如何对不同模型、不同数据、不同算力以及不同应用场景进行一致性的调度与管理。如果能够有一个事实上的框架解决这些问题,例如统一接口、异构算力适配、可观察与可治理机制、安全可控保障以及场景的个性化抽象,并能将这些痛点整合并解决,那么它就有可能成为未来 AI 中间件层的标准。


从智能基建的角度来看,AI 的基础设施可能会越来越像人脑。在记忆、推理、感知和行动等层面,都会有相应的中间件进行支撑,从而为 AI 的上层应用提供开发与建设的基础。因此,未来的基建将不再是单点的推进,而是需要一个完整的框架或方案,将上述流程打通,并支持整个生态的可持续演化与发展。谁能率先提出并落实这样一套框架,就有可能形成标准,并在应用开发的中间件层面占据主导地位。


章耿: 在 AI 中间件领域,我认为 1-2 年内出现一个像 K8s 那样大一统的“事实标准”是比较困难的。原因在于,AI 应用的范式本身还远未收敛。它比当年容器编排的战场要复杂得多。我倾向于认为,会涌现出一系列“子领域标准”或“事实标准”的组合,在智能体编排、工具调用、记忆管理、UI 交互等不同层面形成各自的标准分别统治不同的垂直层面。比如现在很火的 MCP 就有成为工具调用领域事实标准的趋势,还有其它的一些 A2A 的智能体编排协议。


然后多模态对于中间件来说,其实就是数据流处理的挑战比较大,面对的不再是之前的文本或者结构化的二进制数据,可能是来自摄像头、麦克风、激光雷达等传感器的高吞吐量、非结构化的数据流。我们需要像 Flink、Kafka 这样的流处理能力,但处理的对象是视频帧、音频波形,并且要在流上进行实时的 AI 推理。


机器人技术这个领域可能会有这些新的挑战:多模态数据的统一处理和协调,需要不同模态、不同算力平台之间的实时切换和编排;实时性要求的显著提升,不能是异步;安全冗余与失效恢复,会把对中间件的要求从“逻辑正确”推向“物理可靠”。这不仅仅是技术的演进,更是责任的升级。


宋顺: 我认为 AI 中间件作为“智能基建”的形态或许还未完全定型,但它所代表的方向——通过工程化、标准化、组件化的方式,让 AI 应用开发从“手工作坊”走向“现代化工厂”——已经非常明确。AI 中间件有潜力成为组织智能的“神经中枢”,连接模型、数据与业务系统,实现真正的智能协同。


宋顺:想成为一名优秀的 AI 中间件工程师,应该深耕传统的分布式系统老本事,还是猛攻 LLM 和 Agent 的新知识?如何平衡这两者?


李志宇:“有节奏、有层次地开展”这一点在任何场景下都适用。在当前语境下,要回答这个问题,其实并不是一个非黑即白的选择,而是需要“两条腿一起走”。开发者需要结合自身的研发背景和技术栈,重新思考在新的环境下可能带来的变化。


以传统分布式系统的研发者为例,过去我们在做资源调度、容错机制、网络通信等方面的积累,如今在大模型或 Agent 的应用场景中,仍然可能焕发新的价值。这些基础能力就像地基一样,如果要在大模型时代真正把 AI 的建设做好,这些知识依旧必须掌握和打磨。


以我们在 MemOS 的实践为例,我们正在推进 SaaS 化的平台服务,并逐步面向更多 To D 用户。在扩展服务过程中,传统分布式系统中的稳定性、调度的灵活性和效率,依旧构成了重要挑战。这些挑战与大模型时代的关键基建、以及新出现的 Agent 技术相互交织,因此更需要思考如何让“旧知识”与“新范式”形成良好的衍生和融合。


如果完全不去学习传统知识,个人技术能力就容易被边缘化。真正的平衡点在于:既要尝试用旧的思维模式去思考能否做出新的事情,也要考虑新的范式是否能在旧的框架中带来新的突破。例如,在分布式系统中我们曾面临的难点问题,是否也会在 AI 框架下重现?如果能提前布局和准备,发展将会更顺畅。


在 MemOS 的实践中,我们过去关注的是整个系统算力的调度,包括 GPU 与 CPU。而现在,重点转变为如何做好模型记忆的调度管理。我们需要将参数化记忆、激活记忆和明文记忆视为新的“内存”或分布式存储要素,围绕压缩、更新与检索进行管理。这样一来,传统范式中沉淀下来的许多技术栈和方法,就能在新的场景下发挥作用并取得良好效果。传统技术积累并没有过时,而是需要在新的框架下实现“重生”。


章耿:“老本事”是内功,“新知识”是外功,两者缺一不可。


云原生管理的是微服务,智能原生管理的是 Agent,但不管是微服务还是 Agent,都是一个大规模、高并发、高可用的分布式系统。你做的 Agent 应用,如果连基本的线程安全、高可用都保证不了,那下层的 AI 模型再智能,整个系统也是空中楼阁。我见过一些只懂 AI 的同学做的系统,逻辑很惊艳,但并发一高就宕机,或者出现数据不一致。所以,像 CAP 理论、Paxos/Raft 协议、服务治理、监控告警、性能优化这些基本功,在智能时代不仅没有过时,反而因为 AI 系统本身的复杂性和不确定性,变得更加重要,它们是作为一名优秀工程师的下限保障。


LLM 和 Agent 的“新知识”是你的增长引擎。 如果你只懂分布式系统,不懂 AI,那你最多只能为 AI 系统提供“水电煤”,但你无法设计和构建系统本身的核心价值,提升 Agent 的效果。你不知道用户的意图如何理解,不知道 RAG 的瓶颈在哪里,不知道 Agent 的工作模式。你无法和产品、算法同学在一个频道上对话,也就无法成为真正的架构师和技术负责人。上次我们内部一名同学分享 AI 应用的优化需要上下文工程 + 评测 + 数据 + 模型四位一体,那就代表这些技术都是需要了解的。这些新知识决定了你的上限和未来的可能性。


另外从学习路径这边看的化,我觉得首先是不用过度焦虑,现在有些同学感觉我现在没参与到 AI 中间件的建设,我就会落伍,跟不上时代,其实完全没有必要,现在还是很早期的一个阶段,大家保持跟进就可以了,甚至“后发”也可能有“后发”的优势。


不管是内功还是外功,我建议的学习路径都是一样的:


  1. 学习理论知识。

  2. hands-on,不要光看文章和视频。用一些智能体平台低代码方式搭建 Agent,或者 LangChain + Deepseek API 去搭建下 Agent,亲手写一个最简单的 RAG 应用,比如一个能回答你上传的 PDF 文档内容的问答机器人。

  3. 实际业务解决问题,选择一个你最感兴趣的点,比如 Agent 的多工具协同、RAG 的评测和优化,去深入研究,同时,积极参与到相关的开源社区里去,看看大家都在讨论什么,遇到了什么问题,是怎么解决的。

  4. 尝试抽象公共服务,抽象通用组件,如记忆模块、模型路由、调度编排器,支撑不同场景应用复用。


新能力会过时,但学习方法、架构思想和工程方法论会伴随你一生。


宋顺:AI 中间件工程师是一个复合型角色:既需要理解分布式系统、数据库、网络等传统中间件技术,又要掌握提示工程、Agent 框架、RAG、多模态等 AI 新技术。我的建议是:“深耕老本事,拥抱新知识”。可以先从构建一个简单的 RAG 系统或工具调用 Agent 开始,逐步深入上下文管理、记忆模块、多 Agent 协作等复杂场景。同时,积极参与开源社区、关注行业动态,保持对技术趋势的敏感度。只有这样,才能在这个快速变化的领域中保持竞争力。


嘉宾介绍


宋顺,蚂蚁集团资深技术专家,Apollo Config PMC。毕业于复旦大学软件工程系,在微服务架构、分布式计算等领域有着丰富的经验。曾就职于大众点评、携程,负责后台系统、中间件等研发工作。2019 年加入蚂蚁集团,致力于推动 AI 与中间件技术的融合与落地。曾多次在 QCon、KubeCon、OpenInfra Days 等技术会议发表演讲并获得明星讲师称号。


章耿(余淮),蚂蚁集团应用框架与架构负责人,负责应用框架、中间件架构、AI 中间件等方向。10+ 年中间件领域工作经验,深耕微服务和基础架构领域,致力于通过技术架构的演进提高开发人员的研发效能。曾多次在 ArchSummit、KubeCon、COSCon、DOIS 等大会发表演讲并获得明星讲师称号。


李志宇,博士毕业于中国人民大学,,现任记忆张量(上海)科技有限公司联合创始人兼 CTO、上海算法创新研究院研究员和上海交通大学 AI 学院企业青年科学家。长期从事大模型与生成式人工智能方向的研发攻关,是国内大模型“记忆增强”领域的技术先行者。曾在阿里巴巴、小红书等头部科技企业带队承担多个核心算法项目,技术成果服务双十一、营销广告等超大规模场景,累计带来数十亿营收。记忆张量创立以来,其带领团队提出“忆³”大模型创新架构及首个大模型记忆操作系统( MemOS ),技术成果已在中国银行、招商证券、中国电信、新华社等多家国央企落地应用。李博士已在 Patterns(Cell 子刊)、ICLR、ACL、AAAI 等国际顶会与顶刊发表论文 40 余篇、引用近千次、授权专利 10 余项,现任中国中文信息学会信息检索专委会委员、大模型与生成专委会委员,入选《麻省理工科技评论》封面报道。


2025-10-16 12:345877

评论

发布
暂无评论

天猫商品详情数据接口 | 天猫商品数据采集 | 天猫API接口指南

tbapi

天猫商品详情数据接口 天猫API 天猫商品数据采集 天猫商品详情采集

安吉尔:净水科技的“自转”革命,守护每一滴纯净

科技热闻

LeetCode题解:290. 单词规律,哈希表,JavaScript,详细注释

Lee Chen

LeetCode题解:2073. 买票需要的时间,模拟,JavaScript,详细注释

Lee Chen

解密可观测行业中的语义规范 — 代码世界中的“语言艺术”

Greptime 格睿科技

数据库 可观测性 代码 系统可观测性 语义规范

实战教程:利用淘宝API接口批量抓取商品列表数据

tbapi

淘宝商品列表数据接口 淘宝商品数据采集 淘宝商品列表数据采集 淘宝商品列表接口 淘宝商品API

第三届中国 PM&PMO 前沿大会即将开幕!

新消费日报

PIRF-404

Echo!!!

English

天谋科技成为中国工业大数据创新发展联盟专业委员会副主任单位

Apache IoTDB

全能数据分析工具:ableau Desktop 2019 for Mac 中文激活版

你的猪会飞吗

Mac软件 mac软件下载

【YashanDB知识库】离线升级一章22.2不支持直接升级到23.1

YashanDB

yashandb 崖山数据库 崖山DB

淘宝店铺商品API返回值分析:优化商品展示与推荐

技术冰糖葫芦

API Explorer API 编排 API 文档 pinduoduo API

淘宝天猫商品详情API:商品描述与图片的获取方法

技术冰糖葫芦

API Explorer api 货币化 API 文档 pinduoduo API

Zilliz 推出 Spark Connector:简化非结构化数据处理流程

Zilliz

程序员 AI Milvus Zilliz 向量数据库

技术干货丨InspirePolyFoam 高级应用:发泡仿真

Altair RapidMiner

制造业 仿真 智能制造 新材料 altair

淘宝商品详情数据接口| 淘宝API接口

tbapi

淘宝商品详情接口 淘宝商品API接口 淘宝API 淘宝商品详情数据

数业智能心大陆:数字化心理健康的未来

心大陆多智能体

智能体 AI大模型 心理健康 数字心理

【YashanDB知识库】汇聚库23.1环境发生coredump

YashanDB

yashandb 崖山数据库 崖山DB

古画新韵——李逸弘国画作品赏析

科技热闻

ShareSDK ios端 扩展功能业务设置

MobTech袤博科技

Java 开发者 产品动态

MobPush Android常见问题

MobTech袤博科技

开发者 产品动态

冒烟测试与宇宙飞船

FunTester

《Programming from the Ground Up》阅读笔记:p75-p87

codists

assembly 编程人

LeetCode题解:1233. 删除子文件夹,排序,JavaScript,详细注释

Lee Chen

VMware vCenter Server 6.7 U3u (安全更新) - ESXi 集中管理软件

sysin

vSphere vmware vcenter esxi

从“云原生”到“智能原生”,AI 中间件走到哪一步了?_AI&大模型_Kitty_InfoQ精选文章