百倍启动加速，大规模Agent部署和运维的捷径是什么？_阿里巴巴_高允毅

百倍启动加速，大规模Agent部署和运维的捷径是什么？

杨皓然（不瞋） (阿里云云原生应用平台 Serverless 计算负责人)

杨皓然（花名：不瞋）是阿里云智能集团资深技术专家，现任云原生应用平台 Serverless 计算负责人，全面主导阿里云 Serverless 技术体系的研发与战略布局。他在云计算领域拥有超过 15 年的技术积累，尤其在 Serverless、分布式系统和云原生架构方面具有深厚造诣。

内容介绍

InfoQ：很多人都在提 AI 原生，比如 AI 原生应用、AI 原生组织等。您如何理解 AI 原生这个概念？在 AI 原生时代，基础设施的核心变化是什么？
杨皓然：谈 AI 原生，首先可能需要定义一下 AI 原生的应用与传统应用本质上有哪些不同，这些不同决定了运行应用配套的基础设施所需要的演进。
与传统应用相比，AI 原生应用（或称 Agent 应用）确实存在显著差异。传统应用的开发方式是由程序员编写确定性的代码，程序执行过程和结果都是可预测的。而 AI 原生应用则不同，它内部包含了大量非确定性的指令推理过程。这类应用需要具备主动感知、规划能力，并能够调用各种工具来完成模糊的任务目标，而不再像以往那样，只依赖程序员或应用开发者预先编写的、固定且精确的执行逻辑。
因此，这催生了基础设施层面的三大重要变化：
● 第一，基础设施所需要支持的主流应用形态，可能正在从过去的“无状态应用”转向“有状态应用”。在微服务时代，无状态应用的典型做法是将状态数据存储在数据库或共享存储中，这样各微服务实例就可以无状态的方式启动和运行；当需要读取或写入数据时，再与数据库或键值缓存（KV cache）进行交互。然而，Agent 类应用的情况则不同。它们通常需要在较长时间内维持稀疏但连续的对话，并在此过程中保持上下文信息、连续执行一系列动作。这意味着，底层基础设施必须能够以极低的成本、可靠且高效地维持海量的有状态会话。
● 第二，任务的调度与编排模式已经从“同构任务”转变为“异构任务”。所谓“同构”，指的是传统微服务体系中，虽然应用或业务逻辑会被拆分为多个微服务并相互调用，但各服务的运行状态和特征基本一致，通常都是长期运行的容器实例。然而，在 Agent 应用的模式下，系统的负载特征呈现出高度的动态性。例如，某一时刻可能处于推理阶段，属于计算密集型任务；下一刻可能需要调用外部 API；再下一刻又可能执行由大模型生成的代码。这种动态、异构的任务形态与传统的资源调度方式存在本质差异。后者主要是为长期运行的常驻实例，或为偏离线的一次性执行任务而设计的，这两类模式在以往的系统中往往是分离的。而在 Agent 场景中，这些任务类型却需要紧密且无缝地融合在一起。因此，Agent 应用的调度模式必然与传统体系存在显著差异。从未来发展来看，若能以“工作流”的视角重新审视整个资源调度体系，并针对这一新模式进行优化，将可能成为重要的发展方向，并带来显著收益。
● 第三，新的 Agent 应用对基础设施的安全性和隔离性的要求发生了重大转变。以往的系统中，使用 Docker 或容器来执行代码已能满足需求，因为这些应用通常是可信的，其核心要求只是实现资源和性能层面的隔离即可。但在 Agent 时代，情况明显不同。由于 Agent 所执行的代码往往是由大模型自动生成的，其中可能包含潜在的恶意或不可信成分，因此必须在高度隔离的沙箱环境中运行，以确保系统安全。这种变化进一步延伸至更广泛的层面——从运行时的安全隔离，到数据安全机制的强化，再到整个执行过程中的数据管理与可信性保障。可以说，Agent 应用对基础设施提出了全新的安全体系要求，这是与传统应用相比的又一重大区别。

创作场景