Agentic AI 的开发和大量落地，正在把一批过去不够显眼的基础设施问题推到台前。

过去两年，市场谈 AI 算力有一种简化认知：AI 算力，几乎等同于 GPU。

类似的简化也发生在云上。在很多人眼中，云计算等同于“租算力”。云像是一座远程大机房，负责把算力供给出去，至于应用如何运行、协作、演进，往往被放在次要位置。

这套认知已经脱离产业事实了。

AI 产业逐步从单纯聚焦模型训练，转向同时重视模型部署、推理效率与真实应用落地。在 Agent 爆发的背景下，AI 工作负载正变得更碎片化、更动态，也更依赖高频任务调度、内存管理、工具调用与系统编排。

随着 AI 负载类型和规模的变化，云计算和 CPU 都被委以重要使命和新的期待。

首先，CPU 正在重新获得更高的关注度。

Agent 负载的特点，正在催高市场对高核心数 CPU 的需求，尤其是在云端多租户、沙箱执行、会话并发和多 Agent 协作等场景里，CPU 承担着任务编排、执行铺开与资源调度的关键职责。

这种变化已经传导到业务侧。AMD 全球副总裁、中国区互联网事业部总经理刘宏兵也提到，过去几个月，公司一直在尽最大可能保障客户需求及 AI 基础设施。

与此同时，云计算的角色在发生变化。阿里云智能集团研究员、容器服务负责人易立表示，过去云计算主要提供的是算力，而现在，云还要提供一整套能够让智能体安全运行、稳定交付、持续进化的平台能力。

作为云原生的操作系统，容器的重要性因此再次凸显。它是 Agent 在云端部署的主流承载方式，提供标准化、轻量隔离的运行环境，并协同编排系统实现任务调度、弹性扩容，为上层的持续治理与监控奠定基础。根据 Docker 发布的《State of Agentic AI》报告，94% 的受访者在 Agent 的开发或生产环境中使用容器，其中 98% 延续了传统软件时代的云原生工作流。这表明，当 Agent 从实验走向生产，行业并没有舍弃已有的基础设施体系，反而更加依赖这些经过验证的交付和治理能力。

这背后对应的，其实正是 Agent 开发和使用者最在意的几件事：安全、稳定和可持续迭代。

最近爆火的 Agent 项目，包括 Kimi 的深度研究、通用 Agent 模式“OK Computer”、MiniMax 的 MaxClaw、MaxHermes 等产品，背后都有阿里云支撑。而 AMD 也为阿里云提供了底层算力支撑。

为了支撑这一轮变化，云计算和芯片厂商分别做了哪些调整，又如何共同应对 Agent 负载带来的新压力？

在本期《C 位面对面》中，极客邦科技创始人、CEO 霍太稳邀请阿里云智能集团研究员、容器服务负责人易立，以及 AMD 全球副总裁、中国区互联网事业部总经理刘宏兵，一起讨论 Agent 时代基础设施正在发生的变化，以及这些变化把云计算和芯片引向什么方向。

技术和商业的早熟，推动龙虾爆发

OpenClaw 的爆火，让行业第一次更直观地看到 Agent 接管工作的可能。随后，越来越多厂商开始推出“国产龙虾”，把部署门槛、使用成本和上手难度一起拉低。结果是，Agent 不再只是少数人的玩具，而是在更大范围内快速扩散。

阿里云智能集团研究员、容器服务负责人易立，已经把龙虾真正嵌入了自己的工作流。他在不同环境里部署了不同角色的 Agent。云上 Agent，会在他上班路上提前整理好关注的新闻、热点和技术论文；作为容器服务团队负责人，他还需要 24 小时值守的 SRE Agent，帮助分析线上集群问题、处理异常；而桌面端的 Agent，则负责日程整理、技术规划、会议安排和纪要输出。

InfoQ 也关注到了更加“激进”的应用。霍太稳表示，TGO 鲲鹏会硅谷分会长黄东旭与超过 2500 个智能体协作，已经重写了过去一个团队花 10 年才完成的 TiDB 体系，他每天消耗的 Token 量，已经超过 10 亿。

与此同时，一些平台开始让 Agent 与 Agent 之间直接通信与协作，智能体逐渐形成网络结构，不再只是围绕人展开。

在观察到这种规模跃迁后，AMD 全球副总裁、中国区互联网事业部总经理刘宏兵打趣说，也许未来会出现一个“龙虾社会”。当越来越多人同时拥有、调用、依赖多个 Agent，而这些 Agent 又彼此协作时，这个略带玩笑意味的说法，正在变成一种现实。

这轮增长不只是技术能力带来的，也与商业闭环比过去来得更快有关。

AMD 全球副总裁、中国区互联网事业部总经理刘宏兵提到，互联网客户过去一直有时间焦虑，即前期的大规模投入，究竟什么时候才能真正变现。无论是早年的云计算，还是后来的 AI，产业都曾经历过很长的投入期，商业闭环来得很慢。

这一轮 Agent 热潮的特别之处在于，从模型、平台到应用，整个链条的变现速度都明显加快了。提供 Token 和云资源的大厂可以更快获得收入；个人用户和中小企业，也能更直接地把 Agent 转化为效率提升，甚至业务收益。

AI 负载的新需求

随着 Agent 应用的规模化落地，AI 工作负载正经历结构性分化。

与传统软件处理确定性、边界清晰的任务不同，Agent 需面向开放式目标进行自主决策、持续环境交互与长链路任务执行。这种范式转变，使得 Agent 在应用、推理与训练三个层面呈现出与传统 AI 负载截然不同的技术特征。

在应用层面，Agent 不再仅是简单的文本生成，它可以调用工具、连接系统，甚至执行代码。安全、隔离和可控性成为首要前提。每个 Agent 都需要运行在沙箱环境中，依托计算、存储和网络的协同控制，才能既安全又高效地完成任务。与此同时，Agent 常将复杂任务拆解成多步并行操作，例如新闻检索、数据分析或子 Agent 协作，这就对冷启动延迟、并发吞吐能力提出了高要求。再加上任务跨越多轮对话和多阶段执行，状态保存与休眠唤醒能力，成为保障连续性和降低成本的关键。

推理层的负载特征也发生显著变化。Agent 的上下文窗口不仅包含用户指令，还需动态嵌入规则定义、工具返回数据及历史交互轨迹，导致内存占用与计算开销呈非线性增长。这要求底层架构打破单一 GPU 加速的传统思路，转向 CPU、GPU、内存与高速网络的协同优化，以在保障长窗口推理稳定性的同时实现成本控制。

易立还指出，Agent 模型训练与传统的预训练也很不一样。传统预训练更关注 GPU 性能，但 Agent 模型必须在真实场景中模拟、学习复杂任务决策，其能力很大程度上取决于对工具调用的掌控，这意味着 CPU 计算吞吐、内存带宽以及分布式调度架构的协同效率，反而成为影响训练迭代速度的关键瓶颈。

整体而言，Agent Infra 的核心命题早已不再是高效运行模型，而是实现智能体的安全隔离、状态管理与规模化运行。

Agent Infra 的四个关键问题

AI 负载的变化，也在改变行业真正关心的指标。刘宏兵说，过去大家更关注模型刷分，看榜单、看参数、看单点能力；但到了生产环境里，客户最终关心的，是能不能稳定交付业务结果，以及端到端体验和 ROI。

在这种前提下，Agent Infra 至少要解决四个问题：强隔离、高并发和低时延、状态和记忆管理，以及长链路执行。

首先是强隔离。

Agent 不只是生成文本，它还会调用工具、连接企业系统，甚至执行代码。到了这个阶段，安全已经不是一个额外补丁，而必须成为默认前提。基础设施需要提供安全沙箱、细粒度权限控制，以及计算、存储、网络的一体化隔离能力。只有先把边界划清楚，Agent 才能从“跑得起来”走向“跑得可控”。

第二个问题是高并发和低时延。

Agent 往往会把一项复杂任务拆成多个步骤并行推进，比如工具调用、子 Agent 协作、搜索和分析。这意味着，系统面对的不是少量持续运行的大任务，而是大量同时涌入的小任务。沙箱系统的冷启动时延和并发吞吐能力，会直接影响 Agent 的执行效率，也直接影响用户体验。

第三个问题是状态和记忆管理。

Agent 任务往往跨越多轮对话，不是一次调用就结束。它需要保留上下文、记忆用户意图，还要在任务中断后继续接上此前的状态。因此，Agent 沙箱基础设施必须具备高效的“休眠—唤醒”能力，让任务可以像人一样，随时暂停，随时恢复，保持记忆连续。

最后，是长链路带来的系统复杂度。

Agent 并不是一次性的模型响应，而是一个持续多轮交互、持续规划、调用工具、观察结果、修正决策的长链路过程。这样的执行方式能够提升复杂任务的完成质量，但也会显著放大系统复杂度、Token 消耗、故障排查难度。因此，Agent Infra 不只是“把 Agent 跑起来”的运行环境，而是支撑 Agent 在生产环境中稳定、可控、可观测、可持续优化的系统。

更进⼀步看，未来的智能形态将从单智能体向动态⽣成的集群进化。Kimi 的 Agent Swarm，OpenClaw 对 Agent Client Protocol (ACP)⽀持都指向同⼀个⽅向：Agent 从单体应⽤，演进成分布式、⾃规划、⾃组织的软件系统。这要求 Agent Infra 的职责从单一智能体的生命周期管理，升级为对动态协作集群的编排、治理与资源统筹。

这一架构演进同时带来效率范式的重构。在企业侧，竞争逻辑从固定流程优化转向智能驱动的价值创新，通过多智能体协同实现数据到决策的自动化闭环；在个人侧，开发者可借助“一人多 Agent”模式完成团队级产出。

面对集群化协作与长链路执行带来的工程复杂性，易立指出，Agent 的开发范式正从早期的提示词工程转向上下文工程与 Agent Harness；Agent Infra 需将安全沙箱、全链路可观测性、自动化评测体系、与安全护栏等沉淀为标准化平台能力。

云计算与芯片的新任务

在新的负载形态和 Agent Infra 的要求下，云和 CPU 的任务都在发生变化。

阿里云看到，云的角色不再只是提供算力，还要提供一整套让智能体安全运行、稳定交付、持续进化的平台能力。换句话说，云正从“资源池”进一步变成“Agent 工厂”，要负责智能体如何启动、如何隔离、如何调度、如何恢复、如何监控，以及如何在生产环境中被持续运营。

正在推进 Agent 创新的新锐 AI 厂商，已经着手联合云与芯片厂商解决这个问题。无论是 Kimi 的深度研究和通用 Agent 模式“OK Computer”，还是 MiniMax 的 MaxClaw 及其他全栈 Agent 产品，背后都离不开阿里云的支撑，而 AMD 则为这套云基础设施提供了更底层的算力底座。

这种变化，首先体现在运行时设计上。为了应对 Agent 的强隔离和突发式并发的需求，云基础设施需要更快地创建执行环境，也需要更强的弹性调度能力。

为此，阿里云 ACS Agent Sandbox 可以做到百毫秒级的沙箱创建、按需供给的弹性资源池，并且围绕 MicroVM、NetworkPolicy、安全挂载、身份授权和审计能力，建立起了端到端隔离。

ACS Agent Sandbox 通过自定义模板预热，将镜像、依赖和配置提前加载到缓存中，再结合 MicroVM 的轻量化特性，把 Agent 实例的拉起时间压缩到 20 到 40 毫秒。同时，它还能支持最高每分钟 15000 个沙箱的弹性伸缩，任务触发时按需创建，结束后自动释放。

Agent 的另一项关键要求，是云必须更擅长处理“有状态”的任务。传统云服务更擅长处理无状态、短生命周期的请求，但 Agent 的很多任务需要跨越多轮对话，甚至在暂停一段时间后再继续执行。因此，基础设施要能保留上下文、保存运行现场，并在任务恢复时以接近实时的速度把它重新拉起。对用户而言，这是“记忆连续”；对底层系统而言，则是更复杂的状态管理能力。

为了解决这个问题，阿里云把运行环境与状态解耦，并通过持久化存储保障任务续接。状态实时保存在 ESSD 和 NAS 中，即便遭遇节点故障、实例迁移或弹性调度，Agent 也能基于历史状态快速恢复上下文。ACS Agent Sandbox 同时提供运行时 Checkpoint 能力，使实例在迁移或网络波动期间仍能保持执行链路不断。再加上阿里云容器服务 ACK 作为统一控制面，负责集中处理任务编排和状态管理，原本分散在单机上的逻辑被提升成了平台级能力。对于长链路任务来说，这意味着系统既能快速拉起，也能在中断之后接着跑下去。

由于 Agent 的状态被持久化存储，任务可以随时暂停或迁移而不中断执行，这让计算资源可以按需释放而非持续占用；同时，每个 Agent 实例的恢复和调度需要秒级响应、高并发支持和灵活扩缩容。正是在这种情况下，Serverless 的事件驱动、动态编排和细粒度调度的特性，天然契合 Agent 的状态管理和弹性需求。

过去，Serverless 更多被理解为一种简化开发和节约资源的云服务模式；但在 Agent Infra 场景里，它的重要性已经不只是“省资源”，而是其事件驱动、动态编排、细粒度调度的机制，天然更贴近 Agent 的工作方式。函数计算沙箱和 ACS Agent Sandbox 的运行机制，和 Agent 的并发执行、动态触发、会话亲和、快速弹性有高度一致性。这意味着，Serverless 在 Agent 时代不再只是一个可选项，可能会成为很多智能体应用的默认底座。

另一边，AMD 看到的第一个变化是，CPU 在 Agent 时代被提到了更加重要的位置。

AMD 的判断是，Agent 业务会把算力需求从集中式的大任务，拉向高并发的海量小任务。在这种变化下，CPU 的角色被重新抬高了。因为任务编排、工具调用、数据处理、安全隔离、状态管理，这些支撑 Agent 正常运转的环节，更多依赖的是通算能力，而不只是 GPU 的矩阵计算能力。

Agent Infra 对芯片提出的要求，至少包括三个层面：一是更高的多核并发能力，用来承接大量同时涌入的小任务和沙箱线程；二是更强的单核和指令集效率，用来加速检索、解析、压缩、加解密、向量计算等工具调用背后的通用计算；三是更高的内存带宽和 I/O 能力，用来支撑上下文保留、状态维护和快速恢复。

以第五代 AMD EPYC Turin 为例，192 核、全链路 AVX-512、12 通道 DDR5 这些指标，在 Agent 场景中，能够满足高峰期并发承载需求，优化单任务完成时间与执行环境恢复速度。

在安全上，云计算与芯片也需要联合解决新的问题。

易立提到，Agent 从一个聊天伙伴，变成真正的工作同事之后，会调用工具、执行命令，但它并不承担责任，这给用户和基础设施构建者都带来了新的挑战。易立认为，不能默认 Agent 不会犯错，必须给它一个受约束的执行环境，让它在可控边界内行动。

所以，安全必须成为平台默认能力。ACS Agent Sandbox 在计算层面用 MicroVM 为每个 Agent 实例提供独立内核，安全边界接近完整虚拟机；也允许开发者进一步控制它是否能访问互联网、是否能访问公司核心应用，同时配合细粒度授权和安全审计。

随着 Agent 权限扩大，只靠过去最小权限、纵深防御这些思路，也开始显得不够。易立提到，在下一代 Agent Infra 里，数据可用不可见会成为一个越来越核心的要求。比如涉及支付、账户、隐私数据的场景，企业当然希望 Agent 可以完成任务，但不会希望它直接暴露用户的银行密码、账号或其他敏感信息。也因此，机密计算开始从一个偏底层、偏专业的能力，走向 Agent 基础设施的中心位置。以 AMD 的 SEV 为代表的机密计算能力，可以让数据在执行过程中依然处于受保护状态，只能被受控的 Agent 使用，而不能被平台方或其他恶意 Agent 直接调用。

安全始终伴随代价。

刘宏兵指出，若加密导致 CPU 算力损失达 30%~50%，多数企业将难以承受；而 AMD 凭借将 CPU 内部硬件加密性能损耗控制在 3%~5% 以内的成绩，显著提升了客户接受度。

如果说上一轮 AI 基础设施竞争，核心是把模型训得更大、把 GPU 堆得更多，那么 Agent 时代真正考验的，则是谁能把一整套系统组织起来。

也正因如此，云计算和芯片的角色都在被重新定义。云不再只是资源池，而要变成运行和治理智能体的平台；CPU 也不再只是 GPU 的配角，更需重新成为并发、状态、安全和成本的关键支点。

今天外界看到的，是 Kimi、MiniMax 等厂商旗下 Agent 产品在台前快速推进；但真正决定它们能走多远的，往往是背后那套更重、更复杂，也更少被看见的基础设施。

创作场景

当 Agent 开始接管工作流，企业最在意的三件事：安全运行、稳定交付、持续进化

技术和商业的早熟，推动龙虾爆发

AI 负载的新需求

Agent Infra 的四个关键问题

云计算与芯片的新任务