写点什么

企业级 Agent 落地,绕不开的 4 个工程问题

  • 2026-05-21
    北京
  • 本文字数:2743 字

    阅读完需:约 9 分钟

Gartner 预测:2026 年底,40% 的企业应用将内置 Agent。而去年,这个数字还不到 5%。

渗透率飙升的背后,是一个更严肃的问题:不是“能不能做”,而是“怎么做才稳定、怎么跑才安全、怎么管才不乱”。从“调 API 玩票”到“企业级 Agent 稳定运行”,中间隔着 4 个真实的工程问题。这些问题相信每一个企业都绕不开。

6 月 26-27 日,AICon全球人工智能开发与应用大会·上海站来自阿里、腾讯、字节、火山引擎、小红书、京东、蚂蚁、华为、OPPO、科大讯飞、快手等国内 AI 工程化核心玩家的技术专家,将分享他们最新最真实的一线实践。

执行环境如何“套上缰绳”而不是锁死它?

AI Agent 的能力来自对系统的深度操作权限,但权限开得越大,被攻击面就越宽。

npm 投毒、API Key 窃取、Agent 误操作导致系统故障——这些不再是假设场景,而是近期正在实际发生的事件。研究报告显示,91% AI Agent 平台有漏洞,94% 可被投毒。对此,众多大厂的安全团队都在密集发布 Agent 安全研究。其中的关键问题在于,如何在安全性和可用性之间找到平衡点,给执行环境“套上缰绳”,而不是“锁死”它。

对此,阿里巴巴 AAIG 实验室 AI 红队负责人宋奇钊(胖錿)将在大会「Agent 安全、评测与可信治理」专题论坛上分享阿里 AI 红队 - REAL 智能体统一风险矩阵与自动化红队实践,通过真实攻击链案例分享,帮助用户理解 Agent 场景下跨层攻击的传播机制和精确防御定位方法。

上海人工智能实验室领军科学家胡侠教授将介绍面向智能体的“安全即服务”模式探索:书安智能体操作系统的实践与思考,重点讨论如何将安全能力内嵌于智能体运行全流程,构建覆盖系统隔离、流程治理、行为约束与持续演化的安全机制,以支持智能体在复杂业务环境中的稳定运行。

蚂蚁安全非攻实验室 AI 安全研究员盛锦辰(幻猫)也将带来支付宝 Agent 安全漏洞智能化检测实践,分享从「人工审计」走向「智能化自主检测」的生产实践:如何构建 Agent 风险大图、如何构建漏洞检测 harness、如何让领域记忆驱动自进化、如何进行评测。

此外,在「Agent 系统架构与工程化实践」专题论坛,阿里云高级技术专家王炳燊和阿里云技术专家李博康会从流量隔离到智能治理,讲清楚如何在保证 Agent 能力的前提下,把风险关进“笼子”里。

为什么你的 Agent 总是“失忆”?

理论上最会“记忆”的 AI,其实最不“记事”。长期记忆是目前 AI 最大的短板之一,这不是模型的 bug,而是架构设计层面的缺失,因此 LLM 往往需要一个“外在记忆系统”。换言之,Agent 的记忆系统正在成为下一代基础设施。

那么,Agent 需要什么样的记忆系统才能真正理解上下文?在「Agent 数据、记忆与运行时基础设施」专题论坛,EverMind CEO 邓亚峰、MemVerge 联合创始人 &CEO 范承工、火山引擎 Viking 团队技术负责人盛茂家将带来不同的技术路径:EverOS将从操作系统层探索 Agent 的自我演进能力,MemVerge聚焦于面向智能体和人类用户的统一记忆架构,火山引擎的 OpenViking 则从数据库范式的角度切入提出“上下文数据库”的概念。

而在应用层面,OPPO 高级算法工程师王闯闯还将分享OPPO 小布记忆如何让 Agent 真正理解碎片化内容的语义,把零散记录变成可检索、可调用的知识资产。

Token 成本怎么压下来?

每一次 Agent 推理,消耗的不只是 GPU,还有真金白银的 Token 费用。

在「大模型推理优化」专场,阿里云、京东、华为等企业的技术专家,将深入解析 Inference-time Scaling Law 的强化学习路径。

阿里云高级技术专家马腾将分享记忆感知的大模型 KVCache 优化,围绕“记忆感知驱动的多智能体推理优化”展开,重点介绍以 KVCache 为中心的开源大模型服务框架——Mooncake。深入探讨一种全新的视角:将大模型推理引擎中的 KVCache 视作智能体系统最核心的“物理工作记忆”载体。通过打破传统推理中计算与存储的强耦合,Mooncake 实现了 Prefill 与 Decode 的分离式架构(Disaggregated Architecture),并构建了全局共享的 KVCache 池。这种设计使得多智能体在频繁交互与协同工作时,能够通过跨节点的底层张量零拷贝与高效复用,实现记忆的“一次计算、全局共享”。

京东算法工程师梁志伟则会聚焦于京东xLLM 的投机推理架构设计,分享如何让大模型推理在保证生成质量的前提下,实现数量级的效率提升。传统的自回归推理如同“逐字思考”,速度存在瓶颈。投机式推理则引入了一个“快速草稿机”(小模型)和一个“权威审核员”(大模型)的协作范式,从根本上改变了推理流程。xLLM 不仅实现了这一范式,更通过一系列创新的系统架构设计,解决了将其投入实际生产时面临的计算、通信、调度等核心挑战。

华为高级技术专家 Ken Zhang 将聚焦于 Omni Cache 的 DRAM-Centric KV 管理架构设计,从一个核心问题出发:如何在长上下文大模型推理中,突破 HBM 容量瓶颈,实现数量级的容量扩展与并发提升?传统的 PagedAttention 架构将 KV cache 静态预分配在 HBM 中,导致 KV 存储与激活张量竞争有限的显存资源。对此,Omni Cache 引入 DRAM-Centric 范式:KV cache 驻留 host memory(TB 级),HBM 仅作为瞬态计算缓冲区。通过独立 Memory Manager daemon、两步虚拟地址管理、层级流水线传输三大创新,实现 prefill 容量扩展、decode 并发提升和 KV 容量数量级扩展,同时保持高吞吐量。

多个 Agent 同时跑,谁来统一治理?

当企业里同时跑着客服 Agent、代码审查 Agent、数据分析 Agent——谁来保证它们不会“打架”?谁来定义它们之间的协作规则?

火山引擎服务治理领域负责人裴斐将在「Agent 系统架构与工程化实践」专场介绍的“Agent Mesh”方案,是目前国内企业级多 Agent 治理非常具有参考价值的实践之一。类比 Service Mesh 在微服务时代的角色,Agent Mesh 要解决的是 Agent 时代的治理问题。本次分享将结合字节跳动火山引擎 ArkClaw 智能体平台的建设实践,系统解析 ArkClaw 基于 Agent Mesh 架构的企业多智能体系统治理方案。

网易资深全栈工程师徐孟祥将在「企业级研发体系的重构」专场分享网易智企 IM 研发多智能体中心建设与实践:从单点 Agent 到研发基础设施。结合云信 IM 研发多智能体中心的真实建设实践,介绍如何从单点 Agent 试验出发,逐步构建一套面向企业研发场景的智能体平台,并通过能力抽象、上下文治理、任务编排、权限控制、过程追踪和质量评测,让 Agent 从“辅助工具”演进为可协同、可治理、可度量的研发基础设施。

以上这 4 个问题,本次 AICon 大会内容将全部覆盖,除此之外,还有大家都非常关注的一系列话题:Agent 时代研发团队的组织和流程应该怎么变?端侧 AI 怎么落地?世界模型与多模态智能如何突破?各行各业如何落地?等等。我们希望能把每一个问题掰开揉碎了讲,为大家呈现最详细的大厂工程化“避坑指南”。

大会 8 折倒计时进入最后一周,现在报名立减 1160,更多详情可扫码或联系票务经理 13269078023 进行咨询。