Omni Cache：以内存为中心的KV管理与推理加速｜AICon上海

过去一年，“Agent”这个词从实验室走进了生产环境。工程师们开始真正面对一个新的问题：不是“AI 能不能做到”，而是“我们能不能把它跑稳、跑对、跑出规模”。架构怎么设计？记忆怎么管理？多智能体之间如何协调？研发团队的工作方式又该如何重构？

这些，正是 AICon 2026 上海站试图回答的问题。 6 月 26 日-27 日，本次大会将以“构建可信赖、可规模化、可商业化的 Agentic 操作系统”为核心命题，集结清华、复旦等知名高校教授，以及来自阿里、腾讯、蚂蚁、字节、快手、小红书、华为、Google Cloud 等数十家头部公司的技术专家登台分享。2 天、13 大专题、1 个动手实验室、近 60 场重磅议题，将深度探讨 Agent 工程化落地等相关话题。

华为高级技术专家 Ken Zhang 已确认出席 “大模型推理优化” 专题，发表题为《Omni Cache：以内存为中心的KV管理与推理加速》的主题分享。本次演讲将聚焦于 Omni Cache 的 DRAM-Centric KV 管理架构设计。传统的 PagedAttention 架构将 KV cache 静态预分配在 HBM 中，导致 KV 存储与激活张量竞争有限的显存资源。这种 HBM-Centric 设计在模型参数和上下文长度增长时面临三重困境：容量受限、系统隔离、算法复杂。现有 offload 方案保留 HBM block pool 作为权威存储，未能触及核心矛盾。Omni Cache 引入 DRAM-Centric 范式：KV cache 驻留 host memory（TB 级），HBM 仅作为瞬态计算缓冲区。通过独立 Memory Manager daemon、两步虚拟地址管理、层级流水线传输三大创新，实现 prefill 容量扩展、decode 并发提升和 KV 容量数量级扩展，同时保持高吞吐量。

Ken Zhang ，华为香港研究中心的杰出工程师，领导 AI 基础设施工作，专注于昇腾 NPU 上的推理加速——构建用于强化学习的专用加速器、为其提供数据的数据工程流水线，以及将这一技术栈转化为生产环境 AI 效率提升的 MaaS 解决方案。相关开源项目位于 https://gitee.com/omniai。此前，作为华为数据平台高级技术副总裁（2018–2024），Ken 主导了华为企业数据平台的架构与工程，连接大规模存储、计算和分析。在二十年的职业生涯中，他在华为、汤森路透和 IBM 构建了数据与推理系统——贯穿始终的是让大数据和 AI 工作负载更快、更便宜、更易交付。他在本次会议的详细演讲内容如下：

演讲提纲：
大模型推理的 HBM 资源困境
PagedAttention 静态预分配导致的 KV 与激活张量资源冲突
系统隔离问题：跨实例共享困难、MLA 冗余存储、重启丢失缓存
现有 offload 方案的局限性：HBM block pool 权威存储地位未变
2. Omni Cache 架构总览
核心设计理念：计算与存储解耦，KV buffers vs KV cache 分离
单节点架构：Memory Manager daemon 管理共享 host pool，支持多实例共享和崩溃恢复
集群级架构：KV Fabric Manager 维护全局 APC radix tree，实现跨节点 KV 共享
数据传输：Transfer Engine 负责 H2D/D2H scatter/gather 及跨节点 Remote Read
3. 核心创新与工程挑战破解
挑战一：Prefill 阶段 HBM 不足 → Per-layer ring buffer 实现逐层释放
挑战二：Decode 并发受限 → 选择性区域 host 驻留 + Multi-stage Batch Overlap
挑战三：间接寻址开销 → 两步虚拟地址管理消除 block table
挑战四：跨节点 KV 共享 → KV Fabric 全局寻址与路由优化
挑战五：小粒度传输效率低 → Device-side scatter/gather kernel
4. 性能评估与实际效果
Transfer Engine 传输效率：小粒度和大粒度场景的带宽表现
Prefill 容量扩展：显著提升最大序列长度，吞吐量与基准持平
Decode 并发扩展：单请求 HBM 占用大幅降低，并发请求数量显著提升
5. 总结展望
听众收益：
深入理解长上下文推理的 HBM 瓶颈根源及 DRAM-Centric 架构设计思想
掌握计算与存储解耦的关键技术：独立 Memory Manager、两步虚拟地址管理、层级流水线传输
了解稀疏注意力模型的内存优化范式：异构访问模式的分层缓冲策略与延迟掩盖技术
获取工业级 LLM 推理系统的真实性能数据与工程实践经验

除此之外，本次大会还策划了端侧 AI、物理与数字空间智能化、世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构、AI 原生数据工程、AI 时代的个人提效与组织变革等 14 个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 13269078023 进行咨询。

创作场景

Omni Cache：以内存为中心的 KV 管理与推理加速｜AICon 上海