写点什么

Omni Cache:以内存为中心的 KV 管理与推理加速|AICon 上海

  • 2026-06-11
    北京
  • 本文字数:1753 字

    阅读完需:约 6 分钟

过去一年,“Agent”这个词从实验室走进了生产环境。工程师们开始真正面对一个新的问题:不是“AI 能不能做到”,而是“我们能不能把它跑稳、跑对、跑出规模”。架构怎么设计?记忆怎么管理?多智能体之间如何协调?研发团队的工作方式又该如何重构?

这些,正是 AICon 2026 上海站试图回答的问题。 6 月 26 日-27 日,本次大会将以“构建可信赖、可规模化、可商业化的 Agentic 操作系统”为核心命题,集结清华、复旦等知名高校教授,以及来自阿里、腾讯、蚂蚁、字节、快手、小红书、华为、Google Cloud 等数十家头部公司的技术专家登台分享。2 天、13 大专题、1 个动手实验室、近 60 场重磅议题,将深度探讨 Agent 工程化落地等相关话题。

华为高级技术专家 Ken Zhang 已确认出席 “大模型推理优化” 专题,发表题为Omni Cache:以内存为中心的KV管理与推理加速的主题分享。本次演讲将聚焦于 Omni Cache 的 DRAM-Centric KV 管理架构设计。传统的 PagedAttention 架构将 KV cache 静态预分配在 HBM 中,导致 KV 存储与激活张量竞争有限的显存资源。这种 HBM-Centric 设计在模型参数和上下文长度增长时面临三重困境:容量受限、系统隔离、算法复杂。现有 offload 方案保留 HBM block pool 作为权威存储,未能触及核心矛盾。Omni Cache 引入 DRAM-Centric 范式:KV cache 驻留 host memory(TB 级),HBM 仅作为瞬态计算缓冲区。通过独立 Memory Manager daemon、两步虚拟地址管理、层级流水线传输三大创新,实现 prefill 容量扩展、decode 并发提升和 KV 容量数量级扩展,同时保持高吞吐量。

Ken Zhang ,华为香港研究中心的杰出工程师,领导 AI 基础设施工作,专注于昇腾 NPU 上的推理加速——构建用于强化学习的专用加速器、为其提供数据的数据工程流水线,以及将这一技术栈转化为生产环境 AI 效率提升的 MaaS 解决方案。相关开源项目位于 https://gitee.com/omniai。此前,作为华为数据平台高级技术副总裁(2018–2024),Ken 主导了华为企业数据平台的架构与工程,连接大规模存储、计算和分析。在二十年的职业生涯中,他在华为、汤森路透和 IBM 构建了数据与推理系统——贯穿始终的是让大数据和 AI 工作负载更快、更便宜、更易交付。他在本次会议的详细演讲内容如下:

演讲提纲:

  1. 大模型推理的 HBM 资源困境

  • PagedAttention 静态预分配导致的 KV 与激活张量资源冲突

  • 系统隔离问题:跨实例共享困难、MLA 冗余存储、重启丢失缓存

  • 现有 offload 方案的局限性:HBM block pool 权威存储地位未变

2. Omni Cache 架构总览

  • 核心设计理念:计算与存储解耦,KV buffers vs KV cache 分离

  • 单节点架构:Memory Manager daemon 管理共享 host pool,支持多实例共享和崩溃恢复

  • 集群级架构:KV Fabric Manager 维护全局 APC radix tree,实现跨节点 KV 共享

  • 数据传输:Transfer Engine 负责 H2D/D2H scatter/gather 及跨节点 Remote Read

3. 核心创新与工程挑战破解

  • 挑战一:Prefill 阶段 HBM 不足 → Per-layer ring buffer 实现逐层释放

  • 挑战二:Decode 并发受限 → 选择性区域 host 驻留 + Multi-stage Batch Overlap

  • 挑战三:间接寻址开销 → 两步虚拟地址管理消除 block table

  • 挑战四:跨节点 KV 共享 → KV Fabric 全局寻址与路由优化

  • 挑战五:小粒度传输效率低 → Device-side scatter/gather kernel

4. 性能评估与实际效果

  • Transfer Engine 传输效率:小粒度和大粒度场景的带宽表现

  • Prefill 容量扩展:显著提升最大序列长度,吞吐量与基准持平

  • Decode 并发扩展:单请求 HBM 占用大幅降低,并发请求数量显著提升

5. 总结展望

听众收益:

  • 深入理解长上下文推理的 HBM 瓶颈根源及 DRAM-Centric 架构设计思想

  • 掌握计算与存储解耦的关键技术:独立 Memory Manager、两步虚拟地址管理、层级流水线传输

  • 了解稀疏注意力模型的内存优化范式:异构访问模式的分层缓冲策略与延迟掩盖技术

  • 获取工业级 LLM 推理系统的真实性能数据与工程实践经验

除此之外,本次大会还策划了端侧 AI、物理与数字空间智能化世界模型与多模态智能突破Agent 架构与工程化实践Agent 安全与可信治理企业级研发体系重构AI 原生数据工程AI 时代的个人提效与组织变革等 14 个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 13269078023 进行咨询。