写点什么

京东 xLLM 的投机推理架构设计|AICon 上海

  • 2026-05-07
    北京
  • 本文字数:1503 字

    阅读完需:约 5 分钟

当前,以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么,世界模型的下一个突破在哪?Agent 从 Demo 到工程化还差什么?研发体系不重构,还能撑多久?

6 月 26 日-6 月 27 日,AICon全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题,邀请来自腾讯、阿里、快手、华为、飞猪等 50+头部企业的技术负责人、高校与科研机构的一线专家,分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障,以及大模型推理优化、智算架构升级等关键命题。

京东算法工程师梁志伟已确认出席 “大模型推理优化” 专题,并发表题为《京东 xLLM 的投机推理架构设计》的主题分享。本次演讲将聚焦于 xLLM 的投机推理架构设计,从一个核心问题出发:如何让大模型推理在保证生成质量的前提下,实现数量级的效率提升?传统的自回归推理如同“逐字思考”,速度存在瓶颈。投机式推理则引入了一个“快速草稿机”(小模型)和一个“权威审核员”(大模型)的协作范式,从根本上改变了推理流程。xLLM 不仅实现了这一范式,更通过一系列创新的系统架构设计,解决了将其投入实际生产时面临的计算、通信、调度等核心挑战。

梁志伟,拥有清华大学硕士学位,目前任职于京东零售 AI Infra 方向,专注于 LLM 推理优化、投机推理、生成式推荐及端智能等方向的研究与应用。作为 xLLM 项目的 Core Maintainer,参与了项目从 0 到 1 的开发,负责多个核心组件的研发,为京东零售全场景 LLM 在线服务提供底层支持。同时深度参与端智能项目,主导关键算法与架构设计,相关成果已在京东 APP 内稳定运行,覆盖海量用户场景。致力于通过技术创新,推动大模型与智能系统在超大规模业务中的落地与实践。他在本次会议的详细演讲内容如下:

演讲提纲:

  1. 大模型推理的挑战与投机式推理原理

  • 当前大模型推理的延迟与计算资源矛盾

  • 投机式推理的基本思想:用小模型“草案”引导大模型“验证”的加速范式

2. xLLM 架构总览

  • 设计目标:面向国产芯片的高性能、高稳定的企业级 LLM 部署引擎

  • 核心功能介绍:

  • 深度解耦的分布式推理:计算(专家)、调度、KV Cache、数据(输入/输出)的分离,为动态调度提供基础

  • 全局多级 KV Cache 池:统一的内存抽象,支持跨请求、跨节点的快速缓存访问与复用,是投机候选序列生成与验证的关键

  • 全局智能调度器:具备全局视图,能够协调草稿模型与主模型的执行,并实施严格的 SLO 保证

3. 核心创新与工程挑战破解

  • 挑战一:通信与主机开销

  • 问题:中心式验证成为性能瓶颈,数据往返延迟抵消加速收益

  • 解决方案:

  • 逻辑下沉与本地缓存:将验证逻辑从 master 节点移至分布式子 worker 节点,减少数据往返

  • 异步流水线调度:让输入准备与模型执行重叠进行,隐藏延迟

  • 挑战二:大规模分布式部署支持

  • 问题:投机推理在大规模集群上的高效运行问题

  • 解决方案:适配 DP 并行与 PD 分离,保证每个节点的行为一致

  • 挑战三:不同注意力结构的适配

  • 问题:不同模型的 KV cache 缓存机制不同

  • 解决方案:动态适配多种注意力变体,保证投机过程的正确性与内存效率

4. 总结展望

听众收益:

  1. 深入理解投机式推理的工业级实现方案

  2. 掌握构建高性能、可扩展大模型推理系统的关键架构设计思想

  3. 了解工业界在降低大模型服务成本、提升集群效率方面的前沿工程实践与优化技巧

除此之外,本次大会还策划了端侧 AI、物理与数字空间智能化世界模型与多模态智能突破Agent 架构与工程化实践Agent 安全与可信治理企业级研发体系重构AI 原生数据工程AI 时代的个人提效与组织变革等 14 个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 13269078023 进行咨询。