以 KV 缓存为中心的高效长文本方法的优化和实践｜AICon 上海_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章



大小：619.88K时长：03:31

以 KV 缓存为中心的高效长文本方法的优化和实践｜AICon 上海

5 月 23 日-24 日，AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地，围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题，呈现技术与应用融合的最新趋势。

微软亚洲研究院研究开发工程师姜慧强已确认出席 AICon 上海并将在大模型推理性能优化策略专题发表题为《以 KV 缓存为中心的高效长文本方法的优化和实践》的主题分享。长上下文大语言模型推动了众多下游应用的发展，但也带来了计算和内存效率方面的重大挑战。为了应对这些挑战，围绕 KV 缓存的长上下文推理优化方法应运而生。然而，现有的基准测试通常仅关注单请求场景，忽视了 KV 缓存在实际使用中的完整生命周期。这一疏漏尤为关键，因为 KV 缓存复用已在 LLM 推理框架中被广泛采用，例如 vLLM 和 SGLang，同时也得到了 OpenAI、微软、谷歌、Anthropic、Deepseek 等 LLM 提供商的支持。

为填补这一空白，微软提出了 SCBench，一个全面的基准测试工具，从 KV 缓存为中心的视角评估长上下文方法。在本次演讲中，姜慧强首先会对目前主流的推理优化方法进行梳理，其次以 KV 缓存为中心梳理和介绍各类高效长文本方法：1）KV 缓存生成，2）KV 缓存压缩，3）KV 缓存检索，4）KV 缓存加载。

姜慧强是微软亚洲研究院研究开发工程师，毕业于北京大学。研究聚焦于系统与算法的联合优化，以及高效推理和训练方法的探索，涵盖多个前沿领域，包括动态稀疏注意力机制（如 MInference 和 RetrievalAttention）、KV 缓存优化（SCBench）、提示压缩（LLMLingua）、稀疏推理（PIT）、推测性解码、模型压缩、神经架构搜索和高效微调等。在 ICLR、NeurIPS、SOSP、ACL、EMNLP、ICCV 等国际顶级会议上发表了数十篇高水平论文，并以领域主席和审稿人的身份积极参与学术社区的建设和服务。他在本次会议的详细演讲内容如下：

演讲提纲：
传统 A/B 测试的挑战与 AI 的颠覆性机会长文本大语言模型的应用和推理挑战
当前主流推理优化方法与技术
以 KV 缓存为中心的大语言模型推理架构
以 KV 缓存为中心的高效长文本方法
以 KV 缓存为中心的测试的拓展方法
总结与展望

听众收益：
了解前沿大语言模型推理引擎的设计发展方向
了解前沿高效长文本方法的设计思路和方法

除此之外，本次大会还策划了AI Agent 构建及多元应用、多模态大模型创新实践、AI for Data，数据管理与价值挖掘实践、大模型推理性能优化策略、AI 产品设计的创新思维、智能硬件与大模型的融合探索、金融领域大模型应用实践、大模型助力业务提效实践等专题，届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠，单张门票立省 580 元，详情可扫码或联系票务经理 13269078023 咨询。

评论

发布

暂无评论

云手机能否全面替代传统手机？深入探讨云手机的优缺点

云手机海外云手机云手机海外版云手机群控手机群控

中国CRM的出路：先做好该做的

ToB行业头条

面试官：如何实现线程池任务编排？

不在线第一只蜗牛

面试线程池

从 Greenplum 到 Databend，数据仓库的开源新选择

携手浙商证券、华锐技术，共话交易技术的创新与应用

企业智能之旅（3）：构建智能企业的文化、组织、人才与能力

亚马逊云科技 (Amazon Web Services）

说说唯一ID与CAS｜得物技术

后端分布式锁一致性无锁企业号2024年8月PK榜

通过 Python 轻松获取 QQ 游戏排行榜数据：实时查看热门游戏排名

解锁精准电商营销新纪元：深度剖析京东商品详情API数据驱动的营销策略

api 网关 API 测试

数据库运维实操优质文章文档分享（含Oracle、MySQL等） | 2024年8月刊

MySQL 数据库 oracle postgresql 国产数据库

企业智能之旅（4）：智能企业为生成式 AI 做好数据准备

亚马逊云科技 (Amazon Web Services）

时隔七年重启编码人生，豆包MarsCode 让我快速回归 | MarsCoders 开发者说

Python 人工智能程序员 AI

增强洞察力，通过预测性规划引领企业走向光明未来

全面预算管理财务规划和分析财务管理财务转型

代币化资产如何拯救 DeFi：让金融重回价值创造的正轨

区块链软件开发推广运营

交易所开发 dapp开发链游开发 NFT开发代币开发

DApp开发入门指南：从概念到实践

区块链软件开发推广运营

交易所开发 dapp开发链游开发 NFT开发代币开发

Cisco ISR 1000 IOS XE 17.15.1a 发布下载，新增功能概览

Cisco 路由器思科 ISR IOS XE

KubeCon China 回顾｜在没有专用 Operator 的情况下管理数据库集群

数据库 Kubernetes 云原生

ETL数据集成丨MySQL到MySQL的数据迁移实践

MySQL 数据库数据同步数据迁移 ETL

企业出海网络方案，助力TikTok直播

海外直播专线 tiktok运营 tiktok直播 tiktok直播专线 tiktok直播网络

淘宝API大全：淘宝商品详情数据接口

淘宝商品详情数据接口淘宝API接口

【HDFS】集群出现大量的Under Replicated Blocks

扬_帆_起_航

软件测试学习笔记丨Charles 安装及证书配置

KubeBlocks 如何降低管理多种数据库的学习门槛

数据库云原生 operator kubernete

陶建辉演讲干货分享，AI 时代下的数据预测和数据处理挑战

Acrobat Pro DC 2021 (Win&Mac) 中文特别版

你的猪会飞吗

mac软件下载 Acrobat Pro DC mac mac破解软件下载

如何在扫码填写信息后，将数据实时推送给指定成员？

草料二维码

Teams电话中国语音解决方案

cts喜友科技

通信通讯云通讯通信通讯

软件测试学习笔记丨Postman实战练习