写点什么

以 KV 缓存为中心的高效长文本方法的优化和实践|AICon 上海

  • 2025-04-27
    北京
  • 本文字数:1130 字

    阅读完需:约 4 分钟

大小:619.88K时长:03:31
以 KV 缓存为中心的高效长文本方法的优化和实践|AICon 上海

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


微软亚洲研究院研究开发工程师姜慧强已确认出席 AICon 上海并将在大模型推理性能优化策略专题发表题为《以 KV 缓存为中心的高效长文本方法的优化和实践》的主题分享。长上下文大语言模型推动了众多下游应用的发展,但也带来了计算和内存效率方面的重大挑战。为了应对这些挑战,围绕 KV 缓存的长上下文推理优化方法应运而生。然而,现有的基准测试通常仅关注单请求场景,忽视了 KV 缓存在实际使用中的完整生命周期。这一疏漏尤为关键,因为 KV 缓存复用已在 LLM 推理框架中被广泛采用,例如 vLLM 和 SGLang,同时也得到了 OpenAI、微软、谷歌、Anthropic、Deepseek 等 LLM 提供商的支持。


为填补这一空白,微软提出了 SCBench,一个全面的基准测试工具,从 KV 缓存为中心的视角评估长上下文方法。在本次演讲中,姜慧强首先会对目前主流的推理优化方法进行梳理,其次以 KV 缓存为中心梳理和介绍各类高效长文本方法:1)KV 缓存生成,2)KV 缓存压缩,3)KV 缓存检索,4)KV 缓存加载。


姜慧强是微软亚洲研究院研究开发工程师,毕业于北京大学。研究聚焦于系统与算法的联合优化,以及高效推理和训练方法的探索,涵盖多个前沿领域,包括动态稀疏注意力机制(如 MInference 和 RetrievalAttention)、KV 缓存优化(SCBench)、提示压缩(LLMLingua)、稀疏推理(PIT)、推测性解码、模型压缩、神经架构搜索和高效微调等。在 ICLR、NeurIPS、SOSP、ACL、EMNLP、ICCV 等国际顶级会议上发表了数十篇高水平论文,并以领域主席和审稿人的身份积极参与学术社区的建设和服务。他在本次会议的详细演讲内容如下:


演讲提纲:

  1. 传统 A/B 测试的挑战与 AI 的颠覆性机会长文本大语言模型的应用和推理挑战

  2. 当前主流推理优化方法与技术

  3. 以 KV 缓存为中心的大语言模型推理架构

  4. 以 KV 缓存为中心的高效长文本方法

  5. 以 KV 缓存为中心的测试的拓展方法

  6. 总结与展望


听众收益:

  • 了解前沿大语言模型推理引擎的设计发展方向

  • 了解前沿高效长文本方法的设计思路和方法


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-27 10:004687

评论

发布
暂无评论

8张图带你分析Redis与MySQL数据一致性问题

Java架构师迁哥

架構師訓練營第 1 期 - 第 07 周總結

Panda

架構師訓練營第 1 期

穿越时空的回响:华为欧洲创新日的蝴蝶振翅

脑极体

Spring+多线程+集合+MVC+数据结构算法 +MyBatis源码学习笔记分享

Java架构之路

Java 程序员 架构 面试 编程语言

WSL还是不错的

孙苏勇

WSL2 工具链 wsl

架构师训练营 - 第三周课后练习

joshuamai

区块链将颠覆和改变传统金融业底层逻辑

CECBC

区块链 数字经济

一定要偷偷学,偷偷进步!腾讯内部首发Java多线程、高并发、设计模式“满级”笔记

Java架构追梦

Java 架构 面试 设计模式 多线程与高并发

架构师训练营第 1 期 - 第七周作业

Todd-Lee

极客大学架构师训练营

【涂鸦物联网足迹】涂鸦云平台全景介绍

IoT云工坊

人工智能 云计算 大数据 物联网平台 物联网

https 握手失败问题排查全记录

程序员与厨子

nginx https 网络 HTTP 抓包

Week 7 作业一

黄立

week3 代码重构 -作业一

杨斌

科学家联合提出基于区块链的追溯框架

CECBC

区块链 农业

【涂鸦物联网足迹】物联网主流通信方式

IoT云工坊

人工智能 云计算 大数据 物联网 云平台

查漏补缺:166个最常用的Linux命令,哪些你还不知道?

小Q

Java Linux 程序员 操作系统 开发

手把手教你如何在Windows安装Anaconda

计算机与AI

Python Anaconda

架构师训练营 - 第 7 周课后作业(1 期)

阿甘

爆火!阿里P9用500多页手册搞定双十一高并发秒杀系统,绝了

996小迁

Java 架构 面试 高并发 秒杀系统

在Idea中使用JUnit单元测试

jiangling500

单元测试 IDEA JUnit

区块链追溯系统迎来新突破

CECBC

区块链 溯源 产品溯源

week3 代码重构 学习总结

杨斌

目标检测之YOLOv2

Dreamer

架构师训练营 1 期第 7 周:性能优化(一)- 作业

piercebn

极客大学架构师训练营

架构师训练营 - 第三周学习总结

joshuamai

第三周作业

丁乐洪

极客大学 - 架构师训练营 第七周作业

9527

Week 7 性能优化总结

黄立

LeetCode题解:231. 2的幂,位运算取二进制中最右边的1,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

三、设计模式

Geek_28b526

架构师训练营第 1 期 - 第七周总结

Todd-Lee

极客大学架构师训练营

以 KV 缓存为中心的高效长文本方法的优化和实践|AICon 上海_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章