写点什么

以 KV 缓存为中心的高效长文本方法的优化和实践|AICon 上海

  • 2025-04-27
    北京
  • 本文字数:1130 字

    阅读完需:约 4 分钟

大小:619.88K时长:03:31
以 KV 缓存为中心的高效长文本方法的优化和实践|AICon 上海

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


微软亚洲研究院研究开发工程师姜慧强已确认出席 AICon 上海并将在大模型推理性能优化策略专题发表题为《以 KV 缓存为中心的高效长文本方法的优化和实践》的主题分享。长上下文大语言模型推动了众多下游应用的发展,但也带来了计算和内存效率方面的重大挑战。为了应对这些挑战,围绕 KV 缓存的长上下文推理优化方法应运而生。然而,现有的基准测试通常仅关注单请求场景,忽视了 KV 缓存在实际使用中的完整生命周期。这一疏漏尤为关键,因为 KV 缓存复用已在 LLM 推理框架中被广泛采用,例如 vLLM 和 SGLang,同时也得到了 OpenAI、微软、谷歌、Anthropic、Deepseek 等 LLM 提供商的支持。


为填补这一空白,微软提出了 SCBench,一个全面的基准测试工具,从 KV 缓存为中心的视角评估长上下文方法。在本次演讲中,姜慧强首先会对目前主流的推理优化方法进行梳理,其次以 KV 缓存为中心梳理和介绍各类高效长文本方法:1)KV 缓存生成,2)KV 缓存压缩,3)KV 缓存检索,4)KV 缓存加载。


姜慧强是微软亚洲研究院研究开发工程师,毕业于北京大学。研究聚焦于系统与算法的联合优化,以及高效推理和训练方法的探索,涵盖多个前沿领域,包括动态稀疏注意力机制(如 MInference 和 RetrievalAttention)、KV 缓存优化(SCBench)、提示压缩(LLMLingua)、稀疏推理(PIT)、推测性解码、模型压缩、神经架构搜索和高效微调等。在 ICLR、NeurIPS、SOSP、ACL、EMNLP、ICCV 等国际顶级会议上发表了数十篇高水平论文,并以领域主席和审稿人的身份积极参与学术社区的建设和服务。他在本次会议的详细演讲内容如下:


演讲提纲:

  1. 传统 A/B 测试的挑战与 AI 的颠覆性机会长文本大语言模型的应用和推理挑战

  2. 当前主流推理优化方法与技术

  3. 以 KV 缓存为中心的大语言模型推理架构

  4. 以 KV 缓存为中心的高效长文本方法

  5. 以 KV 缓存为中心的测试的拓展方法

  6. 总结与展望


听众收益:

  • 了解前沿大语言模型推理引擎的设计发展方向

  • 了解前沿高效长文本方法的设计思路和方法


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-27 10:002

评论

发布
暂无评论

【FAQ】HarmonyOS SDK 闭源开放能力 —Push Kit(10)

HarmonyOS SDK

harmoyos

HUAWEI Pura X瞩目首发,华为游戏中心携手伙伴重塑鸿蒙游戏体验

最新动态

【HarmonyOS Next】鸿蒙中App、HAP、HAR、HSP概念详解

GeorgeGcs

鸿蒙 HarmonyOS NEXT HAP HSP HAR

100+项!YashanDB与Oracle全面对比 详解YashanDB如何做到1:1替代Oracle

极客天地

美通社母公司Cision联合PRWeek发布《2025企业传播报告》

财见

原生APP开发的成本

北京木奇移动技术有限公司

APP开发 软件外包公司 APP外包公司

几个技巧,教你去除文章的 AI 味!

不在线第一只蜗牛

AI

SvelteKit 最新中文文档教程(7)—— 构建和部署

冴羽

vue.js 前端 React Svelte SvelteKit

StarRocks 主键(Primary Key)深度解析

镜舟科技

数据仓库 数据分析 分析型数据库 物化视图 StarRocks 主键

【HarmonyOS Next】鸿蒙应用弹框和提示气泡详解(一)

GeorgeGcs

ios android 鸿蒙 HarmonyOS OpenHarmony

【HarmonyOS】鸿蒙原生实现应用间跳转之Deep Linking

走向菜鸟的菜鸟

鸿蒙 HarmonyOS ArkTS HarmonyOS NEXT

深度剖析:微软 2025 年 AI 预测背后的技术走向

Techinsight

MiniMax GenAI 可观测性分析:基于阿里云 SelectDB 构建 PB 级别日志系统

SelectDB

数据库 日志分析 存算分离 大模型 GenAI

JimuReport与deepseek结合,颠覆现有BI模式

JEECG低代码

数据分析 数据可视化 积木报表 报表工具

Second Me:在 AI 中保留自我的火种丨社区来稿

声网

数字化转型全攻略,普通人抓住这些关键

Techinsight

拆解数字化转型成本困局:基于AI增强型低代码平台的行业落地案例研究

不在线第一只蜗牛

AI 低代码

月暗推出音频模型 AudioX:任意内容生成音频和配乐;开源 TTS 模型 Orpheus,可生成叹息、笑声等非文本线索丨日报

声网

共筑智慧城市新生态!YashanDB与荣科科技完成兼容互认证

极客天地

陌陌IDC Redis如何基于阿里云DTS实现云上容灾

童子龙

redis 底层原理 数据同步工具 容灾备份

KWDB 开源社区走进南开大学

KaiwuDB

KaiwuDB 校园 学校

【HarmonyOS】关于鸿蒙原生实现红包雨效果的方案设计

走向菜鸟的菜鸟

鸿蒙 HarmonyOS ArkTS HarmonyOS NEXT 实践分享

2025企业财务数智化峰会·湖南站,在长沙成功举办!

用友智能财务

AI 财务 数智化 会计

海信激光电视探索X1亮相AWE 2025 重塑家庭观影新标准

新消费日报

MHP和慕尼黑LMU发布《2025年工业4.0晴雨表》

财见

2025,AI会成为职场中的“超级助理”吗?

Techinsight

Veritas NetBackup 11 for Linux & Windows - 领先的企业备份和恢复解决方案

sysin

NetBackup

AI数字人的测试

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI数字人

【HarmonyOS】鸿蒙原生实现应用间跳转之App Linking

走向菜鸟的菜鸟

鸿蒙 HarmonyOS ArkTS HarmonyOS NEXT 实践分享

【HarmonyOS】关于鸿蒙原生使用原生相机实现扫一扫功能

走向菜鸟的菜鸟

鸿蒙 HarmonyOS ArkTS HarmonyOS NEXT 实践分享

以 KV 缓存为中心的高效长文本方法的优化和实践|AICon 上海_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章