写点什么

以 KV 缓存为中心的高效长文本方法的优化和实践|AICon 上海

  • 2025-04-27
    北京
  • 本文字数:1130 字

    阅读完需:约 4 分钟

大小:619.88K时长:03:31
以 KV 缓存为中心的高效长文本方法的优化和实践|AICon 上海

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


微软亚洲研究院研究开发工程师姜慧强已确认出席 AICon 上海并将在大模型推理性能优化策略专题发表题为《以 KV 缓存为中心的高效长文本方法的优化和实践》的主题分享。长上下文大语言模型推动了众多下游应用的发展,但也带来了计算和内存效率方面的重大挑战。为了应对这些挑战,围绕 KV 缓存的长上下文推理优化方法应运而生。然而,现有的基准测试通常仅关注单请求场景,忽视了 KV 缓存在实际使用中的完整生命周期。这一疏漏尤为关键,因为 KV 缓存复用已在 LLM 推理框架中被广泛采用,例如 vLLM 和 SGLang,同时也得到了 OpenAI、微软、谷歌、Anthropic、Deepseek 等 LLM 提供商的支持。


为填补这一空白,微软提出了 SCBench,一个全面的基准测试工具,从 KV 缓存为中心的视角评估长上下文方法。在本次演讲中,姜慧强首先会对目前主流的推理优化方法进行梳理,其次以 KV 缓存为中心梳理和介绍各类高效长文本方法:1)KV 缓存生成,2)KV 缓存压缩,3)KV 缓存检索,4)KV 缓存加载。


姜慧强是微软亚洲研究院研究开发工程师,毕业于北京大学。研究聚焦于系统与算法的联合优化,以及高效推理和训练方法的探索,涵盖多个前沿领域,包括动态稀疏注意力机制(如 MInference 和 RetrievalAttention)、KV 缓存优化(SCBench)、提示压缩(LLMLingua)、稀疏推理(PIT)、推测性解码、模型压缩、神经架构搜索和高效微调等。在 ICLR、NeurIPS、SOSP、ACL、EMNLP、ICCV 等国际顶级会议上发表了数十篇高水平论文,并以领域主席和审稿人的身份积极参与学术社区的建设和服务。他在本次会议的详细演讲内容如下:


演讲提纲:

  1. 传统 A/B 测试的挑战与 AI 的颠覆性机会长文本大语言模型的应用和推理挑战

  2. 当前主流推理优化方法与技术

  3. 以 KV 缓存为中心的大语言模型推理架构

  4. 以 KV 缓存为中心的高效长文本方法

  5. 以 KV 缓存为中心的测试的拓展方法

  6. 总结与展望


听众收益:

  • 了解前沿大语言模型推理引擎的设计发展方向

  • 了解前沿高效长文本方法的设计思路和方法


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-27 10:004555

评论

发布
暂无评论

秒懂数组拷贝,感知新境界,java编程思维百度云

Java 程序员 后端

程序员一定要会的软件项目管理评估方案,不做只会敲代码的码农!

Java 程序员 后端

程序员必知必会之——服务网格istio概念,springboot项目案例百度云

Java 程序员 后端

程序员面试时这样介绍自己的项目经验,成功率能达到98,华为od技术一面

Java 程序员 后端

神操:凭借“阿里Java脑图(1),神操作

Java 程序员 后端

程序员开发必备22个终端CLI工具也太香了(附下载地址!

Java 程序员 后端

程序员欣宸的文章分类汇总,javaee教程文档

Java 程序员 后端

究竟是什么样的奇葩需求?威胁到程序员的头发,java高级特性编程及实战第三章

Java 程序员 后端

立即可用的实战源码(springboot+redis+mybatis,java自学教程免费视频

Java 程序员 后端

算法在哈啰顺风车中的实践应用,netty实战pdf

Java 程序员 后端

算法基础之递归,java核心技术卷

Java 程序员 后端

秀儿!用SSM框架实现了支付宝的支付功能,神操作啊,大型分布式系统架构图

Java 程序员 后端

算法基础之暴力递归到动态规划,java程序员面试算法宝典pdf猿媛之家

Java 程序员 后端

碎片化时间学这些架构知识,月薪20K还不是轻轻松松(1),美团高级java面试题

Java 程序员 后端

确定要面试问我JVM吗?我打算聊一个小时的!(1),linux驱动架构

Java 程序员 后端

程序员入职国企,1周上班5小时,晒出薪资感叹,阿里P8架构师的Java大厂面试题总结

Java 程序员 后端

程序员都应当知道的实用工具网站,Java400道面试题通关宝典助你进大厂

Java 程序员 后端

硬核!阿里内部这份《Java面试核心知识手册,面经解析

Java 程序员 后端

程序员是如何看待薪资被高估的?内容过于真实,java语言程序设计与数据结构进阶版

Java 程序员 后端

秒懂 Java 的三种代理模式,任小龙java笔记百度云

Java 程序员 后端

秋招必备!阿里产出的高并发+JVM套餐,mybatis总结

Java 程序员 后端

程序员就意味着高薪?解除35岁的忧虑,一条正确的职业生涯规划

Java 程序员 后端

[架构实战营]模块二作业:微信朋友圈高性能复杂度架构

Geek_99eefd

架构实战营

算法宝典最新分享:Alibaba+小米,redis笔记

Java 程序员 后端

确定要面试问我JVM吗?我打算聊一个小时的!,目前最全的《Java面试题及解析》

Java 程序员 后端

神操:凭借“阿里Java脑图,mysql数据库教学视频教程

Java 程序员 后端

算法入门 - 动态数组的实现(Java版本),分层架构图案例

Java 程序员 后端

硬肝到秃头!Alibaba强推并发编程笔记我跪了,真的学到好多东西

Java 程序员 后端

文本随机打乱工具

入门小站

工具

碎片化时间学这些架构知识,月薪20K还不是轻轻松松,教你解决线上频出MySQL死锁问题

Java 程序员 后端

硬核!逛了5年的Github一口气把我收藏的JAVA开源项目分享给你

Java 程序员 后端

以 KV 缓存为中心的高效长文本方法的优化和实践|AICon 上海_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章