
5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。
微软亚洲研究院研究开发工程师姜慧强已确认出席 AICon 上海并将在大模型推理性能优化策略专题发表题为《以 KV 缓存为中心的高效长文本方法的优化和实践》的主题分享。长上下文大语言模型推动了众多下游应用的发展,但也带来了计算和内存效率方面的重大挑战。为了应对这些挑战,围绕 KV 缓存的长上下文推理优化方法应运而生。然而,现有的基准测试通常仅关注单请求场景,忽视了 KV 缓存在实际使用中的完整生命周期。这一疏漏尤为关键,因为 KV 缓存复用已在 LLM 推理框架中被广泛采用,例如 vLLM 和 SGLang,同时也得到了 OpenAI、微软、谷歌、Anthropic、Deepseek 等 LLM 提供商的支持。
为填补这一空白,微软提出了 SCBench,一个全面的基准测试工具,从 KV 缓存为中心的视角评估长上下文方法。在本次演讲中,姜慧强首先会对目前主流的推理优化方法进行梳理,其次以 KV 缓存为中心梳理和介绍各类高效长文本方法:1)KV 缓存生成,2)KV 缓存压缩,3)KV 缓存检索,4)KV 缓存加载。
姜慧强是微软亚洲研究院研究开发工程师,毕业于北京大学。研究聚焦于系统与算法的联合优化,以及高效推理和训练方法的探索,涵盖多个前沿领域,包括动态稀疏注意力机制(如 MInference 和 RetrievalAttention)、KV 缓存优化(SCBench)、提示压缩(LLMLingua)、稀疏推理(PIT)、推测性解码、模型压缩、神经架构搜索和高效微调等。在 ICLR、NeurIPS、SOSP、ACL、EMNLP、ICCV 等国际顶级会议上发表了数十篇高水平论文,并以领域主席和审稿人的身份积极参与学术社区的建设和服务。他在本次会议的详细演讲内容如下:
演讲提纲:
传统 A/B 测试的挑战与 AI 的颠覆性机会长文本大语言模型的应用和推理挑战
当前主流推理优化方法与技术
以 KV 缓存为中心的大语言模型推理架构
以 KV 缓存为中心的高效长文本方法
以 KV 缓存为中心的测试的拓展方法
总结与展望
听众收益:
了解前沿大语言模型推理引擎的设计发展方向
了解前沿高效长文本方法的设计思路和方法
除此之外,本次大会还策划了AI Agent 构建及多元应用、多模态大模型创新实践、AI for Data,数据管理与价值挖掘实践、大模型推理性能优化策略、AI 产品设计的创新思维、智能硬件与大模型的融合探索、金融领域大模型应用实践、大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。

评论