AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

推理性能提升 13 倍,延时缩短超 4 倍|实测 YRCloudFile KVCache

焱融科技

  • 2025-04-03
    北京
  • 本文字数:1789 字

    阅读完需:约 6 分钟

大小:933.55K时长:05:18
推理性能提升13倍,延时缩短超4倍|实测 YRCloudFile KVCache

DeepSeek 引爆大模型在千行百业落地的背景下,存储与计算的协同优化正成为企业提升 AI 推理效率、降低运营成本的关键。KVCache 技术通过“以存换算”的创新模式,显著提升了推理性能,成为企业构建大模型基础设施的必要选择。此前,焱融科技率先推出 YRCloudFile 分布式文件系统的 KVCache 特性,支持 PB 级缓存扩展,大幅提高 KV 缓存命中率与长上下文处理能力,为大模型推理提供更优性价比技术方案。

 

在本篇文章中,焱融存储技术团队基于公开数据集和业界公认的测试工具,基于 NVIDIA GPU 硬件平台模拟真实的推理业务场景,进一步探索并发布 KVCache 在推理场景中的详细性能优化数据。测试结果显示,在相同规模和推理延迟 TTFT(Time-To-First-Token) 下,YRCloudFile KVCache 可支持更高并发查询请求,为用户提供更贴近实际使用场景的性能验证与优化方案。这些数据不仅验证了 KVCache 技术的有效性,并揭示了高性能 KVCache 给推理业务带来的可量化的价值。

 

实测 YRCloudFile KVCache 在推理场景中的性能优化数据

 

为了验证将 GPU 内存扩展至 YRCloudFile KVCache 对 token 处理效率的显著提升效果,并充分展示焱融 AI 存储架构的卓越性能,我们进行了多轮测试。通过针对不同 token 数量和配置的测试,深入探索该架构在实际应用中的优化潜力。以下测试均是基于原生 vLLM,以及 vLLM+YRCloudFile KVCache 进行的数据对比。

 

测试一:长上下文提问下,推理 TTFT 的对比数据

 

• 背景:输入长上下文,对比单次提问的回答总耗时(指超过 20K 长度的 token)

• 显卡:NVIDIA T4

• 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

• 测试方法:基于同样的上下文,使用相同的问题,通过 QA chatbot 上进行提问模拟

• 测试结论:在长上下文场景中,使用 YRCloudFile KVCache 可实现高达 13 倍的 TTFT 性能提升。这一显著优化得益于其高效缓存命中率和对大规模数据的快速处理能力,为大模型推理提供了更优的性能支持。



用户普遍能接受的 TTFT 在 2 秒以内。基于这一背景,我们设计了测试二,以验证系统在长上下文场景下的性能表现。

 

测试二:使用不同上下文长度,在 TTFT ≤ 2 秒时,相同 GPU 能支撑的并发数对比数据。

 

• 背景:在相同显卡配置与 2 秒 TTFT 延迟约束条件下,通过对比原生 vLLM 与集成 YRCloudFile KVCache 的解决方案在不同上下文长度(--max-prompt-length 参数)下的并发支持能力,验证存储扩展对并发推理请求的提升效果。

• 显卡:NVIDIA L20

• 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

• 测试工具:使用 evalscope 测试工具,--dataset 参数为 longalpaca,以及指定不同--max-prompt-length 参数值,进行测试。

• 测试结论:在相同 GPU 配置下,当 TTFT ≤ 2 秒时,YRCloudFile KVCache 可承载的并发数可提升 8 倍。这意味着,在相同数量的 GPU 配置下,系统能够满足更高并发请求的需求,显著优化了推理性能和资源利用率。



测试三:在相同 GPU 配置和较高并发数下,使用不同上下文长度的 TTFT 性能对比数据。

 

• 背景:在相同显卡配置下,通过设置不同的上下文长度(--max-prompt-length 参数),在并发数为 30 情况下,使用原生 vLLM,以及 vLLM+YRCloudFile KVCache 进行的数据对比。

• 显卡:NVIDIA L20

• 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

• 测试工具:evalscope,--dataset 使用 longalpaca,指定不同--max-prompt-length,并发为 30 的情况下,进行测试。

• 测试结论:在较高并发数下,对于不同的上下文长度,YRCloudFile KVCache  所提供的 TTFT 延迟可缩小 4 倍以上;这表明 YRCloudFile KVCache 在高并发场景下,能够有效优化推理性能,显著减少延迟,提升用户体验。



本次测试通过多维度验证表明,YRCloudFile KVCache 在长上下文处理与高并发场景中展现出显著性能优势:在 TTFT≤2 秒的严苛约束下,其支持的并发数提升达 8 倍,且在高并发负载中延迟可降低 4 倍以上。这一成果不仅印证了“存储-计算协同优化”对 AI 推理效率的核心价值,更揭示了通过分布式存储架构扩展显存资源的技术路径,能够有效突破传统 GPU 算力瓶颈,实现资源利用率的指数级提升。

 

当前,随着 DeepSeek 等大模型在千行百业的规模化落地,企业对推理效率与成本优化的需求愈发迫切。YRCloudFile KVCache 通过 PB 级缓存扩展能力,将存储资源转化为计算性能增益,为行业提供了兼顾高性能与低成本的实践范例。这种以存储架构创新驱动算力释放的模式,或将成为企业构建下一代 AI 基础设施的关键突破点,加速大模型从技术突破到商业闭环的演进进程。

 

2025-04-03 16:226787

评论

发布
暂无评论

从数据库发展史看数据库未来技术趋势

OceanBase 数据库

ShareSDK Android端分享与授权示例代码

MobTech袤博科技

android sdk

数字藏品电商平台开发:如何开发数字藏品?

开源直播系统源码

区块链 NFT 数字藏品 数字藏品系统 数字藏品软件

2022 DEMO CHINA创新中国峰会拉开帷幕

创业邦

软件测试 | 测试开发 | vue双向绑定原理实现

测吧(北京)科技有限公司

Vue 测试框架

24小时的客户服务如何实现?来建立产品知识库吧!

Baklib

产品 知识库 客户服务

数据如何指导决策:优酷主客APP播转率的C端优化

阿里巴巴文娱技术

数据分析 数据 BI

深圳参加java培训哪个机构靠谱

小谷哥

一文详解东数西算下绿色数据中心节能减排十大技术、智算中心八大趋势

GPU算力

【JavaWeb】Servlet系列——请求和响应过程的角色和协议、模拟Servlet本质、开发第一个带有Servlet的Webapp、关于Java EE的版本

胖虎不秃头

Web java; 9月月更

Maven的下载安装配置以及IDAEA中Maven的配置

守夜人st

9月月更

web前端培训班口碑哪个比较好

小谷哥

软件测试 | 测试开发 | 基于php-code-coverage的增量代码覆盖率实现

测吧(北京)科技有限公司

php 测试 PHP框架

Java 在Word文档中添加艺术字

在下毛毛雨

Java word 添加艺术字

【JavaWeb】Servlet系列——响应HTML代码、Servlet连接数据库、IDEA开发Servlet程序、Servlet对象的生命周期、Generic

胖虎不秃头

Web java; 9月月更

利用京东云Web应用防火墙实现Web入侵防护

京东科技开发者

网络安全 安全 防火墙 WEB安全 京东云

干货分享!JAVA诊断工具Arthas在Rainbond上实践~

北京好雨科技有限公司

Kubernetes Arthas 企业号九月金秋榜

切流的基本逻辑

agnostic

切流

高效工作,文档协作必不可少

Baklib

高效工作 文档协作

启科量子公布量子计算机工程化进展

启科量子开发者官方号

java开发培训好还是自学好?

小谷哥

软件测试 | 测试开发 | Kafka入门

测吧(北京)科技有限公司

kafka 软件测试

【DBA100人】胡中豪:国产分布式数据库DBA炼成记

OceanBase 数据库

【JavaWeb】Servlet系列——模板方法设计模式、HttpServlet源码分析、Web站点的欢迎页面、关于WEB-INF目录

胖虎不秃头

Web java; 9月月更

Spring源码解析(十二)Spring扩展接口SmartInstantiationAwareBeanPostProcessor解析

石臻臻的杂货铺

spring 9月月更

软件测试 | 测试开发 | 使用charles 修改服务器返回数据

测吧(北京)科技有限公司

软件测试 测试

不清楚产品帮助中心怎么设置?从这几点出发!

Baklib

产品 帮助中心

SpringBoot源码 | printBanner方法解析

六月的雨在InfoQ

源码 springboot 9月月更 springboot源码

Java注解详细

石臻臻的杂货铺

Java 阅读 9月月更

OpenHarmony——内核IPC机制数据结构解析

OpenHarmony开发者

OpenHarmony

清远市等保测评公司有几家?分别在哪里?

行云管家

网络安全 等保 等保测评 等级测评 清远

推理性能提升13倍,延时缩短超4倍|实测 YRCloudFile KVCache_AI&大模型_InfoQ精选文章