写点什么

推理性能提升 13 倍,延时缩短超 4 倍|实测 YRCloudFile KVCache

焱融科技

  • 2025-04-03
    北京
  • 本文字数:1789 字

    阅读完需:约 6 分钟

大小:933.55K时长:05:18
推理性能提升13倍,延时缩短超4倍|实测 YRCloudFile KVCache

DeepSeek 引爆大模型在千行百业落地的背景下,存储与计算的协同优化正成为企业提升 AI 推理效率、降低运营成本的关键。KVCache 技术通过“以存换算”的创新模式,显著提升了推理性能,成为企业构建大模型基础设施的必要选择。此前,焱融科技率先推出 YRCloudFile 分布式文件系统的 KVCache 特性,支持 PB 级缓存扩展,大幅提高 KV 缓存命中率与长上下文处理能力,为大模型推理提供更优性价比技术方案。

 

在本篇文章中,焱融存储技术团队基于公开数据集和业界公认的测试工具,基于 NVIDIA GPU 硬件平台模拟真实的推理业务场景,进一步探索并发布 KVCache 在推理场景中的详细性能优化数据。测试结果显示,在相同规模和推理延迟 TTFT(Time-To-First-Token) 下,YRCloudFile KVCache 可支持更高并发查询请求,为用户提供更贴近实际使用场景的性能验证与优化方案。这些数据不仅验证了 KVCache 技术的有效性,并揭示了高性能 KVCache 给推理业务带来的可量化的价值。

 

实测 YRCloudFile KVCache 在推理场景中的性能优化数据

 

为了验证将 GPU 内存扩展至 YRCloudFile KVCache 对 token 处理效率的显著提升效果,并充分展示焱融 AI 存储架构的卓越性能,我们进行了多轮测试。通过针对不同 token 数量和配置的测试,深入探索该架构在实际应用中的优化潜力。以下测试均是基于原生 vLLM,以及 vLLM+YRCloudFile KVCache 进行的数据对比。

 

测试一:长上下文提问下,推理 TTFT 的对比数据

 

• 背景:输入长上下文,对比单次提问的回答总耗时(指超过 20K 长度的 token)

• 显卡:NVIDIA T4

• 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

• 测试方法:基于同样的上下文,使用相同的问题,通过 QA chatbot 上进行提问模拟

• 测试结论:在长上下文场景中,使用 YRCloudFile KVCache 可实现高达 13 倍的 TTFT 性能提升。这一显著优化得益于其高效缓存命中率和对大规模数据的快速处理能力,为大模型推理提供了更优的性能支持。



用户普遍能接受的 TTFT 在 2 秒以内。基于这一背景,我们设计了测试二,以验证系统在长上下文场景下的性能表现。

 

测试二:使用不同上下文长度,在 TTFT ≤ 2 秒时,相同 GPU 能支撑的并发数对比数据。

 

• 背景:在相同显卡配置与 2 秒 TTFT 延迟约束条件下,通过对比原生 vLLM 与集成 YRCloudFile KVCache 的解决方案在不同上下文长度(--max-prompt-length 参数)下的并发支持能力,验证存储扩展对并发推理请求的提升效果。

• 显卡:NVIDIA L20

• 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

• 测试工具:使用 evalscope 测试工具,--dataset 参数为 longalpaca,以及指定不同--max-prompt-length 参数值,进行测试。

• 测试结论:在相同 GPU 配置下,当 TTFT ≤ 2 秒时,YRCloudFile KVCache 可承载的并发数可提升 8 倍。这意味着,在相同数量的 GPU 配置下,系统能够满足更高并发请求的需求,显著优化了推理性能和资源利用率。



测试三:在相同 GPU 配置和较高并发数下,使用不同上下文长度的 TTFT 性能对比数据。

 

• 背景:在相同显卡配置下,通过设置不同的上下文长度(--max-prompt-length 参数),在并发数为 30 情况下,使用原生 vLLM,以及 vLLM+YRCloudFile KVCache 进行的数据对比。

• 显卡:NVIDIA L20

• 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

• 测试工具:evalscope,--dataset 使用 longalpaca,指定不同--max-prompt-length,并发为 30 的情况下,进行测试。

• 测试结论:在较高并发数下,对于不同的上下文长度,YRCloudFile KVCache  所提供的 TTFT 延迟可缩小 4 倍以上;这表明 YRCloudFile KVCache 在高并发场景下,能够有效优化推理性能,显著减少延迟,提升用户体验。



本次测试通过多维度验证表明,YRCloudFile KVCache 在长上下文处理与高并发场景中展现出显著性能优势:在 TTFT≤2 秒的严苛约束下,其支持的并发数提升达 8 倍,且在高并发负载中延迟可降低 4 倍以上。这一成果不仅印证了“存储-计算协同优化”对 AI 推理效率的核心价值,更揭示了通过分布式存储架构扩展显存资源的技术路径,能够有效突破传统 GPU 算力瓶颈,实现资源利用率的指数级提升。

 

当前,随着 DeepSeek 等大模型在千行百业的规模化落地,企业对推理效率与成本优化的需求愈发迫切。YRCloudFile KVCache 通过 PB 级缓存扩展能力,将存储资源转化为计算性能增益,为行业提供了兼顾高性能与低成本的实践范例。这种以存储架构创新驱动算力释放的模式,或将成为企业构建下一代 AI 基础设施的关键突破点,加速大模型从技术突破到商业闭环的演进进程。

 

2025-04-03 16:226796

评论

发布
暂无评论

AntDB-M数据库锁分析,不要错过!

亚信AntDB数据库

数据库 AntDB 国产数据库 AntDB数据库 企业号 3 月 PK 榜

通通透透看无服务器计算:由来、场景和问题

天翼云开发者社区

PostgreSQL:psql 介绍

天翼云开发者社区

移动云发布操作系统迁移工具,助力全场景业务一站式迁移

openEuler

Linux centos 操作系统 虚拟化 openEuler

HTML5智慧农业大棚Web3D可视化系统

2D3D前端可视化开发

智慧大棚 智慧农业 数字农业 大棚三维可视化 数字孪生智慧大棚

Stepn跑鞋GMT系统开发(NFT链游)

薇電13242772558

NFT链游

学完阿里P8面试官推荐的Java高并发核心编程文档后终拿蚂蚁offer

程序知音

Java 并发编程 编程语言 高并发 java架构

云计算搭上“双碳”,天翼云在绿色算力赛道加速跑

天翼云开发者社区

大语言模型必将取代一切?暂时不会!

深数

人工智能 科技 AGI GPT LLM

Linux进程学习【进程地址】

Yohifo

Linux 学习 运维 后端 进程

深入理解关键字volatile

小小怪下士

Java 程序员 volatile 关键字

追踪 Kubernetes 中的数据包

张晓辉

Kubernetes 网络

大语言模型(LLMs)和新兴机器学习技术栈

Baihai IDP

人工智能 自然语言处理 NLP 大模型 大模型 白海科技

ChatGPT4 高分通过数据库系统工程师(DBA)认证

NineData

数据库 dba GPT ChatGPT4 数据库系统工程师

优秀的录屏软件:Record It Pro 直装激活版

真大的脸盆

Mac Mac 软件 录屏 屏幕录制 录屏软件

听说火山引擎推出的DataLeap,已经可以支持万级表的数据血缘图谱了!

字节跳动数据平台

大数据 数据治理 数据研发 企业号 3 月 PK 榜

Dubbo + ZooKeeper|如何解决线上故障排查链路长的难题

云布道师

dubbo

使用K8S进行蓝绿部署的简明实操指南

SEAL安全

k8s 企业号 3 月 PK 榜 蓝绿部署

第四朵“云”!全托管的时序数据云平台 TDengine Cloud 正式支持阿里云

TDengine

大数据 tdengine 阿里云 时序数据库 云服务

盘活存储资源,天翼云HBlock助力企业绿色高效发展!

天翼云开发者社区

专场直播预约 | 邀您探讨KaiwuDB 离散制造业场景解决方案

墨天轮

数据库 解决方案 制造业 国产数据库 KaiwuDB

Ascend CL两种数据预处理的方式:AIPP和DVPP

华为云开发者联盟

人工智能 华为云 昇腾CANN 华为云开发者联盟 企业号 3 月 PK 榜

开启一个A/B实验到底有多简单?

字节跳动数据平台

云服务 AB testing实战 ab测试 企业号 3 月 PK 榜

AI笔刷怎样导入?adobe ai笔刷安装教程

Rose

AI画笔 AI教程 Illustrator 2023 下载 AI中文版

共铸国云智领未来| 以数字林草之“笔” 绘就塞上江南新图景

天翼云开发者社区

全球掀起AI热,天翼云智算能力已就绪!

天翼云开发者社区

推理性能提升13倍,延时缩短超4倍|实测 YRCloudFile KVCache_AI&大模型_InfoQ精选文章