写点什么

推理性能提升 13 倍,延时缩短超 4 倍|实测 YRCloudFile KVCache

焱融科技

  • 2025-04-03
    北京
  • 本文字数:1789 字

    阅读完需:约 6 分钟

大小:933.55K时长:05:18
推理性能提升13倍,延时缩短超4倍|实测 YRCloudFile KVCache

DeepSeek 引爆大模型在千行百业落地的背景下,存储与计算的协同优化正成为企业提升 AI 推理效率、降低运营成本的关键。KVCache 技术通过“以存换算”的创新模式,显著提升了推理性能,成为企业构建大模型基础设施的必要选择。此前,焱融科技率先推出 YRCloudFile 分布式文件系统的 KVCache 特性,支持 PB 级缓存扩展,大幅提高 KV 缓存命中率与长上下文处理能力,为大模型推理提供更优性价比技术方案。

 

在本篇文章中,焱融存储技术团队基于公开数据集和业界公认的测试工具,基于 NVIDIA GPU 硬件平台模拟真实的推理业务场景,进一步探索并发布 KVCache 在推理场景中的详细性能优化数据。测试结果显示,在相同规模和推理延迟 TTFT(Time-To-First-Token) 下,YRCloudFile KVCache 可支持更高并发查询请求,为用户提供更贴近实际使用场景的性能验证与优化方案。这些数据不仅验证了 KVCache 技术的有效性,并揭示了高性能 KVCache 给推理业务带来的可量化的价值。

 

实测 YRCloudFile KVCache 在推理场景中的性能优化数据

 

为了验证将 GPU 内存扩展至 YRCloudFile KVCache 对 token 处理效率的显著提升效果,并充分展示焱融 AI 存储架构的卓越性能,我们进行了多轮测试。通过针对不同 token 数量和配置的测试,深入探索该架构在实际应用中的优化潜力。以下测试均是基于原生 vLLM,以及 vLLM+YRCloudFile KVCache 进行的数据对比。

 

测试一:长上下文提问下,推理 TTFT 的对比数据

 

• 背景:输入长上下文,对比单次提问的回答总耗时(指超过 20K 长度的 token)

• 显卡:NVIDIA T4

• 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

• 测试方法:基于同样的上下文,使用相同的问题,通过 QA chatbot 上进行提问模拟

• 测试结论:在长上下文场景中,使用 YRCloudFile KVCache 可实现高达 13 倍的 TTFT 性能提升。这一显著优化得益于其高效缓存命中率和对大规模数据的快速处理能力,为大模型推理提供了更优的性能支持。



用户普遍能接受的 TTFT 在 2 秒以内。基于这一背景,我们设计了测试二,以验证系统在长上下文场景下的性能表现。

 

测试二:使用不同上下文长度,在 TTFT ≤ 2 秒时,相同 GPU 能支撑的并发数对比数据。

 

• 背景:在相同显卡配置与 2 秒 TTFT 延迟约束条件下,通过对比原生 vLLM 与集成 YRCloudFile KVCache 的解决方案在不同上下文长度(--max-prompt-length 参数)下的并发支持能力,验证存储扩展对并发推理请求的提升效果。

• 显卡:NVIDIA L20

• 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

• 测试工具:使用 evalscope 测试工具,--dataset 参数为 longalpaca,以及指定不同--max-prompt-length 参数值,进行测试。

• 测试结论:在相同 GPU 配置下,当 TTFT ≤ 2 秒时,YRCloudFile KVCache 可承载的并发数可提升 8 倍。这意味着,在相同数量的 GPU 配置下,系统能够满足更高并发请求的需求,显著优化了推理性能和资源利用率。



测试三:在相同 GPU 配置和较高并发数下,使用不同上下文长度的 TTFT 性能对比数据。

 

• 背景:在相同显卡配置下,通过设置不同的上下文长度(--max-prompt-length 参数),在并发数为 30 情况下,使用原生 vLLM,以及 vLLM+YRCloudFile KVCache 进行的数据对比。

• 显卡:NVIDIA L20

• 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

• 测试工具:evalscope,--dataset 使用 longalpaca,指定不同--max-prompt-length,并发为 30 的情况下,进行测试。

• 测试结论:在较高并发数下,对于不同的上下文长度,YRCloudFile KVCache  所提供的 TTFT 延迟可缩小 4 倍以上;这表明 YRCloudFile KVCache 在高并发场景下,能够有效优化推理性能,显著减少延迟,提升用户体验。



本次测试通过多维度验证表明,YRCloudFile KVCache 在长上下文处理与高并发场景中展现出显著性能优势:在 TTFT≤2 秒的严苛约束下,其支持的并发数提升达 8 倍,且在高并发负载中延迟可降低 4 倍以上。这一成果不仅印证了“存储-计算协同优化”对 AI 推理效率的核心价值,更揭示了通过分布式存储架构扩展显存资源的技术路径,能够有效突破传统 GPU 算力瓶颈,实现资源利用率的指数级提升。

 

当前,随着 DeepSeek 等大模型在千行百业的规模化落地,企业对推理效率与成本优化的需求愈发迫切。YRCloudFile KVCache 通过 PB 级缓存扩展能力,将存储资源转化为计算性能增益,为行业提供了兼顾高性能与低成本的实践范例。这种以存储架构创新驱动算力释放的模式,或将成为企业构建下一代 AI 基础设施的关键突破点,加速大模型从技术突破到商业闭环的演进进程。

 

2025-04-03 16:227234

评论

发布
暂无评论

在线TOML转JSON工具

入门小站

工具

【Kali】中密码暴力破解工具hydra的使用

学神来啦

网络安全 字典 kali kali Linux

以领先NLP技术构建AI数字疗法体系,聆心智能致力于解开更多“心结”

硬科技星球

网易X工行:云原生日志系统 Loggie 正式开源!

网易数帆

开源 云原生 日志 Filebeat Loggie

知识管理——企业数字化转型的新挑战

小炮

DSTC10 赛道最佳论文揭晓!文心 PLATO 再获殊荣

百度开发者中心

【OpenMLDB Monthly Meeting】2022.2 月会议纪要

第四范式开发者社区

人工智能 数据库 开源 Meetup 特征平台

多任务学习模型之DBMTL介绍与实现

阿里云大数据AI技术

机器学习 深度学习 数据模型 多任务学习

干货|性能提升密钥,由代码细节带来的极致体验

SphereEx

Apache 数据库 开源 ShardingSphere SphereEx

【技术学习】一次Node.js站点渗透

H

node.js 网络安全 渗透测试

见证中国云势力崛起!博睿数据实力入围2021~2022 Cloud 100 榜单

博睿数据

华为SmartCare和AUTIN品牌升级:助力运营商走出5G发展迷宫

脑极体

Hadoop HDFS 3.3.1分布式存储搭建

KunlunBase昆仑数据库

国产数据库

星汉未来成为 FinOps 产业标准生态联盟首批会员

星汉未来

云原生 开源社区 成本优化 IT运维

RTC 音频质量评价和保障

网易云信

WebRTC

恒源云(GpuShare)_表序编码器的联合实体和关系提取(论文浅谈)

恒源云

自然语言处理 机器学习 深度学习

网络安全之文件包含漏洞总结

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

昆仑分布式数据库独特的变量读写功能介绍

KunlunBase昆仑数据库

数据库 读写分离

国内领先的云软件厂商安超云加入,为龙蜥社区注入新动能

OpenAnolis小助手

开源 操作系统 云厂商 国产

阿里巴巴如何提升构建的效率 | 阿里巴巴DevOps实践指南

阿里云云效

阿里巴巴 阿里云 CI/CD 持续交付 构建工具

ARP欺骗攻击

喀拉峻

网络安全

J2PaaS低代码平台,如何赋能开发者,助力企业数字化?

J2PaaS低代码平台

开发者 低代码 企业数字化 地代码平台 J2PaaS

如何使用一个有安全性问题的隐私计算技术?

易观分析

隐私计算

建设领先的AI原生云,百度智能云落地新一代高性能AI计算集群

百度开发者中心

2022年2月云主机性能评测报告

博睿数据

如何为你的企业创建自助服务知识库

小炮

培训第二弹!全国大学生智能汽车竞赛百度竞速组预告

百度开发者中心

Meetup预告|面向云原生的架构及演进

云智慧AIOps社区

开源 云原生 AIOPS 智能运维

吉利控股集团与百度深化战略合作

百度开发者中心

开发者说丨如何从零开始构建一个轻量级应用

华为云开发者联盟

Vue 低代码 页面 应用 AppCube

亿级月活沙盒平台《迷你世界》背后的黑科技

华为云数据库小助手

GaussDB DDM 华为云数据库

推理性能提升13倍,延时缩短超4倍|实测 YRCloudFile KVCache_AI&大模型_InfoQ精选文章