写点什么

存储系统设计中的二八定律

  • 2015-01-07
  • 本文字数:1144 字

    阅读完需:约 4 分钟

二八定律又名帕累托法则、不平衡原则等,它是一种不均匀分布的理论,已被广泛应用于社会学、企业管理学以及经济学中。同样,该定律也适应于计算机科学领域,如应用负载、磁盘访问、存储系统设计等也都是不均匀的随机分布。近日,存储服务初创公司 Coho Data 的联合创始人兼 CTO Andy Warfield 发表了一篇关于在存储系统设计中二八定律应用的博文。在博文中,Andy Warfield 对二八定律进行了介绍,并指出 Facebook 为大规模的应用程序而设计的存储系统也利用了这种原理。

Andy Warfield 指出他们首先对最近 11 个开发者的台式机存储数据进行了为期一年的跟踪记录,这些记录包括大概 76 亿次的 IO 操作和在 5TB 存储数据上进行的超过 28TB 传输量。Andy 通过初始容量与时间比例分析发现,这些数据很不均匀,如 11 台台式机上共存储有 5.1TB 的数据,这其中还有 627GB(大约 21%)的数据在一个月内很少被访问,3.1TB 的数据在整整一年中没有被访问, 如下图所示:

通过以上分析结果图,Andy 还得出了以下两个新观点:

首先,使用 LRU (最近最少使用算法)作为一个填充快速内存的模型能够估算来自服务(或缓存)的请求比例。另外,随着将快速存储介质添加到系统中,访问命中率也在增长。

其次,通过该图还可以计算出基于访问的标准成本,而不是基于每 GB 的存储成本。伴随着缓存的不停增加,访问命中率却在下降。要实现 100% 的命中率所花费的金钱是最初使用最小高速缓存而实现 35% 命中率所花费的 11 倍多。因此,数据访问的成本将会变得更加昂贵。

关于如何解决分布不均匀的问题,Andy 认为不应该把资金花费在提高冷数据的访问性能上,而应该将资金花费在如何提高热数据的访问性能上。

Andy 认为当前的存储领域也发生了巨大变化,固态存储已不单单有 SATA/SAS SSD、PCIe/NVMe 和 NVDIMM 三种选择,且每个选择的成本和性能都有很大的差别。因此,即使没有磁盘,存储系统仍需要混合介质,只有通过混合形式才可以实现高性能与卓越的价值。一个混合存储系统仍然需要使用磁盘,且应该把热数据存储在高性能的内存中。同样,一个全闪存阵列 AFA 可能由三个甚至更多不同类型的混合存储介质。为了最大程度地提高混合存储的性能,Andy 还研究了一个新算法

最后,Andy 还指出不均匀分布的广泛性以及正因为二八定律才使得系统设计能够服务于最受关注的事物上(如高速公路和农村公路、核心互联网路由器、中心城市交通运输系统等的设计),并提供高性能的服务。对于存储系统的设计也不例外,构建存储系统尤其需要细心地对工作负载进行响应式分析,以确定存储规模并满足实际应用的需要。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2015-01-07 03:385587
用户头像

发布了 92 篇内容, 共 52.0 次阅读, 收获喜欢 5 次。

关注

评论

发布
暂无评论
发现更多内容

2025 中国算力大会精彩回顾: 算力驱动未来,液冷引领革新

GPU算力

英伟达 GPU算力 AI算力 中国算力大会 国产GPU

编排工具升级、组织功能更新,持续优化体验|ModelWhale 版本更新

ModelWhale

智能体 和鲸 智能体编排工具

KubeBlocks for MSSQL Always On AG 揭秘

小猿姐

云原生 k8s 容器化 mssql

如何提升项目并发性能?

秃头小帅oi

开源能源管理系统:能源转型时代的民主化革命

开源能源管理系统

开源 开源能源管理系统

告别开一堆新窗口!ChatGPT 这个「对话分支」功能,终于来了

hepingfly【gzh:和平本记】

ChatGPT

AI Compass前沿速览:Kimi K2、InfinityHuman-AI数字人、3D-AI桌面伴侣、叠叠社–AI虚拟陪伴

汀丶人工智能

企业级开发重构成本高?试试这款AI驱动的Java开发工具

飞算JavaAI开发助手

全栈AI驱动!华为云云容器引擎CCE智能助手焕新升级

华为云原生团队

云计算 容器 云原生 CCE

🚀全新发布!CodeBuddy 插件升级 3.3,立即更新获取新功能!

CodeBuddy

为什么传统开发工具无法解决老旧系统重构?AI给出了答案

飞算JavaAI开发助手

一笔成形,秒绘标准图!Pen Kit重构“自然书写”体验

HarmonyOS SDK

HarmonyOS NEXT HarmonyOS SDK应用服务

25 万/秒写入 + 70% 硬件节省,TDengine 在首自信工业时序数据平台中的落地

TDengine

tdengine 时序数据库

为什么说“精准理解开发者意图”是下一代AI编程工具的核心?

飞算JavaAI开发助手

自研 OR 外采低代码,软件厂商如何选择?

星云低代码中间件

低代码 企业管理 系统开发 采购

NineData发布 Oracle 到 MySQL 双向实时复制,助力去 O 战略与数据回流

NineData

MySQL oracle NineData Oracle 数据同步工具 双向实时复制

档案管理系统(源码+文档+讲解+演示)

深圳亥时科技

#开源

某头部能源集团“数据治理”到“数智应用”跃迁案例剖析

袋鼠云数栈

解决方案 指标建设 数智应用 能源企业 能源转型

小猪考试系统详细介绍

微擎应用市场

网上绘本馆多门店小程序系统介绍

微擎应用市场

MyEMS:开源技术驱动下的能源管理智能化革新者

开源能源管理系统

开源 开源能源管理系统

快递地址信息自动识别如何实现?快递鸟智能地址解析API实战解析

快递鸟

技术人必看:RPA、工业机器人与人形机器人对比

Techinsight

两周开发量,两小时完成!飞算JavaA电商微服务极速开发实战

飞算JavaAI开发助手

一文看清:各类机器人在不同领域的应用与发展

Techinsight

Karmada v1.15 版本发布!多模板工作负载资源感知能力增强

华为云原生团队

云计算 容器 云原生 Karmada

AI界的“超能力”MCP,到底是个啥?

Comate编码助手

#AI编程 MCP 文心快码 文心快码Zulu

飞算JavaAI新功能解析:自动生成规则文件,规范与效率兼得

飞算JavaAI开发助手

谙流 ASK 技术解析(一):秒级扩容

AscentStream

消息队列 消息队列架构

存储系统设计中的二八定律_语言 & 开发_李士窑_InfoQ精选文章