最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

数据爆炸时代,要怎样应对云存储挑战?

  • 2022-07-18
  • 本文字数:3713 字

    阅读完需:约 12 分钟

数据爆炸时代,要怎样应对云存储挑战?

2022 年,远程办公已经变得常态化,拥有可靠的云端数据存储系统或服务比以往任何时候都更加重要。

 

个人云存储概念的兴起始于 2007 年,当时 Dropbox CEO Drew Houston 在无数次丢失 U 盘后创建了第一个个人小型企业云存储服务。这在当时是一个激进的想法,但却受到了广泛关注。

 

在今天,每个业务都应该是数据驱动的业务,覆盖各行各业。数据的爆发性增长,尤其是云上数据增长已经是新常态。

大数据的下半场,是存储的较量

 

随着全社会数字化转型进入深水区,数据大爆炸带来业务突飞猛进发展的同时,数据增长也会带来很多问题,存储并不是简单的只是把 0 和 1 的比特放在物理介质上这么简单,这里存在大量业务层面需要关注的问题。

 

  • 第一是敏捷和成本。如何应对海量数据增长所带来的成本急速上升与数据存储服务敏捷性能之间根深蒂固的矛盾;

  • 第二是数据本身多样化的需求。我们的业务数据来源是纷繁复杂的。数据以各种方式来自各种渠道,而且各个业务数据本身的性质不同,所使用的方式也是不一样的,我们要思考的是如何设计不同的存储服务满足不同业务的需求。

  • 第三,在数据安全合规被提到空前重要的大背景下,数据存储如何解决安全与合规问题,也是当下面临的主要挑战之一。

亚马逊云科技在云端存储上的技术实践


为了应对数据存储方面的挑战,亚马逊云科技自 2006 年就推出第一个云存储服务 Amazon S3。时至今日,Amazon S3 已经走过了 16 年。

 

亚马逊云科技大中华区产品部总经理陈晓建表示: “存储服务是亚马逊云科技在成立之初就开始提供的云服务,16 年来我们仍然像创立之初一样,通过不断创新来夯实这一基础服务在市场上的优势地位。如今,亚马逊云科技的存储服务已经全面覆盖了对象存储、块存储、文件存储、数据备份、数据容灾、以及数据传输与边缘处理各个方面,客户可根据自身需求灵活选择。随着企业工作负载上云的常态化,云端数据量持续爆发式增长,企业对存储成本、性能等也提出了更高的要求。我们希望能通过存储服务的不断创新,为客户提供功能更强大并兼具成本效益的存储服务,帮助他们在云端开展业务创新。”

 

为了解决上述提到的种种挑战,亚马逊云科技在存储服务产品的设计上给出了三种不同的解决对策:

 

1、智能分层。通过智能分层彻底解决数据的成本和数据的可用性、敏捷性之间的矛盾。

2、专门构建。开发多种针对于不同场景下数据应用的存储产品来解决企业应用多种多样,需求各有不同的问题。

3、统一数据保护。通过一站式云服务备份系统,解决数据安全合规的问题,同时也解决数据备份所带来成本增加的问题。

智能分层

 

无论在任何业务中,用户都会面临数据增多,存储成本也就随之上升的问题。而数据成本只是其中一个最容易解决的问题,光解决成本问题不能解决存储本身带来的所有问题——数据来源多种多样,使用方法也不同,针对不同数据的类型我们应该有不同存储的产品相对应。

 

那么,应该怎么定义数据的类型?陈晓建表示,“这里有一种比较直观而且比较准确的方式:数据的温度。”

 

  • 数据使用有不同的频率,比如说交易系统里的交易数据,To C 系统里的用户日志,这些数据需要被频繁访问,这些数据称之为热数据

  • 一些企业的业务数据,包括网站的数据,这些数据有可能需要按周或者按月的频率访问,因为不像热数据一样被访问得这么频繁,这些数据我们称之为温数据

  • 再往下一层,手机相册数据、企业的其他数据,这些数据可能是几个月,甚至是一两年才会访问一次,这些数据我们可以把它作为归档数据,一旦存储之后它的访问频率并不是很高,这样的数据我们称之为冷数据

  • 还有一种数据,一旦写入之后访问频率非常低,但是由于合法合规的要求,这些数据必须要能够进行持久化的存储,比如医疗影像的数据,国家规定这些数据必须存放 30 年,任何时候要用都可以及时拿出来。从业务特点来讲,这些数据本身对于存储读写性要求并不很高,但是要求数据的持久性,而且数据的量非常大,所以用户对于数据整个存储成本有着非常高的要求,这是冻数据

 

从这一点上看,可以简单把一些数据分为热、温、冷、冻四个层次,对于云厂商来说,显然对于这四种不同的数据要有不同的存储服务才是最合理的。

专门构建不同的云存储服务

 

成本问题解决了,但是不同数据类型的来源各不相同,使用方式不一样,需求也不一样,用户要怎样构建不同存储的服务来满足业务的需求?亚马逊云科技提出的对策是专门构建不同的云存储服务。

 

实际上,到今天为止 IT 化已经基本完成,每个应用和业务都会产生大量的数据。我们面对的数据类型也已经足够多了,如果要把这么多种类的数据做一个大概的区分,基本可以分为两大类:第一类是云原生的现代化应用产生的数据,第二类是传统的云端企业应用产生的数据。

 

云原生应用产生的数据指的是电商、游戏、社交等等,这些应用大部分本来就是诞生在公有云上的应用所产生的数据;第二类企业应用不是公有云之后才产生的,相反这些企业应用,像 ERP、CRM、EDA 已经存在很多年了,公有云之前它们就存在了,它们依赖的技术和架构并不会考虑云的存在,所以很显然这两个应用产生的数据在处理上是非常不一样的。

 

数据存储对于云原生应用来说非常简单。社交媒体、电商本身在云上构建,大量的业务依赖云的微服务架构,也很适应云的应用方式,很显然对云原生应用来说希望存储是一样的架构。云的特点是用户不用考虑底层架构,无论是伸缩、全覆盖、运维,这些事情都是云来完成的,用户只需调用简单的 API 接口就全搞定了,自然存储也应该是这样。

 

陈晓建表示,对于云原生应用的云存储服务问题,亚马逊云科技的解决办法有两个:第一个是 Amazon S3,第二个 Amazon EFS。

 

Amazon S3 就是一个简单的 API,不用管任何背后的细节。大量的应用和非常多的云存储都是放在 Amazon S3 上的,它已经成为了对象存储工业界的事实标准。

 

有很多的业务依然依赖于传统的文件系统的调研方式,所以亚马逊云科技还提供了 Amazon EFS。Amazon EFS 是共享文件系统,是完全兼容容器、无服务器化的应用。Amazon EFS 系统不光是跟云原生一样不用做任何的配置和运维,而且和其他亚马逊云科技的服务高度集成,用户一旦用容器就可以非常容易的挂载到 Amazon EFS 里。所以 Amazon EFS 和 Amazon S3 能够很好地解决云原生业务的需求。

 

而企业应用就复杂多了。在公有云诞生之前,就存在大量的各种各样的企业应用。对企业应用来说,

 

  • 首先,已经存在很多之前就有的特点,比如说快照、镜像、远程复制、多种存储协议等等,如果要上云必须要支持这些,如果在 ERP 和企业应用上云的时候需要按照 Amazon S3 和 Amazon EFS 的接口重新改变代码,那么没有企业用户愿意这样做。所以保证兼容对企业来说是非常重要的工作。

  • 其次,企业应用还有各个行业的特点,比如说高性能计算、大数据分析,可能对网络、机器性能各方面都有很高的要求,这些是在提供企业应用存储服务的时候必须要考虑的。

 

企业在云端有各类不同的业务场景,对共享文件存储有着不同的要求,陈晓建列举了一些目前存在的比较主要的四大类企业应用:

 

  • 第一类是 Windows 为主的应用,底层服务要完全满足 Windows 的环境,包括 ACL 文件访问控制权限,包括 Active Directory 兼容。

  • 第二是高性能计算,不可能通过单个节点完成,一定是多节点协同的,数据是共享的。真正在跑的高性能集群往往是几百个节点,甚至几千个节点共享一份数据,这样就带来一个问题,首先第一个需要共享的存储,第二个由于这份数据要被几百个、几千个节点同时访问,所以对整个存储的性能和吞吐率也提出了非常高的要求。

  • 第三是基于各类多种多样的企业应用,这些应用要上云必须完美的兼容和支持好之前提供的功能。

  • 第四是大数据的环境,往往需要一些特殊的支持,包括像 ZFS,需要具备高吞吐、低延时的技术。

 

陈晓建表示:“从存储角度来说这四类代表了企业应用里四个主要的不同的场景,是需要我们考虑的,所以我们专门构建了一个场景化应用 FSx 家族,X 意味着多种文件存储类型,专门为企业不同业务需求构建”。

统一数据保护

安全与合规也是数据存储时不容忽视的重要一环。

 

尽管市场上数据备份工具的种类多种多样,但数据备份在技术层面来讲,仍然存在着很多问题。

 

首先很多系统都是使用起来非常复杂的,操作起来有一定门槛;第二,怎么保证安全合法合规的要求又是一大挑战;第三,由于做备份一定会带来额外的成本,如何解决这个问题?

 

基于以上问题,亚马逊云科技推出了 Amazon Backup,用户可以借助可 Amazon Backup 来满足其业务连续性和合规要求。

 

Amazon Backup 可统一保护客户应用程序的数据,跨越亚马逊云科技的计算、数据库以及文件,对象和块存储服务。在过去一年,亚马逊云科技将 Amazon Backup 扩展至 Amazon S3 和 VMware 工作负载,让客户使用统一的数据保护策略,即可配置、管理和监督数据的备份与恢复,此外还涵盖 Amazon Elastic Compute Cloud (Amazon EC2)、 Amazon EBS、Amazon Relational Database Service (Amazon RDS)、Amazon Aurora、Amazon DynamoDB、Amazon DocumentDB、Amazon Neptune、Amazon FSx、Amazon EFS 和 Amazon Storage Gateway。用户还可以使用 Amazon Backup Audit Manager 生成审计报告来帮助其满足合规要求,并使用 Amazon Backup 中内置的细粒度访问控制以及 Amazon Backup Vault Lock,保持备份不变,防止意外或恶意删除。

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-07-18 14:071817
用户头像
李冬梅 加V:busulishang4668

发布了 810 篇内容, 共 378.1 次阅读, 收获喜欢 998 次。

关注

评论

发布
暂无评论
发现更多内容

第 6 周作业

Steven

极客大学架构师训练营

架构师训练营第 10 周课后练习

叶纪想

极客大学架构师训练营

第十周 模块分解总结

蓝黑

极客大学架构师训练营

架构师训练营第六周总结:

xiaomao

架构师训练营 - week10 - 作业

lucian

极客大学架构师训练营

模块分解

wing

极客大学架构师训练营

与前端训练营的日子 --Week05

SamGo

学习

腾讯云轻量应用服务器 SSH 配置

邵俊达

SSH 轻服务器

CAP原理

幸福小子

分布式 CAP原理

极客时间架构 1 期:第 10 周 模块分解 - 学习总结

Null

架构师训练营2期 第六周总结

月下独酌

极客大学架构师训练营

架构第十周总结

Geek_Gu

极客大学架构师训练营

Week_10 总结

golangboy

极客大学架构师训练营

10 模块分解课后练习

ABS

git 在未保存,add,commit,push下撤销的方法?收藏后再也不用找了

小松漫步

9 性能优化(三)课后练习

ABS

第10周作业

paul

【架构师训练营 1 期】第十周作业

诺乐

架构师训练营第2期 第六周课后练习

月下独酌

极客大学架构师训练营

学习总结之分布式数据库

幸福小子

架构第十周作业

Geek_Gu

极客大学架构师训练营

目标检测之WBF(Weighted Boxes Fusion)

Dreamer

目标检测

week6 技术选型(二) 作业和学习总结

杨斌

【架构师训练营 1 期】第十周学习总结

诺乐

第十周作业

solike

架构师训练营第十一周作业

Geek_4c1353

极客大学架构师训练营

极客时间架构 1 期:第 10 周 模块分解 - 命题作业

Null

CAP原理

皮蛋

CAP CAP原理

架构师训练营第六周作业

xiaomao

第十周学习总结

solike

架构师训练营第十周命题作业

一马行千里

极客大学架构师训练营 命题作业

数据爆炸时代,要怎样应对云存储挑战?_文化 & 方法_李冬梅_InfoQ精选文章