生成式AI领域的最新成果都在这里!抢 QCon 展区门票 了解详情
写点什么

数据爆炸时代,要怎样应对云存储挑战?

  • 2022-07-18
  • 本文字数:3713 字

    阅读完需:约 12 分钟

数据爆炸时代,要怎样应对云存储挑战?

2022 年,远程办公已经变得常态化,拥有可靠的云端数据存储系统或服务比以往任何时候都更加重要。

 

个人云存储概念的兴起始于 2007 年,当时 Dropbox CEO Drew Houston 在无数次丢失 U 盘后创建了第一个个人小型企业云存储服务。这在当时是一个激进的想法,但却受到了广泛关注。

 

在今天,每个业务都应该是数据驱动的业务,覆盖各行各业。数据的爆发性增长,尤其是云上数据增长已经是新常态。

大数据的下半场,是存储的较量

 

随着全社会数字化转型进入深水区,数据大爆炸带来业务突飞猛进发展的同时,数据增长也会带来很多问题,存储并不是简单的只是把 0 和 1 的比特放在物理介质上这么简单,这里存在大量业务层面需要关注的问题。

 

  • 第一是敏捷和成本。如何应对海量数据增长所带来的成本急速上升与数据存储服务敏捷性能之间根深蒂固的矛盾;

  • 第二是数据本身多样化的需求。我们的业务数据来源是纷繁复杂的。数据以各种方式来自各种渠道,而且各个业务数据本身的性质不同,所使用的方式也是不一样的,我们要思考的是如何设计不同的存储服务满足不同业务的需求。

  • 第三,在数据安全合规被提到空前重要的大背景下,数据存储如何解决安全与合规问题,也是当下面临的主要挑战之一。

亚马逊云科技在云端存储上的技术实践


为了应对数据存储方面的挑战,亚马逊云科技自 2006 年就推出第一个云存储服务 Amazon S3。时至今日,Amazon S3 已经走过了 16 年。

 

亚马逊云科技大中华区产品部总经理陈晓建表示: “存储服务是亚马逊云科技在成立之初就开始提供的云服务,16 年来我们仍然像创立之初一样,通过不断创新来夯实这一基础服务在市场上的优势地位。如今,亚马逊云科技的存储服务已经全面覆盖了对象存储、块存储、文件存储、数据备份、数据容灾、以及数据传输与边缘处理各个方面,客户可根据自身需求灵活选择。随着企业工作负载上云的常态化,云端数据量持续爆发式增长,企业对存储成本、性能等也提出了更高的要求。我们希望能通过存储服务的不断创新,为客户提供功能更强大并兼具成本效益的存储服务,帮助他们在云端开展业务创新。”

 

为了解决上述提到的种种挑战,亚马逊云科技在存储服务产品的设计上给出了三种不同的解决对策:

 

1、智能分层。通过智能分层彻底解决数据的成本和数据的可用性、敏捷性之间的矛盾。

2、专门构建。开发多种针对于不同场景下数据应用的存储产品来解决企业应用多种多样,需求各有不同的问题。

3、统一数据保护。通过一站式云服务备份系统,解决数据安全合规的问题,同时也解决数据备份所带来成本增加的问题。

智能分层

 

无论在任何业务中,用户都会面临数据增多,存储成本也就随之上升的问题。而数据成本只是其中一个最容易解决的问题,光解决成本问题不能解决存储本身带来的所有问题——数据来源多种多样,使用方法也不同,针对不同数据的类型我们应该有不同存储的产品相对应。

 

那么,应该怎么定义数据的类型?陈晓建表示,“这里有一种比较直观而且比较准确的方式:数据的温度。”

 

  • 数据使用有不同的频率,比如说交易系统里的交易数据,To C 系统里的用户日志,这些数据需要被频繁访问,这些数据称之为热数据

  • 一些企业的业务数据,包括网站的数据,这些数据有可能需要按周或者按月的频率访问,因为不像热数据一样被访问得这么频繁,这些数据我们称之为温数据

  • 再往下一层,手机相册数据、企业的其他数据,这些数据可能是几个月,甚至是一两年才会访问一次,这些数据我们可以把它作为归档数据,一旦存储之后它的访问频率并不是很高,这样的数据我们称之为冷数据

  • 还有一种数据,一旦写入之后访问频率非常低,但是由于合法合规的要求,这些数据必须要能够进行持久化的存储,比如医疗影像的数据,国家规定这些数据必须存放 30 年,任何时候要用都可以及时拿出来。从业务特点来讲,这些数据本身对于存储读写性要求并不很高,但是要求数据的持久性,而且数据的量非常大,所以用户对于数据整个存储成本有着非常高的要求,这是冻数据

 

从这一点上看,可以简单把一些数据分为热、温、冷、冻四个层次,对于云厂商来说,显然对于这四种不同的数据要有不同的存储服务才是最合理的。

专门构建不同的云存储服务

 

成本问题解决了,但是不同数据类型的来源各不相同,使用方式不一样,需求也不一样,用户要怎样构建不同存储的服务来满足业务的需求?亚马逊云科技提出的对策是专门构建不同的云存储服务。

 

实际上,到今天为止 IT 化已经基本完成,每个应用和业务都会产生大量的数据。我们面对的数据类型也已经足够多了,如果要把这么多种类的数据做一个大概的区分,基本可以分为两大类:第一类是云原生的现代化应用产生的数据,第二类是传统的云端企业应用产生的数据。

 

云原生应用产生的数据指的是电商、游戏、社交等等,这些应用大部分本来就是诞生在公有云上的应用所产生的数据;第二类企业应用不是公有云之后才产生的,相反这些企业应用,像 ERP、CRM、EDA 已经存在很多年了,公有云之前它们就存在了,它们依赖的技术和架构并不会考虑云的存在,所以很显然这两个应用产生的数据在处理上是非常不一样的。

 

数据存储对于云原生应用来说非常简单。社交媒体、电商本身在云上构建,大量的业务依赖云的微服务架构,也很适应云的应用方式,很显然对云原生应用来说希望存储是一样的架构。云的特点是用户不用考虑底层架构,无论是伸缩、全覆盖、运维,这些事情都是云来完成的,用户只需调用简单的 API 接口就全搞定了,自然存储也应该是这样。

 

陈晓建表示,对于云原生应用的云存储服务问题,亚马逊云科技的解决办法有两个:第一个是 Amazon S3,第二个 Amazon EFS。

 

Amazon S3 就是一个简单的 API,不用管任何背后的细节。大量的应用和非常多的云存储都是放在 Amazon S3 上的,它已经成为了对象存储工业界的事实标准。

 

有很多的业务依然依赖于传统的文件系统的调研方式,所以亚马逊云科技还提供了 Amazon EFS。Amazon EFS 是共享文件系统,是完全兼容容器、无服务器化的应用。Amazon EFS 系统不光是跟云原生一样不用做任何的配置和运维,而且和其他亚马逊云科技的服务高度集成,用户一旦用容器就可以非常容易的挂载到 Amazon EFS 里。所以 Amazon EFS 和 Amazon S3 能够很好地解决云原生业务的需求。

 

而企业应用就复杂多了。在公有云诞生之前,就存在大量的各种各样的企业应用。对企业应用来说,

 

  • 首先,已经存在很多之前就有的特点,比如说快照、镜像、远程复制、多种存储协议等等,如果要上云必须要支持这些,如果在 ERP 和企业应用上云的时候需要按照 Amazon S3 和 Amazon EFS 的接口重新改变代码,那么没有企业用户愿意这样做。所以保证兼容对企业来说是非常重要的工作。

  • 其次,企业应用还有各个行业的特点,比如说高性能计算、大数据分析,可能对网络、机器性能各方面都有很高的要求,这些是在提供企业应用存储服务的时候必须要考虑的。

 

企业在云端有各类不同的业务场景,对共享文件存储有着不同的要求,陈晓建列举了一些目前存在的比较主要的四大类企业应用:

 

  • 第一类是 Windows 为主的应用,底层服务要完全满足 Windows 的环境,包括 ACL 文件访问控制权限,包括 Active Directory 兼容。

  • 第二是高性能计算,不可能通过单个节点完成,一定是多节点协同的,数据是共享的。真正在跑的高性能集群往往是几百个节点,甚至几千个节点共享一份数据,这样就带来一个问题,首先第一个需要共享的存储,第二个由于这份数据要被几百个、几千个节点同时访问,所以对整个存储的性能和吞吐率也提出了非常高的要求。

  • 第三是基于各类多种多样的企业应用,这些应用要上云必须完美的兼容和支持好之前提供的功能。

  • 第四是大数据的环境,往往需要一些特殊的支持,包括像 ZFS,需要具备高吞吐、低延时的技术。

 

陈晓建表示:“从存储角度来说这四类代表了企业应用里四个主要的不同的场景,是需要我们考虑的,所以我们专门构建了一个场景化应用 FSx 家族,X 意味着多种文件存储类型,专门为企业不同业务需求构建”。

统一数据保护

安全与合规也是数据存储时不容忽视的重要一环。

 

尽管市场上数据备份工具的种类多种多样,但数据备份在技术层面来讲,仍然存在着很多问题。

 

首先很多系统都是使用起来非常复杂的,操作起来有一定门槛;第二,怎么保证安全合法合规的要求又是一大挑战;第三,由于做备份一定会带来额外的成本,如何解决这个问题?

 

基于以上问题,亚马逊云科技推出了 Amazon Backup,用户可以借助可 Amazon Backup 来满足其业务连续性和合规要求。

 

Amazon Backup 可统一保护客户应用程序的数据,跨越亚马逊云科技的计算、数据库以及文件,对象和块存储服务。在过去一年,亚马逊云科技将 Amazon Backup 扩展至 Amazon S3 和 VMware 工作负载,让客户使用统一的数据保护策略,即可配置、管理和监督数据的备份与恢复,此外还涵盖 Amazon Elastic Compute Cloud (Amazon EC2)、 Amazon EBS、Amazon Relational Database Service (Amazon RDS)、Amazon Aurora、Amazon DynamoDB、Amazon DocumentDB、Amazon Neptune、Amazon FSx、Amazon EFS 和 Amazon Storage Gateway。用户还可以使用 Amazon Backup Audit Manager 生成审计报告来帮助其满足合规要求,并使用 Amazon Backup 中内置的细粒度访问控制以及 Amazon Backup Vault Lock,保持备份不变,防止意外或恶意删除。

 

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2022-07-18 14:071811
用户头像
李冬梅 加V:busulishang4668

发布了 804 篇内容, 共 373.2 次阅读, 收获喜欢 996 次。

关注

评论

发布
暂无评论
发现更多内容

亚信科技AntDB数据库荣膺“2023世界计算大会专题展优秀成果”

亚信AntDB数据库

AntDB数据库

AntDB数据库荣获 “2023年信创物联网优秀服务商”

亚信AntDB数据库

AntDB数据库

信创发展 再添一城!广州亚信技术携AntDB数据库入围广州市软件和信创产业链重点企业代表名单

亚信AntDB数据库

AntDB数据库

目标识别不出来,根据指南配置了环境变量也没有用

矩视智能

深度学习 机器视觉

Pixelmator Pro for Mac(图像编辑软件) v3.4.3完美直装版

mac

Pixelmator Pro 苹果mac Windows软件 图像编辑软件

Notability for Mac(笔记软件) v4.4.4永久激活版

mac

苹果mac Windows软件 笔记软件 Notability

NFTScan | 10.23~10.29 NFT 市场热点汇总

NFT Research

NFT NFTScan nft工具

精彩合集丨全“猿”出击!浪潮海岳inBuilder亮相1024程序员节

inBuilder低代码平台

1024程序员节

“创新深化 数实融合”,AntDB数据库邀您参与“2023世界数字经济大会暨第十三届智慧城市与智能经济博览会”

亚信AntDB数据库

AntDB数据库

华锐技术何志东:证券核心交易系统分布式改造将迎来规模化落地阶段

PingCAP

MySQL 数据库 分布式 TiDB

MySQL 到 TiDB:vivo 的 Hive Metastore 横向扩展之路

PingCAP

MySQL 数据库 TiDB

内置视图联动查看器,实现数据关联分析

观测云

可观测性 关联分析 #数据分析

数字先锋| 出版行业如何破圈出彩?“一朵云”让文化铸魂与数智发展并行!

天翼云开发者社区

云计算

一种动态实现核隔离的方法

天翼云开发者社区

云计算 运维

数据集成实现以及平台安装部署入门

RestCloud

ETL 数据集成

于璠访谈录 | AI 框架应该和而不同?

开源雨林

开源 ai框架 昇思MindSpore AI for Science

科技快讯丨浪潮海岳inBuilder荣获两项开源大奖

inBuilder低代码平台

HarmonyOS师资培训:赋能万千开发者,助力鸿蒙生态繁荣

最新动态

我们又更新了一波大厂面经!

王中阳Go

Go 后端 面试题 面经 大厂

百舸争流,奋楫笃行 国产数据库排行榜前10改写,AntDB数据库将继续前行

亚信AntDB数据库

AntDB数据库

数据泄露定义以及危害简单讲解

行云管家

大数据 数据安全 数据泄露 数据运维 数据安全运维

数据库性能优化必读,AntDB-M全局统计信息

亚信AntDB数据库

AntDB数据库

TiDB 企业版全新升级,平凯数据库核心特性全解读

PingCAP

数据库 TiDB 平凯数据库

打造次世代分析型数据库(八):高效数据导入导出方案

腾讯云大数据

CPU智能控制管理 App Tamer免激活最新版

mac大玩家j

Mac软件 系统管理软件

Nginx工作原理

天翼云开发者社区

nginx 服务器

AntDB-M的扩展功能,性能提升和热更新轻松搞定

亚信AntDB数据库

AntDB数据库

简单聊聊远程协同运维定义以及优势-行云管家

行云管家

运维 远程系统 远程协同 协同运维

TiDB x 汉口银行丨分布式数据库应用实践

PingCAP

MySQL 数据库 分布式 银行 TiDB

科技快讯丨超级“码”力!浪潮海岳inBuilder精彩亮相开放原子1024程序员节

inBuilder低代码平台

1024程序员节

性能优化必读 | AntDB-M高性能设计之线程池协程模型

亚信AntDB数据库

AntDB数据库

数据爆炸时代,要怎样应对云存储挑战?_文化 & 方法_李冬梅_InfoQ精选文章