教年轻 AIoT 创业者如何从 0 到 1 实现AIoT 创业项目 了解详情
写点什么

新版 UFile 上线:ZB 时代的量贩式对象存储

  • 2019-11-08
  • 本文字数:3627 字

    阅读完需:约 12 分钟

新版UFile上线:ZB时代的量贩式对象存储

随着 5G+IoT 时代来临,产生数据的主角除了人类还有海量的物理设备,相比 4G 移动互联网的短视频、直播等,会有更大量的数据产生。据 IDC 发布的《数据时代 2025》的预测,全球每年产生的数据将从 2018 年的 33ZB 增长到 2025 年的 175ZB,每年新增约 20ZB,如果使用 8T 的磁盘,只保存一份副本,每年需要 25 亿块磁盘,数亿台主机。


这些数据大多以视频、图片、文本等非结构化形式存在,并需要妥善保存以做后续利用。为此,数据的存储载体需要具备随时随地上传、安全、可扩展以及低成本的特性。目前,对象存储是这些海量非结构化数据最好的存储载体。

UFile:做 Costco 式的对象存储

UFile 是 UCloud 2015 年推出的对象存储产品。过去一年间,UFile 从整体上做了一次较大升级,推出不少功能特性和优化,更好地满足用户对海量非结构化数据的需求。这一过程中,UFile 将其产品理念概括为“成为 Costco 式的存储”,为什么是 Costco 式的?



图:UFile 控制台界面


前段时间量贩式仓储会员店 Costco 在国内火爆开业,在一个既不缺线下商超、同时线上电商更是遍地开花,市场竞争异常激烈的中国市场,Costco 靠什么去切入用户?雷军是这么评价 Costco 的:“Costco 这么多年所向披靡的最重要原因就是抓住了其存在的本质,商品做到极好,价格做到极低,服务做到超预期。”


这个理念也同样适用于对象存储领域,UFile 把用户最本质的需求概括为 3 点:极高的可靠性和性能、极低的成本以及极优的体验。

对象存储的三个典型案例

在介绍 UFile 之前,我们先来看看 AI、大数据和 IoT 场景下的 3 个案例:

1

某传统金属件加工企业原本有这样一项业务:员工人力摘捡不合格产品。现在,该项业务转变为拍照取证+AI 智能检测的方式,相较之前大大节省了企业的人力投入成本,并降低了人工检测的误差。同时也产生了一项新需求:所有图片数据需保存 25 年以供后续质保检验。


用户的需求:如何保证数据长时间存储的高可靠需求?

2

某大数据分析企业积攒了数个 PB 的大数据,在完成分析后这些数据的访问量降到较低,但在一段时间内仍需存储保留原始数据或者分析后的中间数据。对企业来讲,这数 PB 的数据存储将会是一笔不小的开销。


用户的需求:如何实现海量数据的低成本存储需求?

3

某城市地铁每天停运后都需要人工沿地铁进行检修,效率较低且需要大量人力的投入。因此计划引入 IoT 技术:在地铁中部署一些传感器,检测地铁的声音、温度、图像、视频等,数据使用 4G 网络随时随地上传到云端存储,解决人力工作成本并提高检修效率。


用户的需求:这些分散在地下各处的传感器如何方便、安全、低延时的进行数据的上传?


我们总结了这三个案例的关键字:高可靠、低成本、使用体验,下面我们来详细介绍 UFile 在这三方面所做的工作。

一 数据高可靠

1、多副本+同构的冗余机制

首先,UFile 采用 3 副本和纠删码技术,可以确保数据在两块磁盘损坏的时候数据不丢失。不同于类似 Ceph 异构的数据分布技术,UFile 3 副本技术采用同构的数据分布方式,这种同构的数据分布可以保证数据更高的可靠性。



图:同构与异构数据分布对比


从上图可知,同构情况下只有集群 a 或者 b 同时损坏 2 种丢失数据的可能情况,而在异构结构下有 6 种丢失数据的组合情况,同构的可靠性显然更高。

2、跨地域的数据灾备

UFile 是一个地域级别的存储产品,为了更好的提供数据灾备能力,UFile 今年推出了跨地域的灾备功能:支持 3 个及以上的地域复制,复制方式包括链式结构(A->B->C)与技术实现更复杂的环式结构(A->B->C->A)。环状结构的优点是能够支持更多地域的读写,并满足就近读写业务的需求。



图:多地域复制及就近读写功能示意

3、故障处理机制的完善和创新

除此之外,UFile 还在故障的快速发现和恢复上做了不少创新。除应用常规的硬件和软件层面的监控帮助用户快速发现数据异常外,UFile 采用 Set 化的架构设计,当出现机器或磁盘故障时,可以将该 Set 集群设置为只读,从而降低该 Set 集群的业务负载,帮助恢复程序以最快的速度恢复故障磁盘或机器,大大提高数据的可靠性。

二 业务低成本

1、对象级别的分层存储

UFile 采用专门的存储机型,存储密度更高,单位存储的成本最低可降到计算机型的 15%。同时采用纠删码技术,在确保数据可靠性的前提下,存储成本可降低到 3 副本冗余机制下的 40%左右。


此外,UFile 还对数据分层和数据生命周期管理进行了优化,致力于从数据分层存储的角度进一步降低用户存储的成本。


用户业务往往同时存在高频和低频访问的数据,而相同数据在不同生命周期也存在不同的访问频率。一个刚产生的高频访问的数据,随着时间的推移访问频率往往会逐渐减低,数个月后便可能从高频转为低频。不同访问频率的数据可采用不同成本的存储方案。


业内早期的解决方案是通过支持热、温、冷 3 种存储产品来满足不同频率访问数据的要求,用户分别在 3 种存储产品上创建 Bucket,然后根据数据的访问频率放置到对应的 Bucket。按照用户设置的时间规则,在不同时间点数据会在 3 种 Bucket 进行迁移。这种解决方案虽然解决了数据存储的成本问题,但是缺点在于对业务不太友好,需要业务感知这种变化。



图:传统的分层存储数据流转示意


针对该问题,UFile 在今年推出了对象级别的分层存储方案。和传统解决方案不一样的是,UFile 支持同个 Bucket 中同时存在热、温、冷 3 种数据,用户可以将同个业务中的 3 种数据上传到同个 Bucket,同时数据访问频率发生变化后还会保留在同个 Bucket 中。


这种方案对用户的业务更加友好,而且也为后续即将推出的数据自动化分层管理奠定了良好的基础。用户很多时候无法区分数据的冷、热程度,或者无法准确的预测数据什么时候开始变冷,而更好的做法是将这些工作交给后台程序自动完成,这样可以让用户享受到最低的存储成本。



图:UFile 分层存储方案数据流转示意

2、自建大数据存储与 UFile 归档存储的成本对比

我们回到开头的大数据用户的场景,该企业现有 5PB 的数据量,因为用户的数据访问频率较低,所以推荐采用 UFile 的归档存储方案,下表是使用自建大数据存储和 UFile 归档存储方案成本差异对比。



事实上,我们还没有考虑数据逐渐增长的过程,对象存储是按需付费的,实际使用多少资源才会支付多少费用,而自建大数据存储往往会存在资源和成本的空闲浪费。因此,针对海量数据的冷存储,UFile 归档存储方案能够提供更高的性价比。

三 产品体验优化

1、数据安全+高质量网络保证

移动设备和 IoT 设备都有随时随地上传的需求,而随时随地的上传则对数据安全和网络质量都提出了更高的要求。


针对该需求,首先 UFile 支持 Https 协议,支持用户使用公私钥或者 Token 的方式来随时随地的传输数据、确保数据的安全性。


其次,UFile 已在全球 10 多个国家和地区分布有节点,覆盖国内主要城市和国外主要国家,按照规划 UFile 后续还将覆盖到更多地区和国家。国内外的数据节点均采用 BGP 机房或者运营商节点机房,能够提供高质量的网络保障,确保用户数据上传过程中的稳定和低延时。



图:UFile 全球数据中心分布

2、用户接入体验优化

目前 UFile 的 SDK 覆盖了主流的开发语言,并分别支持 iOS 和 Android 移动端。同时 UFile 还兼容了常用的 S3 协议,支持第三方用户态网络文件系统访问 UFile,如 S3fs、Goofys,这样用户可以像使用本地文件系统一样使用对象存储。相比本地文件系统,以 UFile 为存储池的用户态网络文件系统可以为用户带来更大的存储空间和更低的存储成本。



图:通过 Goofys 把某个 Bucket 挂载成文件系统并操作



图:通过 Goofys 写 UFile 后的效果

3、各类应用场景下的定制化解决方案

此外,UFile 还提供了各类常用应用场景和备份场景的定制化解决方案:


  • 针对多媒体场景,UFile 结合 UCloud 全球 500 多个 CDN 节点,给用户提供高质量的视频和图片类服务。

  • 针对大数据场景,UFile 推出了计算存储分离的方案,使用 UFile 来替代 HDFS,计算层只需修改配置文件即可完成替换。

  • 在 UCloud 今年推出的重量级数据分析产品 USQL 中便采用了计算存储分离的解决方案,对计算和存储都采用按需计费的方式,大大降低了大数据分析的成本。同时 USQL 依托于 UFile 强大的 IO 能力,以及无限存储容量,实现了海量数据的快速分析。

  • 针对备份类的场景,UFile 提供了 Hadoop 冷数据备份场景、MySQL 数据库备份和恢复场景、ES 日志备份的场景、网站文件备份场景等解决方案,帮助用户轻松完成数据备份。


Hadoop 冷数据备份场景实例分析:


Step1



图:Hadoop 集群中的文件在 UFile 的某个 Bucket 中不存在


Step2



图:通过 distcp 工具备份至 UFile 的某个 Bucket 中


Step3



图:备份成功后可以在 UFile 控制台看到该文件

结语

最后,针对海量非结构化数据,除了数据高可靠、低成本以及良好的使用体验,还有一个非常重要的需求便是高性能。特别是在引入生命周期和目录功能后的列表查询场景以及类似网络摄像头的大量写入及删除类的场景,对索引和存储的性能提出较大的挑战。


本文转载自公众号 UCloud 技术(ID:ucloud_tech)。


原文链接:


https://mp.weixin.qq.com/s/y0Pa_pqh_fmaez3NcqIpsA


活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2019-11-08 10:01500

评论

发布
暂无评论
发现更多内容

SpringBoot2.x系列教程——整合使用JPA

会踢球的程序源

Java

多云转晴:Databend 的天空计算之路

Databend

揭秘云原生时代企业可观测体系落地实践

嘉为蓝鲸

云原生应用 云原生(Cloud Native) 可观测宇宙

【FAQ】关于华为推送服务因营销消息频次管控导致服务通讯类消息下发失败的解决方案

HMS Core

HMS Core

Alibaba最新神作!耗时182天肝出来1015页分布式全栈手册太香了

Java你猿哥

Java 分布式 SSM框架 分布式核心原理解析 分布式开发

我在 20 年的软件工程师生涯中学到的 20 件事

宇宙之一粟

翻译 软技能

准备2023金三银四的Java程序员注意:40+文档5000+页面试资料来啦

会踢球的程序源

Java java面试 面试资料 Java大厂面试

基于 Flink CDC 的现代数据栈实践

Apache Flink

大数据 flink 实时计算

治理告警风暴,告警降噪的一些典型手段

龙渊秦五

告警风暴 告警降噪

互联网工程师Java面试题及答案整理(2023速成版,7天就能吃透)

采菊东篱下

java面试

Unity 之 月签到累计签到代码实现(ScriptableObject应用 | DoTween入场动画)

陈言必行

Unity 三周年连更

python统计程序耗时 | python小知识

AIWeker

Python python小知识 三周年连更

字节跳动正式开源分布式训练调度框架 Primus

字节跳动开源

开源 算法 流批一体

阿里全新推出:微服务突击手册,把所有操作都写出来了

Java你猿哥

微服务 微服务架构 Spring Cloud SSM框架

代码质量难评估?一文带你用 SonarQube 分析代码质量!

Java你猿哥

架构师 代码 SSM框架 sonar

3月寒窗!啃透美团保姆级分布式进阶技术手册,4月终入美团定L8

Java你猿哥

Java 分布式 SSM框架 分布式数据 分布式消息

测试工程师为什么要关注研发效能?

思码逸研发效能

软件工程 研发效能 测试工程师

Oracle 23c 新特性实操体验优质文章汇总

墨天轮

数据库 oracle sql 新版本/特性解读

HummerRisk V1.0 :架构升级说明

HummerCloud

开源 云安全 云原生安全

大型SRE组织设计与建设落地,且看腾讯蓝鲸如何做?

嘉为蓝鲸

腾讯 运维自动化 蓝鲸

从「搭子」文化,看融云如何助力垂类社交应用增长

融云 RongCloud

融云 Z世代 通讯 交友 搭子

阿里P7了!全靠死磕这份阿里全彩版"并发编程笔记",大厂必备!

Java你猿哥

Java 并发编程 架构师 java面试 Java工程师

Redis删除键命令: 新手用del,老手用unlink,有何区别?

Java你猿哥

Java redis SSM框架 Java工程师 delete

改写同事代码——血压操作集锦第一弹

Java你猿哥

Java IDEA java编程 SSM框架 表单设计

FastAPI 快速开发 Web API 项目: 连接 MySQL 数据库

宇宙之一粟

Python FastApi 三周年连更

Spring Boot 实现接口幂等性的 4 种方案

做梦都在改BUG

Java Spring Boot

中船互联与嘉为科技共同打造“IT运维管理”融合解决方案

嘉为蓝鲸

自动化运维 IT 运维 中船集团

90%的Java开发人员都会犯的5个错误

做梦都在改BUG

把脉分布式事务的模型、协议和方案

小小怪下士

Java 分布式 分布式事务 后端

开屏广告=让用户等?小红书如何兼顾用户体验和广告投放效果

小红书技术REDtech

推荐 广告 小红书

多家大厂CTO鼎力推荐的微服务架构设计模式真的硬核

小小怪下士

Java 程序员 微服务 后端

  • 扫码添加小助手
    领取最新资料包
新版UFile上线:ZB时代的量贩式对象存储_文化 & 方法_UFile团队_InfoQ精选文章