【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

UCloud 彭晶鑫: UCloud 高性能存储背后的技术解析

  • 2019-11-12
  • 本文字数:3304 字

    阅读完需:约 11 分钟

UCloud彭晶鑫: UCloud高性能存储背后的技术解析

随着移动互联网的迅速发展,智能终端、可穿戴设备、智能家居正在快速普及,数据吞吐量呈现出指数级的增长趋势。大数据爆发的时代下,各行各业的互联网化与现实世界数据化的趋势,使市场对企业级云存储的需求更加迫切。


云存储,可以理解为云计算环境下的存储服务,将云计算数据中心的各种存储资源虚拟化,抽象化、池化,以存储服务的形式提供给应用。用户可以按自己的需求(容量,性能,时间)等使用云存储资源。一些可以通过用户购买的计算节点去使用,例如块存储,分布式文件存储,还有些可以通过网络访问标准的接口存取去使用,例如对象存储。


UCloud 作为国内领先的云计算服务平台,在云存储方面有着比较丰富的产品线。UCloud 块存储研发副总监彭晶鑫近日接受了 51 CTO 记者的采访,对云存储产品及技术进行了解析。

1 UCloud 丰富的存储产品线

彭晶鑫目前担任 UCloud 块存储研发副总监,主要从事分布式云盘,块设备数据保护产品,分布式文件存储的研发。彭晶鑫在采访中对 UCloud 已有的存储产品进行了以下总结。


  • 提供块设备存储能力的云硬盘 UDisk,包括 SATA 的普通云盘和 SSD 云盘,云盘能为云主机提供高速、高可靠的块存储能力;

  • 提供分布式文件系统能力的文件存储 UFS,UFS 提供了高可靠、无限扩展的文件存储服务,目前是容量型,后续还将推出性能型;

  • 对象存储 UFile 提供了海量、高可靠、低成本的非结构化文件存储服务,可以让用户在任何互联网可达的位置利用 API 去访问和存储;

  • 提供持续数据保护 CDP 系统的数据方舟 UDataArk,它是公有云中前几家支持块设备回滚至任一秒,并能有效防止用户由于误操作、黑客攻击等带来的数据误删除或者丢失。


当然除了这四种存储产品以外,UCloud 还有适用于海量数据的长期归档、备份的数据归档存储 UArchive,提供数据库服务的 RDS 以及分布式关系数据库等。

2 这些存储产品例如云硬盘和软件定义存储有什么关系

总的来说软件定义存储(SDS)就是将数据中心的各种存储资源抽象化、池化,以服务的形式提供给应用,满足应用按需自动化的使用存储。云硬盘其实就是 SDS 的一种,它将存储资源池子化,提供应用层需要的逻辑块设备存储能力,并让计算和存储在物理上分离。

3 UCloud 在存储产品研发之路上遇到了哪些问题并如何解决的

在存储产品的研发之路上,UCloud 确实也遇到过一些问题,在这里就列举三个点:


  • 数据可靠性


为了更早发现数据损坏,有些时候,用户 IO 的读写并没有散落到磁盘的任何位置上,磁盘的坏道坏块等也不能及时发现。甚至可能三个副本中有两个副本所在的磁盘都有损坏确没有被及时发现。这样就给数据的可靠性带来了较大的挑战。后续我们加入了磁盘不同偏移的读写探测以及定期读数据和校验码的比对,从而更好地保障了数据的可靠性。


  • 数据分片


数据分片和元数据的关系是分片小元数据就多,分片大却不能均匀的打散并发挥分布式集群的能力,因此分片要适当的小。那么问题又来了,当用户申请一块磁盘时,需要将很多元数据分配好进行持久化,这对于大容量磁盘的申请体验就很差,速度慢。如果不是申请时分配,那么就是写时分配,这对于用户第一次 IO 时的体验也会很差,性能有影响。后来经过综合考虑,我们选取了通过计算去获取路由的方式,避免了中心存储元数据带来的麻烦。


  • 连续数据保护


第一代 CDP 系统数据方舟 1.0 可以很好的支持块设备回滚到过去任一秒。但是对于大盘或者 IO 比较凶的磁盘来说,回滚速度会很慢,甚至需要几个小时。用户使用时都希望能快速回滚。后来我们就设计了数据方舟 2.0,从用户角度出发,回滚时选择回滚至一个全新的磁盘,不去破坏原有的磁盘数据。并通过流式计算、分层混合存储设计、分布式存储技术顺利地将回滚速度提升了 8 倍,1TB 大容量盘也可以在 30 分钟内完成回滚。

4 近年来块存储在底层硬件方面有哪些发展

总的来说,就是底层硬件越来越强。主要体现在两个方面:一是磁盘速度越来越快,另一个就是网络接口也有了快速的发展。


SSD 这类固态硬盘的发展,目前主要以 NAND 为主,单盘可以提供几十万甚至百万的 IOPS,高达几个 GB 的读写带宽,这是机械盘时代无法想象的。与此同时,固态硬盘的容量已普遍可以做到 4TB 到 6TB,也充分解决了存储对于容量的需求。除了 NAND 以外,还有 3D Xpoint 的发展,相对于 NAND,3D Xpoint 例如 Intel 的 optane, 延迟上有了 10 倍左右的提升,并且更耐用。


另外,网卡也经历了从千兆、万兆、25G 卡到 50G 卡的高速发展。此外,还有网卡对 RDMA 特性的支持,可以让网络收发零拷贝,无需操作系统/协议栈等的介入,就可以实现机器间的超低延迟、超高吞吐。

5 随着底层硬件的发展,块存储该如何突破软件技术层的瓶颈

随着底层硬件的发展,例如 NVME/PCIESSD 相对于 SATA SSD 的跨越式发展,网络接口的处理能力也从 10G 到 25G 再到 100G。与此同时,CPU 的主频确几乎没有大的发展,主流的平均在 2-3GHZ 以下。另外,按照传统模式 SSD 的 IO、网卡的收发包经过用户态内核态的多层拷贝,都还需要靠 kernel 的中断来唤醒。以前,这些外设的能力远低于 CPU,所以没有任何瓶颈。而现在外设硬件的跨越式发展,中断模式来唤醒系统处理也开始受到了技术挑战。


云计算环境下的分布式块存储从软件栈上可以分为两层:一个是宿主机集群,一个是后端集群,两者之间通过网络互联。块存储要突破的技术也主要在整个软件栈上的 IO 路径、整个 IO 路径的性能及可靠性。宿主机侧,为了实现数据交互的高性能,数据面需要从 qemu 卸载到宿主机上,从而有了用户态 VHOST 方案。例如 SPDK VHOST 技术,不仅将数据面从 qemu 卸载到用户态,而且可以通过 pmd 模式加速性能。


第二个就是宿主机到后端集群的路径。传统的 TCP/IP 协议栈+网络服务框架 epoll 模式很难做到超高性能的要求。而 RDMA 技术,通信不需要经过复杂的 TCP 协议栈,通过旁路和零拷贝极大的提供低延迟的特性。同时不需要两端的 CPU 参与。所以 RDMA 技术,不管是 ROCE 还是 IB,都可以在网络通信上极大的提高性能。


第三个在后端侧,RDMA 的应用可以极大的提高网络通信的性能,减少 CPU 的负载。另外,还需要关注磁盘 IO 的性能。发挥 NVME 的高 IOPS,同时降低 IO 的延迟,就成为了最关键的方面。利用 SPDK 通过 NVME 驱动访问磁盘,缩短 IO 栈以及 PMD 模式,可以极大的降低 IO 延迟。

6 UCloud 在存储技术上是如何做到更好地服务于用户的

为了给用户提供更好的存储服务,还是需要从用户的需求去看待:


1、用户追求高性能低延迟,例如刚才说的块存储,就可以从 IO 路径上整体兼顾,不断追求更低的时延和更高的 IOPS。总之就是做到 IO 路径上的极致;


2、用户追求大容量,那么怎么设计出可以让用户无限扩容的系统就是关键;


3、用户追求低价格,那么降低 TCO,不损失数据可靠性的基础上降低冗余度,提高磁盘利用率就是关键;


4、用户追求回档的速度和粒度上,那就需要在持续数据保护上追求 RTO 和 RPO。


在这方面,UCloud 一直秉承“用户需求就是下一个产品”的理念。

7 在块存储方面,UCloud 后续会做什么样优化和新产品等

我们确实在紧跟存储行业的发展不断推出或者优化存储产品,比如我们 5 月发布的高性能块存储新品 SSD 云硬盘,软件架构设计更简洁。另外,为了满足客户对高性能的需求,后端存储也全部使用了 NVME SSD,并提供了 QOS 保证。接下来我们也会推出基于 NVME SSD 的分布式文件存储,提供更高性能的文件存储需求。


同时,我们会引入 RDMA SPDK 等数据面的 kernel bypass 技术,充分优化 IO 栈,并压榨硬件性能,打造高性能低延迟的存储引擎,服务于各种对高性能有需求的存储服务。后续也会采用混合存储技术,例如 optane 和 nvme 磁盘的混合存储,提供更低的写延迟,让客户获得更好的体验。


作者介绍:


彭晶鑫,UCloud 块存储研发副总监,上海交通大学研究生毕业,2011 年加入百度,2011 年-2014 年负责移动云应用服务后端多项研发工作。目前就职于 UCloud,任块存储研发部副总监,负责块存储研发部,文件存储研发部的研发以及运营工作,主要包括云硬盘,数据方舟,分布式文件系统。对服务后端技术,存储技术,工程实践有相当丰富的研发经验。


本文转载自公众号 UCloud 技术(ID:ucloud_tech)。


原文链接:


https://mp.weixin.qq.com/s/7ffs86PpeEL9Ha0UJRNxyQ


2019-11-12 11:39882

评论

发布
暂无评论
发现更多内容

国家级|深信服再获CNCERT应急服务国家级支撑单位称号!

科技热闻

智能大数据专场,百度智能云带来智能大数据产品架构全景图

百度大脑

人工智能 大数据

从工具、工具箱到数字化软件工厂——DevOps 设计理念与工程实践专场 | CIF 精彩看点

CODING DevOps

DevOps 数字化 研发工具 腾讯云 CIF 峰会

掘金热榜第一!阿里P8用近十个月整理出来999页Java岗核心笔记限时开源!

Java 架构 面试 程序人生 编程语言

四面字节跳动(高级开发岗):分布式+中间件+TCP+JVM+Hashmap

Java 编程 架构 面试 计算机

目睹阿里技术官写的Tomcat架构笔记后,瞬间觉得自己是渣渣

Java 架构 面试 程序人生 编程语言

图谱相关技术在风控反作弊中的应用和探索

百度Geek说

后端 软件架构

艾瑞发布《2021年中国企业级 SaaS 行业研究报告》,ONES 入选典型厂商案例

万事ONES

项目管理 SaaS 协同办公

搞不懂云原生

二哥不再迷茫

华为云带你探秘Xtrabackup备份原理和常见问题分析

华为云数据库小助手

GaussDB 华为云数据库 MySQL 数据库 GaussDB(for MySQL)

恒源云(GpuShare)_快进来!这里有超高性价比的GPU资源

恒源云

深度学习

走进吉利|EMQ 映云科技助力车企“新四化”

EMQ映云科技

车联网 物联网 IoT emq iov

堡垒机和虚拟机的两大区别分析-行云管家

行云管家

网络安全 虚拟机 服务器 堡垒机

不得不聊一聊英语爱好者的单词杂货铺了

小匚

随笔杂谈 生活记录 英语 大学英语四六级 单词

东软熙康、百度、京东方,互联网医院的三个典型样本

海比研究院

阿里巴巴架构师十年整理出的JavaSpringBoot核心文档,真是太全了

Java 架构 面试 程序人生 编程语言

关于Promise你需要知道的一切

devpoint

大前端 Promise 引航计划

博睿数据亮相北京IMC2021第三届中国智造CIO峰会

博睿数据

第 8 章 -《Linux 一学就会》-Centos8 软件包的管理与安装

学神来啦

Linux 运维

国庆出游神器:魔幻黑科技换天造物,让vlog秒变科幻大片!

华为云开发者联盟

视频 modelarts 科幻 国庆 天空

华为云开源的Karmada正式成为CNCF首个多云容器编排项目

华为云开发者联盟

容器 集群 cncf Karmada

从产业链、架构和技术三个层面,看元宇宙与RPA的发展关系

王吉伟频道

RPA 自动化 区块链+ 机器人流程自动化 元宇宙

如何构建混合云管理平台?——资源管理篇

金蝶天燕云

云计算 云平台

使用 grpcurl 通过命令行访问 gRPC 服务

AlwaysBeta

golang gRPC

快准狠!百万年薪的阿里架构师分享深入剖析Java虚拟机文档

Java 架构 面试 程序人生 编程语言

一周信创舆情观察(9.13~9.26)

统小信uos

恒拓高科亮相中国-东北亚博览会,赋能海内外企业构建数字化新生态

WorkPlus

阅读

等保二级需要测评吗?多久测评一次?

行云管家

网络安全 堡垒机 等保测评 过等保 二级等保

大厂敲门砖!Alibaba技术官甩出的Springboot笔记

Java 架构 面试 程序人生 编程语言

Python代码阅读(第31篇):将一个列表分割成指定大小的小列表

Felix

Python 编程 Code Programing 阅读代码

金秋10月,日更挑战你准备好了么!?

InfoQ写作社区官方

热门活动 10月月更

UCloud彭晶鑫: UCloud高性能存储背后的技术解析_文化 & 方法_彭晶鑫_InfoQ精选文章