写点什么

关系型数据库的分片原则

  • 2017 年 8 月 16 日
  • 本文字数:2409 字

    阅读完需:约 8 分钟

来自 Citus 的 Ozgun Erdogan 分享了进行数据库分片的三个原则,并强调应用类型是决定数据库分片最主要的因素。其中 B2B 类型的应用最容易进行数据库分片。

在数据库很小的时候,可以很容易地通过添加硬件来扩展数据库。但随着数据表数量的不断增长,我们需要寻找其他的方式来伸缩数据库。

分片是伸缩数据库最好的方式之一。通过分片将数据库拆分成更小的单元,可以线性地扩展数据库的 CPU、内存和磁盘资源。不过在分片这个问题上也存在一些争议,网络上充斥着各种有关分片的不同观点,如“ essential to scaling your database infrastructure ”和“ why you never want to shard ”。那么问题来了,我们应该采纳哪一种观点?而一般来说,答案通常会是“它取决于”。

分片的原理很简单,就是通过一个键(或者说列)来均匀地分布数据。不过理论虽简单,在真正遇到要对数据库进行分片时,很可能会陷入一团手忙脚乱之中。

在 Citus,我们曾经帮助数百个团队进行数据库分片,也从中总结了一些关键的分片模式。

在这篇文章里,我们会先探讨一些决定分片成败的关键属性,然后从底层细节分析这些属性之间的不同点。在进行大型数据库分片时,应用程序的类型将成为最主要的影响因素。

成功分片取决于三个关键属性

我们发现有三个关键属性会影响到成功的分片。下图通过三个方向轴展示了这三个属性,并在每个轴上面放置了一些知名的公司作为例子。

X- 轴表示负载类型,从左侧的事务开始延伸到右侧的数据仓库。在进行数据库伸缩时,这一维度最具有识别度。

Z- 轴表示另一个非常重要的属性,也就是应用程序当前所处的生命周期。此时你的数据库里有多少数据表?你的应用程序已经运行了多长时间?一个运行了几个月的数据库要比运行了数年的数据库更容易进行分片。

在 Citus,我们发现大部分用户都有自己的应用程序。应用程序越是成熟,Y- 轴就显得越为重要。不过这个维度不如其他两个维度那么具有识别度。事实上,很多讨论分片的文章之所以会得出互相矛盾的结论,是因为它们只是基于单一的应用类型。

分片中最重要的属性:应用类型(B2B 或 B2C)

Y- 轴展示了在对成熟数据库进行分片时最为重要的属性:应用程序的类型。在这条轴上,B2B 应用处于最上端,它们的数据模型更容易进行分片。B2C 应用处于轴的底部,比如 Amazon 和 Facebook,它们的分片需要做更多的工作。接下来,我们挑选了三家知名的公司来比对它们之间的不同点。

B2B 类型:Salesforce

CRM 系统是 B2B 应用最为典型的例子。构建 CRM 系统的目的是为了要给其他客户提供服务的,我们假设 GE Aviation 是你的一个客户,他们正在使用 Salesforce

GE Aviation 有如下的一些实体。

  • 客户(customer):公司的顾客。
  • 用户(user):用户可以登录 GE 公司的仪表盘。
  • 负责人(lead):GE 与这些负责人商谈业务。
  • 联系人(contact):GE 与这些联系人有了业务往来,并知道他们的联系方式。
  • 账号(account):业务代表和拥有联系人的人。
  • 机会(opportunity):与账号和联系人相关的销售事件。

如果把这些实体之间的复杂关系映射到数据库里,看起来是这样的:

整个图咋一看确实很复杂,不过如果你多花一点时间看仔细一点,你会发现大多数表都是源自 customer 表。通过往每个表里添加 customer_id 列可以把表间关系转换成如下形式:

通过这种简单的转换,就可以通过 customer_id 这个键进行数据库分片。这个键可以让数据均匀地分布,而大部分查询都需要带上这个键。另外,你还可以根据 customer_id 把相关表聚集在同一个位置,这样就可以继续使用关系型数据库的一些关键特性,比如事务、表连接和外键。

换句话说,如果你的应用类型是B2B 的,那么你的数据就具备了分片的天然特性。

B2C 类型:Amazon

Amazon 是 B2C 应用最为典型的例子。在构建像 Amazon 这样的网站时,有许多东西需要考虑。首先,用户来到你的网站,浏览你的商品,比如书或电子产品。假设用户在浏览《 Harry Potter 7 》,他们也可以看到这个产品的分类信息,比如书本的作者、价格、封面和其他图片。

用户在登录网站之后,开始访问用户相关的数据。用户需要得到认证,然后获得给产品添加评论的权限或者把产品添加到购物车里。在某个时候,用户决定要购买购物车里的产品,于是就下单。订单经过处理之后,开始进入物流运送流程。

你会发现,现在的关系图与 Salesforce 的关系图有一个很大的不同点。现在的关系图中不止一个中心点,而是三个:分类(catalog)、用户(user)和订单(order)。

要对这种 B2C 类型的数据进行分片,可以考虑将它们重构成微服务。例如,与产品目录相关的服务提供目录服务,用户相关的服务提供认证和购物车服务。服务之间的 API 定义了底层数据访问的边界。

数据经过拆分之后,就可以进行分片。事实上,Amazon 在迁移到面向服务架构时就使用了类似的方式进行数据分片。

这种分片方式与B2B 应用的分片在好处和成本比率上有很大的差别。从好处方面来看,你可以依赖数据库从不同的数据库连接数据,或者为数据集提供事务和约束。从成本方面来看,现在要进行分片的不止是一个数据集,而是多个。

B2C2C 类型:Instacart

在 B2B 和 B2C 之间还有另外一种类型的网站,比如 Postmates、Instacart 或 Lyft。[Instacart][12] 的主营业务是将本地商店的货物运送给用户。从某方面来看,Instacart 与 Amazon 有点类似。Instacart 的数据模型具有三个维度:提供货物的本地商店、订购商品的用户和运送货物的司机。所以,很难在这当中挑出一个键进行分片。

如果你的应用属于 B2C2C 类型,可能需要采取不同的策略。你会发现大部分数据表会共享一个维度:地理位置信息。在这种情况下,你可能会选择城市或地理位置作为分片的键。

一般来说,B2B2C 应用或 B2C2C 应用的分片处于图谱的中间。B2B2C 分片的好处和成本之间的比率要高于 B2C 应用,但低于 B2B 应用。

结论

网络上存在很多有关分片的观点。我们发现它们大部分都是基于单一的应用类型。事实上,应用类型比其他因素更能影响到分片。B2B 类型的应用最容易进行分片。

2017 年 8 月 16 日 19:002822
用户头像

发布了 321 篇内容, 共 116.6 次阅读, 收获喜欢 122 次。

关注

评论

发布
暂无评论
发现更多内容

区块链重新定义支付结算,让行业更便捷高效

CECBC

移动支付

盘点数字人民币试点地区 哪里既可申请开通又能领红包?

CECBC

数字人民币

Service Mesh框架选型对比分析:Linkerd、Envoy、Istio、Conduit

xcbeyond

Service Mesh 服务网格 3月日更

NodeJS基础入门教程(1)-一文让你快速了解什么是NodeJS

AlbertYang

nodejs

「 视频云大赛 — 大咖驾到 」驱动下一代技术浪潮,我们更专注价值落地

阿里云视频云

阿里云 音视频 视频处理

UDTS上线数据集成服务,汇聚多源数据帮助企业高效分析决策

UCloud技术

数据传输 数据集成

阿里P9在Github上分享的Java面试突击手册,凭借它,我拿下了阿里P7的offer!

Java架构之路

Java 程序员 架构 面试 编程语言

Docker 教程(1)---Docker简介与安装

AlbertYang

Docker

使用组件的细节点

小小

第七次作业

秦挺

搭建博客可能会用到的 Git 命令|学习笔记

彭宏豪95

学习 极客时间 笔记

字节金三银四Java面试题库被泄露,GitHub连夜被下架

Java架构师迁哥

全文检索工具包Lucene入门教程

AlbertYang

lucene

vue+typescript实现组件封装之button篇

小小

typescript Vue

为智能世界“高”歌:HEIGHT,五种风景,一个答案

脑极体

一周信创舆情观察(3.15~3.21)

统小信uos

Flink VS Spark

五分钟学大数据

flink spark 3月日更

Hystrix 实战经验分享

vivo互联网技术

Java 服务器 熔断 Hystrix

rmtc交易所系统开发平台丨rmtc交易所源码设计

系统开发咨询1357O98O718

从无到有实现音视频通讯

anyRTC开发者

ios android 音视频 WebRTC RTC

zookeeper的watch机制

大数据技术指南

大数据 zookeeper 3月日更

APICloud多端开发 | 在线教育App模板源码讲解

APICloud

软件开发 在线教育 移动开发 APP开发 APICloud

比特币:21世纪的终极离岸银行

CECBC

比特币

百度AI人才培养课程0元报名倒计时

百度大脑

百度 AI 飞桨

面试字节跳动定级2-2,拿32*16offer,P8大佬的面试教程给了我春天!

Java架构之路

Java 程序员 架构 面试 编程语言

什么样的技术能进入一线大厂?这份阿里、百度、腾讯等 20家Java岗招聘要求梳理报告,会给你答案;

Java架构之路

Java 程序员 架构 面试 编程语言

身份认证之多因素身份认证(MFA)

龙归科技

第三方登录 统一身份认证

大咖云集!阿里达摩院领航大数据 + AI向量检索专场Meetup回顾(内含讲师PPT领取)

Proxima 技术社区

人工智能 大数据 阿里巴巴 搜索 向量检索

简单粗暴实现深色模式

小小

深色模式

Flink 执行引擎:流批一体的融合之路

Apache Flink

flink

百度直播消息服务架构实践

百度Geek说

手机 直播 移动端

关系型数据库的分片原则-InfoQ