你在使用哪种编程语言?快来投票,亲手选出你心目中的编程语言之王 了解详情
写点什么

JIMDB:一个大规模分布式内存存储的演进之路

2015 年 12 月 11 日

写在前面 Redis 是一个 C 语言编写的开源、支持网络、基于内存、键值对存储、可持久化的高性能 NoSQL 数据库,同时提供多种语言的 API,目前最新版本为 3.0.5 。由于性能优异,已被国内外众多公司采用构建缓存集群。其中,京东对Redis 的应用实践可圈可点。

在2014 年的 QCon 上海大会上,京东云平台首席架构师刘海锋介绍了京东分布式内存存储平台(RAM store platform)。经过两年多的演进,这套系统已经支撑起京东几乎所有的在线业务。近日,InfoQ 采访了刘海锋,再探这个分布式内存存储平台的全貌。以下是采访实录:

InfoQ:你能简单介绍一下 JIMDB 这两年来的研发过程吗?

刘海峰:JIMDB 是一个以内存为中心的键值数据库,目前在我们京东多个数据中心部署了几千台机器,支撑了京东几乎所有的在线业务。JIMDB 的研发是一个逐步演进的过程,最初是从 Redis 改进而来,现在的数据模型是兼容但不仅限于 Redis,可以理解为 Redis 的一个超集。JIMDB 在京东的应用也不限于缓存,我们很多业务线已经把它当成唯一的存储。

具体来说,研发过程经历了三个阶段:

  • 第一个阶段是从 2013 年底开始。当时我们在使用 Redis 时遇到了一些问题,为了解决这些问题,我们把 Redis 这个优秀的单机软件变成一个健壮的分布式系统。比如我们要做故障的手动、自动切换;要实现横向扩展,动态分片并且不能影响网络流量;要实现灵活的异步复制、同步复制。虽然每个实例仍然是单个的 Redis,但整个的集群能够实现故障的切换、横向的扩展和比较灵活的复制。
  • 第二个阶段从 2014 年下半年开始。用一句话来概括这个阶段就是把 JIMDB 变成了一个完全托管、自管理、自运维的存储服务。因为 Redis 的引擎比较简单,为了实现这个目标,我们重写了整个内存存储的引擎,使之可以支持更细粒度的分片;复制协议部分也作了改动,不但支持全量复制、增量复制,还支持了任意局部复制。例如,我们经常遇到某个分片上的热数据过载的问题,这时候的解决方案是把这部分数据复制到其他的实例上,从而分散流量,这样我们就实现了动态的分裂、合并。在运维管理上我们引入了 Docker,部署环节实现了整体的调度。
  • 第三个阶段在 2015 年上半年启动规划,目前这个阶段还在进行中。我们已经把很多实现陆续推到了线上。即,不仅仅支持原来的哈希分片和原有的数据类型,我们还实现了在内存中支持 B+ 树、支持按范围的划分、支持排序的遍历、复制协议也更健壮、更可靠,等等。第三阶段实现的特性将比 Redis 更加强大。当一个分布式存储支持按范围分片和复制的时候,这个系统无疑是更健壮和更可靠的。当然,这个阶段也存在很多的挑战,例如,哈希的分片相对来说比较简单,但我们要实现按范围、跨数据中心的异步和同步复制时,这个挑战就大的多了。

纵观这两年的发展,JIMDB 从最初的几台服务器到现在的几千台、从单机 Redis 系统到自管理的分布式存储系统、用户只需要一个认证授权即可使用、支持京东线上一千多个业务(集群),是一个不断挑战的过程。

InfoQ:市面上已经有了大量的键值对存储数据库,并且已经在大公司的生产环境投入使用。为什么京东还要开发 JIMDB?

刘海峰:这更多的是业务的需求。公司原来的存储应用百花齐放,有人用 Redis、有人用 MongoDB、有人用 memcached 等等。但现在的情况是,数据库用 MySQL 比较多;NoSQL 几乎 99% 的都在用 JIMDB。原因在于 JIMDB 有人维护、自管理、性能稳定,俨然已成为京东内部垄断性的应用。但在项目开始的时候我们也没想到会变成今天的规模,随着业务的发展,JIMDB 一步一步演进成了今天的样子。

InfoQ:JIMDB 在京东的主要应用场景是哪些业务领域?在这些应用场景里,跟其他内存存储相比 JIMDB 有哪些优势?

刘海峰:目前 JIMDB 的应用场景十分广泛。比如,现在依然有很多同事把 JIMDB 当 Redis 来用,很多人拿来当缓存用,也有很多人把 JIMDB 当唯一存储在用,用法不一而足。甚至,很多离线计算 MapReduce 的结果也直接存在 JIMDB 里;对京东的访问用户来说,大家看到的商品详情整个页面的所有元素、第三方 show 的广告、搜索推荐的结果等等,都是存在 JIMDB 里面。我们支撑了无线端、PC 端很多业务。但总的来说,目前用量最大的业务是搜索和推荐的集群,另外单品页的用量也很大。因此这个系统的压力也很大。

跟其他内存存储相比,首先这个系统是从 Redis 演进过来的,Redis 有的功能我都有,但是 JIMDB 在很多方面都比 Redis 更健壮、更稳定。其次,从 Redis 的视角来说,这是一个经过大规模生产环境验证的、更好的 Redis。目前我们有六、七个人在维护这个系统。

InfoQ:对冷热数据的处理以及数据持久化 JIMDB 是怎么做的?在算法和数据结构方面 JIMDB 做了哪些优化设计?

刘海峰:持久化还是采用经典的方式——记日志、定期做快照。虽然这是一个很简单的方式,但是十分的有效。对于可预测的热数据我们会预先做分片,尤其是秒杀活动的内容;而对瞬时的热数据做动态调整是 JIMDB 最优先的特性实现,这跟我们电商的特性相关。目前京东的老机房大量部署了 JIMDB,新机房也部署了很多。

算法和数据结构方面,刚才已经举过一个例子就是 B+ 树。我们实现了 KV 的有序排列和按任意范围的分割、复制。这是我们新加的数据类型,其他的支持已经十分强有力了。

InfoQ:据我所知 Redis 所在机器物理内存使用率并不高(貌似没有超过实际内存总量的 60%)。针对京东这么大规模的在线存储,内存管理方面 JIMDB 是怎么做的?

刘海峰:这一方面主要做的工作是内存分配器的优化。Redis 的内存分配器是 jemalloc ,我们依然沿用了 jemalloc,但是我们作了很多优化。此外,我们对比较大的 Value 做了特殊处理,比如我们不让大 Value 的存储占据内存,而把它写到磁盘中去。但是很多人会问 SSD 的问题,为什么不采用混合存储的架构?

其实在 2014 年的时候我们专门在线上测试过这个方案,当时大概对 10% 的集群采用了混合存储的方案。经过一段时间的测试发现:

  • 首先,虽然 SSD 的成本有一定的优势,但实施工程是有成本的。基于磁盘去写一个有丰富类型的键值数据库其实是比较复杂的,即使是简单的键值都比较复杂,在遇到 Map、List、B+ 树等等,用磁盘的方式实现起来其实更为复杂、成本更高。也就是说,其实现和维护的成本太高,并且性能也不占优,整体工程成本远远超过内存存储。
  • 第二个原因在于,内存的价格在逐渐降低,我们是能承受这个成本的。目前我们使用的内存也越来越大,预计明年我们将在单机上使用 1T 的内存。
  • 第三个原因是系统架构方面的考虑。我们的数据中心有很多的机器,很多应用服务器和私有云服务器多数时候的内存利用率并不高,我们可以利用这些机器的资源做 JIMDB 的动态资源池,只需要在相应的机器上部署一个 JIMDB 的程序就好。这也极大地提高了整个数据中心的资源利用率。

基于以上三点考虑,我们选择用内存做存储。随着京东业务的发展,未来 1~2 年我们 JIMDB 的规模将达到 1 万台机器,当然,这 1 万台机器并不是专用的,而是 JIMDB 在整个数据中心的部署量。

InfoQ:你能谈谈 JIMDB 在“双 11”大考中的表现吗?

刘海峰:JIMDB 在“双 11”的表现很好,系统稳定,性能平稳。我们的新机房启用了大量万兆网卡,以前千兆网卡被打满的情况终于得到缓解。但任何系统都不可能没有任何瑕疵,现在看来 JIMDB 的问题更多的不是技术性的,而是系统到了一定量级怎么去运维,尤其是系统预警和运维操作流程方面的工作需要加强。随着公司业务的发展,运维正变得越来越重要。

我们花了很多精力来做监控与运维。JIMDB 核心的部分是一个个兼容 Redis 协议的 Server,除了网络部分,我们几乎重写了整个存储引擎。还是拿一个具体的应用场景来说吧,假设我一台机器上跑了 15 个实例,但是发现其中一个实例的流量极大,把其他实例的带宽都给占了。这个时候我需要对这个有问题的实例进行分裂和迁移。但是迁移的时候存在一个问题,由于进出流量都很大,迁移有可能是迁不动的。这个时候我们有一个限流措施,保证在不影响其他实例带宽的情况下把有问题的实例迁走。

InfoQ:你怎么看待 JIMDB 未来的发展趋势?或者,你能否谈一下内存云存储(RAMCloud)的未来?

刘海峰:我非常坚信的一点是,内存是存储的未来,特别是对一些有结构化的数据来说。随着内存成本的降低,以及在内存上实现存储的简洁和高效,这个趋势势不可挡。而且我认为 JIMDB 这两年做的工作是一种更务实的 RAMCloud 实现,它是业务驱动的、经过大规模生产环境验证的。

未来随着系统的发展,在功能上我们会以内存为中心,做有序的、KeyValue 的、丰富数据类型的大表支持。JIMDB 未来有可能会加入一些 SQL 的支持。目前要先把规模、稳定和运维做好。


给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015 年 12 月 11 日 17:1812129
用户头像

发布了 62 篇内容, 共 17.3 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

☕【JVM技术之旅】字节码指令重排序

李浩宇/Alex

JVM 指令重排序 6月日更 6 月日更

【译】JavaScript 代码整洁之道-注释篇

KooFE前端团队

JavaScript 前端 代码注释 6 月日更 整洁代码

没想到你是这样的EasyRecovery

淋雨

数据恢复 EasyRecovery 文件恢复

树莓派体验Docker

IT蜗壳-Tango

6 月日更

架构实战营模块5作业

Veek

架构实战营

网络攻防学习笔记 Day35

穿过生命散发芬芳

网络攻防 6月日更

一致性Hash算法与虚拟节点

Kareza

6月日更

Chia奇亚(XCH)系统开发案例解析丨Chia奇亚(XCH)现成源码

系统开发咨询1357O98O718

奇亚Chia算力挖矿系统开发(案例源码)

系统开发咨询1357O98O718

NCRE考试感想 三级信息安全(下)

万里无云万里天

信息安全 6月日更 NCRE 考试经验

这个暑假,狂暴输出炫酷的游戏视频,就靠Camtasia 2021啦!

淋雨

Camtasia 录屏 专业录屏

职场人弯道超车的秘籍,利用Camtasia可以轻松实现!

淋雨

Camtasia 专业录屏

微服务简介

wildpig

微服务 Spring Cloud 容器化

数字中国的视觉进阶:ISP的来处与归途

脑极体

贪心算法之 活动安排(Java代码实现)

若尘

算法 贪心算法 六月日更

京东、秒针、新潮三者“掐架”?户外媒体数字化的新时代来了!

󠀛Ferry

6月日更

无损放大美好回忆  让容颜无惧时光!

淋雨

PhotoZoom 无损放大 图片无损放大

Chia奇亚挖矿系统开发技术方案丨Chia奇亚挖矿源码模式

系统开发咨询1357O98O718

python——格式化输入输出与截取字符串

在即

6月日更 六月日更

“微博评论”高性能高可用计算架构

黄双鹏

架构实战营

权限与认证:JWT实践

程序员架构进阶

源码分析 JWT 认证授权 28天写作 6月日更

【Flutter 专题】112 图解自定义 ACEPieWidget 饼状图 (一)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 6 月日更

XCH奇亚系统开发流程丨XCH奇亚源码案例开发

系统开发咨询1357O98O718

【Vue2.x 源码学习】第四篇 - 对象的深层劫持

Brave

源码 vue2 6月日更

Java并发编程——AQS源码解析

Antway

6月日更

Kubernetes手记(1)- Kubernetes概述

雪雷

k8s 六月日更

机器通用运行框架抽象

型火🔥

架构 微服务 抽象 中间件 机器

浅析「扣减库存」的方案设计

悟空聊架构

分布式 秒杀 电商 6 月日更 库存

你有没有 996 ?你要不要 955 ?

escray

极客时间 学习笔记 朱赟的技术管理课 六月日更

react源码解析6.legacy和concurrent模式入口函数

全栈潇晨

react源码

k8s部署手册

Damon

k8s 6月日更

技术为帆,纵横四海- Lazada技术东南亚探索和成长之旅

技术为帆,纵横四海- Lazada技术东南亚探索和成长之旅

JIMDB:一个大规模分布式内存存储的演进之路-InfoQ