10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

Flickr 选择使用 Sentinel 来保证 Redis 的高可用性

  • 2014-08-19
  • 本文字数:1043 字

    阅读完需:约 3 分钟

Flickr 近期宣布,针对他们的线下任务处理子系统中的 Redis ,已经部署了 Sentinel ,用于自动化其故障转移操作。但他们对 Redis 的一致性问题感到了担忧。

去年, Factual 的工程师及分布式系统专家 Kyle Kingsbury ,对 Redis 的一致性问题进行了研究,并将结果发表在了他的 Jespen 系列连载中。在文章中,他表示能够使用 Redis 和 Sentinel 构造出这样一个场景:在 Redis 通知我们已成功的写请求中,有 56% 的写请求事实上是被丢弃了。Kingbury 表示,这个令人担心的结果是由 Sentinel 系统中的两个问题导致的。

第一个问题,要注意在网络分割开始时,所有客户端都会丢失写请求的数据。因为当网络出现故障时,客户端都往 n1 节点写数据。由于之后 n1 退级,不再是主节点,在这个时间窗口内写入的数据将全部丢失。第二个问题是由 split-brain 引起的:在网络分割现象消失之前,n1 和 n5 都成为了主节点。一些客户端可能可以成功地写入数据,而其他的将丢失所写的数据,这取决于客户端与哪个节点进行交互。

Redis 的作者 Salvatore Sanfilippo 对这篇文章作出了回复。他确认了这个问题的存在,但也同时指出:丢失数据量最小化并不是 Sentinel 的设计目标。

需要明确的是,这条指责是正确的。它表明了 Sentinel 并不擅长处理在网络分割中将丢失数据量最小化这个复杂的问题,这一点原本就不是 Sentinel 的设计目标。况且,在用户通过自己所写的脚本来处理故障转移的案例中,99% 的案例在故障检测和故障转移处理过程上,远远逊于 Sentinel。

尽管 Flickr 知道这些问题,但由于起初他们为自己的线下任务处理子系统制定了过于自信的 SLA 目标,他们开始转而使用 Sentinel。在注意到他们的手动故障恢复流程不可能帮助他们达到 99.995% 正常运行时间的目标后,他们寻找了其他解决方案,并选定了 Sentinel。

在对 Sentinel 系统及它的配置参数进行重要的测试之后,他们能设计出一种在 4~6 秒钟内自动进行故障转移的方法。从而使得他们可以达到之前设定的正常运行时间的目标。在测试过程中,他们也能重现 Kingsbury 所发现的场景。但是,Flickr 工程师 Richard Thorn 和 Shawn Cook 解释道:“尽管我们相信我们的生产环境会受到 split-brain 的影响,但我们确信所获得的好处远大于带来的风险”。

参考英文原文: Flickr Chooses Sentinel for Highly Available Redis


感谢邵思华对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-08-19 04:093408

评论

发布
暂无评论
发现更多内容

稳居第一,实至名归!

天翼云开发者社区

云服务

超强组合!Dify+Milvus构建生产级RAG系统的终极指南

阿里云大数据AI技术

人工智能 云计算 大数据 Milvus dify

跟复旦硕士聊了1小时,没想到这些基础题他居然也栽了

王中阳Go

Go 后端 模拟面试

AI 赋能的故障排除:技术趋势与实践

不在线第一只蜗牛

人工智能

每日经济新闻专访:押注具身智能模型、不做硬件做“大脑”,网易能否啃下比智驾更复杂的“硬骨头”?

网易伏羲

智慧矿山 网易灵动 工程机械智能化 挖掘机器人 装载机器人

数据治理之数据质量评估维度及方法

天翼云开发者社区

数据治理

Coze开源本地部署教程

测吧(北京)科技有限公司

人工智能 软件测试 测试开发 Coze开源

智能化测试基础架构

测吧(北京)科技有限公司

人工智能 软件测试 测试开发 agent

全球AI大模型综合排名(Top 20)

测吧(北京)科技有限公司

人工智能 软件测试 测试开发

多分支注意力机制提升表格数据建模效果

qife122

机器学习 表格数据

中烟创新自研【烟草专卖执法案卷评查系统】入选“北京市人工智能赋能行业发展典型案例”

中烟创新

2025可信数据库发展大会召开,天翼云TeleDB领航核心系统创新实践!

天翼云开发者社区

数据库

昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

极客天地

新手教程:用外部 PostgreSQL 和 Zookeeper 启动 Dolphinscheduler

白鲸开源

数据库 postgresql zookeeper 开源 Apache DolphinScheduler

重复文件查找工具:DataSecurity Plus 全面提升企业文件管理效率

运维有小邓

重复文件查找工具

社交媒体上舆情监测的“微爆点”:如何识别和干预?

沃观Wovision

舆情监测 海外舆情监控 沃观Wovision 舆情监测系统

全球首发!网易灵动推出“灵掘”具身智能模型,展示中国工程机械智能化硬核实力

网易伏羲

智慧矿山 网易伏羲 网易灵动 工程机械智能化 工程机器人

10分钟无痛部署!字节Coze开源版喂饭教程

测试人

智能汽车,不只是造出来的,更是“拟”出来的

DevOps和数字孪生

智能汽车 数字样机

手把手玩转本地大模型:Ollama+DeepSeek+Dify 零门槛全流程指南

测试人

软件测试

圆满闭幕|WAIC2025规模创历史新高,“灵掘”具身智能模型全球首发引全网关注

网易伏羲

智慧矿山 工程机械智能化 工程机器人 挖掘机器人 装载机器人

社区新贡献:X2SeaTunnel 助你无缝迁移到 SeaTunnel!

白鲸开源

开源 数据同步 Apache SeaTunnel 数据迁移工具 X2SeaTunnel

【直播预约】天翼云如何通过 DolphinScheduler 实现大数据自动化与全链路血缘,探索实践亮点!

白鲸开源

大数据 技术分享 Apache DolphinScheduler 天翼云 血缘关系

暑期高效出行用鸿蒙5,华为钱包畅行无忧卡一碰就过闸、小艺问答智能规划行程

最新动态

一文教会你基于 Rainbond 部署 DolphinScheduler 高可用集群

白鲸开源

大数据 开源 部署 Apache DolphinScheduler rainbond

Vidar Stealer:隐藏在Steam游戏中的信息窃取恶意软件分析

qife122

恶意软件 威胁分析

每日经济新闻专访:押注具身智能模型、不做硬件做“大脑”,网易能否啃下比智驾更复杂的“硬骨头”?

网易伏羲

智慧矿山 网易灵动 工程机械智能化 挖掘机器人 装载机器人

研发效能的下一站:AI是否会让你“无事可做”?

思码逸研发效能

研发效能 效能度量 效能管理 智能编程 思码逸

汽车线束行业AI智能化MES解决方案:推动智能制造与质量升级

万界星空科技

mes 汽车线束行业 汽车线束mes 制造业转型 智能化MES

e签宝CEO金宏洲受邀出席WAIC世界人工智能大会

科技汇

一图读懂网易灵动“灵掘”与“机械智心”

网易伏羲

智慧矿山 网易灵动 无人挖掘机 无人装载机 装载机器人

Flickr选择使用Sentinel来保证Redis的高可用性_语言 & 开发_Benjamin Darfler_InfoQ精选文章