应用工程师的分布式系统理论-InfoQ

分布式系统工程师、《RabbitMQ 实战》合著者 Alvaro Videla 在 2017 伦敦 QCon 上回顾了分布式系统理论。主题涵盖将分布式系统从不同维度进行分类，例如时间模型、故障模式。并讨论这些类别的选型考虑因素。

Videla 首先介绍了几种时间模型，它们的区别主要在于分布式系统每步处理时间是否已知。他列举了三类（注意不要和并行编程中的相关概念混淆）：

同步：该类分布式系统已知其每一步的耗时。虽然这能够在诸如故障检测上有所帮助，但是真实系统不可能做到。
异步：该类分布式系统每一步执行都无序，且无法保证执行耗时。这更符合真实的系统，但是真实系统一般都会引入超时机制。
半同步：该类分布式系统每一步执行至少能够提供一些耗时信息，因此可以为其设置阈值。

Videla 还阐述了进程间通信的方式。一般系统要么选择消息传递机制，要么选择共享内存方式。

Videla 最后提到的分类方式是故障模式，它是按照进程故障类型进行分类的，包括：

崩溃后停止：当一个进程崩溃后，再也无法恢复。这不能反应真实场景，一般当一台机器故障时，它不会被处置，而是被重新利用。
崩溃后恢复：当一个进程崩溃后，可以通过一系列恢复算法进行恢复。例如通过从数据库重新读取，或是和其他进程进行交互。
忽略故障：当进程无法接收或者发送消息的时候，直接忽略它。对此 Videla 给的例子是缓存模块，当发生可以接收消息，但是无法发送响应消息的场景。此时对于客户端来说，缓存模块仍然是有效的，因为它仍然保存着最新的数据。
任意失效模式：此模式下，一旦进程开始发送或者接收不正确的消息，这些消息的计算结果应该能够反映系统处于失效的状态。

Videla 强调，在这些模式和类型中间选择时没有银弹。最终的选型一定是基于系统需求权衡的结果。

还有一点值得注意的是，上述一些选项无法反映真实系统，但是它们在分布式系统理论中还是有用的。这是因为它们相对简单，可以用于验证基于这些简单场景的新算法。这些算法如果在简单模型下适用，它们也可能适用于更加复杂的场景。

除此之外，Videla 还介绍了故障检测，这是一种用于检测其他进程是否正常的算法。设计这些算法的主要难点在于区分故障进程和长耗时进程。对此 Videla 介绍了名为“最终完美故障检测器（Eventually Perfect Failure Detector）”，它基于超时进行扩展，将超过一定时限的进程标记为嫌疑进程。这意味着，如果被标记为有故障嫌疑的进程，后面被发现仍然存活，将会从嫌疑列表中移除。

完整视频可以在线观看，同时 Videla 也以此主题写了一篇文章。文章介绍了仲裁（quorum）和一致性等额外的概念，同时也给出了后续阅读的建议。

查看英文原文：

Distributed Systems Theory for Practical Engineers

发布

暂无评论

波动的响应延迟：如何应对变慢的 Redis？（下）
如果在排查时发现，Redis没有执行大量的慢查询命令，也没有同时删除大量过期keys，是不是就束手无策了呢？
2020 年 9 月 21 日
科普小知识：区块链与分布式系统
区块链技术的火热推动了传统分布式技术的进一步发展。从区块链技术的本质来看，基本脱离不开传统分布式系统跟密码学的核心技术。那么区块链技术真的值得去研究吗？是区块链选择了我们，还是我们选择了区块链？本文从一个分布式系统研究者的角度来理解区块链。
2020 年 8 月 27 日
分布式高可用之故障恢复：知错能改，善莫大焉
软件故障主要由程序或软件Bug等导致，通常是开发者在开发或测试时解决，导致软件不可用的物理故障主要是节点故障和网络故障。
2019 年 12 月 9 日
week05- 总结
没时间写了，后面补吧。
2020 年 7 月 9 日
InfluxDB 企业版一致性实现剖析：他山之石，可以攻玉
InfluxDB企业版一年的License费高达1.5万美刀，为什么它值这个价钱？就是因为技术带来的高性能和成本优势。
2020 年 3 月 18 日
平均负载是什么？
平均负载时的单位时间，是系统处于可运行状态和不可中断情况的平均进程数，总之为平均活跃的进程数。怎么验证这是对的呢。使用man uptime如下图所示。
2020 年 8 月 16 日
分布式系统（上）：学会用服务等级协议 SLA 来评估你的系统
定义好一个系统架构的SLA，对于一个优秀的架构师来说是必不可少的一项技能，也是一种基本素养。
2019 年 4 月 24 日
当 Messaging 遇上 Jepsen
本文介绍利用 Jepsen 对分布式消息系统进行了故障下的一致性验证。
架构最佳实践方法论
MySQL 主从数据库同步是如何实现的？
主从同步做数据复制时，一般可以采用几种复制策略。性能最好的方法是异步复制。
2020 年 3 月 26 日
极客时间架构师培训 1 期 - 大作业二
大作业二
2021 年 1 月 3 日
请关注于进程，而非单独的微服务
当使用基于分布式系统的微服务时，成功的关键是关注于分布式进程作为一个整体，而不是关注于微服务本身。Eric Ess在最近的微服务伦敦大会上发表了有关如何在jet.com监控分布式进程的演说，他指出这些服务是最不重要的部分。
语言 & 开发架构
如何从 8 个维度全面比较机器学习算法？
当两种算法似乎都有效时，如何选择使用算法A，还是算法B？
文化 & 方法 AI 算法方法论
微服务的漫长历史
与许多人认为的不同，微服务的概念已有相当长的历史，SOA（面向服务的体系架构）也不是90年代才被提出的。在最近举办的伦敦微服务大会上，Greg Young就微服务核心概念的前世今生进行了演讲。其中他表示，在过去的50年间，我们一直在使用服务这一概念背后的核心思想。
SOA 语言 & 开发架构
SpringBoot 事件监听机制及观察者 / 发布订阅模式详解
介绍观察者模式和发布订阅模式的区别。
2020 年 12 月 23 日
论模式在领域驱动设计中的重要性
最近在阿姆斯特丹举办的领域驱动设计欧洲大会上，Cyrille Martraire在其演讲中谈论到模式的重要性时表示，了解领域驱动设计之外诸多现存的模式很有必要，它们可以帮助你设计出更好的系统。
设计模式语言 & 开发架构
分布式高可靠之负载均衡：不患寡，而患不均
我与你介绍了常见的负载均衡策略，包括轮询策略、随机策略、哈希和一致性哈希策略。
2019 年 12 月 2 日