Spotify的高可靠性事件分发系统概述

Igor Maravic 在最近的 QCon London 大会上出席演讲，高度概述了Spotify 的事件分发系统和一些运维方面的关键点。他提到Spotify 的事件分发系统在设计上拥有可控延迟，能够处理由Spotify 客户端在高峰时刻每秒生成的150 万事件，且永不丢失事件。

由各种不同的客户端产生的事件有超过250 种事件类型，并且大小从几个字节到几KB 不等。有些事件对零丢失率有严格要求，其中一个例子是歌曲特许权使用费的计算，但是为了简化系统设计，Spotify 的事件分发系统对所有事件都保证100% 分发。所有事件都被存储在按小时归集的区间内，每个区间包含了特定日期某个小时的所有事件。所有的事件都被标记上到达时间，以此来保证事件被存放到相应的区间内。

Spotify 的软件工程师 Maravic 强调，在设计上保证所有事件分发还不够，还必须通过监控来验证设计需求是否被真正的满足了。Spotify 的事件分发系统是由许多微服务构成的复杂的分布式系统。为了发现系统哪部分需要改进、在突发事故发生时简便地找到真实原因以及在数据分发时存在的问题，每一个组件都需要被监控。他们总结了三种类型的监控：

系统监控，用来监控系统的整体运行情况，例如 CPU 和内存的使用情况等。
数据监控，用来检查数据的时效性，保证数据在要求的延迟内分发。
数据丢失率监控，用来监控事件分发的完整性。为了达到这一目的，他们构建了一个工具来监控所有的输入和所有的输出，以此发现数据丢失和其他数据传输问题。

Maravic 提到，尽管他们的系统需要 7*24 小时运行，但是他们并没有一个运维团队；相反，负责开发系统的开发人员也会负责系统的运维，他认为这有益于推动优秀的开发人员成长为卓越的开发人员。

Maravic 曾写过一系列关于系统架构详情的博客，其中包括一些性能报表。

查看英文原文： Overview of the Reliable Event Delivery System at Spotify

感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

创作场景

Spotify 的高可靠性事件分发系统概述