StreamAlert：无服务器实时数据分析

2017 年 2 月 1 日，Airbnb 安全团队宣布开源框架 StreamAlert 发布了，它是一种实时数据分析框架，附带伴随时间点的报警功能。StreamAlert 属于无服务化开源框架，每小时可以横向扩展到 TB 级别数据支撑力度，自动化的基础设施部署以及默认开启安全保护机制。

下面这张图是 StreamAlert 的功能示意图。

为什么会有 StreamAlert？

Airbnb 公司需要一种产品可以基于它们公司的实际运行环境，强化工程师和管理员的能力，特别是针对实时数据的获取、分析和告警。

当安全团队设计用户用例，并且寻找各种可行性方案之后，团队根据需求进行编码，需要实现的需求包括：

针对任何 AWS 账户的简单、安全、可重复的部署方式
每天轻松从兆扩展为百万兆
最小化基础设施维护，不需要专家级的 devops 人员
默认开启基础设施安全机制，不需要安全专家
支持从不同环境过来的数据（例如 IT、PCI、工程部门）
支持不同的环境类型的数据（例如云、数据中心、办公室）
支持数据的不同类型（例如 JSON、CSV、Key-Value、Syslog）
支持使用类似于安全、基础设施、尊重以及其他方面的测试用例

Airbnb 安全团队因为找不到这样一款适配所有需求的产品，所以他们决定自己构建一个。因为团队需要的产品与环境无关，也就是说具有通用型，自然而然就满足了成为开源项目的基础。

优点

就像上面提到的，StreamAlert 有一些特定的优点：

无服务器：StreamAlert 利用了 AWS 的 Lambda，这种做的好处是你不再需要自己管理服务器，不再需要对服务器打补丁，不再需要了解服务器的硬件配置差别
可扩展性：StreamAlert 利用 AWS 的 Kinesis Streams 特性，这样做的好处是支持“流量每小时从兆扩展为百万兆，每秒的写入记录数从千级扩展到百万级”
自动化：StreamAlert 利用 Terraform，支持基础设施和支持服务以代码的形式呈现出来，并支持自动化部署
安全机制： StreamAlert 使用安全传输（TLS），在容器 / 沙盒内进行数据分析，根据自定义的环境进行数据切分，支持基于角色的访问控制（RBAC）
开放源代码：任何人都可以使用或者贡献 StreamAlert 源代码

用户用例

下面这张图解释了 StreamAlert 可以分析的一些数据集范例：

StreamAlert 的产品目标是尽可能地支撑未知用户需求，也就是说对于数据的分析和告警用户用例，应该支撑得最为广泛。

更高层次来说，StreamAlert 支持如下：

任意源：StreamAlert 可以接收从 S3 的 bucket 过来的数据，也可以接收来自任意支持亚马逊 Kinesis

Stream 的第三方服务的数据。例如：fluentd、logstash、aws-kinesis-agent、osquery、Java、JavaScript、Ruby、PHP，以及任何被 AWS SDK 支持的语言。
任何操作系统，StreamAlert 可以接收从任何设备过来的数据，只要它们支持日志转发功能，包括 Linux、MacOS、Windows，等等。
任何环境，StreamAlert 可以接收从任何环境发送过来的数据，只要它们可以连接到互联网，包括云、数据中心、办公室，等等。

从数据的角度考虑，StreamAlert 支持例如 JSON、CSV、Key-Value，以及 Syslog 等多种格式。

如果你是一个 AWS 客户，可以通过 S3 的 bucket 方式压缩数据格式。相应地，StreamAlert 也支持 CloudTrail、AWS Config，以及 S3 服务访问日志。

如果你不是 AWS 客户，StreamAlert 也支持如下数据：

主机日志（例如 Syslog、osquery、auditd）
网络日志（例如 Palo Alto Networks、Cisco）
Web 应用日志（例如 Apache、nginx）
SaaS 提供者（例如 Box、OneLogin）

需要注意的是，SmartAlert 并不是为了解决分析指标或者时间序列的用户用例设计的，在这个领域已经有很多很棒的开源框架或者商业软件存在了，例如 Prometheus、DataDog，以及 NewRelic。

数据分析

使用 Python 编写的规则包括数据分析和告警逻辑。以下是一段 Python 代码，示范在 PCI 环境下对 sudo 的使用进行告警：


@rule('production_sudo',
     logs=['osquery'],
     matchers=['pci'],
     outputs=['s3', 'pagerduty', 'slack'])
def production_sudo(record):
   table_name = record['name']
   tag = record['columns']['tag']
   return (
       table_name == 'linux_syslog_auth' and
       fnmatch(tag, 'sudo*')
   )

告警

如上图可见，StreamAlert 配置了灵活的告警框架，可以和全新的或者已经存在的故障管理工具集成在一起使用。StreamAlert 可以启用规则，实现发送给多个告警输出。

架构

StreamAlert 使用如下的设备：

AWS Kinesis Streams：数据流、AWS Lambda 流（基于流的模型）
AWS Kinesis Firehose：加载流数据到 S3 数据存储层
AWS Lambda (Python)：数据分析和告警
AWS SNS：告警队列
AWS S3：可选的数据源、长期数据存储层、长期告警存储层
AWS Cloudwatch：基础设施指标
AWS KMS：应用密码的加密和解密
AWS IAM：基于规则的访问控制（RBAC）

下一步计划

在 2017 年的 Q2，Airbnb 的安全团队预计会加强 StreamAlert 的分散流量处理能力，进一步提升告警的上下文关联度。

对于历史数据的检索，StreamAlert 预计在 2017 年年底实现功能，通过使用 AWS Athena（一种 S3 提供的无服务器交互式查询服务），这种方式将会允许用户使用 SQL 语句进行实时和定时的分析数据查询。

感谢丁晓昀对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

创作场景

StreamAlert：无服务器实时数据分析