2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

StreamAlert:无服务器实时数据分析

  • 2017-08-08
  • 本文字数:2148 字

    阅读完需:约 7 分钟

2017 年 2 月 1 日,Airbnb 安全团队宣布开源框架 StreamAlert 发布了,它是一种实时数据分析框架,附带伴随时间点的报警功能。StreamAlert 属于无服务化开源框架,每小时可以横向扩展到 TB 级别数据支撑力度,自动化的基础设施部署以及默认开启安全保护机制。

下面这张图是 StreamAlert 的功能示意图。

为什么会有 StreamAlert?

Airbnb 公司需要一种产品可以基于它们公司的实际运行环境,强化工程师和管理员的能力,特别是针对实时数据的获取、分析和告警。

当安全团队设计用户用例,并且寻找各种可行性方案之后,团队根据需求进行编码,需要实现的需求包括:

  • 针对任何 AWS 账户的简单、安全、可重复的部署方式
  • 每天轻松从兆扩展为百万兆
  • 最小化基础设施维护,不需要专家级的 devops 人员
  • 默认开启基础设施安全机制,不需要安全专家
  • 支持从不同环境过来的数据(例如 IT、PCI、工程部门)
  • 支持不同的环境类型的数据(例如云、数据中心、办公室)
  • 支持数据的不同类型(例如 JSON、CSV、Key-Value、Syslog)
  • 支持使用类似于安全、基础设施、尊重以及其他方面的测试用例

Airbnb 安全团队因为找不到这样一款适配所有需求的产品,所以他们决定自己构建一个。因为团队需要的产品与环境无关,也就是说具有通用型,自然而然就满足了成为开源项目的基础。

优点

就像上面提到的,StreamAlert 有一些特定的优点:

  • 无服务器:StreamAlert 利用了 AWS 的 Lambda,这种做的好处是你不再需要自己管理服务器,不再需要对服务器打补丁,不再需要了解服务器的硬件配置差别
  • 可扩展性:StreamAlert 利用 AWS 的 Kinesis Streams 特性,这样做的好处是支持“流量每小时从兆扩展为百万兆,每秒的写入记录数从千级扩展到百万级”
  • 自动化:StreamAlert 利用 Terraform,支持基础设施和支持服务以代码的形式呈现出来,并支持自动化部署
  • 安全机制: StreamAlert 使用安全传输(TLS),在容器 / 沙盒内进行数据分析,根据自定义的环境进行数据切分,支持基于角色的访问控制(RBAC)
  • 开放源代码:任何人都可以使用或者贡献 StreamAlert 源代码

用户用例

下面这张图解释了 StreamAlert 可以分析的一些数据集范例:

StreamAlert 的产品目标是尽可能地支撑未知用户需求,也就是说对于数据的分析和告警用户用例,应该支撑得最为广泛。

更高层次来说,StreamAlert 支持如下:

任意源:StreamAlert 可以接收从 S3 的 bucket 过来的数据,也可以接收来自任意支持亚马逊 Kinesis

  • Stream 的第三方服务的数据。例如:fluentd、logstash、aws-kinesis-agent、osquery、Java、JavaScript、Ruby、PHP,以及任何被 AWS SDK 支持的语言。
  • 任何操作系统,StreamAlert 可以接收从任何设备过来的数据,只要它们支持日志转发功能,包括 Linux、MacOS、Windows,等等。
  • 任何环境,StreamAlert 可以接收从任何环境发送过来的数据,只要它们可以连接到互联网,包括云、数据中心、办公室,等等。

从数据的角度考虑,StreamAlert 支持例如 JSON、CSV、Key-Value,以及 Syslog 等多种格式。

如果你是一个 AWS 客户,可以通过 S3 的 bucket 方式压缩数据格式。相应地,StreamAlert 也支持 CloudTrail、AWS Config,以及 S3 服务访问日志。

如果你不是 AWS 客户,StreamAlert 也支持如下数据:

  • 主机日志(例如 Syslog、osquery、auditd)
  • 网络日志(例如 Palo Alto Networks、Cisco)
  • Web 应用日志(例如 Apache、nginx)
  • SaaS 提供者(例如 Box、OneLogin)

需要注意的是,SmartAlert 并不是为了解决分析指标或者时间序列的用户用例设计的,在这个领域已经有很多很棒的开源框架或者商业软件存在了,例如 Prometheus、DataDog,以及 NewRelic。

数据分析

使用 Python 编写的规则包括数据分析和告警逻辑。以下是一段 Python 代码,示范在 PCI 环境下对 sudo 的使用进行告警:

复制代码
@rule('production_sudo',
logs=['osquery'],
matchers=['pci'],
outputs=['s3', 'pagerduty', 'slack'])
def production_sudo(record):
table_name = record['name']
tag = record['columns']['tag']
return (
table_name == 'linux_syslog_auth' and
fnmatch(tag, 'sudo*')
)

告警

如上图可见,StreamAlert 配置了灵活的告警框架,可以和全新的或者已经存在的故障管理工具集成在一起使用。StreamAlert 可以启用规则,实现发送给多个告警输出。

架构

StreamAlert 使用如下的设备:

  • AWS Kinesis Streams:数据流、AWS Lambda 流(基于流的模型)
  • AWS Kinesis Firehose:加载流数据到 S3 数据存储层
  • AWS Lambda (Python):数据分析和告警
  • AWS SNS:告警队列
  • AWS S3:可选的数据源、长期数据存储层、长期告警存储层
  • AWS Cloudwatch:基础设施指标
  • AWS KMS:应用密码的加密和解密
  • AWS IAM:基于规则的访问控制(RBAC)

下一步计划

在 2017 年的 Q2,Airbnb 的安全团队预计会加强 StreamAlert 的分散流量处理能力,进一步提升告警的上下文关联度。

对于历史数据的检索,StreamAlert 预计在 2017 年年底实现功能,通过使用 AWS Athena(一种 S3 提供的无服务器交互式查询服务),这种方式将会允许用户使用 SQL 语句进行实时和定时的分析数据查询。


感谢丁晓昀对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-08-08 19:002146
用户头像

发布了 50 篇内容, 共 31.3 次阅读, 收获喜欢 40 次。

关注

评论

发布
暂无评论
发现更多内容

Sam Altman 晒网友新年愿望清单;AI Pin 明年 3 月开始交付丨 RTE 开发者日报 Vol.112

声网

我在平台与AIGC的交互的组件设计方案(2)

大东(AIP智能体运营专员)

Nacos 荣获 GLCC 优秀社区,同时 2.3.0-BETA 发布,欢迎试用

阿里巴巴云原生

阿里云 云原生 nacos

极狐GitLab 集成 sonarqube 实践指南

极狐GitLab

Databend 开源周报第 125 期

Databend

C 语言教程:条件和 if...else 语句

小万哥

程序人生 编程语言 软件工程 C/C++ 后端开发

浙江电信基于 Amoro + Apache Iceberg 构建实时湖仓实践

Amoro Community

Apache iceberg 湖仓一体 大数据 开源 电信运营商

技术人的 2023 总结:人工智能-基于机器学习的环境污染影响评估学习

恒山其若陋兮

#技术人的2023总结

连锁餐饮数字化:一体化运营管控平台

明道云

大数据技术探索:学习、应用与未来趋势

啊川..

软件测试/测试开发|常见软件测试框架类型:TDD、BDD、DDD、ATDD、DevOps介绍

霍格沃兹测试开发学社

图形工作站跟服务器有什么区别?

青椒云云电脑

图形工作站

如何用零代码工具去经营好企业的客户

明道云

企业云桌面解决方案

青椒云云电脑

云桌面 云桌面解决方案

2023年度系列榜单出炉 这些优质应用你都用过多少?

最新动态

WuBit:聚合BRC20资产交易,续写铭文市场新浪潮

石头财经

WuBit:聚合BRC20资产交易,续写铭文市场新浪潮

BlockChain先知

E3PO:畅想 360° 视频传输开发实战

恒山其若陋兮

E3PO 畅想 360° 视频传输

OpenAI换血大震动始末:“ChatGPT之父”奥特曼,缘何被“扫地出门”?

芯动大师

低代码实施复杂应用的实践方法

明道云

提升用户体验--了解和探索无障碍性测试

QE_LAB

无障碍 测试技术

Tik Tok短时间内快速吸粉方法——海外云手机版

Ogcloud

跨境电商 TikTok 外贸

中国科学事业的长河上,升起一道曙光

脑极体

AI 算力

软件测试/测试开发|如何定位bug,一篇文章告诉你

霍格沃兹测试开发学社

ATorch:蚂蚁开源PyTorch分布式训练扩展库,助你将硬件算力压榨到极致

AI Infra

人工智能 aiinfra

怎么避免Tik Tok被限流?——海外云手机一键解决

Ogcloud

跨境电商 TikTok 外贸

拼多多商品ID取商品详情API:电商行业核心价值及实时数据采集

tbapi

拼多多API接口 拼多多商品详情数据接口 拼多多数据接口

Go 1.22新特性前瞻

Tony Bai

golang Go 语言 go1.22

StreamAlert:无服务器实时数据分析_语言 & 开发_麦克周_InfoQ精选文章