在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

事件流处理:数据仓库的可伸缩替代品

  • 2008-11-09
  • 本文字数:834 字

    阅读完需:约 3 分钟

Dan Pritchett 在博客上提出了一种数据仓库应用的替代方案。虽然厌恶“只能单一位置及单一存储空间上实现的方案”,他也承认有时候必须先聚合数据才能作分析。他所说的正是数据仓库应用的功能——沿着某些变量轴聚合信息并转化数据间的关系。而在 Pritchett 看来,数据仓库应用在使用中有许多缺点。数据仓库应用不仅非常昂贵,“比较小的组织一般难以企及”,而且 ETL(Extract, Transform and Load,提取、转换、装载)软件的工作方式意味着要付出可伸缩性和反应能力的代价:

首先,ETL 给生产数据库增加了明显的负担。如果你的业务有空窗期可以做 ETL,那是最好的;如果没有,管理可伸缩性就是很大的挑战。第二,数据仓库里的数据新鲜度一般滞后 24 小时或更长,随着业务增长,滞后时间会越来越长。

Dan Pritchett 相信有一种方案更便宜,也更可伸缩:用 ESP( Event Stream Processor )处理事件流。

ESP 用类似 SQL 的语言处理各种事件流。与数据库和数据仓库通过 SQL 分析数据表类似,ESP 用它们的查询语言分析事件流。要想理解 ESP,可以把事件类比成数据库表中的行,而事件的属性则对应数据库表的列。每一种事件类型就等于是一张表。 […]

[ESP 分析] 数据的变化,而且就在变化发生的当时分析。我们不再进行批量的 ETL,而是把业务事件变成一连串的数据状态变化。这就创造出一种更易于管理的生产系统的伸缩模型。

[…]

ESP 可以做水平伸缩,因此可以达至一种更具成本效益的业务方案。而且由于 ESP 执行分析是实时的,因此得到的业务指标更加应时,并且不受业务增长的影响。

Dan 也特别指出这种方法的弱点,就是不能进行历史性的分析,不能从当前以外的角度去观察业务活动。Pritchett 提出用一种捕捉并重演事务的框架去克服此弱点,不过该方案相当昂贵。Tahir Akhtar 在帖子的留言中提出另一种弥补方法:用 ESP 替代 ETL,但在享用 ESP 的可伸缩性和反应能力优势的同时,继续使用数据仓库应用以保留历史分析能力。

查看英文原文: Event Stream Processing: Scalable Alternative to Data Warehouses?

2008-11-09 19:321627
用户头像

发布了 225 篇内容, 共 75.5 次阅读, 收获喜欢 53 次。

关注

评论

发布
暂无评论
发现更多内容

Gitlab Pipeline+Supervisor 实战Python项目CI/CD

雪雷

gitlab jenkins CI/CD Supervisor

记一次混合云API发布的反思

雪雷

iptables API api发布

记一次混合监控的反思

雪雷

监控 zabbix redis监控 监控宝

API 中签名的使用

架构精进之路

接口安全

Docker Web管理工具

雪雷

Docker shipyard dockerui

Serverless初探

雪雷

Serverless Lambda 无服务器云函数

JVM-技术专题-GCViewer调优GC

码界西柚

JVM

探测mysqldump详细过程

Simon

MySQL

lower_case_table_names参数详解

Simon

MySQL

Ceph集群部署

雪雷

分布式存储 Ceph rdb pvc

Jenkins部署Python项目实战

雪雷

Python jenkins CI/CD

Docker+Jenkins+Gitlab+Django应用部署实践

雪雷

DevOps jenkins CI/CD

Linux自定义快捷工具

雪雷

Linux Shell tools scripts

Golang领域模型-开篇

奔奔奔跑

微服务 后端 领域驱动设计 架构设计 Go 语言

MySQL线程状态详解

Simon

MySQL 线程状态

微服务API网关-Kong详解

雪雷

kong api 网关

API统一管理平台-YApi

雪雷

YAPI API接口管理

业务容器化改造

雪雷

Docker 容器 微服务 服务化改造

JVM-技术专题-管程技术分析

码界西柚

JVM 管程

性能优化-技术专题-并发编程

码界西柚

Java 多线程

Guacamole实战

雪雷

guacamole 远程登录 堡垒机

RabbitMQ实践

雪雷

RabbitMQ 消息队列

Linux系统检查脚本

雪雷

Shell 系统检测

Python利用sphinx构建个人博客

雪雷

sphinx Blog

同态加密

soolaugust

学习 加密 同态加密

SonarQube集成gitlab/jenkins

雪雷

jenkins sonar gitlab ci 代码扫描

Jenkins 详解

雪雷

jenkins

Elasticsearch安装

北漂码农有话说

在java中使用SPI创建可扩展的应用程序

程序那些事

Java spi 可扩展程序 可扩展应用

Apache常用配置指北

亻尔可真木奉

Apache 代理 跨域

Flink高可用性设置-4

小知识点

scala 大数据 flink 流计算

事件流处理:数据仓库的可伸缩替代品_架构_Sadek Drobi_InfoQ精选文章