硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

事件流处理:数据仓库的可伸缩替代品

  • 2008-11-09
  • 本文字数:834 字

    阅读完需:约 3 分钟

Dan Pritchett 在博客上提出了一种数据仓库应用的替代方案。虽然厌恶“只能单一位置及单一存储空间上实现的方案”,他也承认有时候必须先聚合数据才能作分析。他所说的正是数据仓库应用的功能——沿着某些变量轴聚合信息并转化数据间的关系。而在 Pritchett 看来,数据仓库应用在使用中有许多缺点。数据仓库应用不仅非常昂贵,“比较小的组织一般难以企及”,而且 ETL(Extract, Transform and Load,提取、转换、装载)软件的工作方式意味着要付出可伸缩性和反应能力的代价:

首先,ETL 给生产数据库增加了明显的负担。如果你的业务有空窗期可以做 ETL,那是最好的;如果没有,管理可伸缩性就是很大的挑战。第二,数据仓库里的数据新鲜度一般滞后 24 小时或更长,随着业务增长,滞后时间会越来越长。

Dan Pritchett 相信有一种方案更便宜,也更可伸缩:用 ESP( Event Stream Processor )处理事件流。

ESP 用类似 SQL 的语言处理各种事件流。与数据库和数据仓库通过 SQL 分析数据表类似,ESP 用它们的查询语言分析事件流。要想理解 ESP,可以把事件类比成数据库表中的行,而事件的属性则对应数据库表的列。每一种事件类型就等于是一张表。 […]

[ESP 分析] 数据的变化,而且就在变化发生的当时分析。我们不再进行批量的 ETL,而是把业务事件变成一连串的数据状态变化。这就创造出一种更易于管理的生产系统的伸缩模型。

[…]

ESP 可以做水平伸缩,因此可以达至一种更具成本效益的业务方案。而且由于 ESP 执行分析是实时的,因此得到的业务指标更加应时,并且不受业务增长的影响。

Dan 也特别指出这种方法的弱点,就是不能进行历史性的分析,不能从当前以外的角度去观察业务活动。Pritchett 提出用一种捕捉并重演事务的框架去克服此弱点,不过该方案相当昂贵。Tahir Akhtar 在帖子的留言中提出另一种弥补方法:用 ESP 替代 ETL,但在享用 ESP 的可伸缩性和反应能力优势的同时,继续使用数据仓库应用以保留历史分析能力。

查看英文原文: Event Stream Processing: Scalable Alternative to Data Warehouses?

2008-11-09 19:321518
用户头像

发布了 225 篇内容, 共 72.9 次阅读, 收获喜欢 52 次。

关注

评论

发布
暂无评论
发现更多内容

TDSQL | 《checkpoint原理浅析》

腾讯云数据库

tdsql 国产数据库

18M 超轻量图像识别系统,商品、车辆、人脸识别一网打尽!

百度大脑

开发postgreSQL connector支持update/delete操作的代码

LooK

知名身份安全厂商九州云腾加入龙蜥社区

OpenAnolis小助手

Linux 开源 互联网

AI贺新年,开发者的虎年这样过才有意思

华为云开发者联盟

AI 华为云

TDSQL | TXSQL数据库内核与特性

腾讯云数据库

tdsql 国产数据库

设计模式之工厂模式

Catch

设计模式

Luna:你想要的 React Native 调试工具

Shopee技术团队

前端 开发者工具 React Native

(1-23/23)Transformer依然很强

mtfelix

300天创作 2022Y300P

对比下 datax 的 OceanBase/MYSQL 不同数据同步方案的效率差异 || 聊聊参数 rewriteBatchedStatements

明哥的IT随笔

数据库

看看 InfoQ 的编辑和各大厂技术专家们,如何盘点技术圈的 2021

InfoQ写作社区官方

2021年度技术盘点与展望

架构实战营 - 群讨论汇总 (2022)

华仔

#架构实战营

创梦天地发行公益性数字艺术藏品,打造不一样的年味

科技热闻

Hive SQL底层执行过程 | 社区征文

五分钟学大数据

hive 新春征文

夜莺系统调研报告

苍狼

架构训练营 week7 作业

红莲疾风

「架构实战营」

Spark 核心详解

五分钟学大数据

spark 1月月更

详解 Flink CEP(以直播平台监控用户弹幕为例)

五分钟学大数据

flink 1月月更

对GO切片的理解

CRMEB

TDSQL | DTS for PostgreSQL 逻辑复制详解

腾讯云数据库

tdsql 国产数据库

设计模式之单例模式

Catch

设计模式

Flink Keyed State 对 Key 的管理机制解析

邸星星

flink 状态管理 Flink KeyedState

在 Kubernetes 上安装和运行极狐GitLab实例

极狐GitLab

Kubernetes 极狐GitLab

“中国智能科学技术最高奖”公布,华为云田奇获杰出贡献奖

极客天地

实现科技自立自强,各企业如何发力?

脑极体

[架构实战营]第六模块作业

Vincent

「架构实战营」

参加开源贡献后,大厂向我抛出了橄榄枝

LooK

架构训练营 week7 课程总结

红莲疾风

「架构实战营」

设计模式之设计原则

Catch

设计模式

分布式项目中,选型与依赖管理

架构 分布式 微服务 架构设计

回顾明道云的2021(文末互动有奖)

明道云

事件流处理:数据仓库的可伸缩替代品_架构_Sadek Drobi_InfoQ精选文章