2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

事件流处理:数据仓库的可伸缩替代品

  • 2008-11-09
  • 本文字数:834 字

    阅读完需:约 3 分钟

Dan Pritchett 在博客上提出了一种数据仓库应用的替代方案。虽然厌恶“只能单一位置及单一存储空间上实现的方案”,他也承认有时候必须先聚合数据才能作分析。他所说的正是数据仓库应用的功能——沿着某些变量轴聚合信息并转化数据间的关系。而在 Pritchett 看来,数据仓库应用在使用中有许多缺点。数据仓库应用不仅非常昂贵,“比较小的组织一般难以企及”,而且 ETL(Extract, Transform and Load,提取、转换、装载)软件的工作方式意味着要付出可伸缩性和反应能力的代价:

首先,ETL 给生产数据库增加了明显的负担。如果你的业务有空窗期可以做 ETL,那是最好的;如果没有,管理可伸缩性就是很大的挑战。第二,数据仓库里的数据新鲜度一般滞后 24 小时或更长,随着业务增长,滞后时间会越来越长。

Dan Pritchett 相信有一种方案更便宜,也更可伸缩:用 ESP( Event Stream Processor )处理事件流。

ESP 用类似 SQL 的语言处理各种事件流。与数据库和数据仓库通过 SQL 分析数据表类似,ESP 用它们的查询语言分析事件流。要想理解 ESP,可以把事件类比成数据库表中的行,而事件的属性则对应数据库表的列。每一种事件类型就等于是一张表。 […]

[ESP 分析] 数据的变化,而且就在变化发生的当时分析。我们不再进行批量的 ETL,而是把业务事件变成一连串的数据状态变化。这就创造出一种更易于管理的生产系统的伸缩模型。

[…]

ESP 可以做水平伸缩,因此可以达至一种更具成本效益的业务方案。而且由于 ESP 执行分析是实时的,因此得到的业务指标更加应时,并且不受业务增长的影响。

Dan 也特别指出这种方法的弱点,就是不能进行历史性的分析,不能从当前以外的角度去观察业务活动。Pritchett 提出用一种捕捉并重演事务的框架去克服此弱点,不过该方案相当昂贵。Tahir Akhtar 在帖子的留言中提出另一种弥补方法:用 ESP 替代 ETL,但在享用 ESP 的可伸缩性和反应能力优势的同时,继续使用数据仓库应用以保留历史分析能力。

查看英文原文: Event Stream Processing: Scalable Alternative to Data Warehouses?

2008-11-09 19:321562
用户头像

发布了 225 篇内容, 共 74.0 次阅读, 收获喜欢 52 次。

关注

评论

发布
暂无评论
发现更多内容

IPLC/CN2/BGP/CIA与普通网络线路差异对比

Ogcloud

BGP 企业组网 企业网络 IPLC 国际IPLC专线

融云上线大模型 API 服务,20 万 Token 免费送

融云 RongCloud

CAD面积如何快速测量?详细步骤来了

在路上

cad cad看图 CAD看图王

BOE(京东方)控股子公司武汉京东方回购少数股东股权 归母权益进一步提升

爱极客侠

《长安的荔枝》中隐藏的“算法思维”

博文视点Broadview

vivo Pulsar万亿级消息处理实践(1)-数据发送原理解析和性能调优

vivo互联网技术

Java 大数据 后端 服务器 消息队列

为什么架构师都在偷偷练系统思维?

秃头小帅oi

华为开发者空间 - 自主编程之Cline×DeepSeek的智能融合探索

华为云开发者联盟

人工智能 华为云ModelArts 华为开发者空间

HarmonyOS应用闪屏问题性能优化一

李洋-蛟龙腾飞

网络安全自动化:最需要自动化的 12 个关键功能

天翼云开发者社区

安全

DataGrip2025中文激活版 附DataGrip永久许可证

Rose

还在用 Jmeter 做压测?试试 oha 吧!你会毫不犹豫的爱上它!

左诗右码

AI 技术在出版社信息化中的应用

北京木奇移动技术有限公司

软件外包公司 AI技术应用 出版社

618特惠 | 全场75折、免费领500MB动态流量,更多福利叠加、零门槛领取!速来!

kookeey代理严选

静态代理 代理IP 跨境电商 动态代理IP 618特惠

EndNote 2025 :全新的 AI 功能,加快研究发现流程

Rose

大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI

武子康

大数据 hadoop mapreduce hive

大数据-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看

武子康

大数据 hadoop mapreduce hive

从互联网女皇 AI 趋势报告,看大模型 API 服务

融云 RongCloud

AI API、AI 聊天助手,融云两大 AI 服务助力应用智能化转型

融云 RongCloud

专业的Mac菜单栏管理工具 Bartender 5

Rose

StoreView SQL,让数据分析不受地域限制

阿里巴巴云原生

阿里云 云原生 sls

为什么数字化转型失败率这么高?

积木链小链

数字化转型 数字化 智能制造

融云大模型 API 服务上线,专注业务创新,底层交给融云

融云 RongCloud

HarmonyOS应用闪屏问题性能优化二

李洋-蛟龙腾飞

Topaz Video AI v7.0.1 一键激活版 AI视频无损缩放增强

Rose

从互联网女皇 AI 趋势报告,看融云大模型 API 服务

融云 RongCloud

HarmonyOS应用闪屏问题性能优化三

李洋-蛟龙腾飞

iptables- MARK与CONNMARK目标

天翼云开发者社区

网络

和鲸科技亮相 2025 河南省人工智能大会,共绘“气象+AI”新图景

ModelWhale

人工智能 科学智能 河南省人工智能大会

华为大咖答疑丨金融行业数智化转型需要注意哪些问题?该如何解决?

轶天下事

Linux下如何使用perf/gdb/pstack分析性能与问题排查

天翼云开发者社区

弹性负载均衡

事件流处理:数据仓库的可伸缩替代品_架构_Sadek Drobi_InfoQ精选文章