写点什么

事件流处理:数据仓库的可伸缩替代品

  • 2008-11-09
  • 本文字数:834 字

    阅读完需:约 3 分钟

Dan Pritchett 在博客上提出了一种数据仓库应用的替代方案。虽然厌恶“只能单一位置及单一存储空间上实现的方案”,他也承认有时候必须先聚合数据才能作分析。他所说的正是数据仓库应用的功能——沿着某些变量轴聚合信息并转化数据间的关系。而在 Pritchett 看来,数据仓库应用在使用中有许多缺点。数据仓库应用不仅非常昂贵,“比较小的组织一般难以企及”,而且 ETL(Extract, Transform and Load,提取、转换、装载)软件的工作方式意味着要付出可伸缩性和反应能力的代价:

首先,ETL 给生产数据库增加了明显的负担。如果你的业务有空窗期可以做 ETL,那是最好的;如果没有,管理可伸缩性就是很大的挑战。第二,数据仓库里的数据新鲜度一般滞后 24 小时或更长,随着业务增长,滞后时间会越来越长。

Dan Pritchett 相信有一种方案更便宜,也更可伸缩:用 ESP( Event Stream Processor )处理事件流。

ESP 用类似 SQL 的语言处理各种事件流。与数据库和数据仓库通过 SQL 分析数据表类似,ESP 用它们的查询语言分析事件流。要想理解 ESP,可以把事件类比成数据库表中的行,而事件的属性则对应数据库表的列。每一种事件类型就等于是一张表。 […]

[ESP 分析] 数据的变化,而且就在变化发生的当时分析。我们不再进行批量的 ETL,而是把业务事件变成一连串的数据状态变化。这就创造出一种更易于管理的生产系统的伸缩模型。

[…]

ESP 可以做水平伸缩,因此可以达至一种更具成本效益的业务方案。而且由于 ESP 执行分析是实时的,因此得到的业务指标更加应时,并且不受业务增长的影响。

Dan 也特别指出这种方法的弱点,就是不能进行历史性的分析,不能从当前以外的角度去观察业务活动。Pritchett 提出用一种捕捉并重演事务的框架去克服此弱点,不过该方案相当昂贵。Tahir Akhtar 在帖子的留言中提出另一种弥补方法:用 ESP 替代 ETL,但在享用 ESP 的可伸缩性和反应能力优势的同时,继续使用数据仓库应用以保留历史分析能力。

查看英文原文: Event Stream Processing: Scalable Alternative to Data Warehouses?

2008-11-09 19:321389
用户头像

发布了 225 篇内容, 共 70.0 次阅读, 收获喜欢 52 次。

关注

评论

发布
暂无评论
发现更多内容

数据库选型指南:TiDB 与 MySQL 全方位对比清单新鲜出炉!

TiDB 社区干货传送门

阿里云可观测 2025 年 3 月产品动态

阿里巴巴云原生

阿里云 云原生 可观测

《Operating System Concepts》阅读笔记:p552-p579

codists

操作系统

Rust 如何轻松实现 RTMP 流媒体推送?深入解析直播推流场景与解决方案

Yeauty

rust ffmpeg Video RTMP media

智能驾驶中预测模块简介

地平线开发者

自动驾驶 算法工具链 地平线征程6

智能体爆发元年,谁在“无人区”绘制地形图?

脑极体

AI

AI框架不牢,模型地动山摇

脑极体

AI

TiDB × AI :DeepSeek 时代你需要什么样的数据基座

TiDB 社区干货传送门

NineData云原生智能数据管理平台新功能发布|2025年3月版

NineData

使用kvmtool运行和调试Linux内核

Linux内核拾遗

虚拟化 Linux内核 kvm kvmtool

大模型是否有必要本地化部署?

程序员架构进阶

#架构 4月月更 #大模型 DeepSeek

TiDB 可观测性解读(二)丨算子执行信息性能诊断案例分享

TiDB 社区干货传送门

人工智能+牙科:临床应用中的几个问题

算AI

人工智能 算法 医疗AI 视觉模型

CAD怎么创建块遮挡效果

极客天地

卫浴“家电化”:一场科技驱动洗牌赛拉开序幕

Alter

GraalVM 24 正式发布阿里巴巴贡献重要特性 —— 支持 Java Agent 插桩

阿里巴巴云原生

阿里云 云原生

LLM 不断提升智能下限,MCP 不断提升创意上限

阿里巴巴云原生

阿里云 微服务 云原生 LLM

南京大学与阿里云联合启动人工智能人才培养合作计划,已将通义灵码引入软件学院课程体系

阿里巴巴云原生

阿里云 云原生 通义灵码

南京大学与阿里云联合启动人工智能人才培养合作计划,已将通义灵码引入软件学院课程体系

阿里云云效

阿里云 云原生 通义灵码

征程 6|工具链 VP 示例中日志打印解读

地平线开发者

自动驾驶 算法工具链 地平线征程6

5分钟手把手教你开发一个MCP服务

巫山老妖

MCP协议

Apipost vs Apifox:高效API协作的差异化功能解析

数据追梦人

掌握 JSON 到表格转换:全面指南

数据追梦人

TiDB 观测性解读(一)丨索引观测:快速识别无用索引与低效索引

TiDB 社区干货传送门

开源项目:一行代码,批量 PDF 转 Word 轻松搞定!

程序员晚枫

PDF word 自动化办公

AI框架不牢,模型地动山摇

白洞计划

AI

高可靠架构+智能运维,华为云会议“始终在线”!

平平无奇爱好科技

AI 浪潮下企业身份管理:特点凸显,安全挑战升级

TechLead Studio

AI 企业身份安全

百度开放3000+实习机会,AI相关岗位占比87%

科技大数据

【超详细】Mac读取移动硬盘速度很慢的原因及解决方法

阿拉灯神丁

文件存储 磁盘管理 Mac软件 苹果电脑 Tuxera NTFS2024

大模型 MCP:开启 AI 与现实世界的无缝交互革命

巫山老妖

MCP协议

事件流处理:数据仓库的可伸缩替代品_架构_Sadek Drobi_InfoQ精选文章