
Zhou Sun 最近的文章《HTAP已死》在数据社区引发了一场关于混合事务/分析处理(HTAP)未来的辩论。HTAP 旨在帮助大规模集成历史数据和在线数据,支持更灵活的查询方法,并降低业务复杂性。
在这篇文章中,Mooncake Labs 的联合创始人兼首席执行官Sun认为,将事务性和分析性工作负载统一到单一系统中的长期承诺未能实现。Gartner 在十多年前引入了术语 HTAP(混合事务和分析处理),宣布它是“下一个大型数据库架构”,其目标是缩小运维系统和分析系统之间的差距。
文章追溯了 OLTP 和 OLAP 数据库工作负载的历史,它们在 20 世纪 70 年代开始是一体的,十年后分离,HTAP 在 2010 年代试图再次将它们合并。Sun 认为,资源竞争、复杂性和不断演变的硬件架构等实际挑战使得专用的、专业的系统成为更可行的前进道路。Sun 写道:
云也开始从紧密耦合的仓库转向基于对象存储构建的模块化数据湖。在试图摆脱传统的仓库/数据库时,数据团队开始组装自己的定制系统。
多年前,HTAP 被认为是定价、欺诈检测和个性化等新兴工作负载的需求,而 SingleStoreDB 和 TiDB 是市场上的主要参与者。作者认为,像 Snowflake 和 BigQuery 这样的云数据仓库在 2020 年代通过专注于分析处理并将存储与计算分离,成为明显的赢家,这允许在没有 HTAP 系统复杂性的情况下提供可扩展的、具有成本效益的解决方案。Sun 指出,虽然事务性数据库也在发展,但它们在很大程度上仍然与分析分离,将两者合并的尝试未能得到广泛采用。Sun 补充道:
即使在今天的解耦数据堆栈中,需求仍然是相同的:对新鲜事务数据进行快速的 OLAP 查询。现在,这通过流管道网络、云数据湖和实时查询层来实现。它仍然是 HTAP;而是通过组合而不是数据库的整合。
为了超越传统的仓库和数据库,数据团队现在正在使用 Sun 所称的“一流”组件组装他们自己的定制系统。这些架构结合了 OLTP 系统和流处理器作为预写日志(WAL), Iceberg 作为存储层,Spark 和 Trino 这样的查询引擎用于数据处理,以及 ClickHouse 或 Elasticsearch 索引这样的实时系统。在Hacker News上,Statsbomb 的创始人、前首席技术官Thom Lawrence,写道:
当替代方案如此复杂且有如此多的活动部件时,你不能说 HTAP 已死。大多数企业都在燃烧大量的资源,实际上只是在为零商业价值的数据洗牌。我们的梦想是一个单一的数据网格呈现一个 SQL 用户空间(...),我们接近但还没有到达那里,我们已经接近了,但我们还没有达到那个目标,如果人们停止尝试达到这个终点,我会非常愤怒。
Sun 的文章在社区引发了辩论,Percona 的创始人和开源倡导者 Peter Zaitsev总结道:
没有“一刀切”的解决方案——虽然大型团队意识到紧密耦合是有问题的,但对于小型团队和小型项目来说,拥有一个“一切”都做得相当好的单一数据库实际上是非常方便和实用的,因此我认为 HTAP 作为一个特性非常有意义,但可能不作为一个名称,因为我们需要我们的数据库不仅仅是分析和事务性的。
随着近年来 PostgreSQL 的不断成功,许多数据工程师现在都同意曾经很有前途的 HTAP 模型正在被重新审议。随着技术的发展,新的范式正在挑战 HTAP 在现代数据架构中的相关性。
原文链接:
评论