
Google 为其全球分布式数据库 Spanner 推出列式引擎,目标是破解在线事务处理(OLTP)与联机分析处理(OLAP)之间长期存在的矛盾。该功能目前处于预览阶段,面向 Spanner Enterprise 和 Enterprise Plus 版本,支持在单一数据库上同时运行事务与分析负载,从而无需额外维护数据仓库,也不必再构建复杂的 ETL 流程。
长期以来,企业依赖行存储数据库处理高并发、低延迟的 OLTP 业务,再把分析负载转移到列式存储的数据仓库。而随着 Spanner 列式引擎的出现,这种分离已不再需要。这种混合架构会在后台自动保留一份列式数据副本,并针对分析查询进行优化。执行查询时,Spanner 的优化器会智能选择存储层:事务查询走行存储,大规模扫描和聚合走列存储。
这种双存储设计配合批量处理的向量化查询,大幅提升了分析性能。Google Cloud 博客指出:
Spanner 列式引擎在现有行存储之上新增了列式存储格式。凭借这种统一的事务与分析处理架构,Spanner 不仅维持了 OLTP 的性能,还能将实时业务数据上的分析查询提速最高 200 倍。
Wells Fargo 首席工程师 Walter Lee 指出,Spanner 列式引擎能为 AI 应用带来巨大价值,特别是在需要实时数据支撑模型训练与推理的场景中。借助该引擎,AI 系统可以在实时事务数据上快速执行大规模分析,从而支撑实时推荐、预测分析和异常检测等应用。此外,列式引擎在处理大规模数据方面表现出色,加速了特征工程和数据预处理,为机器学习流水线提供强力支持。
值得注意的是,Google 并非唯一探索 HTAP(Hybrid Transactional/Analytical Processing)的厂商。亚马逊云科技(Aurora)、Microsoft(Azure Cosmos DB)、Snowflake 等供应商也在为其平台不断增强集成分析能力。此外,开源项目如 ClickHouse、Apache Doris 以及 PostgreSQL 的扩展功能,也都在朝着统一架构的方向演进。
目前,使用 Spanner 列式引擎时,可通过 Google SQL 接口访问,但必须在查询中加上提示(hint)才能读取列式数据。用户可免费试用列式引擎,正式计费则按列式数据占用的额外存储空间计算。
原文链接:
https://www.infoq.com/news/2025/09/google-spanner-oltp-olap-unify/
评论