收录了 列式存储 频道下的 50 篇内容
ClickHouse 是最近比较热门的用于在线分析处理的(OLAP)1数据存储,与我们常见的 MySQL、PostgreSQL 等传统的关系型数据库相比,ClickHouse、Hive 和 HBase 等用于在线分析处理(OLAP)场景的数据存储往往都会使用列式存储。
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。
本文将从大数据存储格式的变迁;存取方式中 Early Materialization 和 Late Materialization 的权衡取舍;执行框架向优化 CPU 的方向迈进;关系算子结合存储进行优化等几个方面出发,对列存数据库进行详细讲解。
欢迎阅读新一期的数据库内核杂谈。在内核杂谈的第二期(存储演化论)里,我们介绍过数据库如何存储数据文件。
Qunar 酒店的搜索和 suggest 是基于 Lucene 构建的,本文将介绍 Lucene 提供的相关机制,以及我们怎么利用这种机制去实现我们想要的功能。
YashanDB列式存储引擎,又称为LSC(Large-scale Storage Columnar Table)。其通过自研的CBO优化器、向量化执行、原生列存格式等技术,达到业界领先的查询分析能力。
在这篇文章中,Siddharth Teotia讨论了列式数据库的优点,并介绍了Apache Arrow的向量化处理解决方案,以及基于Arrow的Dremio数据库中查询的详细处理。
数据库近20年总结与展望:“历史总是不断轮回”
随着业务越来越复杂,数据量越来越大,DBA 们再也优化不动 SQL了,怎么办?
通过引入行式存储格式、点查询短路径优化、预处理语句以及行存缓存,Apache Doris 实现了单节点上万 QPS 的超高并发,实现了数十倍的性能飞跃。
本文节选自华章科技大数据技术丛书 《Apache Kylin权威指南(第2版)》一书中的部分章节。
本文对比Elasticsearch与其他同类产品的异同。
从实时流中摄取行对数据查询服务提出了一系列独特的挑战。Pinot一直在努力解决这些挑战,并随着时间的推移,做得越来越好。
本文介绍时序数据平台的主要业务场景、体系架构及核心技术。
观测云数据架构升级实践。
日志数据在企业大数据中非常普遍,其体量往往在企业大数据体系中占据非常高的比重,包括服务器、数据库、网络设备、IoT 物联网设备产生的系统运维日志,与此同时还包含了用户行为埋点等业务日志。
Apache Arrow是一种基于内存的列式数据结构,正向上面这张图的箭头,它的出现就是为了解决系统到系统之间的数据传输问题,2016年2月Arrow被提升为Apache的顶层项目。
本文测试DolphinDB和pickle在数据读取方面的性能。与使用pickle文件存储相比,直接使用DolphinDB数据库,数据读取速度可最多可提升10倍以上;若为了考虑与现有Python系统的集成,使用DolphinDB提供的Python API读取数据,速度最多有2~3倍的提升。
本文主要介绍HTAP的前世今生及技术特点。