现场实操破解开发瓶颈,「2023 百度云智大会·智算大会 开发者沙龙」不容错过! 了解详情
写点什么

列式存储

收录了 列式存储 频道下的 50 篇内容

深入分析 Parquet 列式存储格式

Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。

为什么 OLAP 需要列式存储
为什么 OLAP 需要列式存储

ClickHouse 是最近比较热门的用于在线分析处理的(OLAP)1数据存储,与我们常见的 MySQL、PostgreSQL 等传统的关系型数据库相比,ClickHouse、Hive 和 HBase 等用于在线分析处理(OLAP)场景的数据存储往往都会使用列式存储。

数据库内核杂谈(三十)- 大数据时代的存储格式-Parquet
数据库内核杂谈(三十)- 大数据时代的存储格式 -Parquet

欢迎阅读新一期的数据库内核杂谈。在内核杂谈的第二期(存储演化论)里,我们介绍过数据库如何存储数据文件。

Lucene 中的 Stored Fields 存储优化
Lucene 中的 Stored Fields 存储优化

Qunar 酒店的搜索和 suggest 是基于 Lucene 构建的,本文将介绍 Lucene 提供的相关机制,以及我们怎么利用这种机制去实现我们想要的功能。

列存数据库,不只是列式存储
列存数据库,不只是列式存储

本文将从大数据存储格式的变迁;存取方式中 Early Materialization 和 Late Materialization 的权衡取舍;执行框架向优化 CPU 的方向迈进;关系算子结合存储进行优化等几个方面出发,对列存数据库进行详细讲解。

列式数据库和向量化

在这篇文章中,Siddharth Teotia讨论了列式数据库的优点,并介绍了Apache Arrow的向量化处理解决方案,以及基于Arrow的Dremio数据库中查询的详细处理。

TiDB + TiFlash : 朝着真 HTAP 平台演进
TiDB + TiFlash : 朝着真 HTAP 平台演进

随着业务越来越复杂,数据量越来越大,DBA 们再也优化不动 SQL了,怎么办?

并发提升 20+ 倍、单节点数万 QPS,Apache Doris 高并发特性解读
并发提升 20+ 倍、单节点数万 QPS,Apache Doris 高并发特性解读

通过引入行式存储格式、点查询短路径优化、预处理语句以及行存缓存,Apache Doris 实现了单节点上万 QPS 的超高并发,实现了数十倍的性能飞跃。

从 Elasticsearch 到 Apache Doris,构建新一代日志存储分析平台
从 Elasticsearch 到 Apache Doris,构建新一代日志存储分析平台

日志数据在企业大数据中非常普遍,其体量往往在企业大数据体系中占据非常高的比重,包括服务器、数据库、网络设备、IoT 物联网设备产生的系统运维日志,与此同时还包含了用户行为埋点等业务日志。

Apache Kylin权威指南(一):背景历史和使命
Apache Kylin 权威指南(一):背景历史和使命

本文节选自华章科技大数据技术丛书 《Apache Kylin权威指南(第2版)》一书中的部分章节。

Elasticsearch对垒8大竞品技术,孰优孰劣?
Elasticsearch 对垒 8 大竞品技术,孰优孰劣?

本文对比Elasticsearch与其他同类产品的异同。

为什么推给我的广告都是我想要的?腾讯多模型特征工程解析背后奥秘
为什么推给我的广告都是我想要的?腾讯多模型特征工程解析背后奥秘

大数据与深度学习的应用,我们每个人随口都能说上来两个,像淘宝的精准推送,互联网广告的精准投放等等,这些都是大数据与深度学习结合的产物。

金融高频数据管理:DolphinDB与pickle的性能对比测试和分析
金融高频数据管理:DolphinDB 与 pickle 的性能对比测试和分析

本文测试DolphinDB和pickle在数据读取方面的性能。与使用pickle文件存储相比,直接使用DolphinDB数据库,数据读取速度可最多可提升10倍以上;若为了考虑与现有Python系统的集成,使用DolphinDB提供的Python API读取数据,速度最多有2~3倍的提升。

网易大数据体系之时序数据技术
网易大数据体系之时序数据技术

本文介绍时序数据平台的主要业务场景、体系架构及核心技术。

Google 理论背书与百度实践加持:百度 Palo 数据库宣布开源

大数据离不开数据存储,数据库作为大数据业务核心,在整个基础软件栈中是非常重要的一环,正因为如此,业界追求更优的大数据存储引擎和查询引擎的脚步从未停止。目前业界已有的大数据存储、查询引擎有Druid、Kylin、Impala等开源数据库,还有如EMC Greenplum、HP Vertica、AWS Redshift等商用数据库。今年8月10日刚刚开源的百度Palo项目又是一个什么样的数据库引擎呢?它与现有的这些数据库引擎相比有何不同之处?它的性能表现如何?

AWS Glue 增量数据加载和优化的 Parquet 写入器
AWS Glue 增量数据加载和优化的 Parquet 写入器

AWS Glue 提供一个无服务器环境,用于准备(提取和转换)和从各种来源加载大量数据集

崛起的 GPU 数据库大揭秘:多数据流实时分析,如何做到快如闪电?

物联网的迅猛发展,让人们不得不调整数据平台的设计思路和处理方式。2017年Gartner指出,到2020年,210亿只IoT设备对数据中心存储需求增长将不超过3%。 GPU数据库带来了三大方面的进步:加载速度、实时处理和宽表多条件查询。它最大的革新点之一在于,不再需要借助索引来加速访问。

基于NVIDIA GPU和RAPIDS加速Spark 3.0
基于 NVIDIA GPU 和 RAPIDS 加速 Spark 3.0

现在都是大数据时代了,面对海量数据的这种场景一直在不断地演进一些新的适应的硬件、一些新的软件架构。

混合事务分析处理“HTAP”的技术要点分析
混合事务分析处理“HTAP”的技术要点分析

本文主要介绍HTAP的前世今生及技术特点。

聊聊 Apache Arrow

Apache Arrow是一种基于内存的列式数据结构,正向上面这张图的箭头,它的出现就是为了解决系统到系统之间的数据传输问题,2016年2月Arrow被提升为Apache的顶层项目。

列式存储专题_资料-InfoQ中文网