写点什么

William McKnight 谈面向列的数据库

  • 2011-09-10
  • 本文字数:949 字

    阅读完需:约 3 分钟

对于某些业务用例而言,面向列的数据库(columnar database)可提供比传统的关系数据库管理系统(RDBMS)更好的数据存储能力。在不久前召开的 NoSQL Now 2011 大会上,William McKnight 针对面向列的数据库以及如何在某些数据存储需求下有效地利用它们进行了演讲

他说,使用RDBMS 作为解决方案(此类解决方案都是基于行方式设计的。)的数据查询会发送大量数据。数据输入/ 输出(I/O)已成为目前数据处理需求中的真正瓶颈,更好的情形是,当你在那儿的时候能获得更多数据。为了避免这个问题唯一要做的就是解决输入/ 输出瓶颈,这才是你真正需要做的事情。面向列的数据库提供按需挑列的能力,而不是先获取整行,当数据检索完成后其中多列(开销)又不用。在要求工作负载只占整列字节数很小百分比的使用情况下,面向列的数据库可提供更好的解决方案。

在面向列的数据库中,数据存储在所有列保持同一顺序的多列中。William 讨论了关系数据库记录的数据页面布局,并与列数据库表进行了比较。在这种行页设计(在RDBMS 数据库中)中存在一些开销,因为进行数据查询时会用到行扫描或索引扫描,而且让所有数据都参与其中可能是个昂贵的选择。他展示了一个数据查询实例,在基于行的数据库中完成此查询用了50 万次输入/ 输出,而在面向列的数据库中仅用了235 次输入/ 输出。

有许多不同的面向列的数据存储选项可供使用,例如,分解存储模型(Decomposed Storage Model)、位置表示法(Positional Representation)、改良的B 树/ 行长度加密(Modified B-Tree/Row Length Encryption)、以及位图(Bitmap)。他还谈到了物化(materialization)策略,其中包括“投影”功能(Function of ‘projection’)、早期和晚期物化(Early and Late Materialization)。

一些面向列的数据库厂商有 Vertica ParAccel Sybase IQ InfoBright 、Exasol、VectorWise,还有些开源产品,例如 MonetDB InfiniDB

William 说,基于关系行的数据仓库(data warehouse)和数据集市(data mart)将仍然存在。除了数据仓库和 Hadoop 之外,你将拥有以快得多的速度来处理数据的面向列的数据库。他在结束发言时说道,数据库设计者应该从良好的设计原则入手,然后决定你想把数据放在基于行还是基于列的解决方案中。

查看英文原文: William McKnight on Columnar Databases

2011-09-10 23:133119
用户头像

发布了 55 篇内容, 共 21.9 次阅读, 收获喜欢 2 次。

关注

评论

发布
暂无评论
发现更多内容

Vibe Coding 从入门到实践

火山引擎开发者社区

AI 火山引擎

事件管理升级指南:ITSM系统靠自动化与协同让IT运维效率“撑杆跳”

嘉为蓝鲸

ITSM IT服务管理中心 IT服务管理 IT流程管理 ITIL事件管理

大数据-78 Kafka应用场景全解析:从消息中间件到流处理,附实战集群部署

武子康

Java 大数据 kafka 分布式 消息队列

区块链RWA系统开发周期

北京木奇移动技术有限公司

区块链开发 软件外包公司 RWA开发

高并发系统下,如何用限流算法优雅地保护你的服务?

左诗右码

黑龙江等保测评公司选择关键维度:服务能力与适配性

等保测评

哈尔滨二级等保办理全流程:从准备到完成的清晰指引

等保测评

从零开始学MCP(7) | 实战:用 MCP 构建论文分析智能体

测吧(北京)科技有限公司

哈尔滨工业大学鲲鹏昇腾科教创新孵化中心成立

极客天地

一文看懂:企业该如何正确实施ERP?ERP系统实施必要性讲解

优秀

ERP

告别低效!元图 CAD 图像识别功能,让图纸转换快人一步

元图CAD

AI 图像识别 OCR识别 元图cad

Amazon Q Developer CLI + 飞书——打造对话式的 AI Agent 智能运维平台

亚马逊云科技 (Amazon Web Services)

非凸科技联合举办“星耀领航计划”财富管理发展论坛

非凸科技

嘉为蓝鲸CMeas研发效能洞察平台:研发效能周报按周期自动推送领导邮箱,数据统计零疏漏

嘉为蓝鲸

DevOps 研发效能 研发效能度量 研发效能洞察平台

CST基础教程:如何从SYZ参数提取电容C和电感L --- 双端口

思茂信息

cst电磁仿真 CST软件 CST Studio Suite

嘉为蓝鲸CCI持续集成平台Stage准入:让CI/CD从“自动跑”到“可控跑”,部署更放心

嘉为蓝鲸

DevOps 研发效能 持续集成 CI/CD 持续集成平台

火车站LED信息屏的重要性

Dylan

信息 LED LED display LED显示屏 LED屏幕

「48小时极速反馈」阿里云实时计算Flink广招天下英雄

Apache Flink

大数据 flink

CAD中如何快速查找批注?3秒定位,告别手动查找!

在路上

cad cad看图 CAD看图王

智能体防御 | 一文了解 3 种系统提示词加固方法

火山引擎开发者社区

智能体 系统提示词

破界新生!MyEMS 开源能源管理系统重构智慧能源新范式

开源能源管理系统

开源 开源能源管理系统

DNS劫持成因和应对策略探讨

防火墙后吃泡面

快节奏业务增长驱动下的App跨平台高效开发

xuyinyin

数字化工厂及五大核心系统(ERP、PLM、MES、WMS、QMS)

万界星空科技

数字化 ERP mes QMS 制造业工厂

MyEMS:让能源管理从 “专业门槛” 走向 “全员参与”

开源能源管理系统

开源 开源能源管理系统

DeepSeek-V3.1 上线火山方舟

火山引擎开发者社区

字节跳动 火山引擎 DeepSeek 火山方舟

哈尔滨二级等保实施重点:安全建设与管理的关键环节

等保测评

哪个CAD软件既可以CAD看图又可以绘图?

在路上

cad CAD看图软件 CAD看图王

Agent 架构综述:从 Prompt 到 Context

火山引擎开发者社区

Prompt 大型语言模型LLM

五问五答,详解算子级血缘助企业数据管理主动防控与高效协同

Aloudata

数据血缘 数据变更 主动元数据 算子级血缘

打造可分析的监控报表体系,让洞察更精准高效

嘉为蓝鲸

智能监控 IT运维 数据监控 IT监控 IT运维监控

William McKnight谈面向列的数据库_DevOps & 平台工程_Srini Penchikala_InfoQ精选文章