“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

William McKnight 谈面向列的数据库

  • 2011-09-10
  • 本文字数:949 字

    阅读完需:约 3 分钟

对于某些业务用例而言,面向列的数据库(columnar database)可提供比传统的关系数据库管理系统(RDBMS)更好的数据存储能力。在不久前召开的 NoSQL Now 2011 大会上,William McKnight 针对面向列的数据库以及如何在某些数据存储需求下有效地利用它们进行了演讲

他说,使用RDBMS 作为解决方案(此类解决方案都是基于行方式设计的。)的数据查询会发送大量数据。数据输入/ 输出(I/O)已成为目前数据处理需求中的真正瓶颈,更好的情形是,当你在那儿的时候能获得更多数据。为了避免这个问题唯一要做的就是解决输入/ 输出瓶颈,这才是你真正需要做的事情。面向列的数据库提供按需挑列的能力,而不是先获取整行,当数据检索完成后其中多列(开销)又不用。在要求工作负载只占整列字节数很小百分比的使用情况下,面向列的数据库可提供更好的解决方案。

在面向列的数据库中,数据存储在所有列保持同一顺序的多列中。William 讨论了关系数据库记录的数据页面布局,并与列数据库表进行了比较。在这种行页设计(在RDBMS 数据库中)中存在一些开销,因为进行数据查询时会用到行扫描或索引扫描,而且让所有数据都参与其中可能是个昂贵的选择。他展示了一个数据查询实例,在基于行的数据库中完成此查询用了50 万次输入/ 输出,而在面向列的数据库中仅用了235 次输入/ 输出。

有许多不同的面向列的数据存储选项可供使用,例如,分解存储模型(Decomposed Storage Model)、位置表示法(Positional Representation)、改良的B 树/ 行长度加密(Modified B-Tree/Row Length Encryption)、以及位图(Bitmap)。他还谈到了物化(materialization)策略,其中包括“投影”功能(Function of ‘projection’)、早期和晚期物化(Early and Late Materialization)。

一些面向列的数据库厂商有 Vertica ParAccel Sybase IQ InfoBright 、Exasol、VectorWise,还有些开源产品,例如 MonetDB InfiniDB

William 说,基于关系行的数据仓库(data warehouse)和数据集市(data mart)将仍然存在。除了数据仓库和 Hadoop 之外,你将拥有以快得多的速度来处理数据的面向列的数据库。他在结束发言时说道,数据库设计者应该从良好的设计原则入手,然后决定你想把数据放在基于行还是基于列的解决方案中。

查看英文原文: William McKnight on Columnar Databases

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2011-09-10 23:132516
用户头像

发布了 55 篇内容, 共 18.0 次阅读, 收获喜欢 0 次。

关注

评论

发布
暂无评论
发现更多内容

细微之处决定胜败:从云厂商事故报告中学习经验教训

WuKongCoder

云计算 腾讯云 阿里云 华为云 AWS云

CodeWhisperer——一个十分强大的工具 冲!

亚马逊云科技 (Amazon Web Services)

人工智能 亚马逊云科技 云上探索实验室 Amazon CodeWhisperer

Programming Abstractions in C阅读笔记:p197-p201

codists

Databend 开源周报第 121 期

Databend

AlDente Pro for Mac:延长电池寿命/管理Mac充电

晴雯哥

华为云助力中小企业应对挑战:云耀L实例在跨境电商的应用探析

轶天下事

数字经济时代:城市到底如何演绎?产业将何去何从?

平平无奇爱好科技

Java 学习之路

玄兴梦影

Java 编程

Redis - AOF 日志

zurhan

RWA+AI 叙事下的 ProsperEx,对 Web3 时代交易的重新定义

股市老人

卓越性能下的华为云耀云服务器L实例:小程序竞争中的利器

轶天下事

企业数字化浪潮来袭,华为云耀云服务器L实例打造中小企业

轶天下事

SQL FULL OUTER JOIN 关键字:左右表中所有记录的全连接解析

小万哥

MySQL 数据库 程序员 sql 后端开发

SocialFi 和 GameFi 的碰撞 — Socrates 构建新的 Web3 流量入口

股市老人

解放你的双手,让 ChatGPT 来帮你完成 Jenkins 到极狐GitLab CI 的迁移

极狐GitLab

ci DevOps jenkins openai ChatGPT

双良集团:价值创造本源,设备资产管理向智能化管理实现跨越

用友BIP

资产管理

新形势下,2024年企业数字化转型该如何进行?

优秀

数字化转型 企业数字化转型

轻松搭建,轻松上云——华为云耀云服务器L实例助力小程序开发

轶天下事

CORS跨域问题

zurhan

华为云耀云服务器L实例助你轻松搭建个人网站

轶天下事

Autoscaler 中 VPA 的设计与实现

Greptime 格睿科技

k8s 时序数据库

Bookends for Mac:智能文献管理软件(全面、强大)

晴雯哥

想要更高的压缩率?一文带你深入了解 TDengine TSZ 压缩算法

TDengine

tdengine 时序数据库

芯片国产替代发展得怎么样了?

IC男奋斗史

华为 芯片 校园招聘 国产替代 中芯国际

华为云耀云服务器L实例助力小程序开发的成本与效率之选

轶天下事

Java 对象的内存布局

zurhan

数智融合 开启金融数据治理新时代

酷克数据HashData

数据同步:主从如何实现数据一致性

zurhan

Redis 慢操作

zurhan

把握融合之道 推进价值创造

用友BIP

业财融合

数字人直播技术的实现和运营策略

青否数字人

数字人

William McKnight谈面向列的数据库_DevOps & 平台工程_Srini Penchikala_InfoQ精选文章