2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Greenplum Pivotal HD 结合了 SQL 和 Hadoop 的优势

  • 2013-03-01
  • 本文字数:1035 字

    阅读完需:约 3 分钟

EMC Greenplum 宣布了一个新的 Hadoop 发行版本—— Pivotal HD ,其中包含一个完全运行于 HDFS 之上的 MPP 数据库,兼容 SQL,而且速度“比 Hive 快数百倍”。

Pivotal HD 支持标准 Hadoop 发型版本的常用特性(包括 HDFS、Pig、Hive、Mahout 和 Map-Reduce 等),但又加入了一些其他的组件,具体如下面结构图所示:

Pivotal 的主要组件是 HAWQ ,这是一个 MPP(Massively Parallel Processing)关系数据库,借助一种动态流水线机制直接运行于 Hadoop 中的 HDFS 之上,其特性包括:

  • 兼容 SQL——支持各个版本的 SQL,包括 SQL92、SQL99 和 SQL 2003 OLAP 等。百分之百兼容 PostgreSQL 8.2。
  • 面向行或面向列的数据存储。
  • 查询优化器——查询可以运行于成千上万个节点上。
  • 完全兼容 ODBC/JDBC。
  • 交互式查询——大数据集上的复杂查询可以以秒级或次秒级的速度解决。
  • 数据管理——提供了表统计和表安全等功能。
  • 支持存储在 HDFS、Hive、HBase、Avro、ProtoBuf、分隔的文本和序列化文件中的数据。
  • 深度分析——包含了数据挖掘和机器学习算法。

Greenplum 的高级技术总监 Gavin Sherry 做了一个演示(见该视频的42 分42 秒),在60 个节点组成的HDFS 集群上,有总量达几个TB 的10 亿行数据,下列SQL 语句可以在13 秒内执行完,这提供了接近实时的能力:

<p>SELECT gender, count (*)<br></br>FROM retail.order JOIN customers ON retail.order.customer_ID = customers.customer_ID<br></br>GROUP BY gender;</p>据 EMC Greenplum 的解决方案架构师 Donald Miner 介绍,“ HAWQ 比 Hive 快数百倍”,下图是 Greenplum 提供的基准测试结果( PDF ):

HAWQ 能够在“次秒级别内”解决查询问题,“同时做到了在同一引擎内支持规模更大的数据集和完整的 SQL 表达能力”。Miner 解释了这是如何做到的:

我们有所谓的“分段服务器(segment server)”来管理每个表的一个分片。集群中的每个数据节点上会运行一些分段服务器。不过这种数据分片是完全保存在 HDFS 内的。有一个“主节点”负责存储顶层元数据、构建查询计划并将节点本地的查询推送到分段服务器上。

在查询启动时,数据将从 HDFS 中读出并加载到 HAWQ 执行引擎中。HAWQ 遵循 MPP 架构,不同于将数据溢出到磁盘上和在磁盘上建立检查点(如 MapReduce),它会让数据流过流水线的不同阶段。另外,分段服务器是一直运行的,所以不存在启动时间。

Pivotal HD 有三个版本( PDF ):企业版、数据库服务版和用于评估的社区版。
查看英文原文: Greenplum Pivotal HD Combines the Strengths of SQL and Hadoop

2013-03-01 02:296546
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 149.4 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

【译】JavaScript 代码整洁之道-概述篇

KooFE

JavaScript 大前端 6月日更 整洁代码

Go 语言学习路线来啦

roseduan

学习 Go 语言

实时音视频开发理论必备:如何省流量?视频高度压缩背后的预测技术

JackJiang

音视频 即时通讯 IM 视频编解码

Python——元组的使用

在即

6月日更

Flink Metric

Alex🐒

flink 翻译 flink1.13

击破行业痛点,区块链赋能智慧物流高速发展

旺链科技

区块链 智慧物流

区块链 | 让付费的知识真正“物超所值”

旺链科技

区块链 知识付费

GIT基本概念与核心命令

IT视界

git 版本管理

ARTS 打卡第11周

steve_lee

重启心智解锁,重新获得一份能力精进指南,面对不确定性的未来,我们可以和世界的变化做好友。

叶小鍵

全新升级IoT Stack 2.0和度能2.0,百度持续加码为产业智能化安全护航

百度大脑

百度智能云

推荐学Java——应该了解的前端内容

逆锋起笔

Java 大前端 后端 JAVA开发

详解Vue八大生命周期钩子函数

华为云开发者联盟

Vue 对象 函数 Vue实例 八大生命周期

什么是Python中的套接字编程?

华为云开发者联盟

Python 编程 socket 网络 套接字

让宝妈宝爸告别安全顾虑,区块链构建母婴行业新生态

旺链科技

区块链 母婴

ONES CTO 冯斌 | 大型软件研发团队如何实践高效项目管理?

万事ONES

团队管理 ONES Project 研发团队

EasyRecovery用法进阶--高阶设置使用技巧

淋雨

数据恢复 EasyRecovery 文件恢复 硬盘恢复

互联网就业系列文(一)

HZFEStudio

互联网 就业

文档代码同源

不脱发的程序猿

开发规范 文档代码同源

【LeetCode】山脉数组的峰顶索引Java题解

Albert

算法 LeetCode 6月日更

网络安全逐渐成为程序员的必备技能

学神来啦

Linux 程序员 安全 渗透

并发王者课-黄金3:雨露均沾-不要让你的线程在竞争中被“饿死”

MetaThoughts

Java 多线程 并发 并发王者课

敏捷绩效管理三剑客:OKR 、KPI、CFR

CODING DevOps

DevOps OKR 敏捷绩效 绩效管理

更好链接资金需求 | 区块链如何赋能“链”金融

旺链科技

金融

你应该知道的数仓安全

华为云开发者联盟

数据加密 数仓安全 透明加密 SQL函数加密

100个开箱即用的shell脚本,CV大法好,工作不费脑!

北游学Java

Java Shell

ONES CTO 冯斌 | 升级项目管理体系,加速金融行业数字化转型

万事ONES

项目管理 研发管理 数字经济 ONES

缓存的世界Redis(一)

卢卡多多

redis 缓存 6月日更

EMQ映云科技边缘计算里程碑—Kuiper加入LF Edge基金会

EMQ映云科技

开源 云端 边缘流式数据 emq LF Edge

【融云视角】沉浸式音频与通讯技术未来趋势

融云 RongCloud

政治局会议再提工业互联网产业数字化|区块链如何协同发力?

旺链科技

区块链 工业互联网

Greenplum Pivotal HD结合了SQL和Hadoop的优势_DevOps & 平台工程_Abel Avram_InfoQ精选文章