2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Greenplum Pivotal HD 结合了 SQL 和 Hadoop 的优势

  • 2013-03-01
  • 本文字数:1035 字

    阅读完需:约 3 分钟

EMC Greenplum 宣布了一个新的 Hadoop 发行版本—— Pivotal HD ,其中包含一个完全运行于 HDFS 之上的 MPP 数据库,兼容 SQL,而且速度“比 Hive 快数百倍”。

Pivotal HD 支持标准 Hadoop 发型版本的常用特性(包括 HDFS、Pig、Hive、Mahout 和 Map-Reduce 等),但又加入了一些其他的组件,具体如下面结构图所示:

Pivotal 的主要组件是 HAWQ ,这是一个 MPP(Massively Parallel Processing)关系数据库,借助一种动态流水线机制直接运行于 Hadoop 中的 HDFS 之上,其特性包括:

  • 兼容 SQL——支持各个版本的 SQL,包括 SQL92、SQL99 和 SQL 2003 OLAP 等。百分之百兼容 PostgreSQL 8.2。
  • 面向行或面向列的数据存储。
  • 查询优化器——查询可以运行于成千上万个节点上。
  • 完全兼容 ODBC/JDBC。
  • 交互式查询——大数据集上的复杂查询可以以秒级或次秒级的速度解决。
  • 数据管理——提供了表统计和表安全等功能。
  • 支持存储在 HDFS、Hive、HBase、Avro、ProtoBuf、分隔的文本和序列化文件中的数据。
  • 深度分析——包含了数据挖掘和机器学习算法。

Greenplum 的高级技术总监 Gavin Sherry 做了一个演示(见该视频的42 分42 秒),在60 个节点组成的HDFS 集群上,有总量达几个TB 的10 亿行数据,下列SQL 语句可以在13 秒内执行完,这提供了接近实时的能力:

<p>SELECT gender, count (*)<br></br>FROM retail.order JOIN customers ON retail.order.customer_ID = customers.customer_ID<br></br>GROUP BY gender;</p>据 EMC Greenplum 的解决方案架构师 Donald Miner 介绍,“ HAWQ 比 Hive 快数百倍”,下图是 Greenplum 提供的基准测试结果( PDF ):

HAWQ 能够在“次秒级别内”解决查询问题,“同时做到了在同一引擎内支持规模更大的数据集和完整的 SQL 表达能力”。Miner 解释了这是如何做到的:

我们有所谓的“分段服务器(segment server)”来管理每个表的一个分片。集群中的每个数据节点上会运行一些分段服务器。不过这种数据分片是完全保存在 HDFS 内的。有一个“主节点”负责存储顶层元数据、构建查询计划并将节点本地的查询推送到分段服务器上。

在查询启动时,数据将从 HDFS 中读出并加载到 HAWQ 执行引擎中。HAWQ 遵循 MPP 架构,不同于将数据溢出到磁盘上和在磁盘上建立检查点(如 MapReduce),它会让数据流过流水线的不同阶段。另外,分段服务器是一直运行的,所以不存在启动时间。

Pivotal HD 有三个版本( PDF ):企业版、数据库服务版和用于评估的社区版。
查看英文原文: Greenplum Pivotal HD Combines the Strengths of SQL and Hadoop

2013-03-01 02:296562
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 149.9 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

英国“蓝色”氢气计划因碳足迹高遭受重击

CECBC

MySQL远程连接

一个大红包

8月日更

docker入门:elk环境安装记录

小鲍侃java

8月日更

Go- if-else结构

HelloBug

if Go 语言 else

前端人员必会工具-apipost两分钟上手(2分钟玩转apipost)

Proud lion

大前端 测试 后端 Postman 开发工具

混合云时代来临,你的存储ready了吗?

焱融科技

云计算 分布式 高性能 云存储 混合云

FusionInsight怎么帮「宇宙行」建一个好的「云数据平台」?

华为云开发者联盟

大数据 数据仓库 FusionInsight 云数据平台 LakeHouse

微信业务架构图 & 学生管理系统

I see you

WEB常用HTML颜色代码表

入门小站

工具

判断是否为数组的 JavaScript 方法总结

编程三昧

JavaScript 数组 8月日更

Windows Server 内存高排查

耳东@Erdong

windows 内存 Windows Server 8月日更 rammap

统计机器学习导论(一)

Databri_AI

机器学习 统计

极客时间架构实战营作业一

jjn0703

架构实战营

手撸二叉树之另一棵树的子树

HelloWorld杰少

数据结构与算法 8月日更

自适应负载均衡算法原理与实现

万俊峰Kevin

负载均衡 微服务 负载均衡算法 Go 语言

国产数据库的挑战与机遇

晨山资本

数据库 大数据 云原生 超融合

Go Channel实例剖析

非晓为骁

源码 channel Go 语言 实例分析

Battle:你会TLAB,我会逃逸分析

阿Q说代码

逃逸分析 8月日更 栈上分配 同步省略 标量替换

遇见低码:在价值中审视

华为云开发者联盟

ide 低代码 应用 开发语言 低成本

container 包详解

Rayjun

Go 语言

百度地图开发-搭建基础脚手架 01

Andy阿辉

android Android Studio 8月日更

儿子教会我的态度

箭上有毒

8月日更

通过 UIView 和 UIControl 实现的蒙层,哪种更简单?

fuyoufang

swift iOS 知识体系 8月日更

apipost--接口流程化测试

与风逐梦

软件测试 接口测试 软件自动化测试

摸鱼小技巧之IDEA调试篇一~

4ye

Java debug 后端 IDEA 8月日更

数字人民币弯道超车领先世界,采用独创设计彻底根治区块链顽疾

CECBC

多看了几套房

escray

生活记录 8月日更

Linux之yum命令

入门小站

Linux

springBoot中redis的自动装配

Rubble

8月日更

在openGauss上做开发?这个大赛拿出30万寻找开源的你

华为云开发者联盟

数据库 开源 信创 opengauss 鲲鹏

如何构建 Spring Boot 12 因素应用

码界行者

Sprint Boot

Greenplum Pivotal HD结合了SQL和Hadoop的优势_DevOps & 平台工程_Abel Avram_InfoQ精选文章