Data+AI时代,如何打造下一代数智平台? 了解详情
写点什么

Greenplum Pivotal HD 结合了 SQL 和 Hadoop 的优势

  • 2013-03-01
  • 本文字数:1035 字

    阅读完需:约 3 分钟

EMC Greenplum 宣布了一个新的 Hadoop 发行版本—— Pivotal HD ,其中包含一个完全运行于 HDFS 之上的 MPP 数据库,兼容 SQL,而且速度“比 Hive 快数百倍”。

Pivotal HD 支持标准 Hadoop 发型版本的常用特性(包括 HDFS、Pig、Hive、Mahout 和 Map-Reduce 等),但又加入了一些其他的组件,具体如下面结构图所示:

Pivotal 的主要组件是 HAWQ ,这是一个 MPP(Massively Parallel Processing)关系数据库,借助一种动态流水线机制直接运行于 Hadoop 中的 HDFS 之上,其特性包括:

  • 兼容 SQL——支持各个版本的 SQL,包括 SQL92、SQL99 和 SQL 2003 OLAP 等。百分之百兼容 PostgreSQL 8.2。
  • 面向行或面向列的数据存储。
  • 查询优化器——查询可以运行于成千上万个节点上。
  • 完全兼容 ODBC/JDBC。
  • 交互式查询——大数据集上的复杂查询可以以秒级或次秒级的速度解决。
  • 数据管理——提供了表统计和表安全等功能。
  • 支持存储在 HDFS、Hive、HBase、Avro、ProtoBuf、分隔的文本和序列化文件中的数据。
  • 深度分析——包含了数据挖掘和机器学习算法。

Greenplum 的高级技术总监 Gavin Sherry 做了一个演示(见该视频的42 分42 秒),在60 个节点组成的HDFS 集群上,有总量达几个TB 的10 亿行数据,下列SQL 语句可以在13 秒内执行完,这提供了接近实时的能力:

<p>SELECT gender, count (*)<br></br>FROM retail.order JOIN customers ON retail.order.customer_ID = customers.customer_ID<br></br>GROUP BY gender;</p>据 EMC Greenplum 的解决方案架构师 Donald Miner 介绍,“ HAWQ 比 Hive 快数百倍”,下图是 Greenplum 提供的基准测试结果( PDF ):

HAWQ 能够在“次秒级别内”解决查询问题,“同时做到了在同一引擎内支持规模更大的数据集和完整的 SQL 表达能力”。Miner 解释了这是如何做到的:

我们有所谓的“分段服务器(segment server)”来管理每个表的一个分片。集群中的每个数据节点上会运行一些分段服务器。不过这种数据分片是完全保存在 HDFS 内的。有一个“主节点”负责存储顶层元数据、构建查询计划并将节点本地的查询推送到分段服务器上。

在查询启动时,数据将从 HDFS 中读出并加载到 HAWQ 执行引擎中。HAWQ 遵循 MPP 架构,不同于将数据溢出到磁盘上和在磁盘上建立检查点(如 MapReduce),它会让数据流过流水线的不同阶段。另外,分段服务器是一直运行的,所以不存在启动时间。

Pivotal HD 有三个版本( PDF ):企业版、数据库服务版和用于评估的社区版。
查看英文原文: Greenplum Pivotal HD Combines the Strengths of SQL and Hadoop

2013-03-01 02:296364
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 143.2 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

联想控股·和鲸科技首期AI通识课圆满举办

ModelWhale

使用kookeey代理IP配置Undetectable指纹浏览器教程

kookeey代理严选

代理IP 跨境电商 代理商 kookeey代理 Undetectable指纹浏览器

【浪潮海岳inDatax数据中台专栏】主数据管理中基于属性的物料编号生成技术

inBuilder低代码平台

PD 分离推理的加速大招,百度智能云网络基础设施和通信组件的优化实践

百度Geek说

轻松get热播剧同款“数字名片”!合合信息名片全能王助力保险拓客

合合技术团队

人工智能 #大数据

「华为」持续加码人形机器人赛道!

机器人头条

华为 大模型 人形机器人 具身智能

深度解读「摩根士丹利」双研报:头部人形机器人、核心供应链公司梳理和投资分析(附报告)

机器人头条

机器人 科技 人形机器人 具身智能

共话科学智能!航遥中心于峻川老师分享LLM技术演进与AI+遥感实证研究

ModelWhale

人工智能 AI4S 航遥中心

智机器人推出具身智能一站式开发平台,Genie Studio 想让“训机器人”像搭积木一样简单?

AgiBot World

对比解读发币平台:从野蛮爆发走向精细化运营

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 代币开发 交易所开发公链开发

非凸科技受邀出席“第二届人工智能应用大会”,共话AI赋能产业新未来

非凸科技

数据脱敏的这6种方案,真香!

电子尖叫食人鱼

Java

RocketMQ原理—高可用+高并发+高性能架构

量贩潮汐·WholesaleTide

架构 RocketMQ

DApp开发全流程解析:模式设计、功能参考与合约管理实践

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 公链开发代币开发

深入解析 Spring AI 系列:解析请求参数处理

不在线第一只蜗牛

人工智能 spring

大型前端应用如何做系统融合?

京东科技开发者

uni-app打包小程序教程(包括隐私协议设置)

CRMEB

构建AI时代的大数据基础设施-MaxCompute多模态数据处理最佳实践

阿里云大数据AI技术

数据分析 MaxCompute 人工智能、 AI‘’ #大数据

AI模型的回调能力的理解和实现

不在线第一只蜗牛

php 人工智能

数字化设备巡检方案,解决错检漏检、只巡不检等痛点现象!

积木链小链

智能制造 设备管理 设备管理数字化

从“名落孙山”到“金榜题名”?能考清北的AI来了!

科技热闻

代码革命的先锋:aiXcoder-7B模型介绍

京东科技开发者

虚拟币制度钱包开发:功能设计与成本全解析

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 代币开发 交易所开发公链开发

大厂B端/G端数据可视化项目如何做设计评审

京东科技开发者

鸿蒙带来的机会比想象中更大

最新动态

CouchDB 可观测最佳实践

观测云

couchdb

没有设计稿也能很漂亮,非常适合独立开发:Trae + 飞个马MCP

秦少卫

#开源项目 开源图片编辑器 #AI编程

深度解读「摩根士丹利」双研报:头部人形机器人、核心供应链公司梳理和投资分析(附报告)

机器人头条

科技 大模型 人形机器人 具身智能

RocketMQ实战—订单系统面临的技术挑战

量贩潮汐·WholesaleTide

数据库 RocketMQ

AI需要 DePIN,就像汽车需要道路

PowerVerse

AI 去中心化 区块链+ web3 DePIN

520表白神器

电子尖叫食人鱼

前端

Greenplum Pivotal HD结合了SQL和Hadoop的优势_DevOps & 平台工程_Abel Avram_InfoQ精选文章