写点什么

Greenplum Pivotal HD 结合了 SQL 和 Hadoop 的优势

  • 2013-03-01
  • 本文字数:1035 字

    阅读完需:约 3 分钟

EMC Greenplum 宣布了一个新的 Hadoop 发行版本—— Pivotal HD ,其中包含一个完全运行于 HDFS 之上的 MPP 数据库,兼容 SQL,而且速度“比 Hive 快数百倍”。

Pivotal HD 支持标准 Hadoop 发型版本的常用特性(包括 HDFS、Pig、Hive、Mahout 和 Map-Reduce 等),但又加入了一些其他的组件,具体如下面结构图所示:

Pivotal 的主要组件是 HAWQ ,这是一个 MPP(Massively Parallel Processing)关系数据库,借助一种动态流水线机制直接运行于 Hadoop 中的 HDFS 之上,其特性包括:

  • 兼容 SQL——支持各个版本的 SQL,包括 SQL92、SQL99 和 SQL 2003 OLAP 等。百分之百兼容 PostgreSQL 8.2。
  • 面向行或面向列的数据存储。
  • 查询优化器——查询可以运行于成千上万个节点上。
  • 完全兼容 ODBC/JDBC。
  • 交互式查询——大数据集上的复杂查询可以以秒级或次秒级的速度解决。
  • 数据管理——提供了表统计和表安全等功能。
  • 支持存储在 HDFS、Hive、HBase、Avro、ProtoBuf、分隔的文本和序列化文件中的数据。
  • 深度分析——包含了数据挖掘和机器学习算法。

Greenplum 的高级技术总监 Gavin Sherry 做了一个演示(见该视频的42 分42 秒),在60 个节点组成的HDFS 集群上,有总量达几个TB 的10 亿行数据,下列SQL 语句可以在13 秒内执行完,这提供了接近实时的能力:

<p>SELECT gender, count (*)<br></br>FROM retail.order JOIN customers ON retail.order.customer_ID = customers.customer_ID<br></br>GROUP BY gender;</p>据 EMC Greenplum 的解决方案架构师 Donald Miner 介绍,“ HAWQ 比 Hive 快数百倍”,下图是 Greenplum 提供的基准测试结果( PDF ):

HAWQ 能够在“次秒级别内”解决查询问题,“同时做到了在同一引擎内支持规模更大的数据集和完整的 SQL 表达能力”。Miner 解释了这是如何做到的:

我们有所谓的“分段服务器(segment server)”来管理每个表的一个分片。集群中的每个数据节点上会运行一些分段服务器。不过这种数据分片是完全保存在 HDFS 内的。有一个“主节点”负责存储顶层元数据、构建查询计划并将节点本地的查询推送到分段服务器上。

在查询启动时,数据将从 HDFS 中读出并加载到 HAWQ 执行引擎中。HAWQ 遵循 MPP 架构,不同于将数据溢出到磁盘上和在磁盘上建立检查点(如 MapReduce),它会让数据流过流水线的不同阶段。另外,分段服务器是一直运行的,所以不存在启动时间。

Pivotal HD 有三个版本( PDF ):企业版、数据库服务版和用于评估的社区版。
查看英文原文: Greenplum Pivotal HD Combines the Strengths of SQL and Hadoop

2013-03-01 02:296467
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 146.9 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

七张图解锁Mybatis整体脉络,让你轻松拿捏面试官

小小怪下士

Java 程序员 mybatis

如何有效的给出反馈(二)

ShineScrum

反馈 敏捷教练 敏捷教练引导 高管

优化模型之“平均检出率”

矩视智能

深度学习 机器视觉

人工智能 | 自动驾驶技术:实现未来的智能交通

测吧(北京)科技有限公司

测试

人工智能 | AI驾驶系统的安全性

测吧(北京)科技有限公司

测试

🔥🔥🔥序幕:AIGC 进入“平民化”时代

石头爱分享

AI openai AIGC GPT-4 MidJourney

中企全球化案例-能源业:“1+2+3+N”,建设全球领先的智慧司库平台

用友BIP

全球司库 中企出海

预训练模型在NLP中的应用与优化

百度开发者中心

自然语言处理 大模型训练 #人工智能

人工智能—走向智能化生活

测吧(北京)科技有限公司

测试

人工智能 | 自动驾驶的伦理挑战

测吧(北京)科技有限公司

测试

人工智能 | 自动驾驶与城市规划

测吧(北京)科技有限公司

测试

华为云CodeArts Check代码检查插件(CodeArts IDE本地版本)使用指南

云计算 软件开发 华为云 代码检查

人工智能 | 自动驾驶与卫星导航

测吧(北京)科技有限公司

测试

一文教你如何发挥好 TDengine Grafana 插件作用

TDengine

时序数据库 ​TDengine

用友招聘云助力中企出海,充盈全球化人才蓄水池

用友BIP

招聘 中企出海

材质、纹理、贴图的区别和关联

3D建模设计

材质 纹理 贴图

人工智能 | 自动驾驶汽车的未来:道路安全与出行革命

测吧(北京)科技有限公司

测试

人工智能 | 无人驾驶汽车:道路安全和效率的未来

测吧(北京)科技有限公司

测试

如何精细化管理嵌入式软件项目?ACT汽车电子与软件技术周演讲回顾

龙智—DevSecOps解决方案

大模型训练:文本分类的未来之路

百度开发者中心

大模型训练 #人工智能

实现语言理解与生成的新前沿

百度开发者中心

大模型训练 #人工智能 LLM

人工智能 | AI驾驶系统:改变汽车产业的革命

测吧(北京)科技有限公司

测试

人工智能 | 机器学习与自动驾驶

测吧(北京)科技有限公司

测试

身为产品经理该如何向客户推广API商品数据接口

Noah

API接口文档 API 安全 API 接口

强化学习与深度学习相结合的新趋势

百度开发者中心

#人工智能 LLM 大语言模型

深度学习与预训练语言的突破

百度开发者中心

自然语言处理 大模型训练 人工智能「

[大厂实践] 重新发明后端子集

俞凡

算法 Google 大厂实践

🔥🔥🔥 计算机视觉 GPT-4V 它来了!

石头爱分享

VQA openai AIGC GPT MidJourney

🔥🔥🔥还没搞懂嵌入(Embedding)、微调(Fine-tuning)和提示工程(Prompt Engineering)?

石头爱分享

Embedding openai AIGC GPT-4 prompt 工程

微软首款AI芯片代号“雅典娜”;马斯克四年内将让“星舰”上火星丨 RTE 开发者日报 Vol.61

声网

Greenplum Pivotal HD结合了SQL和Hadoop的优势_DevOps & 平台工程_Abel Avram_InfoQ精选文章