Greenplum:从大数据战略到实现 (46):建立基于大数据的高阶数字化战略 3.5.3

阅读数:1 2019 年 12 月 21 日 17:56

Greenplum:从大数据战略到实现(46):建立基于大数据的高阶数字化战略 3.5.3

(SQL 从未离开)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

如前文所述,NoSQL 出现和发展的主要推动力来自大数据引起的集群化需求和希望通过线性扩展能力获得更高的性能和可用性的需求。分布式、集群式 SQL 数据库的研究可以追溯到 20 世纪 80 年代中期,当时有多个组织和公司开始了分布式并行数据库的研发,包括 Gamma、Teradata、Bubba 和 Tandem 等。Teradata 至今仍然是数据仓库市场的主力军之一。

目前主流的分布式 SQL 和 NoSQL 数据库都采用无共享架构(Shared-Nothing),威斯康星大学 1984 年启动的 Gamma 数据库项目首先提出了该架构。该项目研究人员 1990 年在 IEEE 上发表论文《The Gamma Database Machine Project》,其中详细介绍了设计和评测报告。其中提到的无共享架构、分布表(原文是 Partitioned Table,Partition 一词后来多用于表示单机上的分区表,如根据日期分区,因而此处使用分布表一词)、副本、Interconnect、数据流(Dataflow)、哈希关联(Hash Join)等至今仍是很多分布式数据库系统的核心。

2000 年后,在 NoSQL 流行前夕,一批新的分布式数据库厂商涌现出来。和 NoSQL 数据库放弃 SQL 和事务等技术方向不同,这些厂商实现了支持 SQL、事务、ACID 等特性的分布式大数据处理系统,主要以联机分析处理(OLAP)场景为主,包括 2003 年发布的 Netezza、2005 年发布的 Greenplum(当时叫 Bizgres,其 Postgres 基因一看便知)、2005 年成立的 Vertica、2008 年提出的 SAP HANA(HANA 的早期前身系统更早)等。

针对联机事务处理(OLTP)业务的分布式 SQL 数据库系统也开始浮现。2007 年提出的 H-Store 便是这种系统。作为一个学术型数据库,其开发团队成员来自于布朗大学、卡内基·梅隆大学、麻省理工学院和耶鲁大学,系统设计由 Michael Stonebraker、Sam Madden、Andy Pavlo 和 Daniel Abadi 操刀,阵容堪称豪华。H-Store 的架构和传统 RDMBS 架构区别很大,它基于内存、只有 undo 没有 redo 日志且 undo 日志不落盘、单线程处理、不使用行级锁和 latch 等。然而,这种系统也有其限制,如需要预先对事务进行分类和编译、不支持交互式事务等。基于 H-Store 的商业公司 VoltDB 于 2010 年成立,提供企业级产品和服务。其他类似的产品还有 ClustrixDB、CockroachDB 等。

Greenplum:从大数据战略到实现(46):建立基于大数据的高阶数字化战略 3.5.3

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布