Greenplum:从大数据战略到实现 (50):建立基于大数据的高阶数字化战略 3.6.3

阅读数:1 2019 年 12 月 21 日 17:56

Greenplum:从大数据战略到实现(50):建立基于大数据的高阶数字化战略 3.6.3

(集中还是分散)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

Michael Stonebraker 认为,单个数据库不能处理各种应用场景(one size does not fit all),不同的场景应该使用不同的数据处理技术。他指出,联机分析处理、文本处理、流数据处理、科学计算等具有不同的特点,专有系统的性能将比通用系统性能高一到两个数量级,因而不同的业务应采用不同的系统,类似图 3-13 所示(他在一篇文章中提到,OLTP、OLAP 和其他场景市场份额大约各占 1/3,“其他”部分包含很多细分领域,由于场景差别很大,每种场景需要专有的系统)。

Greenplum:从大数据战略到实现(50):建立基于大数据的高阶数字化战略 3.6.3

图 3-13 不同场景下使用的不同数据处理技术

就当前的用户需求和软硬件技术发展状况来看,集成数据平台将能满足绝大多数用户的场景,只有极少数企业需要使用专有系统以实现其特殊的需求。比如,PostgeSQL 的性能在使用英特尔至强处理器 E7-8890 的单机系统上可达百万 TPS(Transaction Per Second,每秒事务处理量),尽管某些专为 OLTP 优化的内存数据库可能达到更快的 TPS,然而有如此大业务量的公司非常少。大多数用户将采用集成数据平台,如图 3-14 所示。

Greenplum:从大数据战略到实现(50):建立基于大数据的高阶数字化战略 3.6.3

图 3-14 集成数据平台的应用

集成数据平台有以下优势:

  • 通过数据整合避免信息孤岛,便于共享和统一数据管理。
  • 基于 SQL 的数据集成平台可提供良好的数据独立性,使应用能专注于业务逻辑,不用关心数据的底层操作细节。
  • 集成数据平台能提供更好的实时性和更全的数据,为业务提供更快更准的分析和决策。
  • 能够避免各种系统之间的胶合,企业总体技术架构简单,不需要复杂的数据导入 / 导出等,易于管理和维护。
  • 便于人才培养和知识共享,无须为各种专有系统培养开发、运维和管理人才。
  • 集成数据平台也有其不足之处:
  • 性能比专有系统逊色。
  • 集成数据平台多是分布式数据库系统,出现问题时,分析原因较复杂。
  • 数据集中存储和处理,权限管理复杂。

古人说“天下大势,分久必合、合久必分”,这句话用在数据处理领域也不为过。需求和技术是一对矛盾,当这对矛盾缓和时,数据处理领域将更趋向于整合;而当这对矛盾尖锐时,数据处理领域将趋于分散。就软硬件技术发展现状和当前需求来看,未来整合的趋势更为明显。

Greenplum:从大数据战略到实现(50):建立基于大数据的高阶数字化战略 3.6.3

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布