Greenplum:从大数据战略到实现 (41):建立基于大数据的高阶数字化战略 3.4.2

阅读数:1 2019 年 12 月 21 日 17:54

Greenplum:从大数据战略到实现(41):建立基于大数据的高阶数字化战略 3.4.2

(NoSQL 产品的共性)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

NoSQL 产品数量众多,出现时机和原因各不相同,应用场景也多种多样,但这些产品之间存在一些共性。

1)顾名思义,NoSQL 数据库(开始时)不提供 SQL 接口。某些 NoSQL 数据库提供了类 SQL 接口,然而都没有达到 SQL 标准的能力。

2)集群基因。NoSQL 数据库大多具备良好的集群管理能力,有的 NoSQL 最初就是为集群而设计,因而具备很好的线性扩展性和高可用性。

3)追求高性能和高吞吐量。NoSQL 数据库大多以追求高性能、高吞吐量和高可用性为目标,因而放弃了某些关系数据库的特性,如事务、强一致性、关联(JOIN)等。

4)NoSQL 数据库的数据模型都是非关系型的,常见的数据模型有键值、列族、文档类型和图类型。

5)NoSQL 数据库不使用模式(Schemaless)或者使用灵活的模式。因此,NoSQL 数据库不需要事先设计完善的模式即可操作数据,并允许动态添加新数据类型或者修改已有数据类型。这为编程人员提供了很大的灵活性和便利性。然而,访问数据必须知道其模式,否则数据就是 0 和 1 组成的一堆无意义的二进制字符,所以需要有隐式模式,即对所存储数据的结构和类型的假设。这些隐式模式通常隐藏在应用代码中,NoSQL 数据库本身不用关心,数据的使用者仍然需要了解这些隐式模式才能操作数据,所谓的无模式数据库不过是把模式从数据库移到了应用程序内部。

6)大多数 NoSQL 数据库以不同协议开放源代码。

Greenplum:从大数据战略到实现(41):建立基于大数据的高阶数字化战略 3.4.2

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布