Greenplum:从大数据战略到实现 (38):建立基于大数据的高阶数字化战略 3.3.4

阅读数:36 2019 年 12 月 21 日 17:54

Greenplum:从大数据战略到实现(38):建立基于大数据的高阶数字化战略 3.3.4

(数据库早期发展过程中的困境)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

数据库技术的发展不是一蹴而就的,现在看似很自然的技术,当初也经历了很多争论才持续发展起来。其中最大的争论来自关系模型和 CODSYAL 的 DBTG 模型,直到 IBM 发布 DB2 后形成双数据库战略(IMS 和 DB2),才终结了这场长达十年的争论。

20 世纪 60 年代,数据库技术初现,使用数据库管理数据比使用文件系统管理数据面临更多挑战:

  • 由于需要消耗更多计算资源,数据库系统比文件系统处理速度慢;而当时硬件性能较弱,使得这个缺点更为明显。
  • 作为新生事物,数据库系统的稳定性不如文件系统。
  • 相关技术人才匮乏。

这些挑战在数据库技术发展了近 10 年后才基本得到解决。

20 世纪 70 年代出现的关系模型,虽然具有简单灵活的优点,但在当时也经历了很大的争论:

  • 相比层次和网状数据模型,关系模型需要更多的系统资源,因而速度更慢。
  • 关系模型依赖优化技术生成高效查询计划,当时人们对优化技术能否实现期待的优化效果存疑。
  • 作为新生事物,相关技术人才匮乏。

经过十多年的关系理论发展、原型迭代和产品打磨,到了 20 世纪 80 年代,随着 Oracle、IBM 等商业数据库的成功,关系数据库才真正发展起来。

但关系数据库仍然存在很多问题,其中最突出的问题是数据模型不匹配,也称为阻抗不匹配(Impedance Mismatch),是指关系数据模型和应用程序内部使用的数据结构不匹配。关系数据模型使用表或者关系(Relation)和记录或者元组(Tuple)组织数据,元组是一组名字 - 值对,关系是元组集合。这种数据模型优雅而简洁,然而也有明显的局限性—无法表示嵌套数据结构,而应用程序内存中的数据结构通常包含非常复杂的嵌套数据结构。为解决这个问题,必须在关系数据模型和应用内存数据结构之间进行双向转换,因此需要很多转换代码。对象关系映射(Object Relational Mapping)框架在一定程度上解决了这个问题,比较知名的框架包括 Hibernate、iBATIS。

Greenplum:从大数据战略到实现(38):建立基于大数据的高阶数字化战略 3.3.4

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布