Greenplum:从大数据战略到实现 (7):ABC:人工智能、大数据和云计算 1.2.1

阅读数:7 2019 年 12 月 18 日 21:08

Greenplum:从大数据战略到实现(7):ABC:人工智能、大数据和云计算 1.2.1

(从 CRUD 到 CRAP)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

在 PC 时代,计算机主要用于流程的自动化,因为在流程的各个环节都会产生大量事务(Transaction),计算机的数据系统主要用于对这些事务记录进行操作。假设我们要为一所学校创建一个学生管理系统。当一个学生被录取,系统就需要记录这样一个事务,为此需要创建(Create)一条学生记录,记录学生的一些信息,例如身份证号、性别、年龄、籍贯和录取分数等。当该名学生到学校报到的时候,我们可能需要更新(Update)相关的记录(比如,学籍管理字段用于记录学生报到时间,此时就需要把这条字段更新到最新的报到日期)。如果报到后有人获得授权查询该学生的录取分数,则可以从数据库系统中获取(Retrieve)该学生的记录。因为系统的存储容量有限,所以当系统饱和的时候,就会删除(Delete)一些过去的记录。简言之,记录的上述操作可归结为创建(Create)、获取(Retrieve)、更新(Update)和删除(Delete)的组合,取英文首字母的缩写叫作 CRUD。关系数据库管理系统(RDBMS)的关键就是保证事务操作的原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持久性(Durability),取四个英文单词的首字母叫作 ACID 属性(我们会在后面详细介绍 ACID 属性)。目前,读者只要记住 ACID 是保证记录的 CRUD 操作不出现任何错误的重要性质即可。这个工作听上去容易,但考虑到多个用户产生的事务同时操作一条记录,以及像银行这样要确保任何一笔事务都实现零差错(不然用户账户余额可能出现差错)的情况,事情就不那么简单了。Oracle 数据库、IBM 的 DB2 数据库和微软的 SQL Server 数据库就是靠卓越的 ACID 能力成为 PC 时代伟大的产品。

随着数据记录的数量与日俱增,一些企业开始对历史记录进行数据挖掘,以获取有价值的信息。比如,美国的学校非常关心自己的生源和学生就业之间的关系。如果说 GRE1分数越高的学生就业越好,那么是否应该提高录取的 GRE 分数?反之,是否可以在录取条件中降低 GRE 的录取分数?这些带着预设问题的报表操作就叫作商业智能(Business Intelligence,BI),它其实和人工智能开始接近。在 BI 上尝到甜头的企业,在清理事务数据系统的记录的时候会把它们导入到另外一个叫作数据仓库(Data Warehousing)的数据管理系统,以备后续 BI 操作之用。此外,如果在事务数据系统中运行 BI 操作,会导致事务数据系统性能急剧下降,进而影响正常业务应用。举个例子,一个学生入学的时候,教务处希望更新该学生学籍,而前面一个 BI 操作正在生成所有毕业生的 GRE 成绩和就业单位起薪的报表,那么更新学籍的操作就会等待很长时间才能执行。所以,需要建立一个专门针对 BI 的数据仓库系统以便让事务系统的运行不受干扰。当事务系统接近存储极限的时候,可以把部分老数据导入到数据仓库,以免丢失有价值的历史数据。由此,数据仓库系统出现了两个很有意思的操作:历史数据追加(Append)操作和报表处理(Process)操作。当然,数据仓库系统依然需要创建(Create)和获取(Retrieve)操作。但是,因为数据仓库中的数据记录都是有价值的,所以数据仓库中的删除(Delete)操作会减少,即使执行删除,记录也会被备份到更加低速、廉价的存储介质上而不是真正被删除。此外,更新(Update)操作在数据仓库里面也被减少,因为历史记录是有价值的,所以当一条记录被更新时候,系统只是追加了一条新的记录,而不是将原记录替换为新记录。例如,用户每次更新密码的时候,系统会在数据仓库系统里面追加老密码的记录,以备后续检查(预防用户重设密码或者在用户忘记新密码的时候作为额外途径进行认证)。因为历史记录的价值在 BI 系统中被逐步发现,所以数据系统的创建(Create)、获取(Retrieve)、更新(Update)和删除(Delete)为主的 CRUD 操作慢慢转为创建(Create)、获取(Retrieve)、追加(Append)和处理(Process)为主的 CRAP 操作(CRAP 是四个操作的英文首字母)。伴随着数据仓库技术的发展带来数据量的上升和数据处理速度提升的要求,工业界对于数据处理技术的要求也不断提升,于是大规模并行计算 (Massively Parallel Processing,MPP)技术应运而生。

1 GRE 的全称为 Graduate Record Examination,中文名称为美国研究生入学考试,是美国研究生院用于测试录取学生的语言、数学和逻辑能力的考试。

Greenplum:从大数据战略到实现(7):ABC:人工智能、大数据和云计算 1.2.1

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布