Greenplum:从大数据战略到实现 (33):建立基于大数据的高阶数字化战略 3.2.2

阅读数:4 2019 年 12 月 18 日 21:28

Greenplum:从大数据战略到实现(33):建立基于大数据的高阶数字化战略 3.2.2

(软件)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

早期的计算机通过重新布线等方式进行编程,多为专门的信息处理任务而定制。后来,阿兰·图灵和冯·诺依曼提出的存储程序思想为解决通用问题提供了思路,可编程性开始受到关注。

软件(Software)一词最早指软制品,如毛织物或者棉织物,也指相对易腐烂的消费品。20 世纪 50 年代,硬件(Hardware)一词已经广泛使用,但是软件还没有出现。直到 1960 年前后,“软件”一词在计算机领域才开始使用,用于描述计算机制造商提供的除了硬件之外的所有东西,包括程序和服务等。软件的概念一直在变迁,到 20 世纪 70 年代中期,开始用于表示计算机使用的程序和其他操作信息。此时,软件成为计算机程序的同义词。

早期基于电子计算机的电子数据处理基本上直接继承自基于单元记录设备的数据处理方式,计算机使用也是独占式的。之后,随着计算能力的提升,开始出现批处理模式和分时共享模式,逐渐演变出软件和操作系统。

早期的计算机没有操作系统,每个用户在预定的时段独占整个计算机,包括外设(例如打印机和读卡器)。在指定的时间段,用户带着程序和数据来运行其程序。程序和数据存储在打孔卡、纸袋或者磁带上。通过输入设备加载程序和数据后,一直独占机器运行,直至程序运行结束或者出现错误。通常,可以通过控制面板调试程序(控制面板常使用拨号盘、切换开关或者面板灯)。

早期的代码使用机器码编写。为了提高编程效率,出现了符号语言。汇编器和编译器将符号程序编译成机器码。之后出现了操作打孔卡或者磁带的库代码,用以协助常用的输入和输出操作,这些代码可以链接到用户的程序,避免了重复开发。这是现代操作系统的起源。但此时,机器仍然一次只能运行一个作业。

随着计算机能力的提升,运行程序的时间逐渐减少,而将设备交给下一个用户的时间占比越来越大。之前根据墙上的时钟核算机器使用账单的方式开始转变为由计算机自动记账;运行队列也由门口的人工排队变成了工作台上的诸如打孔卡或者磁带之类的等待队列。之后,自动记录和检测程序不仅需要记载 CPU 的使用情况,还需要计算打印页数、打卡次数、读卡次数、磁盘使用容量等信息。慢慢地,这些功能融合为一个程序,它在第一个客户的工作开始之前已经运行,可以读取客户作业、控制其执行情况、记录客户作业资源使用情况、在作业结束后重新分配资源,然后立即处理下一个作业。这些驻留的程序在操作系统这个术语出现前通常被称为监控程序。

一个早期的用于实际工作的操作系统是通用汽车于 1956 年为其 IBM 704 研发的 GM-NAA I/O。大多数早期 IBM 大型机操作系统也是由客户研发的,每个供应商或者客户都为其特定主机研发一个或者多个特定操作系统。即使是同一个供应商,其每个操作系统也可能具有完全不同的操作模式。这种情况一直持续到 1964 年 IBM System/360 和 OS/360 发布,该项目致力于为所有兼容机提供相同的指令和输入、输出架构。

此时,树形结构的分级文件系统开始出现。1958 年的东部联合计算机会议介绍了早期的分级文件系统。1965 年发布的 Multics 系统(一个早期的分时操作系统)对文件系统的影响比较大。之后的 Unix 的文件系统基于 Multics,并支持任意级别的文件目录层级。

“文件”(File)一词早在 1950 年就被用来表示计算机存储的内容。美国无线电公司(RCA)的广告中指出:无数计算的结果可以保存在文件中,之后可以再次取出。在 20 世纪 50 年代,文件通常指存储在打孔卡上的信息。图 3-2 给出了当时常见的打孔卡照片。

Greenplum:从大数据战略到实现(33):建立基于大数据的高阶数字化战略 3.2.2

图 3-2 打孔卡

(来源: https://en.wikipedia.org/wiki/Computer_file#/media/File:PunchCardDecks.agr.jpg

在 20 世纪 50 年代到 60 年代,伴随着通用电子计算机、磁存储介质、操作系统、文件系统等技术的发展,电子数据处理技术逐渐发展起来。到 20 世纪 60 年代中后期,数据处理应用基本还是使用文件作为持久化数据的存储方式,主要的存储格式之一是衍生自打孔卡技术的称为平面文件的格式,即文件由记录组成,一个文件的记录由同一种类型的记录组成,记录类型由固定长度的字段组成。

支持分时共享的操作系统可以同时运行多个数据处理应用,它们各自有保存数据的文件,互相之间不能访问。一些通用的文件操作被开发出来用以提高效率,包括排序、合并和报表等。

Greenplum:从大数据战略到实现(33):建立基于大数据的高阶数字化战略 3.2.2

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布