Greenplum:从大数据战略到实现 (48):建立基于大数据的高阶数字化战略 3.6.1

阅读数:59 2019 年 12 月 21 日 17:56

Greenplum:从大数据战略到实现(48):建立基于大数据的高阶数字化战略 3.6.1

(数据类型)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

早期数据库主要面对业务数据处理(Business Data Processing)场景。这种场景下的数据具有良好的结构,数据类型以定长数值类型和定长字符串为主。随着业务的发展,逐渐产生了对非结构化数据的处理需求。

最早的非结构化数据为可变长度文本数据。尽管 SQL 标准支持 LIKE 操作符,但是其性能很差。十年前常用的方案为,应用程序集成数据库和文本检索两类产品:应用数据存储到数据库,文本数据存储到 Solr 或 ElasticSearch 之类的文本检索服务器上,保存数据时将其中的文本数据定期或者实时地发送给文本检索服务器建立索引,查询时则需要在应用中对两种系统的查询结果进行关联处理。这种方式复杂、易错、性能不高、数据独立性差。

为了解决这个问题,很多数据库(例如 Oracle、PostgreSQL)实现了文本检索产品中常用的倒排索引技术,大大提高了文本检索的效率。近几年,有些数据库开始支持一些高级的文本检索特性,如 PostgreSQL 支持停用词、短语搜索、多种词干库和高亮显示等。Greenplum 的 GPText 产品组件则整合了 Greenplum MPP 数据库的特性和 Solr 丰富的文本检索特性,应用程序使用标准的 SQL(而不用写代码)即可对文本数据进行高效的索引和查询,并且支持关联(JOIN)。

另一种常见的非结构化数据是地理空间数据。该领域知名的产品之一是 ArcGIS。其早期产品使用 shapefile 格式的文件保存数据,后来改用称为 geodatabase 的对象关系型数据库存储空间数据,这是一种专为空间数据而优化的数据库。传统的关系型数据库也开始支持地理空间数据处理,如 PostgreSQL 的 PostGIS 扩展提供了非常强大的空间数据处理能力,支持点、线、面等基本要素,支持几何地理数据、经纬度数据、栅格数据和拓扑数据等,支持索引,还提供了 200 多个空间数据处理函数。此外,文本检索产品 Solr 和 Elasticsearch 等也支持地理空间数据处理。

自 20 世纪 60 年代后期至今,工业界和学术界一直在研究如何支持嵌套数据或半结构化数据,包括层级数据、网状数据、对象数据、XML 和 JSON 等。XML 数据库一度是最热门的研究课题。然而,基于 XML 数据模型的数据库没有普及,最终变成了关系数据模型的一种数据类型。基于 JSON 的文档数据库(例如 MongoDB)是最受开发人员欢迎的 NoSQL 数据库之一。JSON 作为数据交互格式和数据存储格式逐渐流行后,关系数据库也开始支持 JSON 作为一种数据类型,使得开发人员不但可以享受关系数据库的所有优势,还能利用 JSON 这种半结构化数据结构的灵活性。如,PostgreSQL 9.2 开始支持 JSON 数据格式,2014 年发布的 9.4 引入了增强型的 JSONB,功能更强大、效率更高。

数据库还在持续加入更多的数据类型,如图(Graph)数据、多媒体数据等。Oracle 12c 包括了对地理空间数据、图数据和多媒体数据的支持。

与此同时,用户开始厌倦为不同的数据处理采用不同的数据处理系统,更倾向于采用集成数据处理平台来处理企业的各种数据类型,包括结构化数据、半结构化(JSON、XML 等)数据、文本数据、地理空间数据、图数据、音视频数据等。

Greenplum:从大数据战略到实现(48):建立基于大数据的高阶数字化战略 3.6.1

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布