Greenplum:从大数据战略到实现 (51):建立基于大数据的高阶数字化战略 3.7

阅读数:66 2019 年 12 月 21 日 17:56

Greenplum:从大数据战略到实现(51):建立基于大数据的高阶数字化战略 3.7

(数据平台的选型)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

前面我们介绍了数据平台的演进历程和发展趋势,了解其发展过程和趋势可以帮助我们更好地选择适合自身的数据平台。

选型时首先需弄清楚企业自身的业务需求和未来的发展趋势,避免杀鸡用牛刀或者蚂蚁撼大象的情况。之后,对候选数据平台进行多维度考量。下面从技术角度列出一些大数据处理平台选型的因素或原则以供参考。

  • 产品成熟度:成熟的产品可以避免用户走弯路,避免企业做小白鼠、浪费各种资源和时间。衡量一个产品的成熟度可以参考其付费企业级客户的数量和体量。通常,经历过金融等高压 / 高要求行业核心业务验证的产品,其成熟度更可靠。另一个参考指标是产品在本行业内的普及度。
  • 开发和运维的复杂度:开发和运维在整个大数据平台生命周期中占有很大的比重,其投入通常大于初期产品采购的投入。大数据处理平台越大,这一趋势越明显。对于开发人员而言,写 SQL 等类自然语言通常比写分布式 Java、Python 代码更快、更易维护。对于运维人员而言,良好的监控和管理工具必不可少。此外,自动化智能运维工具开始出现,也越来越有吸引力。
  • 标准兼容度:SQL 标准逐渐成为大数据系统的主要标准之一。SQL 标准有很多版本,对不同 SQL 版本的兼容度是衡量大数据系统的一个重要指标。很多大数据系统支持一些简单的 SQL,但不支持很多高级 SQL 特性,如跨节点关联查询、子查询、窗口函数、数据立方格(CUBE)、通用表表达式(Common Table Expression,CTE)等。如果系统不支持这些特性,应用开发人员只能自己实现,既费时费力,又不利于重用和维护。良好的标准兼容度也可以降低数据和产品迁移的代价。
  • 核心技术特性:列出平台支持的核心技术特性,根据自身需求进行评估。对于一个大数据处理系统,可以考量其 ACID 支持能力、数据水平分布能力、并行查询执行能力、查询优化能力、线性扩展能力、多态存储能力、资源管理能力、数据加载能力等。
  • 跨硬件平台:是指大数据系统可以运行在各种硬件平台之上,不管是裸机、私有云、公有云还是容器环境。由于不受限于硬件环境和平台,用户便可以保留选择适合自己的硬件环境的权利,未来的迁移代价低,开发和运维人员不需要学习新的数据库处理技术。硬件环境的普适性可以避免硬件平台的制约和锁定,为客户解决后顾之忧。
  • 开放源代码:开源意味着透明,用户可以了解甚至评估代码风格、代码质量、代码审核严谨度、开发人员的素质、项目进度、合作方式、社区活跃度等各个方面。了解这些细节比仅仅听取销售的推销而购买一张刻录了代码的光盘更让人有信心。此外,采用开源方案,不用担心后门问题,也不用担心被锁定。优秀的开源产品更容易吸纳新用户,从而促进开源项目的发展。相对于封闭系统,围绕开源系统进行开发更容易,同时有利于构建更好的生态。
  • 完善生态系统:完善的生态一方面可以降低用户端到端的部署代价,另一方面有助于生态内的各个产品的健康发展。
  • 数据源和数据格式:如果企业和组织内部存在多种数据源和数据格式,则应考虑选择支持这些数据源和数据格式的大数据平台。常见的数据源包括各种关系数据库、Kafka、ElasticSearch、Redis、MongoDB、Hadoop、HIVE、HBase、S3、文件等。常见的数据格式包括结构化数据、半结构化(XML、JSON、KV 等)数据、非结构化数据(文本数据、GIS 数据、图数据等)。
  • 高级分析能力:如果项目有高级数据分析或者机器学习的需求,则优先考虑内建了高级数据分析和机器学习能力的平台。通过内建高级分析算法到平台之中,而不是抽取数据到业务应用或者第三方应用中再作分析,可以大大简化业务的复杂度,提高开发效率,同时提高分析模型精度。从基于大数据的高阶数字化战略(详见第 2 章)高度出发,内建的高级分析能力更为重要。
  • 扩展能力:当产品提供的特性不能满足用户的特定需求时,则要对产品进行扩展,可扩展性是具有此类需求的用户考虑的一个因素。建立了基于大数据的高阶数字化战略的企业对平台扩展能力要求更高。

在数据经济时代,数据处理和分析的能力与效率是企业的核心竞争力,因此选择合适的集成平台至关重要。读者可以参考以上方面选择出适合自己的大数据处理基础平台。

经过 15 年的发展,Greenplum 在以上各个方面做了非常精心的考量,成为一款值得信赖的大数据处理基础平台。后面各章将会对 Greenplum 进行详细的介绍。

Greenplum:从大数据战略到实现(51):建立基于大数据的高阶数字化战略 3.7

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布