Greenplum:从大数据战略到实现 (22):建立基于大数据的高阶数字化战略 2.1

阅读数:6 2019 年 12 月 18 日 21:26

Greenplum:从大数据战略到实现(22):建立基于大数据的高阶数字化战略 2.1

(基于云原生应用的数字化战略)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

在《Cloud Foundry:从数字化战略到实现》一书中,我们详细讨论过计算技术中以大型机为代表的第一代平台、以 PC 为代表的第二代平台和以云计算为代表的第三代平台,以及三代平台的变迁之路。三代平台的技术创新催生了不同的企业数字化商业模型。PC 时代和云时代的数字化商业模式的特点如表 2-1 所示。

表 2-1 第二代平台和第三代平台的企业数字化商业模式
企业应用(第二代平台) 云原生应用(第三代平台)
数字化目标 企业内部流程数字化 企业的用户交互体验数字化
代表应用 CRM、ERP、E-mail Uber、FordPass、Airbnb
个性化程度 • 采购标准应用
• 每个企业根据自己的业务少量定制
• 应用主要提高企业运营效率
• 采购云平台 (PaaS 和 IaaS)
• 每个企业自己开发应用
• 应用是企业核心竞争力的重要组成
运行硬件平台 PC IaaS 云虚拟服务器(公有云或私有云)
数据分析 • 经常删除数据
• 商业智能(BI)
• 永不删除数据
• 机器学习和人工智能(AI)
开发团队 • 一般叫作 IT 部门
• 主要工作是安装、实施和维护应用,少量定制
• 一般叫作数字化软件开发团队
• 能够独立开发软件,根据企业业务不停迭代应用
应用用户体验 • 使用 PC 客户端访问和浏览器访问
• 系统维护升级经常中断体验
• 应用的使用通常需要培训
• 使用浏览器、移动终端甚至 AR 访问
• 系统永远在线(哪怕部分硬件失败)
• 所见即所得,用户自己在使用中学习
系统扩容 需要手动 系统自动

三代平台各自有其代表性技术以及背后的技术支撑公司,这些公司在时代的变迁中大浪淘沙,有成功过渡的,也有退出历史舞台的,还有正在从第二代平台向第三代平台转型的,当然还有很多后起之秀(比如,在几年前,作者所在的 Pivotal 公司还是一个独角兽企业,而现在已经成功登录纽约证券交易所上市,从创建到上市只用了 5 年时间)。对第三代平台,我们解释了 I 层云、P 层云和 S 层云的定义和意义,着重强调了以 Cloud Foundry 为代表的 P 层云(亦叫作云操作系统)提出的必要性,以及如何帮助企业极大地降低云原生应用的准入门槛。

在企业数字化转型的实践方面,福特公司是一个典型代表。数字原生战略的第一个阶段是通过数字应用实现数字世界和物理世界的无缝交互。第一阶段的数字化应用强调对企业的传统业务进行数字化,从而建立在数字应用上的用户交互体验。这个阶段的主要目标是快速迭代开发应用,一方面用户通过各种 APP 和企业交互;另一方面,企业通过应用收集运营数据和用户的数据。应用和数据之间的关联关系如图 2-1 所示。

Greenplum:从大数据战略到实现(22):建立基于大数据的高阶数字化战略 2.1

图 2-1  初阶数字化阶段的应用和数据运营关系

这类应用的交互方式表现为云原生应用,即后端运行在云端,前端表现为 iOS 程序、Web 程序或者微信小程序等。后端的数据层设计也相对简单,通常为单节点的 MySQL 或者 PostgreSQL 系统管理的数据库。

随着数据量的积累,企业开始进入以数据为中心的战略。按照传统方法,企业开始建立数据仓库并把业务数据拷贝到数据仓库,在数据仓库中做统计报表或者数据挖掘。数据仓库的用户通常是企业本身的决策者而非终端用户。企业决策者根据报表或者用数据挖掘所获得的洞察来判断企业产品的改进点,然后将改进后的产品和服务交付给消费者。这样一个长链式的反馈机制,不仅因为周期长而导致反馈延迟,链中各个环节都可能因信息丢失而导致机会错失甚至决策错误。为此,企业需要建立一个新型的以大数据为基础、AI 驱动的数字应用开发方式。

在 AI 驱动的开发模式下,企业会进入如图 2-2 所示的应用、大数据和模型的“铁三角”运营方式。通过在应用和数据之间引入模型,可以在应用的运营过程中,让企业根据累计的数据随时进行数学模型的创建和迭代。这些模型包括高阶的分析(Analytics)模型,甚至 AI 模型。模型产生的智能直接输入到应用里,给用户带来更加智能的体验。例如,现在的新闻阅读终端会根据用户阅读的内容实时推荐新的阅读内容,因此每个读者看到的内容列表是不一样的。而传统的新闻客户端则是由编辑决定内容编排,编排后的内容也是“一刀切式”地推送给所有用户。

Greenplum:从大数据战略到实现(22):建立基于大数据的高阶数字化战略 2.1

图 2-2 高阶数字化阶段的应用、大数据和模型的运营关系

更加高级的例子就是无人驾驶等自治应用,在这类应用里,模型根据收集的数据,结合历史的标签数据,实时判断、决定应用的输出,从而呈现出智能的效果。

这其实就是数字原生战略的第二个阶段—通过大数据平台实现数据积累,并通过数学模型支撑运行,从而实现 AI 驱动的开发。后面我们将着重讨论这个阶段。

Greenplum:从大数据战略到实现(22):建立基于大数据的高阶数字化战略 2.1

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布