Greenplum:从大数据战略到实现 (25):建立基于大数据的高阶数字化战略 2.3.1

阅读数:3 2019 年 12 月 18 日 21:26

Greenplum:从大数据战略到实现(25):建立基于大数据的高阶数字化战略 2.3.1

(大数据和 AI 人才)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

第一阶段的数字化应用开发的主角是软件工程师。他们可以根据数字化业务的需求,在 PaaS 云上采用云原生的方式持续迭代应用开发。进入基于大数据和 AI 的高阶数字化阶段以后,企业需要引入两个新的角色:数据工程师(Data Engineer)和数据科学家(Data Scientist)。

数据工程师主要负责企业大数据基础设施的建设以及企业内部数据的收集。这个角色和传统的 DBA 角色类似,但是比起传统的 DBA,他们管理的数据基础设施的规模更大,采集的数据量更大。更明确地说,传统 DBA 一般管理 Oracle、MySQL 和 PostgreSQL 等关系数据库系统下的事务型数据库,而数据工程师不仅要管理这些关系数据库,还要创建和管理 Hadoop 或者 Greeplum 等系统下的分析型大数据系统。在这些大数据系统里,还需要创建一定的数据模型来存储和管理企业的数据。这类分析型数据模型也与传统事务型数据模型有很大差别。以用户的收货地址为例,传统事务型数据模型只需捕获到用户的当前地址,而分析型数据模型通常需要捕获用户历史中所有更新过的地址。作者所在公司就有一个专门的数据工程师团队,他们帮助企业建立基于 Greenplum 的大数据系统,创建分析型数据模型,收集企业运营产生的数据。数据工程师的教育背景通常是计算机专业,或者受过计算机专业培训。

数据科学家对于大部分管理者而言是个全新的职能岗位。相比软件工程师和数据工程师,他们未必需要有计算机专业背景,而是可能来自于数学、统计和物理专业。其实,华尔街早年的量化分析师就算得上数据科学家,他们的主要工作就是创建各种数学模型。早期的数学模型主要建立在统计方法上面,现在的机器学习模型主要建立在大数据上。因为 AI 驱动的数字化战略的崛起,使得数据科学家的人才缺口急剧扩大。数据科学家作为正式的工种与大数据的概念同时产生。《哈佛商业周刊》在 2012 年的 10 月刊上曾发表过一篇名为《数据科学家:21 世纪最性感的工作》的文章。文章给出了一个例子:斯坦福大学物理学博士毕业生 Goldman 通过自己创建的数据模型来给领英用户推荐可能认识的朋友。这个模型给出的推荐相较其他来源的内容在领英同一个页面位置的点击率要高出 30%。IBM 在 2017 发布的报告1中曾预测美国的数据科学相关的岗位数量到 2020 年将增加 364 000 个,总数将达到 272 万以上。可见,工作岗位需求的增长速度远高于人才供给增长速度。这也使得数据科学家的薪水涨幅惊人。

1 该报告名为《THE QUANT CRUNCH: HOW THE DEMAND FOR DATA SCIENCE SKILLS IS DISRUPTINGTHE JOB MARKET》,网址为 https://www-01.ibm.com/common/ssi/cgi-bin/ssialias?htmlfid=IML14576USEN

对于企业而言,建设数据工程师和数据科学家团队可以从以下两方面努力:

1)选择好的大数据和 AI 平台,尽量平民化数据模型,降低人才的进入门槛。

2)选择合作伙伴,在实践中培养人才。作者所在公司的数据科学家团队会通过结对方式,在实践中帮助转型企业建立他们的数据科学家团队。从供给端看,高等教育机构和产业领袖应重视数据科学人才的培养,并从产业和教育的角度共同促进人才培养。

因为数据工程师和数据科学家岗位的出现,企业通常会设置首席数据官(Chief Data Officer,CDO)来代表数据科学家出席公司执行层的圆桌会议。CDO 在公司的战略建议权很大程度上能够反映该企业所处的数字化转型的阶段。如果 CDO 的决策影响力很大,通常意味着该企业已进入 AI 驱动的阶段。后面我们将在 AI 驱动的公司文化中深入讨论这个问题。

最后要强调的是,这三类人才不是互斥的。优秀的软件工程师通常具有扎实的计算机科学知识的功底,他们也可能同时擅长数据工程和数据科学。但是企业要同时在这三方面下功夫。原因有以下两方面:一是这类“三位一体”的通才可遇不可求;二是即使有这样“三位一体”的人才团队,也会因为工程量巨大而不得不分而治之。因此,作者建议,在人才培养方面,团队的每个成员都要有两方面知识的重叠。例如,软件工程师要懂得数据模型,数据工程师要懂得数据科学,数据科学家要懂得应用开发。这样的配置有助于提高团队的沟通效率,也能增强团队成员之间的同理心。

Greenplum:从大数据战略到实现(25):建立基于大数据的高阶数字化战略 2.3.1

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布