Greenplum:从大数据战略到实现 (26):建立基于大数据的高阶数字化战略 2.3.2

阅读数:4 2019 年 12 月 18 日 21:26

Greenplum:从大数据战略到实现(26):建立基于大数据的高阶数字化战略 2.3.2

(AI 驱动的开发方法和文化)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

AI 驱动的开发方法要求应用、数据和模型三位一体地螺旋迭代上升。《Cloud Foundry:从数字化战略到实现》一书中提到的测试驱动和持续交付的方法对此同样适用。这种情况下对于产品经理的要求比较高,他需要和各个团队的技术负责人一起协调创建产品开发的任务列表(Backlog)。为了确保敏捷性,在人才配备方面,应尽量确保人才具备应用、数据和模型这三种技能中的两种。各个团队在接口方面要保证一定的稳定性,例如,在模型团队的输入 / 输出比较明确的情况下,应用开发团队只要根据模型的输出来决定应用的输出即可。这样用户看到的应用输出就是稳定的,随着模型团队的改进,用户会感觉到应用的输出越来越智能。比如,前面提到过的新闻阅读终端的例子,用户会看到内容的版式相对稳定。同时,因为模型团队的精度提高,每个版面的内容将越来越精准地反映用户偏好。这里提到的方法听上去不难,但是要顺利实施,让这些方法发挥出最大的效用,企业的文化土壤也需要做出相应的调整。

AI 驱动的开发文化要求企业在战略决策层面加入一个新的维度,即考虑如何将建立在大数据之上的模型智能第一时间通过数字应用反馈给用户。比如,新闻阅读终端的决策者要考虑如何根据用户的历史访问数据建立模型,以通过模型在第一时间把相关的内容推荐给读者;视频内容网站也要考虑同样的问题,因为准确的内容推荐会让用户消费更多的视频。

加入一个新的维度到决策过程中听上去很容易,但实施起来却非常困难。反过来考虑,如果这个事情很容易推进,那么传统的新闻浏览终端早就自动进化到类似于头条新闻这样的新一代新闻阅读终端。传统新闻阅读终端和现代应用终端的差别就在于我们所说的新维度:新的新闻终端从创立第一天就把竞争属性建立在用户内容推荐模型上。读者可以想象一下,假设一个提供传统新闻阅读服务的公司的董事长将一个知名的数据科学家引入公司担任首席数据官,让他帮助公司建立 AI 驱动的新闻阅读终端。很可能他进公司的第一天就要对各个业务部门提出各种要求:

  • 新闻采编部门要对内容进行更加精细的标注。
  • 应用开发团队需要注入大量的代码来获取用户阅读行为习惯数据。
  • 数据工程团队要建立大数据基础设施以收集用户数据。
  • 数据科学家团队要建立模型对内容进行推荐,应用开发团队要根据推荐呈现内容。

这个过程不是一次性完成的,而是螺旋性迭代的。更为糟糕的时候,在看到产出之前会经历一段时间的投资,甚至影响原有新闻终端发布内容的速度。用不了多久,原有的采编部门、开发团队和数据团队就开始向董事长抱怨,一次两次董事长可能坚持下来,但如果抱怨次数太多,董事长就可能放弃 AI 优先的战略。然后,得出一个错误的结论:现在实施 AI 驱动的战略为时过早。而事实上,AI 驱动的战略是正确的,只是没有落地到对应的文化土壤。

在这样一种 AI 驱动的文化里面,CDO 要从一开始就在公司执行层的圆桌会议中有一席之地,而且其他功能的主管(CIO/CTO)一开始就要习惯照顾到 CDO 的诉求。从公司战略层面,如果认为大数据和 AI 战略是突破性创新,按照《创新者的窘境》一书中的理论,最好还是成立一家新的机构。CDO 成为那家新机构负责人,和现有的高管以业务关系合作,从而保持一定独立性。如果公司从战略层面认为大数据和 AI 还处于连续性创新阶段,那么 CDO 一开始就要避免设置过高的目标。在实施深度学习之前,可以利用高级分析功能找出一些小的改进点,采用持续改进的方法让其他高管看到效果。按照《Cloud Foundry:从数字化战略到实现》的方法论,其实软件应用开发的成功率已经非常高。但是相比软件应用开发,大数据和 AI 项目的失败率要高很多。

Greenplum:从大数据战略到实现(26):建立基于大数据的高阶数字化战略 2.3.2

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布