Greenplum:从大数据战略到实现 (15):ABC:人工智能、大数据和云计算 1.4

阅读数:4 2019 年 12 月 18 日 21:09

Greenplum:从大数据战略到实现(15):ABC:人工智能、大数据和云计算 1.4

(ABC 之间的关系)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

前面已经解释了 ABC 的概念,这里我们来讨论一下 ABC 之间的重要内在关系以及这些内在关系带来的可以赋能于商业的巨大技术产能。从技术角度上看,ABC 之间有以下两层重要关系:

1)大量数据输入到大数据系统,从而改善大数据系统里建立的机器学习模型。

2)云计算提供的算力使得普通机构也可以在今天用大数据系统计算大量数据从而获得 AI 能力。

先看第一层关系。谷歌研究院的 F. Pereira、P. Norvig 和 A. Halevy 发表了一篇文章《数据的奇效》1,解释了如何通过大量数据提高机器学习模型的准确率。早在谷歌之前,微软研究院的 Michele Banko 和 Eric Brill 在他们的论文《扩展到非常非常大文本来去除自然语言歧义》2中,展示了使用海量数据后各个机器模型的准确率都有大幅度提高,如图 1-6 所示。这一结论为机器学习和人工智能的问题求解指出了一个新方向:用大量数据和大数据计算来提高人工智能。对比一下自然语言翻译在最近 10 年因为利用大数据和计算所带来的进展,读者就能感觉到这种力量。

1 Fernando. Pereira, Peter Norvig and Alon Halevy, The Unreasonable Effectiveness of Data, IEEE Intelligent Systems, vol. 24, no., pp. 8-12,2009。Norvig 也是《人工智能:一种现代的方法》一书的联合作者。

2 Banko and Brill, Scaling to Very Very Large Corpora for Natural Language Disambiguation, Proceedings of ACL,2001。

Greenplum:从大数据战略到实现(15):ABC:人工智能、大数据和云计算 1.4

图 1-6 用海量数据后各个机器模型的准确率都有大幅度提高

再看第二层关系。云计算带来的巨大好处就是提供商品化的计算资源,以前只有政府机构和大型企业才能拥有的巨大计算资源,现在可以被一个创业公司所拥有。这个从量变到质变的过程使得我们可以重新审视一些计算机行业的难题3。计算资源的丰富使得大数据技术能够以更低的门槛被使用。云计算平民化了大数据技术,使得大数据技术被企业广泛采用,企业也利用大数据养成了保管数据的习惯,把数据当作未被开采的资源。大数据的普及给人工智能的分支—机器学习带来了意想不到的惊喜。

3 一般来说,我们并不比前人聪明,但是我们会在量变到质变的过程中重新审视前人没有机会解决的问题。

综合前面讨论的 ABC 的内在含义,当前的机器学习、人工智能可以朝着以下两个方向前进:

1)设计新的机器学习模型,在前人的模型上有所创新,改进模型效果。

2)使用已有的机器学习模型,但是利用前人所没有的数据量和云计算带来的计算能力来改进模型效果。

谷歌公司的 Norvig 曾经说过“我们没有更好的算法,但是有更多的数据”4。显然,Norvig 鼓励按第二种方法进行创新,当然,这不意味着用第一种方法创新不重要。但需要指出的是,第一种方法的创新门槛要远高于第二种,除了世界顶级的机构,普通机构很难拥有相应的资金、人才及配套的管理和文化来支撑第一种创新方法。第二种方法对于传统的机构也是可以重复和实践的,按照已经有的方法论、成功案例和人才培训可以实现基于大数据和机器学习的高阶数字化转型。

4 Xavier Amatriain,In Machine Learning, What is Better: More Data or Better Algorithms, https://www.kdnuggets.com/2015/06/machine-learning-more-data-better-algorithms.html ,2015。

前面讨论的 ABC 的关系可以总结成图 1-7。云计算从量变到质变带来前所未有和平民化的计算资源。企业和互联网在数字化应用方面产生了大量的数据。这些数据和计算能力使得大数据技术普及到普通机构,而这些机构利用大数据来创建和改善现有的机器学习模型,带来更好的人工智能成效。

Greenplum:从大数据战略到实现(15):ABC:人工智能、大数据和云计算 1.4

图 1-7 ABC 之间的关系

到目前为止的讨论严格限制在技术的演进上。下一章将在商业层面继续讨论图 1-7 中大数据、模型和应用之间的关系,着重分析商业决策者如何利用在大数据系统上的 AI 机会来改善自己的数字应用,以巩固竞争优势。

AI 带来的社会影响可能超过前三次技术革命。随着科技和商业不断推动 AI 技术前进,AI 和人之间的关系是技术领袖、商业领袖和政策制定者们不得不思考的问题。前面关于 AI 和人的关系的大部分讨论都没有系统化和逻辑化,因而不是一个学术讨论,1.5 节则会在邱奇和图灵的学术讨论上回顾并延伸到 AI 和人的讨论。这部分讨论非常硬科学,可以作为选读内容。但是对于那些有兴趣深入思考 AI 技术和人类关系的读者或者希望跳出 AI 框架内应用创新而成为系统创新者的读者,啃啃这根硬骨头定有“会当凌绝顶,一览众山小”的感觉。

Greenplum:从大数据战略到实现(15):ABC:人工智能、大数据和云计算 1.4

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布