Greenplum:从大数据战略到实现 (12):ABC:人工智能、大数据和云计算 1.3.1

阅读数:3 2019 年 12 月 18 日 21:09

Greenplum:从大数据战略到实现(12):ABC:人工智能、大数据和云计算 1.3.1

(模型化方法)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

要理解 AI 和智能主体,我们要先理解模型化的研究方式。模型之所以让人觉得神奇,是因为很多模型本身是基于经验的,很多时候我们并没有深究物理和计算机等领域的很多模型背后的逻辑。以我们熟知的自由落体运动为例,我们可以为球体在斜塔自由下落建立一个数学模型。在亚里士多德的年代,这个模型被认为是和物体的质量有关系的,所以构建的模型可能如下:

h=c+\alpha\times m+\beta\times t+\gamma\times t^2

其中,h 是下落高度,m 是物体质量,c,α,β,γ是未定参数,t 是时间。

其实,模型的构造是门艺术,依赖于构造者。但是,亚里士多德并没有验证他的模型。按照现在的科学方法,我们至少需要四组以上(h,t)的测验数据来校准四个未定参数。如果数据足够准确,我们会发现 c = 0,α = 0,β = 0,γ≈5。读者可能会问,为何不构造一个和 t3 相关的系数?答案还是因为模型是门艺术,跟构造者的直觉有关。例如,伽利略认为自由落体的下降时间和质量无关,所以他会直接从模型里去除α×m 这一项。读到这里,读者可能已经感觉到,如果我们测试得到的(h,t)的数据足够多,不管哪个模型的参数调校出来的公式都接近 h=5t2。假设读者没有安全感,在模型里面加入了其他变量,只要测试足够多的数据,仍将发现这些变量的系数都接近于 0。通过这个例子,读者也可以直观感受到“大”数据量有助于提高模型的准确度。

到此为止,可能很多人满足了 h=5t2 的经验公式。但是,仍有好奇的读者会继续追问为什么结果是这样?背后的逻辑是什么?在后面关于人与 AI 的讨论中,作者会区分人的两类知识:经验和逻辑。目前为止,这只是一个经验知识。但牛顿对这个问题深究了下去,最终奠定了牛顿三定律和万有引力在内的古典力学体系。学过中学物理的读者都知道,自由落体背后的逻辑是因为距离(h)、加速度(a)和时间(t)之间存在以下动力学关系:

h=12α×t2

另外,根据万有引力定律 F=GMm/r2,加速度

a=GM/r2

在牛顿力学体系内,我们解释了经验公式 h=12α×t2,并且可以精确计算出加速度(a)。站在牛顿力学的高度,我们可以通过逻辑推断出前面的自由落体模型。但是,我们很快又发现万有引力 F=GMm/r2 仍旧是个经验模型,目前并没有一个更高层次的模型可以通过逻辑推断出万有引力模型。就这样,在一层层逻辑化自己的经验知识的过程中,聪明的读者会把自己的知识拓展至已知知识的边界。在已知知识边界外的创新,可以用来逻辑化很多我们现有的经验知识。当然,还存在另外一种情况,边界外的创新也可能会指出经验知识的局限性,例如麦克斯韦电磁学指出了光速不依赖参考系,从而帮助我们发现已知的牛顿力学的不足。

理解了模型化的科学方法以后,读者就很容易理解 AI 就是围绕智能主体建立模型,在这些形形色色的模型背后,有着不同的派别和研究方法。在推理(Reasoning)背后,建立了一种叫作目标树(Goal Tree)的模型;在机器学习背后,则模拟人的大脑的神经元放电机制建立了一种叫作神经网络(Neural Networks)的模型。考虑到最新一轮 AI 的热度很大程度上是由神经网络和深度学习带动的,所以我们在这里简单介绍一下神经网络模型的设计灵感,读者可以从中体会科学模型背后的艺术。

神经网络用于模拟人的神经元的决策机制,所以我们先来看一下人的神经元的结构。人的单个神经元如图 1-4 所示,树突(Dendrite)会接受信号输入,然后在轴突(Axon)产生一个脉冲输出到神经末梢(Axon Terminal),从而输入给下一个神经元。我们可以认为人脑是神经元的集合,虽然无数神经元的协同工作涉及无数细节,但是人工神经网络模型只要抓住一些基本的细节就够了。

Greenplum:从大数据战略到实现(12):ABC:人工智能、大数据和云计算 1.3.1

图 1-4 神经元结构

在图 1-5 中,我们对这个神经元进行简单的模型模拟,创建一个接受两个特性(X1,X2)的输入后产出一个输出的人工智能神经元。为帮助读者更直观地理解这个建模过程,我们不妨把 X1 设为西红柿的颜色:红色为 1,青色为 0;把 X2 设为西红柿的硬度:软的为 1,硬的为 0。红色并且已经软的西红柿是成熟的,可以食用(可否食用作为输出)。我们把可以食用记为 1,不能食用记为 0。我们的目标是设计一个数学模型来模拟和训练这个神经元以实现识别成熟可食用的西红柿的目标。

Greenplum:从大数据战略到实现(12):ABC:人工智能、大数据和云计算 1.3.1

图 1-5 接受两个特性输入的人工智能神经元

我们认为这个神经元对颜色输入敏感,因此给 X1 分配一个较大的权重(Weight1),不妨记为 50;这个神经元对于硬度的敏感性稍弱,因此 X2 的权重(Weight2)记为 40;这个神经元只有在输入信号高于阈值(Threshold)60 的时候才开始放电并输出脉冲(1),否则保持安静(0)。为此,我们选择 S 函数(也称为 Sigmond 函数)作为一个神经元工作函数:

y=1/(1+ex),  其中 x = Weight1×X1 + Weight2×X2 - Threshold

读者可以为两个特性分别取不同的输入值,当两个输入变量都为 1 的时候,输出大体为 1。两个变量在其他输入情况下,输出接近 0。我们根据已知的输入和输出训练了这个模型的参数:Weight1、Weight2 和 Threshold。这个训练好的神经元基本能达到识别可食用西红柿的目的。读者可能会好奇为何要给输入乘上权重(Weight1 和 Weight2)?为何要选择一个阈值(Threshold1)?这是为了更好地模拟生物神经元的工作原理。读者可能还会好奇为何选择 Sigmond 函数作为神经元函数?简单地说,这是为了方便计算调优参数并减少计算工作量。具体来说,1974 年,Paul Werbos 在他的哈佛大学博士毕业论文中选择了这个神经元函数,在神经网络模型中首先使用了反向传播算法。在此之前,人工神经网络因为计算量巨大,在闵斯基以后的很长一段时间内停滞不前。神经网络在 20 世纪 80 年代出现了一个小热潮,但是到 20 世纪 90 年代热度又下降了很多,甚至麻省理工学院的人工智能课程中差点删除神经网络部分的内容2。2012 年,多伦多大学的 Geoffrey Hinton 教授使用了有 6000 万个参数的神经网络在图像识别中取得巨大成功,这当然离不开当今时代的算力的提升(在 1.4 节中会继续讨论云计算的出现使得原来无法想象的神经网络训练变成可能)。Hinton 也因此被认为是深度学习的奠基人,并成为谷歌大脑研发的关键人物(也曾任教于卡内基·梅隆大学)。至于如何把图像处理后输入到拥有数以万计神经元的网络进行识别,读者可以参考 Hinton 的工作。

1 为方便计算,在真实的模型中会把 Threshold 写成一个固定的输入 -1 乘以权重 Weight0。

2 参考 MIT 教授 Patrick Winston 的公开课《Artif icial Intelligence: Lecture 12a》(课程编号为 6.034)。

因为在图像识别、语音识别、文本翻译等领域的突破,出现了最近一轮建立在神经网络上的机器学习和深度学习的热潮,对 AI 我们应该持有什么样的预期?为此,我们有必要回顾一下 AI 的历史。历史总是会重复自己,回顾 AI 历史能够帮助商业决策者做出正确的预期和决策。

Greenplum:从大数据战略到实现(12):ABC:人工智能、大数据和云计算 1.3.1

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布