Greenplum:从大数据战略到实现 (17):ABC:人工智能、大数据和云计算 1.5.1

阅读数:5 2019 年 12 月 18 日 21:09

Greenplum:从大数据战略到实现(17):ABC:人工智能、大数据和云计算 1.5.1

(经验与逻辑)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

在讨论人和人工智能的关系及其差别之前,我们先看看人类知识的构成。作者并没有哲学专业背景,这里介绍的概念不一定能和哲学概念一一对应,具有哲学专业背景的读者可以建立一个对照转换。

作者认为,人的知识由经验和逻辑两个层面构成。第一类知识是逻辑知识,可以通过分析得出新知识。下面是典型的逻辑知识:

1)所有人都会死,苏格拉底是人,所以苏格拉底会死。

2)根据勾股定理,直角三角形的三边关系满足 x2+y2=z2(其中 x 和 y 是两条直角边,z 是斜边)。如果三角形的两条直角边长度分别是 3 和 4,那么根据勾股定理可以得到 z 的长度是 5。

另一类知识就是经验知识。经验通常是没有经过逻辑推理或者无法通过逻辑推理而根据过去的经验建立起来的知识。下面是两个过去的经验知识:

1)“地球是宇宙的中心”在哥白尼之前一直是人类社会的基本经验知识。

2)“地球是平的”在哥伦布之前一直是大部分人的经验知识。

3)太阳从东边升起,到今天为止还是大部分人的经验知识。

要观察人的知识体系的建立过程,可以观察小孩子的学习过程。如果把一个算盘竖起来给小孩子玩,小孩子可能会把珠子往上拨,然后珠子会掉下去。但是孩子会重复,因为他们不知道珠子总是会往下掉。为什么大人不再重复这个动作?因为学过物理的大人从逻辑上会知道珠子会因重力的作用往下掉,没有学过物理的人根据过去的经验也会知道这样做珠子会往下掉,所以不会做无用功。苹果为何总是从树上掉下来?在牛顿发明万有引力定律之前,这对于所有人来说都是经验知识。在万有引力定律发明以后,对于知晓力学的人则是逻辑知识,对于不知晓力学的人依然是经验知识。

学过物理的读者先不要得意,因为经验和逻辑的关系不是绝对的,而是相对的。逻辑知识到一定层次不能再往下推理的时候,人又会依赖经验(有时候甚至是直觉或情感)。有时候,人懒得推理,也会停留在经验知识层面上。读者也不要笑话“懒得推理”这个行为,因为人类沉淀下来的经验知识实在太多,如果要试图逻辑化所有的经验知识,在人有限的生命里是很难完成的。这就是极端聪明的人在无法逻辑化他们想逻辑化的知识的时候,他们的幽默感会诉诸一些最基本的经验(以表示无奈)。后面在介绍机器(计算机或者人工智能)的时候,我们会看到很多不可计算数,这是有限的人脑和机器在无极限的知识体系面前表现出的一种无奈。

为了解释逻辑和经验的相对性,我们再来回顾一下万有引力定律的建立过程。万有引力定律和牛顿三定律主要是用来解释开普勒观察到的天体运动规律(图 1-8 所示是用古典力学解释的开普勒观察到的太阳系各大行星的天体运动)。万有引力定律和牛顿三定律本身是基于一系列假设的一个数学模型,有效拟合了开普勒观察到的天体运动。这种处理方法和神经网络模型一样,都是把标注过的数据集合输入模型,调整模型的参数以拟合这些数据集。牛顿三定律和万有引力定律的参数经过拟合以后,物体间的作用力变量(F)和距离变量(r)系数1关系是 -2(也就是平方成反比)。所有学习过物理的人对这个结果不会有太多质疑,但是哲学家们则需要经过逻辑化才能认可这个结果。所以他们会问,为何系数是 -2,而不是 -1.999999…9(中间间隔足够多的 9)或者 -2.00000…01(中间间隔足够多的 0)?这样的系数一样能够拟合所有可以观察到的数据。当然,牛顿选择 -2 而不是那两个长数字主要是为了处理方便,或者他相信简单的总是好的(作者没有机会用混有吴语口音的美式英语和牛顿的皇家口音英语隔着时空对话,但“简单是好”是大部分做模型的人的一个情感选择而不是逻辑选择)。当然,牛顿没有心情和这些哲学家费一番口舌,他的回答有点类似于“你们拿去用,一定屡试不爽,有问题再回来找我。”2事实上,哲学家们对于牛顿万有引力定律在内的古典力学体系的质疑是有一定道理的,因为后来古典力学在描述微观世界的时候不再成立(这时就需要量子力学了)。

1 定理的系数在模型中一般被称为参数。

2 牛顿因此也被认为是工具主义哲学家。

Greenplum:从大数据战略到实现(17):ABC:人工智能、大数据和云计算 1.5.1

图 1-8 牛顿力学描述的太阳系天体运动

(来源: https://zh.wikipedia.org/zh-cn/ 太阳系)

如果把古典力学运用到原子核和它的电子,我们无法解释为何电子不掉进原子核,这就意味着古典力学的模型无法对某些数据进行拟合。经过不断的探索,物理学家们建立了量子力学。和古典物理不同,量子力学的模型有很大一部分建立在概率基础上。例如,在量子力学中,人们无法预测电子在原子核外的固定位置,只能预测它出现在某个位置的概率。图 1-9 描述了氢原子的电子的波动方程。轨道的颜色深浅代表了电子出现的概率。

综合前面的讨论,万有引力实际上是根据人类在更高层次和更广范围的观察得到的经验总结。苹果下落对于没有学过物理的人而言是经验知识,而对于学习过物理的人而言,他们的知识虽然在逻辑上往上走了一层,但最终还是要依赖于一个经验数学模型(这个模型的参数不是通过逻辑推理出来的,而是根据过去数据匹配出来的一个经验值。现在人工智能领域的模型正是这种情况)。

作者具有理学和经济两个学科背景,所以对文科和理科的交叉、融合深有体会,因为当我们的认知达到一定边界的时候所做的模型和假设不得不诉诸于情感(或者直觉),就像牛顿为了简洁选择 -2 作为模型里面距离的系数,欧几里得的平行公理诉诸于世界是方方正正的情感(后面会详细讨论)。当然,文艺青年也不要总是陷入情感中,因为大部分的感性认知远没有到人类认知的边界,它们很容易逻辑化而上升到另外一个高度的感性认知。(这可能也是一些知名高校会要求理科生必须选修一定数量的文科课程才能毕业,文科生也必须要选修一定数量的理科课程才能毕业的原因。大家熟悉的太极拳和五禽戏也蕴含着这样的道理,前者是一套阴阳平衡逻辑,后者是一套朴素的希望像猛禽一样强健的情感表达。)实际上,作者想说的是,读者可以审视一下自己的知识系统,逻辑和内化它们是非常耗神的,所以大部分知识还处于非常朴素的经验层面。

Greenplum:从大数据战略到实现(17):ABC:人工智能、大数据和云计算 1.5.1

图 1-9 量子力学描述的氢原子波动

(来源: https://en.wikipedia.org/wiki/Quantum_mechanics

虽然文 / 理科学生受到的逻辑和经验的训练可能不太一样,但是 AI 和人比起来如何呢?从上一节对机器学习的讨论中看到,因为强大的计算能力,机器学习看上去要胜人一筹。例如,在判断贷款申请的风险系数时,AI 能够把所有人的所有贷款历史读一遍来调校风险控制模型的参数,从而利用这些经验参数来判断当前一笔申请的风险。任何一个有丰富经验的贷款专员也只能根据自己过去看到过的坏账贷款的模糊图景来判断当前交易的风险。

如果说人算不过 AI,那么人在逻辑推理方面是否比 AI 高出一等呢?我们需要在一个更为广阔的数学和计算机的知识体系框架下讨论这个问题。

Greenplum:从大数据战略到实现(17):ABC:人工智能、大数据和云计算 1.5.1

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布