Greenplum:从大数据战略到实现 (18):ABC:人工智能、大数据和云计算 1.5.2

阅读数:3 2019 年 12 月 18 日 21:26

Greenplum:从大数据战略到实现(18):ABC:人工智能、大数据和云计算 1.5.2

(公理化的逻辑系统)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

上一节谈到了人类的经验知识是分层次的。我们总结一下苹果落地的两个层次。第一个层次,因为我们看到苹果总是往下落地,没有往上飞过,所以我们认为苹果是落地的;第二个层次,我们建立牛顿古典力学模型,因为物体受力要朝受力方向加速前进,所以苹果脱离树枝以后,受到地心引力作用要朝地表方向前进。在这个层面,古典力学的很多模型的选择(例如,万有引力和距离平方成反比;再例如,不同参考系下,时间流逝是一样的)也是基于经验的。人类把知识一层层往上逻辑化到认知边界,依赖几个感性的假设便建立了一个认知体系。

很多伟大的科学家则从相反的角度来考虑:能否依赖几个基本的公理假设(感性选择)来建立整套认知体系?从欧几里得到希尔伯特,哲学、数学和物理学科的先贤们分别对几何知识和代数知识进行逻辑化。在这个过程中,人类开始构想,能否让机器从几个公理和规则出发,通过计算推演列出所有人类知识?这一构想直接导致了以图灵机为代表的机器智能的产生。图灵在他的经典论文《论可计算数》中构造了一个机器(后人称为图灵机)来模仿人类数学工作者。学术界普遍认为物理计算机的发明是受到图灵机的启发。冯·诺依曼等人在发明物理计算机后,给原本清贫的数学工作人员创造了高薪的编程岗位。我们在前面谈到,今天的 AI 技术建立在计算机之上。从理论上讲,AI 学科只是图灵机系统的一个模型化算法子集。在这个子集里面讨论 AI 和人的关系必然是不完整的,所以在讨论 AI 和人的关系时,我们需要再往上追溯到公理化数学的过程。正是在这个过程中,邱奇、图灵和哥德尔等人对于机器和人的探讨远比今天大众对这个话题的讨论深入。

第一个建立公理化的逻辑系统是欧几里得的《几何原本》。如果追溯到数学的源头,欧几里得是个不得不提的人。他的著作《几何原本》对于人类影响非常深刻,据说《几何原本》在西方的发行量仅次于《圣经》。欧几里得的整个几何体系建立在如下 5 条公理之上:

1)过相异两点,能作且只能作一直线(直线公理)。

2)线段(有限直线)可以任意地延长。

3)以任一点为圆心、任意长为半径,可作一个圆(圆公理)。

4)凡是直角都相等(角公理)。

5)两直线被第三条直线所截,如果同侧两内角和小于两个直角,则两直线会在该侧相交(平行公理)。

其中,第五条公理可以用另一种方式表述为:在一平面内,过直线外一点,可作且只可作一条直线与此直线平行。

欧几里得平面几何(欧氏几何)的所有定理可以最终追溯到这五个公理,所以这五个公理构成了欧氏几何的边界。作者在开始学习这些公理的时候也难以理解边界这个问题,后来也就放弃追问欧几里得为何如此定义这五个公理。后来我才知道,很多学霸都不喜欢欧几里得的看上去像“主观臆断”定义出来的第五公理。其中,俄罗斯人罗巴切夫斯基(后面简称罗氏)认为第五公理应该可以通过前面四个公理推导出来。为了推导这个公理,罗氏使用了反证法。在反证法中的第一步,他假设“过直线外一点有两条平行线”,然后试图通过这个反证假设来结合前面 4 条公理推导出逻辑矛盾。如果推导出矛盾,那么假设错误。但是,罗氏基于他的假设并没有推导出任何矛盾,反而推导出一个和欧氏几何完全平行的几何体系—罗氏几何体系,也就是双曲几何。为帮助读者直观地理解罗氏双曲几何,图 1-10 给出了一个图形,这是一个三角形位于一个双曲抛物面上,另外右下方有两条在欧氏几何中应平行的分流线。

Greenplum:从大数据战略到实现(18):ABC:人工智能、大数据和云计算 1.5.2

图 1-10 罗氏几何中的三角形和平行线

(来源: https://zh.wikipedia.org/wiki/ 双曲几何

罗氏几何体系完全不同于欧式几何,开创了非欧几何的先河。一方面,这意味着欧几里得的选择并不是随意的,他必须选择第五公理才能建立起欧氏几何体系。另一方面,这也意味着罗氏可能惹上了和哥白尼一样的大麻烦。罗氏理论标志着两个几何世界的出现:一个是欧氏几何描述的方方正正的世界,另外一个是罗氏几何描述的弯弯曲曲的世界。由于颠覆了当时大众广为认知的体系,罗氏的理论因此遭到很多非议,他个人也遭受了很多不公正待遇。这时,罗氏向另外一位学霸、有“数学王子”之称的高斯求助,希望高斯能够公开支持他的理论。高斯虽然提供了很多力所能及的帮助,但是最终没有公开站出来支持多个几何体系的存在。尽管高斯自己也感觉到第五公理的选择不是唯一的,但是他深知公众面对具有颠覆性的新事物时的恐惧。(这里插一句,其实某种程度上今天对于 AI 的恐惧也只是历史重现。)

罗氏的晚年在不幸中度过,他的理论一直没有公开得到支持。直到 1868 年,意大利数学家贝尔特拉米发表了一篇著名论文《非欧几何解释的尝试》,证明非欧几何可以在欧几里得空间的曲面(例如拟球曲,pseudosphere)上实现。也就是说,非欧几何命题可以“翻译”成相应的欧氏几何命题,如果欧氏几何没有矛盾,非欧几何也自然没有矛盾。直到这时,长期无人问津的非欧几何才开始获得学术界的普遍关注并被深入研究,罗巴切夫斯基的独创性研究也由此得到学术界的高度评价和一致赞美,他本人则被后人赞誉为“几何学中的哥白尼”。1

1 参见 https://zh.wikipedia.org/wiki/ 罗氏几何

自贝尔特拉米解除了非欧几何的束缚以后,来自德国哥廷根大学的高斯和黎曼对非欧几何进行了大刀阔斧的拓展。黎曼对于欧式几何的第五公理做了另外一个相反的假定:过直线外一点,不能做直线和已知直线不相交。由此产生了非欧几何的另一个分支—椭圆几何。关于高斯和黎曼在非欧几何领域的突破性进展,可以参考陈省身先生 1987 年发表的演讲《什么是几何学》。2

2 参见《陈省身文集》,华东师范大学出版社 2002 年出版。

总结来说,通过对欧几里得第五公理做出的不同假设,最终衍生出三种逻辑自洽的几何学:罗氏几何、欧式几何和黎曼几何。在三种几何中,垂直于同一线段的两条直线如图 1-11 所示。

Greenplum:从大数据战略到实现(18):ABC:人工智能、大数据和云计算 1.5.2

图 1-11 三种几何中垂直于同一线段的两条直线的图像

(来源: https://zh.wikipedia.org/wiki/ 非欧几里得几何

到这里,读者可能会问:计算机(人工智能)和几何有何关系?因为非欧几何的公理化体系的讨论,激发了自然数算数体系公理化的类似讨论,从而推动图灵机定义的出现。这里我们还要介绍哥廷根大学的另外一位学霸—希尔伯特。在高斯和黎曼之后,非欧几何在哥廷根大学盛行,影响了不少数学家。哥廷根大学迎来了希尔伯特,希尔伯特提出了公理化几何体系并出版了《几何基础》。整个体系从一组公理出发,层层推导。希尔伯特的公理化方式也标志着数学方式开始转移到现代的公理系统。公理系统可以摆脱现实世界,就像非欧几何的不同第五公理可以创造出不同于生活直觉的几何世界。如果说几何学是探讨几何元素的关系,那么点、直线、平面等可以用桌子、椅子等物体所取代3。更为重要的是,在希尔伯特的概念里面,一个从公理系统构造出来的完整的数学系统应该具有以下特性4

3 参见《几何学公理化》, https://zh.wikipedia.org/wiki/ 大卫·希尔伯特

4 我们这里没有采用严格的数理逻辑语言,部分内容参考 Charles Petzold 著、杨卫东等译的《图灵的秘密》第 3 章。

  • 独立性:系统里的各个公理相互独立,任何一个公理都不能从其他公理推导出来。例如欧几里得的第五公理并不能从其他四个公理推导出来。
  • 一致性:从公理出发,不能推导出两个互相矛盾的定理。假设 B 是 A 的反命题,则不能从公理系统中同时推导出 A 和 B 成立。
  • 完备性:从公理出发,可以推导出所有真命题。假设 B 和 A 是反命题,但是从公理系统不能证明 A 或者 B,那么系统是不完备的。因为 A 和它的反命题都可能是正确的,不完备的系统像知识世界存在黑洞一样,让人不安。
  • 可判定性:即给定一个数学命题,是否可以从公理出发,通过有限计算步骤来判定这个命题的可证明性。这个可以列举的计算步骤就是现在所说的算法(Algorithm)。

完备性和可判定性可能会让人混淆。如果一个系统是不完备的,那么存在命题不可被证明。可判断性则探讨是否能找到一个步骤,计算出一个命题能否被证明。

希尔伯特的伟大之处在于使公理化系统的思考方法影响到代数体系。在 1900 年 8 月举行的国际数学家大会上,希尔伯特将可判定性问题列为当时数学面临的 23 个问题中的第 10 位。这个问题被描述为:“是否可以推导出一个过程(算法),通过有限步骤判定不定方程(也叫丢番图方程)是否存在有整数解的命题?”希尔伯特的座右铭是“我们必须知道,我们必将知道。”因此,在他眼里,无论不定方程是否有解,都应该存在一个判定过程来判定它是否可以被证明。例如,费马方程 xn+yn=zn 作为一种特定形式的不定方程,在数学家们试图证明命题“费马方程在自然数 n > 2 的情况下不存在整数解”之前,希望有个判定过程(算法)来判定它是否可以被证明。

事实上,费马定理的证明花费了数学家 300 年的努力,幸运的是它是可证明的。从费马定理证明史这个例子可以看到,代数命题通用判定过程(算法)的意义重大。要讨论通用的可判定性,首先需要清晰地定义什么是算法。为此,邱奇和图灵分别提出了不同构造和定义。图灵构造了图灵机,算法就定义在图灵机的操作之上。下一节将讨论图灵构造图灵机的过程,但是很遗憾,图灵也证明了基于自然数算术的公理化体系的通用判断过程并不存在。

Greenplum:从大数据战略到实现(18):ABC:人工智能、大数据和云计算 1.5.2

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布