Greenplum:从大数据战略到实现 (23):建立基于大数据的高阶数字化战略 2.2

阅读数:5 2019 年 12 月 18 日 21:26

Greenplum:从大数据战略到实现(23):建立基于大数据的高阶数字化战略 2.2

(大数据和 AI:企业未来的终极竞争点)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

Gartner 发布的 2019 年十大战略性技术趋势的前三项包括自主设备、增强分析和 AI 驱动的开发。虽然这三个趋势看上去不尽相同,但仔细分析,它们的交集就是大数据。自主设备是 AI 应用的体现,现在热门的自主设备包括机器人、无人机和自动驾驶汽车等,它们都建立在 AI 模型之上;AI 驱动的开发是指企业高阶应用融合了 AI 模型,应用的开发是软件开发人员和数据科学家(Data Scientist)不断交互的过程。软件开发人员负责数字化应用的迭代开发,而数据科学家负责 AI 模型的迭代开发。根据第 1 章的讨论,大数据的使用对于所有 AI 模型的成功都是一个极其重要的因素。所以,对于企业而言,建立一个全局性的大数据战略是在数字化世界占据一席之地的必要条件。这就像建立健康的生活习惯,虽然效果无法在一朝一夕显现出来,但长远来看一定是大有益处的。

设想在 20 年以后,所有企业都完成了数字化转型,建立了数字化基础设施,数据的协作方式也更加合理。那时,企业核心能力就建立在高阶数据分析能力或者创建更加精准的 AI 模型的能力上。

仍以我们熟悉的汽车和金融行业为例。在汽车行业,面对无人驾驶,用户不再图新鲜感,而是要切实地比较安全性。这时,即使一个车企的安全系数比另一个车企高一点点,就可能获得极大的优势。而在智能养护方面,汽车保养的报警误报率下降一点点就可能令车企占据市场先机。作为一个客运公司,能够第一时间满足用户的用车请求将成为企业的核心竞争力,调度算法不仅要在调度请求进来以后发挥作用,更要根据人群的密集度实时调配自己的车队。

金融行业在大数据和 AI 方面的竞争其实早就广泛展开了。对金融企业来说,由于各种投资机会稍纵即逝,因此券商和投行很早就有雇佣大量物理、数学博士作为量化分析师(Quant)的习惯。现在,通过大数据和 AI,金融企业可以利用金融模型时刻计算各个公开市场资产的投资机会,获得更多收益。大数据和 AI 也在影响传统银行业务,例如小额贷款业务。传统的商业银行一般提供固定利息来吸引储户存款,然后利用和大企业的关系获取将贷款投资给对方的机会,并从中获益。在吸引用户储蓄方面,传统的商业银行能够成功主要是政府担保,例如在美国主要是 FDIC 担保。在贷款方面,传统的商业银行一般有专员进行风险评估。这种人力审核成本对于大额贷款是可以接受的,但是对于小额贷款而言是无法承受的。所以,中小企业或者个体工商户要获得传统商业银行的贷款是非常困难的,反而是存储有大量用户交易、购物和社交数据的互联网企业,通过利用大数据和机器学习模型,很容易对小额用户贷款请求进行风险评估,进而快速放款投资。另外,随着知识密集企业的兴起,传统的资产抵押融资慢慢转变为股权融资,大量的私募投资的兴起,也给商业银行获得储蓄带来挑战。大型的私募基金通常有大量的行业分析师,他们逐步建立起一个行业知识系统,对于股权融资企业的风险模型构建得越发精准。作者也曾给一些商业银行提过战略建议,建议它们围绕现有的用户(存方和贷方)数据的动态来外推那些需要股权融资的企业的风险分数,从而获得低风险投资机会,在投资有效的情况下募资也必然容易。本质上说,金融机构的主要职责是资源分配,它要获得竞争优势,势必要从上游获取资金机会并从下游获得投资机会。根据现有的用户数据,做出精度高于竞争对手的模型就可以更好地捕捉这些机会。国内不少知名的商业银行已经认识到数字化、大数据和 AI 带来的机会,纷纷成立科技公司从事小额贷款和私募市场投资业务。

汽车行业和金融行业因为在数字化的过程中积极建立大数据和 AI 战略,提供更好的产品和用户体验而为人们津津乐道。读者不妨对比一下 10 年前汽车没有导航和金融业没有网上银行的体验。建立在大数据和 AI 之上的创新是真正的技术提供生产力的代表,它带来了更多、更加公平的红利。在数字化出现之前,很多企业和个人通过信息垄断获得套利。就像荧幕上塑造的传统西方银行家的形象:一边说服 VIP 客户存钱,一边与 VIP 客户社交以获取项目投资机会。虽然我们认为这些商人通过投机取巧获得财富是不公平的,但从通过信息流动达到资源优化配置的角度上来说,这种做法似乎无可厚非。深究一下,这里的不公平实际上来自于信息获取的不对等,因为这些商人利用掌握的信息为己牟利,而非创造更好的模型来为投资方和贷款方提供更好的服务。随着数字化程度的加深,信息获取、流通和使用将不断改善,企业获得的数据更多地被提供给数据科学家用于改善企业的服务。这就是 Eric Schmit 在《How Google Works》一书中提到的:“以前在离交易越近的地方获取的报酬越多,现在慢慢转变为离产品越近的人获取的报酬更多。”因为前者的优势建立在信息垄断上,后者的优势建立在信息的处理和再加工上。

Greenplum:从大数据战略到实现(23):建立基于大数据的高阶数字化战略 2.2

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布