Greenplum:从大数据战略到实现 (28):建立基于大数据的高阶数字化战略 2.4

阅读数:4 2019 年 12 月 18 日 21:27

Greenplum:从大数据战略到实现(28):建立基于大数据的高阶数字化战略 2.4

(大数据和 AI 的展望)

内容简介
这是一本系统剖析 Greenplum 开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自 Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于 Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。

  • 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
  • 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5 章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
  • 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。
  • 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。

AI 驱动的数字化文化和战略才刚刚起步,我们要清醒地认识到,现在报以重大期望的 AI 应用还需要一个漫长的逐步改进的过程。但是,这种文化下驱动的大数据基础设施的建设,就好像高铁网的建设,会带来很多意想不到的惊喜。

大数据基础设施用来存取企业和用户数据。企业会使用 Greenplum 等软件把企业的运营数据和产品服务相关的用户数据存储起来;用户个人免费或者付费使用邮件、社交和网盘等应用的时候,直接或者间接地使用了互联网公司提供的共享基础设施。当数据基础设施越来越完善,企业和用户不必再定期删除数据,也不用担心数据丢失。哪怕遇到火灾或地震这样的天灾人祸,数据都有异地灾备能力。数据的组织更加便于访问,数据的访问速度也在继续提高。消费互联网的崛起创造了大量的应用,诞生了一批新的公司,投资圈通常将其称为“互联网的上半场”。但是,地球上 70% 以上的数据还在各行业的企业手中,这些企业因为大数据基础设施的建设也具备了实施 AI 驱动的战略和文化的基础。投资圈把这个机会叫作产业互联网,也就是“互联网的下半场”。

大数据基础设施的建设不仅带来了各种 AI 应用的可能,也对企业文化乃至社会的生产合作方式产生了巨大的影响。读者不妨想象一下一个未来机构因为数据基础平台完善而拥有的问题求解方式和招聘方式的变化。假设一个国家的城市规划相关部门进行招聘,它可以利用大数据完成简洁而高效的面试:把一个关于城市拥堵数据模型的实际项目发布在网上,让应聘者根据现有的数据找到改善城市拥堵的方法。如果那时已经通过各种应用实现了数字世界和物理世界的数字化交互,例如红绿灯的等待时间、地铁网的车次调度、双向车道动态调配、无人公交车的时间和路线都可以通过 APP 设置,而数据已为政府机构所掌握。通过这些数据,面试者会发现无人驾驶车的调度总是落后于城市人群拥挤,例如凌晨两点因某个大型演出结束导致拥堵,这时调车过去就会因落后于拥挤事件而造成恶化。此时,面试者可以设计一个人群热度预测模型,提前调度无人驾驶汽车在即将发生拥堵的地方等候,从而及时疏散人群。规划部门就可以利用这个模型把大型活动和无人驾驶公交系统进行关联,从而改进交通系统。试想,能提供这种模型的应聘者还会被拒吗?而且新的模型提交到大数据基础设施平台后,交通部门可以看到立杆见影的效果。

数据基础设施的完善带来的创新敏捷性也会影响生活的方方面面。与写 5 万文字的文档来解释一个商业机会相比,数字工作者可以直接将 5000 行代码和模型加载到大数据基础设施上展现结果。大数据基础设施支撑着模型和人的协作互动,拥有数据和模型的人可以快速创造价值。

Greenplum:从大数据战略到实现(28):建立基于大数据的高阶数字化战略 2.4

购书地址 https://item.jd.com/12668618.html?dist=jd

评论

发布