提前锁票 InfoQ 最具价值感的视频栏目 | InfoQ 大咖说 了解详情
写点什么

如何构建一个通用的数据中台 | 荐书

2020 年 1 月 12 日

如何构建一个通用的数据中台 | 荐书

不能把数据中台简单看作一个项目或产品,建设数据中台要从战略、认知、组织保障等更高的层面做规划。3.2 节重点介绍的数据中台建设方法论体系,是笔者们多年大数据领域从业经验和多个数据中台建设经验的总结。希望这套数据中台建设方法论可以起到指引作用,帮助企业结合自身特点,在战略规划牵引下,建立起一套可持续运行的中台建设机制,从而加速企业在数字化转型上的进展。


1.1 持续让数据用起来的价值框架

数据中台的使命就是持续让数据用起来,它的一个根本性创新就是把“数据资产”作为一个基础要素独立出来,让成为资产的数据作为生产资料融入业务价值创造过程,持续产生价值。


数据中台作为整个企业各个业务所需数据服务的提供方,通过自身的平台能力和业务对数据的不断滋养(业务数据化),会形成一套高效可靠的数据资产体系和数据服务能力(数据资产化和资产服务化)。这样一来,当出现新的市场变化,需要构建新的前台应用时,数据中台可以迅速提供数据服务(服务业务化),从而敏捷地响应企业的创新。业务产生数据,数据服务业务,业务在阳,数据在阴,阴阳互补,形成闭环(见图 3-1)。



图 1-1 业务与数据闭环


这个价值框架融入企业的运营活动中就能支撑数据中台的组织地位:数据中台必须拥有与企业的设计部门、制造部门、销售部门等同样重要的地位(见图 1-2)。



图 1-2 数据中台的组织地位


数据中台不是单纯的技术叠加,不是一个技术化的大数据平台,二者有本质区别。大数据平台更关心技术层面的事情,包括研发效率、平台的大数据处理能力等,针对的往往是技术人员;而数据中台的核心是数据服务能力,要结合场景,比如精准营销、风控等,通过服务直接赋能业务应用。数据中台不仅面向技术人员,更需要面向多个部门的业务人员。这在建设过程中要特别注意,不论是由信息化部门牵头还是由业务部门牵头执行数据中台项目,都需要在整个企业内部形成一张有共识的蓝图:数据是企业的战略资产(见图 1-3)。



图 1-3 数据是企业的战略资产


1.2 数据中台建设方法论

对于图 1-4 所示的数据中台建设方法论体系,需要从组织、保障、准则、内容、步骤 5 个层面全面考虑,以确保数据中台建设和实施能如期完成。


1 种战略行动:把用数据中台驱动业务发展定位为企业级战略,全局谋划。


2 项保障条件:通过宣导统一组织间的数据认知,通过流程加速组织变革。


3 条目标准则:将数据的可见、可用、可运营 3 个核心准则始终贯穿于中台建设的全过程,保障建设在正确轨道上。


4 套建设内容:通过技术体系、数据体系、服务体系、运营体系建设保证中台建设的全面性和可持续性。


5 个关键步骤:通过理现状、立架构、建资产、用数据、做运营 5 个关键行动控制中台建设关键节点的质量。



图 1-4 数据中台建设方法论体系


1.2.1 1 种战略行动

建设数据中台是为了支撑企业数字化、智能化升级,通过全局的维度支撑业务,让企业在市场上更具竞争优势,因此需要从公司战略层面来规划。在中台建设过程中,会涉及所有相关业态、各块资源的协调和推进,这都需要站在更高的层面来考虑。当然,具体在实施过程中,为了能快速迭代推进,也会采取从点到面的突破方法,从某个业务或者某个部门开始,初步构建看到成效再逐步推广,但不影响其作为核心战略的定位。


数据中台要求整个企业共用一个数据技术平台、共建数据体系、共享数据服务能力。现实中,企业业务发展不均衡,各种部门墙导致共建、共享非常困难。数据中台不仅是对技术架构的改变,还是对整个企业业务运转模式的改变,需要企业在组织架构和资源方面给予支持,所以中台是一个企业的战略行动,绝非一个项目组或者一个小团队就能做的。数据中台牵涉企业的方方面面,你要了解整个企业的业务情况,进行业务梳理,还要有技术的支撑、组织的支撑,否则很难推动落实。


启动数据中台一定要有战略规划,首先它是“一把手工程”,只有企业的一把手才有这种推力来推动数据中台的建设。数据中台的目标是实现企业经营的数据化、精细化、智能化,本质是建设一套可持续让企业数据用起来的机制。需要有相应的组织、制度、流程、资源的保障。


1.2.2 2 种保障条件

数据中台是企业级战略,支撑企业数字化转型,涉及企业的方方面面,数据中台战略的执行必然伴随着企业组织保障以及整个企业数据意识的提升。


首先,中台战略的实施需要有组织保障。与组织对应的是资源与责任,数据中台由谁来建、谁来维护、谁来经营、业务需求怎么承接、效果怎么衡量等问题,已经超出 IT 的范畴,需要企业更高层面对应的组织来保障。图 3-5 所示为中台组织架构。企业实施数据中台战略,必须首先建立起数据中台团队,让他们负责中台的建设、维护、运营以及业务的承接和中台服务的推广等。另外,有了中台,企业的运转模式发生了变化,业务、后台、管理等团队也需要有对应的组织人员与中台团队对接。



图 1-5 中台组织架构


其次,中台战略的实施需要提升全企业的数据意识。数据文化是数据中台战略不可或缺的部分,数据中台的推进依赖于数据文化的建立,反过来,企业数据文化的沉淀又是数据中台建设的产出。大家谈论大数据比较多,但经常对什么是大数据感到困惑,在笔者们看来,大数据和当年提的“互联网+”一样,是一种考虑问题的思维方式,用互联网思维、数据思维来发现问题,解决问题。因此,用一句话来概括数据文化:用数据说话。


可以从以下方面来提升数据意识:


(1)数据采集意识


建议尽可能采集一切业务触点数据,随着技术的发展,采集的方式也越来越多,比如业务数据、日志数据、埋点数据、网络数据、传感器数据等。了解可能的数据采集方式,尽可能把有价值的数据通过技术手段采集下来。


(2)数据标准化意识


之所以需要进行数据治理,是因为数据不标准。如果希望数据发挥价值,就需要保持统一数据标准的意识,只有不同部门、不同业务对于数据的理解都一致了,才能减少因数据口径不一导致的资源浪费。


(3)数据使用意识


未来数据应用会涉及方方面面,每一个业务环节都有可能用到数据的能力,所以所有企业员工都要掌握数据可能的使用方式,知道在实际业务操作过程中应该怎么使用数据。另外,数据能够找出人类经验和人脑无法找出的关联关系,比如啤酒和尿布的故事,就要求打破原有经验,用更高的数据意识来发挥数据对于业务的价值。


(4)数据安全意识


还必须具备数据安全意识,有些数据即使对业务有价值,但由于侵犯隐私或者触犯法律等因素,也不能用,或者需要换一种合法的方式使用。企业员工需要有足够的数据安全定级、脱敏的意识。


1.2.3 3 项目标准则

数据中台的 3 项目标准则——可见、可用、可运营,不仅可作为企业在数据中台建设中的具体建设指引,也可用来客观评估目前建设内容的完整度。


这 3 项目标准则的评估细则见表 3-1。




表 3-1 数据中台建设目标评估表


1.2.4 4 套建设内容

建设内容是数据中台建设的核心,是可呈现的产出物,也是数据中台价值所在,前面的战略措施、保障条件、目标准则都是为了建设内容能够顺利产出并且可以持续发挥价值。笔者认为数据中台的建设内容包含技术体系、数据体系、服务体系、运营体系四大体系,通过这四套体系的建设实现数据中台让数据持续用起来的目标。技术体系是基础支撑,就像是骨架一样撑起整个数据中台。数据体系就像是数据中台的血肉,数据中台对外呈现的主要内容就是数据体系。服务体系是数据中台的价值所在,就像数据中台的灵魂一样,激活静止的骨架、血肉,让中台动起来,发挥价值。运营体系是数据中台的守护者,通过运营体系保证整个中台的健康、持续运转。


  1. 技术体系

  2. 技术体系分两个层面:大数据存储计算技术和数据中台工具技术组件,技术体系主要关注点是工具技术组件。大数据存储计算技术,比如 Hadoop、Spark、Flink、Greenplum、Elasticsearch、Redis、Phoenix 等,相对标准,企业只需要进行合理选型即可,并不需要自己建设,而且技术难度很大,企业也不太可能自己建设。数据中台工具技术组件包括数据汇聚、数据开发、数据资产管理、数据服务管控等。数据中台是企业制定和实施数据汇聚、建模和加工规范的场所,也是企业数据体系存储管理的工具平台。通过工具化、产品化、可视化降低技术门槛,让数据能够被更方便地加工使用。

  3. 数据体系

  4. 数据体系是数据中台建设、管理、使用的核心要素,全企业的数据通过各种方式汇聚到数据中台,在数据中台按照一定的建模方式进行加工,形成企业的数据资产体系。数据中台始终围绕着数据体系的建设和使用,让数据体系尽可能完整、准确、使用广泛。不同企业的业务不同、数据不同,数据体系的内容不同,但是建设的方法和对工具的要求是相似的,需要在中台工具和建设方法的基础上针对不同的企业建设不同的数据体系。

  5. 服务体系

  6. 数据中台与大数据平台的最主要区别是数据能更方便地以服务化的方式支撑业务,而这是通过数据中台服务体系实现的。服务体系是通过数据中台的服务组件能力,把数据变为一种服务能力,比如客户微观画像服务、信用评估服务、风险预警服务等,让数据能够方便地参与到业务中并为业务带去价值。笔者经常听到的数字化转型、数据化经营,就是让业务决策通过数据而不是仅凭经验,需要的正是数据服务能力。每家企业的业务不同,对数据服务的诉求也不同,数据中台无法产品化地提供企业所需的所有数据服务能力。数据中台通过提供数据服务生成、发布、监控、管理功能,帮助企业逐个建立属于自己的每一个数据服务,逐步完成企业数据服务体系的构建。

  7. 运营体系

  8. 运营体系是数据中台得以健康、持续运转的基础。运营体系包括平台流程规范执行监督、平台资源占用的监管及优化推动、数据质量的监督及改进推动、数据价值的评估、数据服务的推广、稽查排名等。其目标是让平台可以持续健康运转,产生持续价值。数据中台是个复杂工程,数据的汇聚、开发、管理、服务都是要持续进行的工作,如果没有运营体系的保障,可能会导致后期的参与者无从下手,随着时间的推移,数据的质量、服务的效率也会持续下降,进而导致中台无法使用。数据中台是一个持续的过程,一旦启动,就不能暂停,更不能停止,而保障数据中台持续高效运转的就是这套运营体系。


1.2.5 5 个关键步骤

数据中台在具体落地实施时,要结合技术、产品、数据、服务、运营等 5 个方面,逐步开展相关的工作,在构建闭环时会多考虑基础设施部分的能力。一旦闭环建设完成,就可以在各个环节不断丰富能力,逐步成为数据应用的完整体系。根据笔者的实践经验,数据中台的建设过程主要通过 5 个关键步骤来完成,如图 3-6 所示。



图 1-6 中台建设的 5 个关键步骤


  1. 理现状

  2. 梳理企业的系统建设、已经拥有的数据以及业务特点等现状,了解企业对数据中台的认知,以及相应的数据文化建设情况。点对点地与业务部门、IT 部门进行沟通,获取企业的产品和服务信息,形成业务现状调研报告,同时了解目前企业以怎样的组织形态来保证客户的服务能力。详细调研目前企业的 IT 建设情况和业务数据沉淀情况,比如采用的什么数据库、数据量、数据字段和更新周期等,以便后续更好地设计技术架构。

  3. 立架构

  4. 根据现状形成整体的规划蓝图,形成技术产品、数据体系、服务方式以及运营重点等相关的方案,梳理并确立各块架构。企业信息架构经常谈到的 4A,即业务架构、技术架构、应用架构和数据架构都需要在这个阶段进行确认。这 4 个架构具体介绍如下:

  5. 业务架构:保障数据中台能够适用于企业的业务运管模型和流程体系。

  6. 技术架构:主要是指技术体系中的数据基座,主要根据业务架构近远期规划,对数据的存储和计算进行统一的选型。

  7. 应用架构:特指数据中台应用架构,后面几个关键步骤的内容所依赖的工具主要由数据中台作为平台应用来承接。

  8. 组织架构:主要是保证中台项目的顺利落地需要企业考虑的整体组织保障,其中的角色有业务人员、IT 人员、供应商和相关负责人。

  9. 建资产

  10. 结合数据架构的整体设计,通过数据资产体系建设方法,帮助企业构建既符合场景需求又满足数据架构要求的数据资产体系并实施落地。这个步骤涉及数据汇聚、数据仓库建设、标签体系建设以及应用数据建设,其中最关键的是标签体系建设。所谓标签体系是面向具体对象构建的全维度数据标签,通过标签体系可以方便地支撑应用,大数据的核心魅力和服务能力主要就体现在标签体系的服务能力上。

  11. 用数据

  12. 从应用场景出发,将已经构建的数据资产通过服务化方式,应用到具体的业务中,发挥数据价值。将数据资产快速形成服务能力并与业务进行对接,在业务中产生数据价值,实现数据的服务化、业务化。在服务过程中,数据安全是不得不考虑的问题,哪些人能看到什么数字资产,能选择什么类型的服务都是需要严格审核的。

  13. 做运营

  14. 数据应用于业务后,其产生的价值通过运营的能力不断优化迭代,并让更多的人感知到数据的价值点。数据中台建设是一个持续建设和运营的过程,所谓持续建设和运营是指在架构基本稳定的情况下,不断循环第 3~5 步,多方角色会围绕核心 KPI 不断挖掘数据和业务场景的结合点,不断根据质量和价值两个点来运营优化。企业通过多个组织之间的配合推进,会逐步形成企业特有的数据文化和认知,这是企业在数字化转型中非常重要但很难跨越的点。


1.3 数据中台架构

通过前面对数据中台建设方法论体系的介绍,了解了数据中台的行动、保障、准则、内容和步骤。这一节将让大家了解数据中台的总体架构、包含的模块、模块之间的关系以及运转机制。


数据中台的目标是让数据持续用起来,通过数据中台提供的工具、方法和运行机制,把数据变为一种服务能力,让数据更方便地被业务所使用。图 3-7 所示为数据中台的总体架构图,数据中台是位于底层存储计算平台与上层的数据应用之间的一整套体系。数据中台屏蔽掉底层存储平台的计算技术复杂性,降低对技术人才的需求,让数据的使用成本更低。通过数据中台的数据汇聚、数据开发模块建立企业数据资产。通过资产管理与治理、数据服务把数据资产变为数据服务能力,服务于企业业务。数据安全管理、数据运营体系保障数据中台可以长期健康、持续运转。


  1. 数据汇聚

  2. 数据汇聚是数据中台数据接入的入口。数据中台本身几乎不产生数据,所有数据来自于业务系统、日志、文件、网络等,这些数据分散在不同的网络环境和存储平台中,难以利用,很难产生业务价值。数据汇聚是数据中台必须提供的核心工具,把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储,为后续的加工建模做准备。数据汇聚方式一般有数据库同步、埋点、网络爬虫、消息队列等;从汇聚的时效性来分,有离线批量汇聚和实时采集。

  3. 数据开发

  4. 通过数据汇聚模块汇聚到中台的数据没有经过处理,基本是按照数据的原始状态堆砌在一起的,这样业务还是很难使用。


  5. 图1-7 数据中台总体架构图


  6. 数据开发是一整套数据加工以及加工过程管控的工具,有经验的数据开发、算法建模人员利用数据加工模块提供的功能,可以快速把数据加工成对业务有价值的形式,提供给业务使用。数据开发模块主要面向开发人员、分析人员,提供离线、实时、算法开发工具,以及任务的管理、代码发布、运维、监控、告警等一系列集成工具,方便使用,提升效率。

  7. 数据体系

  8. 有了数据汇聚、数据开发模块,中台已经具备传统数据仓库(后面简称:数仓)平台的基本能力,可以做数据的汇聚以及各种数据开发,就可以建立企业的数据体系。之前说数据体系是中台的血肉,开发、管理、使用的都是数据。大数据时代,数据量大,增长快,业务对数据的依赖也会越来越高,必须考虑数据的一致性和可复用性,垂直的、烟囱式的数据和数据服务的建设方式注定不能长久存在。不同的企业因业务不同导致数据不同,数据建设的内容也不同,但是建设方法可以相似,数据要统一建设,笔者建议数据按照贴源数据、统一数仓、标签数据、应用数据的标准统一建设

  9. 数据资产管理

  10. 通过数据体系建立起来的数据资产较为偏技术,业务人员比较难理解。资产管理是以企业全员更好理解的方式,把企业的数据资产展现给企业全员(当然要考虑权限和安全管控),数据资产管理包括对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理和展示,以一种更直观的方式展现企业的数据资产,提升企业的数据意识

  11. 数据服务体系

  12. 前面利用数据汇聚、数据开发建设企业的数据资产,利用数据管理展现企业的数据资产,但是并没有发挥数据的价值。数据服务体系就是把数据变为一种服务能力,通过数据服务让数据参与到业务,激活整个数据中台,数据服务体系是数据中台存在的价值所在。企业的数据服务是千变万化的,中台产品可以带有一些标准服务,但是很难满足企业的服务诉求,大部分服务还是需要通过中台的能力快速定制。数据中台的服务模块并没有自带很多服务,而是提供快速的服务生成能力以及服务的管控、鉴权、计量等功能

  13. 运营体系和安全管理

  14. 通过前面的数据汇聚、数据开发、数据体系、数据资产管理、数据服务体系,已经完成了整个数据中台的搭建和建设,也已经在业务中发挥一定的价值。运营体系和安全管理是数据中台得以健康、持续运转的基础,如果没有它们,数据中台很可能像个一般项目一样,会在搭建起平台、建设部分数据、尝试一两个应用场景之后而止步,无法正常地持续运营,不能持续发挥数据的应用价值。这也就完全达不到建设数据中台的目标。


推荐阅读:


什么是数据中台?什么样的企业需要建数据中台?数据中台应该如何架构与设计?建设数据中台的系统方法论是什么?一个完整的数据中台有哪些组成部分?如何从 0 到 1 实现一个数据中台?数据中台应该如何运营?数据中台的安全如何保障?


……


以上所有问题都能在本书中找到答案!


本书从建设、管理、运营、安全 4 个维度详细讲解了数据中台概念、认知、架构、原理、组成,以及从 0 到 1 的完整过程。得到了阿里巴巴集团联合创始人谢世煌、原阿里集团副总裁卜鹰等近 10 位行业专家的高度评价和推荐!


阅读原文:https://item.jd.com/12770214.html


2020 年 1 月 12 日 10:304913

评论 1 条评论

发布
用户头像
IT资产从IT基础设施(硬件、网络、软件)走向数据资产
2020 年 01 月 17 日 13:27
回复
没有更多了
发现更多内容

回“疫”录(17):返宁的前一天

小天同学

疫情 回忆录 现实纪录 纪实

服务发现:ZooKeeper vs etcd vs Consul

MaxHu

Docker 容器 微服务 etcd Consul

Intellij IDEA2020.x如何安装Lombok插件

龙眼果

开发者工具

数列找规律的问题

oldj

数学

看完这篇HTTP,跟面试官扯皮就没问题了

cxuan

https okhttp

一篇文章搞定Java处理Excel的各种疑难杂症

知春秋

Java Excel POI

Web3极客日报#140

谢锐 | Frozen

区块链 独立开发者 技术社区 Rebase Web3 Daily

KK日知录20200515

kimmking

原创 | 使用JUnit、AssertJ和Mockito编写单元测试和实践TDD (七)CORRECT边界条件

编程道与术

Java 编程 软件测试 TDD 单元测试

多多益善的MacOS文件管理方案

陈东泽 EuryChen

macos Mac apple 提升效率 文件管理

用"结构性张力"构建自驱力

Yanel 说敏捷产品

团队管理 敏捷 团队协作 项目

学习型组织的修炼之道

Yanel 说敏捷产品

团队管理 项目管理 敏捷 团队协作 组织转型

程序员的晚餐 | 5 月 15 日 如果不写代码了,那就开个饺子店

清远

美食

spring注入bean的几种策略模式

测试轩

Java Spring Boot 测试驱动开发实战营

工程师、程序员和产品经理

王泰

程序员 产品经理 IT 软件工程师 工程师思维

常见的主从报错集锦

一个有志气的DB

MySQL 主从配置 主从同步

决战下半场:小程序技术助力金融APP重回C位

fino星君

小程序 数字化转型 app重构

何时开始重构?

Page

敏捷开发 重构

真的!只需 “六步” 实现图像特定物体识别!!!

攀鱼飞岩

Python OpenCV 计算机视觉 图像识别 物体检测

近期工作的几点感想

Leiy

app退出登录

Java实现Base64

Java

游戏发行中学到的重要经验(严肃长文)

谢锐 | Frozen

独立开发者 游戏开发 游戏出海 移动互联网

太赞了,VSCode 上也能画流程图了!

GitHubDaily

visual-studio GitHub 程序员 vscode 开发者工具

揭秘!开源软件背后的神秘组织

Apache Flink

大数据 flink 流计算 实时计算 大数据处理

奔腾吧,“后浪”李子柒!

无量靠谱

网红

网站系统架构演进

Janenesome

读书笔记 程序员 架构 系统设计

浅析 - CocoaLumberjack 3.6 之 DatabaseLogger

Edmond

ios sqlite log4j CocoaLumberjack DDLog

2020 敏捷产品基本盘

Yanel 说敏捷产品

产品 敏捷 产品设计 产品推荐

BVR 才是变革的核心

Yanel 说敏捷产品

团队管理 项目管理 敏捷 敏捷开发 敏捷精髓

【Howe学爬虫】全国统计用区划代码爬取

Howe

Java 爬虫

MySQL备份基础

一个有志气的DB

MySQL 数据

打造 VUCA 时代的 10 倍速 IT 团队

打造 VUCA 时代的 10 倍速 IT 团队

如何构建一个通用的数据中台 | 荐书-InfoQ