写点什么

数据中台是怎样炼成的?

  • 2019-10-29
  • 本文字数:3843 字

    阅读完需:约 13 分钟

数据中台是怎样炼成的?

导语:今年,看到很多媒体判定数据中台”行业“有千亿万亿的市场,以及会出现超越 BAT 的企业,但是少有真正能讲清楚什么是数据中台的。讨论技术的本质却是 InfoQ 的优势,我们采访了多家企业来探讨“数据中台”的本质和企业实践,数澜就是其中的一家。我们对数据中台的探讨,有一系列的文章呈现,本文是其中一篇。


“中台”战略在国内最初起源于阿里巴巴、华为等大型企业,在中台的基础上又分为业务中台、数据中台,目标都是把一些通用能力抽象到中台提供,达到资源复用以及快速适应前台业务变化的目的。数据中台,将数据业务化,来供业务中台和前台业务系统调用,原来缓慢的调用,变成了毫秒级别的快速反馈。


数据中台这场风,一下子就席卷了大数据行业的各个角落。


很多不同类型的公司都声称自己可以搭建数据中台或是数据中台的一部分。这场风里,每一家企业的数据中台都是独一无二的,基于数据平台之上,辅之以方法论+最佳实践打造而成,这与不同的企业自身的数字化程度以及行业属性、企业特性相关,主要有三类:


第一类是做大数据营销、SaaS 的企业,这类企业主要是在做垂直的数据应用,解决特定业务数据使用问题,对非领域内的不提供解决方案;


第二类是数据库、开发平台类企业,这类企业并不关注业务;


第三类属于咨询、外包软件类企业,可以根据需求定制开发。


数澜认为前面的这三类企业定位均不相同,都只实现了中台的部分能力,导致三者都不可能建设出企业级数据中台。


数澜科技的创始团队,主要就是来自于阿里巴巴的数据中台部门。其创始人风剑(甘云锋)曾是阿里集团数据平台事业部数据服务部负责人,是一手建立起阿里数据中台的骨干人物。

企业级数据中台建设

中国企业的大数据发展大概经历了三个阶段。第一阶段,是 2000 年之后的企业内部信息化,中国许多大型企业开启了一波以数据库、ERP 为主的底层 IT 建设,进行了初步的“业务数据化”建设。第二阶段,是 2004 年到 2012 年,随着 BAT 纷纷上市,互联网经济的崛起,让数据思维深入各行各业,数据量慢慢壮大。第三阶段是 2013 年之后,移动互联网的发展,一些金融、零售等大型企业响应“互联网+”概念,走向线上线下深度融合,这时数据服务的形式开始增多,业务维度更加复杂。


将数据用起来,随时随地分析企业情况进行精细化运营,企业需要打通老一代 ERP、数据库等 IT 系统,同时还需要应对业务增多且快速变动的情况。而且企业之间、各部门之间的数据往往都没有“共享”,运用不同的开发队伍开发平台和工具的不统一,这时,数据服务往往就是一个个从各平台伸出的数据“烟囱”。但这些传统企业有数据积累,已经有了比较好的信息化基础,也有数据应用的场景,这些业务需要数据服务。


数澜的数据中台的核心市场需求正在于此,为传统企业提供企业级数据中台服务。


在传统企业市场里,数澜完成了“百果园”、“中信云网”、“万科”等企业的项目。比如百果园是大型零售行业,用数据中台为消费者打造个性化定制服务。而在大型央企中信集团项目中,更侧重于顶层设计和整体推进,赋能集团数字化转型。


在针对企业级数据中台的服务过程中,数澜给数据中台的下了个定义:”数据中台是一套可持续的让企业的数据用起来的机制,是一种战略选择和组织形式,依据企业特有的业务模式和组织架构,通过有型的产品和实施方法论支撑,构建一套持续不断地把数据变成资产并服务于业务的机制。“。


同时,数澜给自己的数据中台的定位是:”数据库往上一点,ERP 等应用往下一点“。数据平台是数据中台的技术支撑,是中台的骨架,数澜的一站式大数据平台”数栖平台“就是”数据中台“的一个承载工具,在存储计算之上提供数据采集、数据开发、数据管理、数据服务,最终的数据服务要对接到业务系统或者数据产品。ERP 等应用软件产生的数据存储在数据库,通过数栖平台采集数据库中的数据,经过平台内部的加工、管理、服务化,再对接到 ERP 等应用系统。


数据中台是一种理念,强调的是一种复用能力,数栖平台就是数澜建立的一套提供公共服务的“模块”,数澜实施的项目有很多是尽量去复用已有的这个平台。

数据中台建设方法论

数据中台在企业落地实践时,结合技术、产品、数据、服务、运营等方面,逐步开展相关的工作,数澜在企业数据中台建设具体实践中的一些经验,主要归纳成 5 个关键步骤来完成这个建设过程。



第一步,现状


  1. 要了解业务现状:梳理业务过程及核心业务指标、知晓现有数据应用情况,还要找到可能的创新点。项目会选择最有可能的业务价值点,作为中台建设的验证,来看数据赋能业务的结果。

  2. 要盘点现有数据现状:现有什么数据、还需要增加什么数据。比如说企业的行为日志、机器日志都是资产。

  3. 要调研现有的 IT 现状:比如采用的什么数据库、数据量、数据字段和更新周期等,以便后续更好地设计技术架构。因为有一些信息系统非常封闭,如果数据不开放,拿不到一手数据,在 DT 时代就难以推进数据中台战略。

  4. 要了解现有组织架构:以怎样的组织形态来保证中台的顺利推进,协助者是谁,服务对象又是谁,以及一些相应配合机制,这些都是上数据中台之前需要梳理的。


第二步,定架构。


根据现状形成整体的规划蓝图,形成技术产品、数据体系、服务方式以及运营重点等相关的方案,梳理确立各块架构。企业信息架构经常谈到业务架构、技术架构、应用架构和数据架构都需要在这个阶段进行确认,这 4 个架构具体介绍如下:


  • 业务架构:如何保障数据中台能够适用于企业的业务运管模型和流程体系?

  • 技术架构:如何根据业务架构近远期规划,对数据的存储和计算进行统一的选型?

  • 应用架构:特指数据中台应用架构,如何为后面几个关键步骤的内容提供平台工具?

  • 组织架构:为保证中台项目的顺利落地,如何实现整体组织保障?


第三步,建资产。


结合数据架构的整体设计,通过数据资产体系建设方法,帮助企业构建既符合场景需求又满足数据架构要求的数据资产体系并实施落地。这个步骤涉及数据汇聚、数仓建设、标签体系建设以及应用数据建设,其中最关键的是标签体系建设过程。所谓标签体系是面向具体对象构建的全维度数据标签,通过标签体系可以方便支撑应用,大数据的核心魅力点和服务能力主要就体现在标签体系的服务能力。数据资产分为四层:贴源数据层、统一数仓层、标签数据层、应用数据层。如下图所示。



第四步,用数据。


与直接调用不同,数据中台绝大多数是通过服务调用方式提供的。服务的建设方主要是数据技术团队,他们把建好了数据体系利用数据引擎能力,生成数据服务 API,再发布到数据服务市场。在服务过程中,数据安全是不得不考虑的问题,哪些人能看到什么数字资产,能选择什么类型的服务都是需要严格审核的。


第五步,数据运营。  


整个数据中台的建设、使用不是一下子完成的,绝对不是一个项目,是一个运营迭代的过程,用“看、选、用、治、评”的过程来保障整个数据中台可以持续运营、持续迭代,形成一整套闭环的机制。企业通过多个组织之间的配合推进,会逐步形成企业特有的数据文化和认知,这是企业在数字化转型中非常重要但很难跨越的点。

经验总结

在数澜实施众多项目过程中,也曾总结了一些踩过的坑。数澜江敏曾在TGO活动上讲到,数据最核心的能力即数据的连接,就是把一些看似不相关的数据连接起来之后,在解决问题时,就会有更多的视角去发现问题。现在很多企业不知道如何利用数据,他表示企业对数据认知不清晰以及提不出数据应用场景的需求的原因, 造成了”坐着金山啃馒头的现状。每个公司都有一座矿山,有很多有价值的数据,但是这些价值一直没有发挥出来。我们一位客户曾说过,他们的业务能力很强,团队抢了很多面粉回来,但最终没有把面粉变成面包而是坏掉了。“


就算知道了数据的价值,也会存在其他的比如”数据墙“保护的问题。数澜天湛在回答在项目实施中遇到最大的困难是什么时,他这样告诉我们:”中台建设需要有全员共识,由管理层从上往下推进,由技术和业务人员去执行和落地,是个漫长的过程,所以实施数据中台时,最困难的地方就是需要推动力。比如在中国有各种’数据墙‘,大家都觉得数据有价值,也没有发挥这个价值,但是对数据又保护的很紧。为了解决某一块的业务,需要去拿多个部门的数据,有时甚至涉及到几十个部门,最初可能马上得到口头上的应允,但最后真正拿到数据却很困难,这时候推动力决定了整个项目的进展。“


数澜认为大数据目前还处于起步阶段,很多时候应用场景是需要不断探索、验证和优化。大数据场景化应用最终能达到的效果如何,很多时候企业心里是没谱的,除非行业已经有现成的实践案例。所以最好的办法就是先实施一个数据中台,取得阶段性成果,不断的去验证和优化,逐渐支撑越来越多的应用,甚至未来的发展到参与企业所有的业务。


所以数据中台一定是一个运营迭代的过程,通过业务闭环不断完善,使业务的场景化应用效果越来越好,最终达到数据业务价值的最大化。数澜认为”建设数据中台都是一个练习内功的过程,如果企业想在某个节点上快速做出结果,这并不是一个好的数据中台落地方式“。


采访嘉宾


付登坡(花名:天湛),数澜科技联合创始人、合伙人,地产事业部总经理。原阿⾥巴巴集团⼤数据科学家,10 多年⼤数据行业经验,擅长数据建模、海量数据产品架构与实现。曾任职阿⾥巴巴集团,先后负责 SEM 效果优化、日志分析引擎、TCIF 标签 体系、DMP 平台等大数据项⽬设计与实施。2015 年以创始 人身份组建阿⾥里巴巴集团的“11 维数据创新工作室”,探索数据商业化。2016 年 6⽉离职,联合创办数澜科技。2019 年将在数据中台多年经验沉淀融合,以第一作者身份撰写《数据中台-让企业的数据用起来》一书。


2019-10-29 08:002783

评论

发布
暂无评论
发现更多内容

知识库的作用

易成管理学

使用craco对cra项目进行构建优化

CRMEB

Linux之vmstat命令

入门小站

Linux

王者荣耀商城异地多活设计

皓月

「架构实战营」

【架构训练营-模块二】

默光

微信朋友圈 架构训练营5期

react源码解析3.react源码架构

buchila11

React

C#中的数据字典Dictionary

Andy阿辉

C# 程序员 程序人生 2月日更

AI+Science:基于飞桨的AlphaFold2,带你入门蛋白质结构预测

百度大脑

AI象棋,谁与争锋

乌龟哥哥

AI 2月月更

跨站脚本攻击xss利用-beef攻击-演示

喀拉峻

网络安全 XSS

Web Components系列(三) —— 创建 Custom Elements

编程三昧

前端 组件化 2月月更 WebContents

在线学习FTRL介绍及基于Flink实现在线学习流程|社区征文

张浩_house

机器学习 大数据 flink 新春征文

一个人手写APP监控平台是什么体验 | 社区征文

一诺倾心

flutter android 性能优化 APM

推荐 3 个 React 动画库

devpoint

React 网页动画 2月月更

网络安全kali渗透学习 web渗透入门 Google搜索引擎的使用技巧

学神来啦

无障碍读屏出错了

admin

小程序 性能优化 瀑布流 relations 无障碍

RTE2021 回顾丨HDR 技术产品实践与探索

声网

人工智能 HDR

在线ASCII流程图编辑器工具

入门小站

工具

SAP 移动开发技术综述 | 社区征文

汪子熙

android 移动开发 cordova 新春征文 2月月更

BIGO 使用 Flink 做 OLAP 分析及实时数仓的实践和优化

Apache Flink

大数据 flink 编程 后端 实时计算

一文搞明白直播和点播的区别 | 社区征文

liuzhen007

音视频 新春征文 2月月更

产品经理角色理解

wood

300天创作

TiDB 在国信证券海量数据高并发场景中的实践

陈培新

TiDB

恒业资本江一:ToB长期主义不是经营无能的遮羞布

ToB行业头条

mysql 面试总结

yuexin_tech

面试

关于如何构建 Go 代码的思考

宇宙之一粟

Go 语言 2月月更

恒源云(GPUSHARE)_可构建AI的「AI」诞生?

恒源云

神经网络 深度学习

云端开发在阿里的典型应用场景 | 阿里巴巴DevOps实践指南

阿里云云效

阿里云 云原生 云平台 研发工具 云端开发

拒绝做工具小子—编写Python漏洞验证脚本

网络安全学海

黑客 网络安全 信息安全 渗透测试 安全漏洞

B站员工猝死,审核员之殇,谁该反省?谁该惭愧?技术层面解构内容安全审核系统(python3)

刘悦的技术博客

系统架构 内容审核 Python3 应用审核 构架

我的云原生学习方法 | 社区征文

大菠萝

新春征文

数据中台是怎样炼成的?_数据库_Tina_InfoQ精选文章