写点什么

数据中台是怎样炼成的?

  • 2019-10-29
  • 本文字数:3843 字

    阅读完需:约 13 分钟

数据中台是怎样炼成的?

导语:今年,看到很多媒体判定数据中台”行业“有千亿万亿的市场,以及会出现超越 BAT 的企业,但是少有真正能讲清楚什么是数据中台的。讨论技术的本质却是 InfoQ 的优势,我们采访了多家企业来探讨“数据中台”的本质和企业实践,数澜就是其中的一家。我们对数据中台的探讨,有一系列的文章呈现,本文是其中一篇。


“中台”战略在国内最初起源于阿里巴巴、华为等大型企业,在中台的基础上又分为业务中台、数据中台,目标都是把一些通用能力抽象到中台提供,达到资源复用以及快速适应前台业务变化的目的。数据中台,将数据业务化,来供业务中台和前台业务系统调用,原来缓慢的调用,变成了毫秒级别的快速反馈。


数据中台这场风,一下子就席卷了大数据行业的各个角落。


很多不同类型的公司都声称自己可以搭建数据中台或是数据中台的一部分。这场风里,每一家企业的数据中台都是独一无二的,基于数据平台之上,辅之以方法论+最佳实践打造而成,这与不同的企业自身的数字化程度以及行业属性、企业特性相关,主要有三类:


第一类是做大数据营销、SaaS 的企业,这类企业主要是在做垂直的数据应用,解决特定业务数据使用问题,对非领域内的不提供解决方案;


第二类是数据库、开发平台类企业,这类企业并不关注业务;


第三类属于咨询、外包软件类企业,可以根据需求定制开发。


数澜认为前面的这三类企业定位均不相同,都只实现了中台的部分能力,导致三者都不可能建设出企业级数据中台。


数澜科技的创始团队,主要就是来自于阿里巴巴的数据中台部门。其创始人风剑(甘云锋)曾是阿里集团数据平台事业部数据服务部负责人,是一手建立起阿里数据中台的骨干人物。

企业级数据中台建设

中国企业的大数据发展大概经历了三个阶段。第一阶段,是 2000 年之后的企业内部信息化,中国许多大型企业开启了一波以数据库、ERP 为主的底层 IT 建设,进行了初步的“业务数据化”建设。第二阶段,是 2004 年到 2012 年,随着 BAT 纷纷上市,互联网经济的崛起,让数据思维深入各行各业,数据量慢慢壮大。第三阶段是 2013 年之后,移动互联网的发展,一些金融、零售等大型企业响应“互联网+”概念,走向线上线下深度融合,这时数据服务的形式开始增多,业务维度更加复杂。


将数据用起来,随时随地分析企业情况进行精细化运营,企业需要打通老一代 ERP、数据库等 IT 系统,同时还需要应对业务增多且快速变动的情况。而且企业之间、各部门之间的数据往往都没有“共享”,运用不同的开发队伍开发平台和工具的不统一,这时,数据服务往往就是一个个从各平台伸出的数据“烟囱”。但这些传统企业有数据积累,已经有了比较好的信息化基础,也有数据应用的场景,这些业务需要数据服务。


数澜的数据中台的核心市场需求正在于此,为传统企业提供企业级数据中台服务。


在传统企业市场里,数澜完成了“百果园”、“中信云网”、“万科”等企业的项目。比如百果园是大型零售行业,用数据中台为消费者打造个性化定制服务。而在大型央企中信集团项目中,更侧重于顶层设计和整体推进,赋能集团数字化转型。


在针对企业级数据中台的服务过程中,数澜给数据中台的下了个定义:”数据中台是一套可持续的让企业的数据用起来的机制,是一种战略选择和组织形式,依据企业特有的业务模式和组织架构,通过有型的产品和实施方法论支撑,构建一套持续不断地把数据变成资产并服务于业务的机制。“。


同时,数澜给自己的数据中台的定位是:”数据库往上一点,ERP 等应用往下一点“。数据平台是数据中台的技术支撑,是中台的骨架,数澜的一站式大数据平台”数栖平台“就是”数据中台“的一个承载工具,在存储计算之上提供数据采集、数据开发、数据管理、数据服务,最终的数据服务要对接到业务系统或者数据产品。ERP 等应用软件产生的数据存储在数据库,通过数栖平台采集数据库中的数据,经过平台内部的加工、管理、服务化,再对接到 ERP 等应用系统。


数据中台是一种理念,强调的是一种复用能力,数栖平台就是数澜建立的一套提供公共服务的“模块”,数澜实施的项目有很多是尽量去复用已有的这个平台。

数据中台建设方法论

数据中台在企业落地实践时,结合技术、产品、数据、服务、运营等方面,逐步开展相关的工作,数澜在企业数据中台建设具体实践中的一些经验,主要归纳成 5 个关键步骤来完成这个建设过程。



第一步,现状


  1. 要了解业务现状:梳理业务过程及核心业务指标、知晓现有数据应用情况,还要找到可能的创新点。项目会选择最有可能的业务价值点,作为中台建设的验证,来看数据赋能业务的结果。

  2. 要盘点现有数据现状:现有什么数据、还需要增加什么数据。比如说企业的行为日志、机器日志都是资产。

  3. 要调研现有的 IT 现状:比如采用的什么数据库、数据量、数据字段和更新周期等,以便后续更好地设计技术架构。因为有一些信息系统非常封闭,如果数据不开放,拿不到一手数据,在 DT 时代就难以推进数据中台战略。

  4. 要了解现有组织架构:以怎样的组织形态来保证中台的顺利推进,协助者是谁,服务对象又是谁,以及一些相应配合机制,这些都是上数据中台之前需要梳理的。


第二步,定架构。


根据现状形成整体的规划蓝图,形成技术产品、数据体系、服务方式以及运营重点等相关的方案,梳理确立各块架构。企业信息架构经常谈到业务架构、技术架构、应用架构和数据架构都需要在这个阶段进行确认,这 4 个架构具体介绍如下:


  • 业务架构:如何保障数据中台能够适用于企业的业务运管模型和流程体系?

  • 技术架构:如何根据业务架构近远期规划,对数据的存储和计算进行统一的选型?

  • 应用架构:特指数据中台应用架构,如何为后面几个关键步骤的内容提供平台工具?

  • 组织架构:为保证中台项目的顺利落地,如何实现整体组织保障?


第三步,建资产。


结合数据架构的整体设计,通过数据资产体系建设方法,帮助企业构建既符合场景需求又满足数据架构要求的数据资产体系并实施落地。这个步骤涉及数据汇聚、数仓建设、标签体系建设以及应用数据建设,其中最关键的是标签体系建设过程。所谓标签体系是面向具体对象构建的全维度数据标签,通过标签体系可以方便支撑应用,大数据的核心魅力点和服务能力主要就体现在标签体系的服务能力。数据资产分为四层:贴源数据层、统一数仓层、标签数据层、应用数据层。如下图所示。



第四步,用数据。


与直接调用不同,数据中台绝大多数是通过服务调用方式提供的。服务的建设方主要是数据技术团队,他们把建好了数据体系利用数据引擎能力,生成数据服务 API,再发布到数据服务市场。在服务过程中,数据安全是不得不考虑的问题,哪些人能看到什么数字资产,能选择什么类型的服务都是需要严格审核的。


第五步,数据运营。  


整个数据中台的建设、使用不是一下子完成的,绝对不是一个项目,是一个运营迭代的过程,用“看、选、用、治、评”的过程来保障整个数据中台可以持续运营、持续迭代,形成一整套闭环的机制。企业通过多个组织之间的配合推进,会逐步形成企业特有的数据文化和认知,这是企业在数字化转型中非常重要但很难跨越的点。

经验总结

在数澜实施众多项目过程中,也曾总结了一些踩过的坑。数澜江敏曾在TGO活动上讲到,数据最核心的能力即数据的连接,就是把一些看似不相关的数据连接起来之后,在解决问题时,就会有更多的视角去发现问题。现在很多企业不知道如何利用数据,他表示企业对数据认知不清晰以及提不出数据应用场景的需求的原因, 造成了”坐着金山啃馒头的现状。每个公司都有一座矿山,有很多有价值的数据,但是这些价值一直没有发挥出来。我们一位客户曾说过,他们的业务能力很强,团队抢了很多面粉回来,但最终没有把面粉变成面包而是坏掉了。“


就算知道了数据的价值,也会存在其他的比如”数据墙“保护的问题。数澜天湛在回答在项目实施中遇到最大的困难是什么时,他这样告诉我们:”中台建设需要有全员共识,由管理层从上往下推进,由技术和业务人员去执行和落地,是个漫长的过程,所以实施数据中台时,最困难的地方就是需要推动力。比如在中国有各种’数据墙‘,大家都觉得数据有价值,也没有发挥这个价值,但是对数据又保护的很紧。为了解决某一块的业务,需要去拿多个部门的数据,有时甚至涉及到几十个部门,最初可能马上得到口头上的应允,但最后真正拿到数据却很困难,这时候推动力决定了整个项目的进展。“


数澜认为大数据目前还处于起步阶段,很多时候应用场景是需要不断探索、验证和优化。大数据场景化应用最终能达到的效果如何,很多时候企业心里是没谱的,除非行业已经有现成的实践案例。所以最好的办法就是先实施一个数据中台,取得阶段性成果,不断的去验证和优化,逐渐支撑越来越多的应用,甚至未来的发展到参与企业所有的业务。


所以数据中台一定是一个运营迭代的过程,通过业务闭环不断完善,使业务的场景化应用效果越来越好,最终达到数据业务价值的最大化。数澜认为”建设数据中台都是一个练习内功的过程,如果企业想在某个节点上快速做出结果,这并不是一个好的数据中台落地方式“。


采访嘉宾


付登坡(花名:天湛),数澜科技联合创始人、合伙人,地产事业部总经理。原阿⾥巴巴集团⼤数据科学家,10 多年⼤数据行业经验,擅长数据建模、海量数据产品架构与实现。曾任职阿⾥巴巴集团,先后负责 SEM 效果优化、日志分析引擎、TCIF 标签 体系、DMP 平台等大数据项⽬设计与实施。2015 年以创始 人身份组建阿⾥里巴巴集团的“11 维数据创新工作室”,探索数据商业化。2016 年 6⽉离职,联合创办数澜科技。2019 年将在数据中台多年经验沉淀融合,以第一作者身份撰写《数据中台-让企业的数据用起来》一书。


2019-10-29 08:002973

评论

发布
暂无评论
发现更多内容

小心互联网行业的“高薪”陷阱

老张

职场成长 认知 职场晋升

安徽淮南有等保测评机构吗?在哪里?

行云管家

等保 等保测评 淮南

DeFi 市场收益疲软?Astherus 或成用户捕获收益的最佳管道

股市老人

一键自动生成ppt的AI工具!这5款不容错过!

职场工具箱

人工智能 PPT 办公软件 AIGC AI生成PPT

火山引擎与东风Honda,为用户创造了个驾乘“搭子”

新消费日报

Carft - 一款小众而不简单的笔记软件

沉默的老李

笔记软件

《Django 5 By Example》阅读笔记:p645-p650

codists

Python django

得物彩虹桥架构演进之路-负载均衡篇

得物技术

云计算 负载均衡 云原生 #架构

并发编程/Actor模型设计为高并发项目提供基础模型(设计篇)

肖哥弹架构

Java 并发编程 高并发

鲲鹏原生赋能浩瀚深度,网络数据可视化处理更加高效

极客天地

加油站运营系统(源码+文档+部署+讲解)

深圳亥时科技

用户身份与访问管理IAM和人工智能的融合应用

芯盾时代

人工智能 iam 统一身份管理平台

人工智能 | ReACT 推理模式

测吧(北京)科技有限公司

测试

ROS机器视觉入门:从基础到人脸识别与目标检测

芯动大师

机器视觉 ROS

Go 并发控制:errgroup 详解

江湖十年

Go 面试 后端 并发

AlmaLinux 9.5 正式版发布 - RHEL 二进制兼容免费发行版

sysin

RHEL AlmaLinux

数智析碳,节能降碳

鲸品堂

节能管理 实战案例 双碳 企业号 2024年11月PK榜

维度爆炸背景下uv计算在Feed业务的高效实践

百度Geek说

配置NVIDIA Container Runtime和容器运行GPUStack教程

GPUStack

Docker 容器 大模型 LLM GPU集群

配置NVIDIA Container Runtime和容器运行GPUStack教程

SEAL安全

Docker 容器 大模型 LLM GPU集群

税友:基于鲲鹏原生开发税务行业应用,引领智慧税务

极客天地

股票API接口:功能对比与应用场景

幂简集成

API 股票

实验室管理系统(源码+文档+部署+讲解)

深圳亥时科技

华光环能:从财务预算向战略导向全面预算转型升级

用友智能财务

财务 实践案例 企业数智化

AI工具百宝箱|任意选择与Chatgpt、gemini、Claude等主流模型聊天的Anychat,等你来体验!

可信AI进展

影响LED显示屏显示效果的因素有哪些?

Dylan

显示器 LED显示屏 全彩LED显示屏 led显示屏厂家 效果图渲染

数据中台是怎样炼成的?_数据库_Tina_InfoQ精选文章