现场实操破解开发瓶颈,「2023 百度云智大会·智算大会 开发者沙龙」不容错过! 了解详情
写点什么

数据中台不是技术平台,没有标准架构

  • 2019-07-30
  • 本文字数:3391 字

    阅读完需:约 11 分钟

数据中台不是技术平台,没有标准架构


2019 年,一场组织变革的风暴席卷了阿里、腾讯、百度、京东等国内互联网公司,在未来的转型计划中,他们不约而同地提到了一个词——数据中台,甚至表示将数据中台上升为核心方向,并基于此做了企业组织架构调整。

世间诸事大抵如此,火爆的东西总是容易被模仿、被跟风,所以当“数据中台”的热风吹起时,我们看到了很多不同类型的公司都声称自己可以搭建数据中台或是数据中台的一部分,这其中当然免不了有些是跟风、够概念。如何区分跟风与实干,数据中台到底是什么?我们对话了 Kyligence 联合创始人兼 CTO 李扬,请他谈谈他对数据中台的理解。


在采访中,李扬坦然表示先前对于国内风靡的数据中台也没有深刻认识,最近专门做了一些功课,发现数据中台并不是一个全新的概念,2016 年他去都柏林参加了 Hortonworks 举办的Hadoop Summit活动,当时 Hortonworks CEO RobBearden 带来的第一个 keynote 分享就是“Data is Transforming the World of Business”,这其实与现在的数据中台有异曲同工之妙。

数据中台起初是个企业管理概念

很多人都知道“中台”这个名词,在国内最早是由马云提出来的。2015 年,马云参观了一家芬兰游戏公司——Supercell,观察到 Supercell 每个游戏开发的小团队都只有六七个人,但是他们开发新游戏的速度特别快,同时放弃游戏也很快。而能够做到这一切的主要原因是他们把游戏开发过程中用到的一些通用的游戏素材和算法整理出来了,作为工具提供给小团队使用,同一套工具可以支持多个游戏研发团队。


马云发觉这种方法很好,不久之后,阿里就成立了一个数据中台的团队,“数据中台”这个名词也渐渐在国内流行起来,在公开场合中谈数据中台的企业也多了起来,原因也很简单,大家都想往更新、更热的概念上凑,增强用户购买欲、推动业务增长。


但李扬认为从数据中台的由来来看,数据中台首先是个企业管理概念,“主要是通过复用数据资产来驱动前线业务的高速创新和改造,如果要是让我给数据中台下个定义的话,从企业管理层面来看,我认为数据中台是个组织,它提供 3 个方面的东西:共享的数据服务(Data-as-a-Service)、集中治理数据资产(Goverance)、用数据改造业务(Data changes business)。”


如果从企业管理概念出发,理论上来说,不使用 IT 技术也可以完成数据中台。举个不太恰当的例子,假设我们汇总了纸质报表,进行人工审核,并从中得到了某些趋势洞察,进而改造了多条前线业务,那么这些纸质报表也可以称之为“数据中台”。


数据中台的出现是有其时代背景的,如果市场处于空白期,我们根本就不需要数据来辅助决策,当红利期过后,存量市场变得越来越小,这时企业之间就要比拼谁的服务质量更高、谁的成本更低、人效更高。于是,就出现了之前爆火的信息化,企业从手工作坊式转型到用电子系统来管理。当企业完成了内部的组织架构调整和信息化之后,并且简单的、侵略性的市场推广不再奏效时,才适合聊数字化驱动前线业务的高速创新增长,也正是在这个时间节点才会出现“数据中台”这样的概念。

数据中台过渡到技术概念

从数据中台的由来看,它是个企业管理概念,为什么很多人在谈到“数据中台”的时候都谈到技术呢?李扬解释道:“在信息化时代,负责数据中台的组织的主要职责就是维护数据、并提供数据服务,而他们使用的工具通常是电子信息相关的技术,所以很自然的,数据中台就会从一个企业管理概念过渡到技术概念。”


从技术概念来看,数据中台和另一个平行概念有点相像——数据平台。如果非要在技术概念的层面给数据中台下个定义,数据中台就是以驱动业务为目的的数据平台。对应前文提到的数据中台包含的三个内容,数据平台本身就提供共享的数据服务和集中治理数据资产。


所以数据中台和数据平台的区别就在于是否以数据驱动业务为目的,并不是所有的数据平台都有此目的,例如 Data Lake 是整个数据链条中比较靠底层的部分,它不是直接来驱动业务的,而是为了向上上一层的数据仓库或者更上层提供数据,所以,Data Lake 不能称之为数据中台,顶多可以称为数据中台的一部分。


想要实现数据中台需要经历哪些阶段呢?李扬认为关键的有三步:第一步,需要有个完整的地方把所有数据串联起来;第二步,数据需要打通,并被整理好;第三步,数据要能够驱动业务增长。其中,只有第二步和软件架构有关系,其它两步与软件架构的关联都不是那么紧密,第一步是信息化,第三步与管理层更紧密。


数据中台中包含了很多系统,如果非要划分一下数据中台的组成部分,李扬认为一种典型的设计可以分为三层,从最底层到最上层分别为:Data Lake、Data Warehouse 和 Data Mart,再往上面就是对接 BI。比如 Kyligence 就提供有下一代的智能数据仓库产品,处于 Data Mart 或 Data Warehouse 的定位,负责底层大数据与上层 BI 的高速对接,释放数据生产力,赋能前线业务。在 Kyligence 接触的客户中,已经有不少企业内部建立了中台的项目,Kyligence 也被贴上了“中台供应商”参与其中,而我们提供的技术方案实质并没有因为中台这个概念而发生变化。

谈数据中台的企业与数据中台的关系

前文提到现在谈数据中台的企业特别多,如果我们把这些企业稍稍分类一下,大致可分为三类:第一类是做大数据营销、SaaS 企业,第二类是数据库、数据仓库、开发平台类企业;第三类是外包咨询类软件企业。当然,这些企业中不乏有炒概念的,但除去这些,我们来看看这三类企业和数据中台有哪些联系?


大数据营销、SaaS 企业:这类企业主要提供的是共享的数据服务,即 Data-as-a-Service。如果更加直白的来说,它们具备一定的数据能力,是一个工具可以被用来建设数据中台。当他们理解了用户的业务增长方式,并把这种增长方式与其 SaaS 产品结合起来,那么勉强可以成为数据中台,否则他们永远提供的是数据服务。


数据库、数据仓库、平台开发类企业:数据库其实是在数据中台更低一层的系统,企业因为信息化的历史周期不同,会沉淀非常多的数据系统。如果我们认可了前面数据中台从最底层到最上层分别为 Data Lake、Data Warehouse 和 Data Mart,那么数据库、数据仓库等企业只能是数据中台的一部分,无法成为一个完整的数据平台。


外包咨询类企业:与前两类企业相比,这类企业提供的更多的是一个解决方案,根据客户定制化需求交付产品。同时也可能是对“数据中台”概念理解最深刻的一类企业。

数据中台是个新概念吗?

数据中台是个新概念吗?李扬认为在国内是,但全球来看并不是。早在三年前,Hortonworks 在都柏林举办 Hadoop Summit 活动,其 CEO RobBearden 带来的 keynote 分享“Data is Transforming the World of Business”就与数据中台有异曲同工之妙。由于国外数字化建设进程总体领先,在数年前就提出了数据驱动商务革新的概念,仅大会上提到的案例就覆盖了风控、医疗、智能汽车等多个领域。现在只是国内恰好发展到这一阶段了,数据中台的概念适时被提出来了,它的精妙之处在于指出了我们已不再处于野蛮生长的状态了,而是需要使用精细化来提高质量、实现下一轮增长。


“数据中台是个很精炼的概念”,李扬这样解释数据中台:“数据指出了原动力,中台前台的概念中,前台指的是业务线,而中台就是在支撑业务线,代表数据赋能业务的意思。只用四个字就概括出了数据为核心、平台为支撑、驱动前线商务变革,这三层意思,成功地在业务和技术之间建立了一个沟通的桥梁。”


如果数据中台不再是个新概念,那么它带来的主要变化是什么?李扬表示:“当一个组织、企业喊出了要建设‘数据中台’的口号,那么最大的变化就在于该组织决心要用数据去改造业务了。”


“数据中台的建设一定会伴随着企业组织架构调整,这才是真正切到了数据中台的关键。”李扬表示。首先,企业组织架构很明显的变化会是,之前负责数据的部门或团队可能缺乏话语权,但是建设数据中台之后,数据中台团队化被动为主动;其次,之前数据团队的主要工作是项目管理、需求管理等等,现在可能还需要研究业务、数据和模型等;第三,数据中台团队要从传统的支撑角色逐步向运营角色转变。


当人人都在谈数据中台时,它会是一个通用的存在吗?“绝对不会有通用的数据中台,除非两家公司所有的业务都一模一样,”李扬认为:“不要试图把中台做成一个标准的架构,那不现实,因为每家的业务都不一样。最好的情况是提供一个参考架构,在此基础上定制出自己的框架,这也是为什么架构师是个脑力活,如果每个架构都是标准化的,那架构师的工作也就不值钱了!”


2019-07-30 09:005425
用户头像

发布了 497 篇内容, 共 302.2 次阅读, 收获喜欢 1896 次。

关注

评论 2 条评论

发布
用户头像
1111
2019-07-31 10:12
回复
用户头像
这句话有意思:在 Kyligence 接触的客户中,已经有不少企业内部建立了中台的项目,Kyligence 也被贴上了“中台供应商”参与其中,而我们提供的技术方案实质并没有因为中台这个概念而发生变化。
2019-07-30 09:25
回复
没有更多了
发现更多内容

微信视频号的排版,怎样才好看 | 视频号 28 天 (07)

赵新龙

28天写作

浅析Mysql数据库优化设计规范的“度”

三石

MySQL 28天写作

区块链双仓合约交易所系统开发

一个奇怪的 Elasticsearch 节点

escray

elasticsearch elastic 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

Intel首次公布11代酷睿桌面处理器性能:8核i9斩落锐龙12核

科技新消息

Java Optimizing 读书笔记(一)

绝影-大数据

关于“面试造火箭,入职拧螺丝” Jan 14, 2021

王泰

28天写作

开发老人笔记:Git 常用命令清单

华为云开发者联盟

git 代码 bug

量化交易系统开发

威掂l8929545452

区块链 系统开发 量化交易系统 交易所

OpenYurt v0.3.0 重磅发布:全面提升边缘场景下应用部署效率

阿里巴巴云原生

阿里巴巴 开源 容器 云原生 k8s

开发更便捷 阿里云推出一站式应用研发平台EMAS 2.0

移动研发平台EMAS

阿里云 Serverless AI 低代码 移动研发平台

HDFS SHELL详解(7)

罗小龙

hadoop 28天写作 hdfs shell

百度智能小程序打造购票观影一站式体验,影视宣发新玩法助力行业复苏

DT极客

两种常见的减少信息不对称的办法

熊斌

学习 成长 28天写作

解决Windows2012 R2下安装PostgreSQL报错的问题

PostgreSQLChina

数据库 postgresql 开源

避免短信接口被黑客刷取的方法

香芋味的猫丶

短信防刷 接口安全 短信验证码 短信防轰炸 短信防火墙

自动驾驶汽车的发展史

anyRTC开发者

人工智能 自动驾驶 AI

流行的后台管理系统模板总结

老魚

程序员 建站 web全栈

项目管理系列(2)-如何写好一份报告

Ian哥

项目管理 28天写作

碎碎念之「被误会的佛系,被遗忘的疯魔」

Justin

碎碎念 心灵鸡汤 28天写作 佛教

GaussDB(DWS)性能调优系列实现篇六:十八般武艺Plan hint运用

华为云开发者联盟

数据库 性能优化 sql GaussDB 算子

【HTML】已经废弃的align(图像对齐方式)

德育处主任

html html5 Web html/css 28天写作

TypeScript 渐进迁移指南

LeanCloud

JavaScript typescript nodejs

区块链轻节点:“身”轻,责任重

华为云开发者联盟

区块链 数据 数据隐私 轻节点

数据库表数据量大读写缓慢如何优化(2)「查询分离」

我爱娃哈哈😍

数据库 大数据 架构 后端 优化

Serverless 架构到底要不要服务器?

Serverless Devs

Java 云计算 Serverless 运维 云原生

量化对冲搬砖套利交易APP开发|量化对冲搬砖套利交易系统软件开发

系统开发

需求条目化:一个让用户故事有效落地的套路

华为云开发者联盟

敏捷 项目 需求条目化

BI项目失败?看看是不是缺少了这几项闭环!

博文视点Broadview

红牛交易所app系统开发

威掂l8929545452

区块链 系统开发 APP开发 红牛交易所

Redis 学习笔记 03:字典

架构精进之路

redis 七日更 28天写作

数据中台不是技术平台,没有标准架构_大数据_田晓旭_InfoQ精选文章