我所经历的大数据平台发展史（一）：非互联网时代 • 上篇_大数据_松子（李博源）

FCon7折倒计时最后一周：日程已上线70%！查看详情>>> 了解详情 



 写点什么

编者按：本文是松子（李博源）的大数据平台发展史系列文章的第一篇（共四篇），本系列以独特的视角，比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆，对非互联网、互联网，从数据平台的用户角度、数据架构演进、模型等进行了阐述。

前言，这个数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆，文章引用了历史项目 & 平台规划架构，在这里不做更深入描述。

我是从 2000 年开始接触数据仓库，大约 08 年开始进入互联网行业，那时在互联网接触到数据平台与传统第三代数据架构还是有很大的类似之处，随着互联网的突飞猛进，每一次的技术变革都带来一场从技术、架构、业务的渐进式变革，到今天互联网、非互联网的数据平台架构已经差异非常大。

回顾早期的企业环境，企业的生产与服务是一个很长周期，导致业务数据呈现一种粗粒度模式。随着互联网的快速渗透从早期的 PC 终端到“裆下“的移动终端，对用户的需求与服务周期将逐渐的缩短，业务量级、数据类型多样化与存储的暴增，对应着技术、架构、业务呈现出迅猛发展，相应的数据沉淀与积累也成指数暴涨。

从”数据仓库“ 词开始到现在的“大数据”，中间经历了太多的知识、架构模式的演进与变革，比如说“数据仓库、海量数据、大数据”等。（备注：数据仓库一般指的是：在相当长的时间内堆积数据，仅仅需要处理大量数据请求中的少部分的系统。数据仓库不等同于“海量数据” 。恰恰相反，而是其子集。海量数据也包含：通过大量的连接提供每秒百万次服务请求的系统。大数据是海量数据 + 复杂类型数据基础上的大分析、高宽带、大内容）。

数据仓库在国外的发展史多年，大约在 98-99 年左右进入中国，到现在历了大约十多年发展。到了今天尤其是在非互联网、互联网企业两个领域数据平台有显著的区别。本文将以非互联网时代、互联网时代数据平台发展角度来讲述。

很多从传统企业数据平台转到互联网同学是否有感觉，非互联网企业、互联网企业的数据平台所面向用户群体是不同的？这两类的数据平台的建设、使用用户又有变化？数据模型设计又有什么不同呢？

我们先来看用户群体的区别，下边整理了 2 个图来讲述用户群体相关区别。

一、用户群体

非互联网数据平台用户：

(点击放大图像)

企业的 boss、运营的需求主要是依赖于报表、商业智能团队的数据分析师去各种分析与挖掘探索；
支撑这些人是 ETL 开发工程师、数据模型建模、数据架构师、报表设计人员，同时这些角色又是数据平台数据建设与使用方。
数据平台的技术框架与工具实现主要有技术架构师、JAVA 开发等。
用户面对是结构化生产系统数据源。

互联网数据平台用户：

(点击放大图像)

互联网企业中员工年龄比非互联网企业的要年轻、受教育程度、对计算机的焦虑程度明显比传统企业要低、还偶遇其它各方面的缘故，导致了数据平台所面对用户群体与非互联网数据平台有所差异化；
互联网数据平台的使用与建设方是来自各方面的人，数据平台又是技术、数据产品推进建设的。
分析师参与数据平台直接建设比重增加。
原有的数据仓库开发与模型架构师的职能也从建设平台转为服务与咨询.
用户面对是数据源多样化，比如日志、生产数据库的数据、视频、音频等非结构化数据。

从这用户群体角度来说这非互联网、互联网的数据平台用户差异性是非常明显，互联网数据平台中很多理论与名词都是从传统数据平台传递过来的，本文将会分别阐述非互联网、互联网数据平台区别。

(点击放大图像)

非互联网时代

自从数据仓库发展起来到现在，基本上可以分为五个时代、四种架构（大家可以详细翻一下数据仓库的发展历史，在这里仅作科普性介绍）

约在 1991 年前的全企业集成
1991 年后的企业数据集成 EDW 时代
1994 年 -1996 年的数据集市
1996-1997 年左右的两个架构吵架
1998 年 -2001 年左右的合并年代

五个时代划分是以重要事件或代表人物为标志，比如说在企业数据集成 EDW 时代其重要代表人物是 Bill Inmon 代表作数据仓库一书，更重要是他提出了如何建设数据仓库的指导性意见与原则。他遵循的是自上而下的建设原则，这个导致后来数据仓库在千禧年传到中国后的几年内，几个大实施厂商都是遵守该原则的实施方法，后来的数据仓库之路等各种专业论坛上针对数据仓库 ODS-EDW 的结构讨论 (备注：坛子里有个叫吴君，他发表了不少这方面的文章)。

在国内项目实施中 IBM、Terdata、埃森哲、菲奈特 (被东南收购，东南后来某些原因而倒闭) 等很多专业厂商在实施中对 ODS 层、EDW 层都赋予了各种不同的功能与含义 (备注：在后边的架构案例解)。

在数据集市年代其代表人物是 Ralph kilmball，他的代表作是”The Data Warehouse Toolkit“，在数据仓库的建设上 Ralph kilmball 提出的是自下而上的建设方法，刚好与 Bill Innmon 的建设方法相反，这两种架构方式各有千秋，所以就进入了争吵时代。

我整理了一个表格是这两位大师优缺点：

(点击放大图像)

随着数据仓库的不断实践与迭代发展，从争吵期进入到了合并的时代，其实争吵的结果要麽一方妥协，要麽新的结论出现，果然Bill inmon 与 Ralph kilmball 的争吵没有结论，干脆提出一种新的架构包含对方，也就是后来Bill Inmon 提出的CIF（corporation information factory）架构模式、这也算是数据仓库的第三代架构，其架构特点是把整个架构划分为不同层次，把每一层次的定义与功能都详细的描述下来，从04 年后国内的很多数据仓库架构、甚至互联网刚开始搞数据平台数据仓库架构模式也是这一种。

(点击放大图像)

数据仓库第一代架构

（开发时间 2001-2002 年）

海尔集团的一个 BI 项目，架构的 ETL 使用的是微软的数据抽取加工工具 DTS，老人使用过微软的 DTS 知道有哪些弊端，后便给出了几个 DTS 的截图。

功能：进销存分析、闭环控制分析、工贸分析等

硬件环境：

业务系统数据库：DB2 for Windows,SQL SERVER2000,ORACLE8I
中央数据库服务器：4*EXON,2G,4*80GSCSI
OLAP 服务器：2*PIV1GHZ,2G,2*40GSCSI
开发环境：VISUAL BASIC,ASP,SQL SERVER 2000

(点击放大图像)

数据仓库第二代架构

(点击放大图像)

这是上海通用汽车的一个数据平台，别看复杂，严格意义上来讲这是一套EDW 的架构、在EDS 数据仓库中采用的是准三范式的建模方式去构建的、大约涉及到十几种数据源，建模中按照某一条主线把数据都集成起来

这个数据仓库平台计划三年的时间构建完毕，第一阶段计划构建统统一生性周期视图、客户统一视图的数据，完成对数据质量的摸底与部分实施为业务分析与信息共享提供基础平台。第二阶段是完成主要业务数据集成与视图统一，初步实现企业绩效管理。第三阶段全面完善企业级数据仓库，实现核心业务的数据统一。

在第一阶段数据仓库中的数据再次通过阶梯型高度聚合进入到数据集市DM（非挖掘集市）中，完成对业务的支撑。

数据的ETL 采用datastage 工具开发（备注大约06 年我写了国内最早的版本datastage 指南大约190 页叫“datastage 学习版文档”。后来没再坚持下来）。

数据集市架构

(点击放大图像)

这个是国内某银行的一套数据集市，这是一个典型数据集市的架构模式、面向客户经理部门的考虑分析。

数据仓库混合性架构(Cif)

(点击放大图像)

这是太平洋保险的数据平台，目前为止我认识的很多人都在该项目中呆过，当然是保险类的项目。

回过头来看该平台架构显然是一个混合型的数据仓库架构。它有混合数据仓库的经典结构，每一个层次功能定义的非常明确。

ODS 层支撑单一的客户视图，是一个偏操作行的做唯一客户识别的，同时提供高可用户性客户主信息查询。

EDW 层基于 IIW（IBM 的通用模型去整理与实施）最细粒度、原子、含历史的数据，也支持查询。

各业务数据集市 (DM) 面向详细业务，采用雪花 / 星型模型去做设计的支撑 OLAP、Report、仪表盘等数据展现方式。

新一代架构 OPDM 操作型数据集市 (仓库)

OPDM 大约是在 2011 年提出来的，严格上来说，OPDM 操作型数据集市（仓库）是实时数据仓库的一种，他更多的是面向操作型数据而非历史数据查询与分析。

在这里很多人会问到什么是操作型数据？首先来看操作型数据支持的企业日常运作的比如财务系统、Crm 系统、营销系统生产系统，通过某一种机制实时的把这些数据在各孤岛数据按照业务的某个层次有机的自动化整合在一起，提供业务监控与指导。在 2016 年的今天看来 OPDM 在互联网很多企业已经实现了，但是在当时的技术上还是稍微困难点的。

下篇，我们将讲述非互联网数据平台的核心数据模型。敬请关注；