写点什么

数据治理之需求层次

  • 2023-02-17
    北京
  • 本文字数:3381 字

    阅读完需:约 11 分钟

数据治理之需求层次

01 什么是数据治理


国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。


国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。


IBM 给出的定义:数据治理通过不同的策略和标准提高组织数据的可用性、质量和安全性。这些流程确定数据所有者、数据安全措施和数据的预期用途。总体而言,数据治理的目标是维护安全且易于访问的高质量数据,以获取更深入的业务洞察。


不同的企业和机构对数据治理有不同的理解和目标。通过我的理解和查阅,数据治理比较通用的目标是:

  • 通过一系列技术等手段提升企业数据质量、稳定性和安全性

  • 通过数据标准和数据资产的建立,提高数据资产使用效率,降低数据使用成本

  • 通过数据挖掘,提升数据的价值,提高企业核心竞争力和影响力,实现商业价值


针对上面的目标,参考马斯洛需求的分层,我也将数据治理分成了 5 层。


02 数据治理的需求分层


马斯洛需求的五个层次分别是:生理需求、安全需求、社交需求、尊重需求、自我实现需求。



按照马斯洛需求分层的模式我们可以将数据治理分成以下五个层次,分别是:稳定需求、安全需求、易用需求、质量需求、成本价值需求。



模型越往上带来的价值越高,越往下越是基础的要求。但是没有基础需求层的支持就谈不上上层的需求。

03 稳定需求


数据的稳定性需求是指数据能够稳定产出,并且产出及时。就相当于马斯洛的第一层生理需求,解决吃饱饭(稳定产生数据)的问题。


这里对于数据稳定,我们将获取数据的及时性也归纳为稳定,那么主要分为 3 个维度,2 个指标:



可靠性:


在高可靠性(也称为可用性,英文描述为 HA,High Available)里有个衡量其可靠性的标准——X 个 9,这个 X 是代表数字,X 个 9 表示在系统 1 年时间的使用过程中,系统可以正常使用时间与总时间(1 年)之比。


  • 3 个 9:(1-99.9%)*365*24=8.76 小时

  • 4 个 9:(1-99.99%)*365*24=0.876 小时=52.6 分钟

  • 5 个 9:(1-99.999%)*365*24*60=5.26 分钟


由于数据数据计算往往不是供用户直接使用的在线系统,有的业务中经常用数据计算任务出现问题的次数来衡量数据的可靠性。


时延性


在大数据中我们经常将(交易日期 Transaction Date 简称 T,数据产生的日期)作为基准,然后通过它来描述数据行为产生到数据结果呈现的延迟。它们是:

  • T + 0:当天就能看到当天发生的数据,如果是及时的就是实时数据

  • T + 1:当天产生的数据,在第二天才可以查询

  • T+ 2,T+3 ... :当天产生的数据,在第 2,3...天才可以查询


此外 T 可以指代当周、当月、当年,如当 T+1 的月数据,是指当月产生的数据,在次月才能看到数据,一般适用于月度统计。


在准实时数据处理中也可以用 H+0,H+1 的方式来反馈数据处理的时延。


04 安全需求

数据安全需求,是指数据权限管理、敏感数据保护、合规要求。就相当于马斯洛的第二层安全需求,解决环境安全(数据安全合规)的问题。


数据安全包括两个方面第一就是数据不被泄露窃取,第二个就是数据合法合规。随着欧洲联盟《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)的颁布和《国内数据安全法》,《个人信息保护法》的实施,数据安全越来越重要。


数据权限


近年来,随着互联网的快速发展,数据泄漏屡见不鲜,基本上每年都会有数据或者账号的泄露的事件。如果数据安全都不能保证,那就谈不上数据治理。通常我们可以从下面三方面去做好数据的权限控制和隔离:

  • 计算存储资源的多租户数据隔离

  • 系统的多账号角色权限数据隔离

  • 内外网以及系统之间的数据隔离


数据合规

数据合规是指数据存储和使用符合相关法规和规范的要求。按照法规、公司制度、监管或行业标准对数据一般有以下要求:

  • 存档保留的时间

  • 数据脱敏处理

     对于像身份证、手机号、住址、籍贯等个人隐私敏感数据以及财务等企业敏感数据,必须要做好相应的脱敏处理,保证数据不被泄露。方法通常有遮盖处理、静态加密算法加密、动态加密算法加密。

  •  合规的获取和使用用户数据


05 易用需求


数据易用需求,是指数据在共享使用中,易于查询,理解,规范。就相当于马斯洛的第三层社交需求,解决交流分享(数据易查询使用)的问题。这个层主要解决的范畴为:


  • 数据查询

对于这块,往往是通过搭建一套 BI,OLAP 自主系统等手段来提升用户的使用查询数据的体验。技术手段比如采用开源的 OLAP 引擎:Kylin、Druid、ClickHouse、Doris、StarRocks,开源的数据可视化组件:Superset、Grafana、Davinci 常用指标有:TP90, TP95, TP99 查询返回时间,即 9X% 的数据都满足某一条件;QPS:(Queries Per Second),每秒查询率。


  • 数据标准

业务标准规范。数据统计标准,例如 CTR,ROI 如何计算;数据中分类的统一规范。

技术标准规范。数据的类型、长度、格式、编码、命名规则等。

管理标准规范。数据访问的标准流程,数据的删除,接入规范


  • 数据模型

数据模型的复用性。复用性低,说明模型设计的不太好,新需求不能基于模型开展,提高了开发维护成本。

数据模型的耦合性。耦合度过高会给数据的运维、治理带来很多影响,在数据下线、变更、治理过程中不得不考虑到依赖。

数据模型的稳定性。稳定性差,经常变动说明设计脱离业务,缺乏标准或者业务覆盖度不够。


解决好上面三方面的需求,数据易用性基本上就可以达到用户需求,数据治理成效也可以用前端页面给用户体现出来。

06 质量需求


数据易用需求,是指数据在准确性、完整性、一致性、有效性。就相当于马斯洛的第四层尊重需求,解决受人尊重(解决数据质量就会被使用者尊重)的问题。


数据质量需求主要依靠数据监控和数据调度配合完成才能提高数据质量,当然人工的参与和流程也需要规范。



  • 数据准确性监控。主要监控数据接入是否符合标准,数据产生到计算结果过程中数据是否出错,不一致。

  • 数据完整性监控。

  • 数据一致性监控。监测两种数据渠道数据结果是否一致。

  • 数据有效性监控


通过监测我们可以产生数据质量质量的数据,我们可以通过一些算法形成数据质量报告,来定期评估数据质量的提升。



07 成本价值需求


数据成本价值需求,是指数据生产的经济性,数据应用创造的价值。就相当于马斯洛的第五层自我实现需求,解决花钱赚钱(解决数据产生效益,完成自我实现)的问题。


这一层次的需求主要其实就是通过降低成本增加收益。我认为做到以下几点是数据质量在这块关注的重点:



  • 成本量化

数据血缘,元数据管理等手段,理清每个表数据的成本。通过日志分析来可视化每个大数据处理任务 Job 的费用。


  • 价值量化

数据治理到底重不重要,能带来什么价值,一直是困扰企业数据治理问题,也会经常被企业领导和业务部门质疑。如果能有够将数据治理带来的成功量化那势必会打消大家的疑虑。例如通过数据治理业务部门节约了多少成本;通过数据质量的提高业务部门的 ROI 是否得到提高;通过数据稳定性安全性的提升,业务系统是否更加稳定和避免了数据泄露损失。


  • 成本优化

通过表热度分析,处理僵尸报表和任务。对数据表进行 LTV 分析,对于低价值高消耗的数据计算任务,进行降级处理,例如降低计算频次,排到计算资源空闲的时间处理,存储在成本较低的介质上。对于高价值高消耗的任务,评估成本改造方案。

08 总结


数据治理几个需求分层之间是相互依赖不断迭代的,越往上层越接近业务,也越容易体现数据治理带来的成功。要想数据治理取得成功,除了技术工具,我们还应该关注流程规范和组织保障。


  • 组织保障

组织统一规划数据治理目标,固定的专业组织、充分赋权,有利于数据治理实施的整体推进;一套行之有效的制度,更容易让数据治理,数据规范落地执行。

  • 流程规范

这个其实就是指在数据治理中制定的数据接入输出等相关流程,建立的数据标准。有了流程规范才能知道数据治理的方向和细则,避免数据使用和提供方盲目抓虾。

  • 技术工具

技术工具平台是保障数据成果转化的关键,没有工具平台数据治理可能最后只是设想和空谈。一组优秀的平台工具可以保障数据治理规划和流程的完整落地,从而产生价值收益。


在数据治理过程中我们应该结合需求层次制定具体方案,通过评估收益来决策数据治理的投入。


原文链接:

https://mp.weixin.qq.com/s/tMoP8bCG3udLyPlCt9eUgA


作者简介:

刘周龙,易点天下大数据专家,大数据平台负责人。加入易点天下前曾就职于搜狐视频、腾讯,擅长大数据平台和相关系统建设,个人公众号“早起的码农”。


2023-02-17 18:356077

评论

发布
暂无评论
发现更多内容

Java三大特性(一)—封装

共饮一杯无

Java 面向对象 10月月更

cstdio的源码学习分析10-格式化输入输出函数fprintf---宏定义/辅助函数分析03

桑榆

源码刨析 10月月更 C++

Serverless的应用场景

阿泽🧸

Serverless 10月月更

大数据ELK(二十六):探索数据(Discovery)

Lansonli

discovery 10月月更

「趣学前端」日常浏览的页面为什么可以五颜六色

叶一一

CSS 前端 10月月更

「趣学前端」box-shadow的多重用法

叶一一

CSS 前端 10月月更

一个实际的例子学习 SAP BTP Java 应用的 @Before 注解使用方式

汪子熙

Java 云原生 Cloud SAP 10月月更

Python进阶(二十二)Python3使用PyMysql连接mysql数据库

No Silver Bullet

Python3 MySQL数据库 pymysql 10月月更

首轮Zepoch节点已售罄完结,你期待次轮吗?

鳄鱼视界

如何在高性能的前提下,降低数据库存储成本?

OceanBase 数据库

【一Go到底】第十五天---continue快速入门

指剑

Go golang 10月月更

Go-Excelize API源码阅读(二十一)——GetDefinedName()、DeleteDefinedName()

Regan Yue

Go 源码阅读 源码刨析 10月月更

「趣学前端」容器上的折角边框是图形吗?

叶一一

CSS 前端 10月月更

【从0到1学算法】5.Bubble Sort算法-下

Geek_65222d

10月月更

B类纯资金业务的资金安全保障

agnostic

资金安全 B类业务 纯资金业务

「趣学前端」页面上吸顶的效果是怎么做到的

叶一一

CSS 前端 10月月更

挑战30天学完 Python:Day4数据类型-字符串str

MegaQi

挑战30天学完Python 10月月更

Python进阶(二十三)Django使用pymysql连接MySQL数据库做增删改查

No Silver Bullet

Python django MySQL数据库 pymysql 10月月更

有人意图取代SQL,你同意吗?

雨果

sql

华为云从入门到实战 | 负载均衡服务原理

TiAmo

华为 云开发 10月月更

面试官:说说你对Node中的Stream的理解

CoderBin

面试 前端 Node 10月月更

浅谈etcd服务注册与发现

闫同学

Go 微服务 etcd 10月月更

正在消失的机器视觉公司

脑极体

【LeetCode】两个链表的第一个重合节点Java题解

Albert

算法 LeetCode 10月月更

趣学前端」为什么有的页面背景颜色是渐变的

叶一一

CSS 前端 10月月更

Go-Excelize API源码阅读(二十二)——SetAppProps(appProperties *AppProperties)

Regan Yue

Go 开源 源码分析 Excelize 10月月更

前端开发提效小技巧之业务功能篇

叶一一

前端 提高效率 10月月更

Java基础(六)| Debug模式及基础练习

timerring

Java debug 10月月更

测试需求平台5-Blueprint优化与首个vue页搭建

MegaQi

测试平台开发教程 10月月更

什么是数据产品经理?数据产品经理与传统产品经理有什么区别?

雨果

数据产品经理

Go-Excelize API源码阅读(二十三)——SetDocProps、GetDocProps

Regan Yue

Go 开源 源码刨析 10月月更

数据治理之需求层次_数字化转型_刘周龙_InfoQ精选文章