写点什么

数据治理之需求层次

  • 2023-02-17
    北京
  • 本文字数:3381 字

    阅读完需:约 11 分钟

数据治理之需求层次

01 什么是数据治理


国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。


国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。


IBM 给出的定义:数据治理通过不同的策略和标准提高组织数据的可用性、质量和安全性。这些流程确定数据所有者、数据安全措施和数据的预期用途。总体而言,数据治理的目标是维护安全且易于访问的高质量数据,以获取更深入的业务洞察。


不同的企业和机构对数据治理有不同的理解和目标。通过我的理解和查阅,数据治理比较通用的目标是:

  • 通过一系列技术等手段提升企业数据质量、稳定性和安全性

  • 通过数据标准和数据资产的建立,提高数据资产使用效率,降低数据使用成本

  • 通过数据挖掘,提升数据的价值,提高企业核心竞争力和影响力,实现商业价值


针对上面的目标,参考马斯洛需求的分层,我也将数据治理分成了 5 层。


02 数据治理的需求分层


马斯洛需求的五个层次分别是:生理需求、安全需求、社交需求、尊重需求、自我实现需求。



按照马斯洛需求分层的模式我们可以将数据治理分成以下五个层次,分别是:稳定需求、安全需求、易用需求、质量需求、成本价值需求。



模型越往上带来的价值越高,越往下越是基础的要求。但是没有基础需求层的支持就谈不上上层的需求。

03 稳定需求


数据的稳定性需求是指数据能够稳定产出,并且产出及时。就相当于马斯洛的第一层生理需求,解决吃饱饭(稳定产生数据)的问题。


这里对于数据稳定,我们将获取数据的及时性也归纳为稳定,那么主要分为 3 个维度,2 个指标:



可靠性:


在高可靠性(也称为可用性,英文描述为 HA,High Available)里有个衡量其可靠性的标准——X 个 9,这个 X 是代表数字,X 个 9 表示在系统 1 年时间的使用过程中,系统可以正常使用时间与总时间(1 年)之比。


  • 3 个 9:(1-99.9%)*365*24=8.76 小时

  • 4 个 9:(1-99.99%)*365*24=0.876 小时=52.6 分钟

  • 5 个 9:(1-99.999%)*365*24*60=5.26 分钟


由于数据数据计算往往不是供用户直接使用的在线系统,有的业务中经常用数据计算任务出现问题的次数来衡量数据的可靠性。


时延性


在大数据中我们经常将(交易日期 Transaction Date 简称 T,数据产生的日期)作为基准,然后通过它来描述数据行为产生到数据结果呈现的延迟。它们是:

  • T + 0:当天就能看到当天发生的数据,如果是及时的就是实时数据

  • T + 1:当天产生的数据,在第二天才可以查询

  • T+ 2,T+3 ... :当天产生的数据,在第 2,3...天才可以查询


此外 T 可以指代当周、当月、当年,如当 T+1 的月数据,是指当月产生的数据,在次月才能看到数据,一般适用于月度统计。


在准实时数据处理中也可以用 H+0,H+1 的方式来反馈数据处理的时延。


04 安全需求

数据安全需求,是指数据权限管理、敏感数据保护、合规要求。就相当于马斯洛的第二层安全需求,解决环境安全(数据安全合规)的问题。


数据安全包括两个方面第一就是数据不被泄露窃取,第二个就是数据合法合规。随着欧洲联盟《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)的颁布和《国内数据安全法》,《个人信息保护法》的实施,数据安全越来越重要。


数据权限


近年来,随着互联网的快速发展,数据泄漏屡见不鲜,基本上每年都会有数据或者账号的泄露的事件。如果数据安全都不能保证,那就谈不上数据治理。通常我们可以从下面三方面去做好数据的权限控制和隔离:

  • 计算存储资源的多租户数据隔离

  • 系统的多账号角色权限数据隔离

  • 内外网以及系统之间的数据隔离


数据合规

数据合规是指数据存储和使用符合相关法规和规范的要求。按照法规、公司制度、监管或行业标准对数据一般有以下要求:

  • 存档保留的时间

  • 数据脱敏处理

     对于像身份证、手机号、住址、籍贯等个人隐私敏感数据以及财务等企业敏感数据,必须要做好相应的脱敏处理,保证数据不被泄露。方法通常有遮盖处理、静态加密算法加密、动态加密算法加密。

  •  合规的获取和使用用户数据


05 易用需求


数据易用需求,是指数据在共享使用中,易于查询,理解,规范。就相当于马斯洛的第三层社交需求,解决交流分享(数据易查询使用)的问题。这个层主要解决的范畴为:


  • 数据查询

对于这块,往往是通过搭建一套 BI,OLAP 自主系统等手段来提升用户的使用查询数据的体验。技术手段比如采用开源的 OLAP 引擎:Kylin、Druid、ClickHouse、Doris、StarRocks,开源的数据可视化组件:Superset、Grafana、Davinci 常用指标有:TP90, TP95, TP99 查询返回时间,即 9X% 的数据都满足某一条件;QPS:(Queries Per Second),每秒查询率。


  • 数据标准

业务标准规范。数据统计标准,例如 CTR,ROI 如何计算;数据中分类的统一规范。

技术标准规范。数据的类型、长度、格式、编码、命名规则等。

管理标准规范。数据访问的标准流程,数据的删除,接入规范


  • 数据模型

数据模型的复用性。复用性低,说明模型设计的不太好,新需求不能基于模型开展,提高了开发维护成本。

数据模型的耦合性。耦合度过高会给数据的运维、治理带来很多影响,在数据下线、变更、治理过程中不得不考虑到依赖。

数据模型的稳定性。稳定性差,经常变动说明设计脱离业务,缺乏标准或者业务覆盖度不够。


解决好上面三方面的需求,数据易用性基本上就可以达到用户需求,数据治理成效也可以用前端页面给用户体现出来。

06 质量需求


数据易用需求,是指数据在准确性、完整性、一致性、有效性。就相当于马斯洛的第四层尊重需求,解决受人尊重(解决数据质量就会被使用者尊重)的问题。


数据质量需求主要依靠数据监控和数据调度配合完成才能提高数据质量,当然人工的参与和流程也需要规范。



  • 数据准确性监控。主要监控数据接入是否符合标准,数据产生到计算结果过程中数据是否出错,不一致。

  • 数据完整性监控。

  • 数据一致性监控。监测两种数据渠道数据结果是否一致。

  • 数据有效性监控


通过监测我们可以产生数据质量质量的数据,我们可以通过一些算法形成数据质量报告,来定期评估数据质量的提升。



07 成本价值需求


数据成本价值需求,是指数据生产的经济性,数据应用创造的价值。就相当于马斯洛的第五层自我实现需求,解决花钱赚钱(解决数据产生效益,完成自我实现)的问题。


这一层次的需求主要其实就是通过降低成本增加收益。我认为做到以下几点是数据质量在这块关注的重点:



  • 成本量化

数据血缘,元数据管理等手段,理清每个表数据的成本。通过日志分析来可视化每个大数据处理任务 Job 的费用。


  • 价值量化

数据治理到底重不重要,能带来什么价值,一直是困扰企业数据治理问题,也会经常被企业领导和业务部门质疑。如果能有够将数据治理带来的成功量化那势必会打消大家的疑虑。例如通过数据治理业务部门节约了多少成本;通过数据质量的提高业务部门的 ROI 是否得到提高;通过数据稳定性安全性的提升,业务系统是否更加稳定和避免了数据泄露损失。


  • 成本优化

通过表热度分析,处理僵尸报表和任务。对数据表进行 LTV 分析,对于低价值高消耗的数据计算任务,进行降级处理,例如降低计算频次,排到计算资源空闲的时间处理,存储在成本较低的介质上。对于高价值高消耗的任务,评估成本改造方案。

08 总结


数据治理几个需求分层之间是相互依赖不断迭代的,越往上层越接近业务,也越容易体现数据治理带来的成功。要想数据治理取得成功,除了技术工具,我们还应该关注流程规范和组织保障。


  • 组织保障

组织统一规划数据治理目标,固定的专业组织、充分赋权,有利于数据治理实施的整体推进;一套行之有效的制度,更容易让数据治理,数据规范落地执行。

  • 流程规范

这个其实就是指在数据治理中制定的数据接入输出等相关流程,建立的数据标准。有了流程规范才能知道数据治理的方向和细则,避免数据使用和提供方盲目抓虾。

  • 技术工具

技术工具平台是保障数据成果转化的关键,没有工具平台数据治理可能最后只是设想和空谈。一组优秀的平台工具可以保障数据治理规划和流程的完整落地,从而产生价值收益。


在数据治理过程中我们应该结合需求层次制定具体方案,通过评估收益来决策数据治理的投入。


原文链接:

https://mp.weixin.qq.com/s/tMoP8bCG3udLyPlCt9eUgA


作者简介:

刘周龙,易点天下大数据专家,大数据平台负责人。加入易点天下前曾就职于搜狐视频、腾讯,擅长大数据平台和相关系统建设,个人公众号“早起的码农”。


2023-02-17 18:356295

评论

发布
暂无评论
发现更多内容

Oracle LogMiner 数据迁移实战

yintianwen

Java 数据库 后端 数据迁移 LogMiner

阿里开发7年大牛:只需一篇文章吃透Android多线程技术,好文推荐

欢喜学安卓

android 程序员 面试 移动开发

算法题目解析:从一道题目看动态规划

程序员架构进阶

算法 动态规划 28天写作 4月日更

rrxjava原理,手持4个大厂offer的我,吊打面试官系列!

欢喜学安卓

android 程序员 面试 移动开发

谈谈 WebRTC 的 SDP Unified Plan

拍乐云Pano

WebRTC

redis常见应用场景

Sakura

4月日更

Python OOP-1

若尘

面向对象 oop 面向对象编程 Python编程

一周信创舆情观察(4.12~4.18)

统小信uos

网络协议学习笔记Day1

穿过生命散发芬芳

网络协议 4月日更

Flutter Slidable 列表侧滑菜单 列表侧滑删除

早起的年轻人

flutter

GitHub开源:4行代码实现《黑客帝国》数字雨特效

不脱发的程序猿

GitHub 开源 程序人生 4月日更 黑客帝国

什么情况下要招人?

石云升

团队建设 28天写作 职场经验 管理经验 4月日更

websocket简析

风翱

websocket 4月日更

中国脑科学的十年行旅

脑极体

不要给自己留后路

小天同学

人生 个人感悟 成功 4月日更

10 亿数据量只需要 100MB 内存,Redis 的位存储为什么这么牛?

Java小咖秀

redis 原理 位运算 bit 高级特性

视频录制后有噪音怎么办?教你简答几步去除视频噪音!

奈奈的杂社

线程的故事:我的3位母亲成就了优秀的我!

王磊

Java 线程 多线程

编曲新手可以用什么编曲软件?

奈奈的杂社

Ansible 命令行工具

耳东@Erdong

4月日更

架构训练营——作业 2

架构实战营

你不一定全知道的四种Python装饰器实现详解

老猿Python

Python 编程语言 装饰器 程序开发

NumPy之:数据类型

程序那些事

Python 数据分析 Numpy 程序那些事

自从有了他,再也没有担心过环境部署~

MY

部署与维护

LeetCode题解:641. 设计循环双端队列,使用数组,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

使用CrossOver安装第三方软件

懒得勤快

王霸雄图荣华敝屣,谈笑间尽归尘土|基于Python3双队列数据结构搭建股票/外汇交易匹配撮合系统

刘悦的技术博客

数据结构 算法 Python3 匹配 股票系统

一个码砖的码农,在InfoQ写一年博客,出书了?

小傅哥

Java 设计模式 小傅哥 架构设计 码农出书

流程引擎介绍

上海派拉基础研发

流程

聪明人的训练(二十三)

Changing Lin

4月日更

泉州有了一个水务大脑,用AI守护“绿水青山”

百度大脑

AI

数据治理之需求层次_数字化转型_刘周龙_InfoQ精选文章