【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

数据治理之需求层次

  • 2023-02-17
    北京
  • 本文字数:3381 字

    阅读完需:约 11 分钟

数据治理之需求层次

01 什么是数据治理


国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。


国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。


IBM 给出的定义:数据治理通过不同的策略和标准提高组织数据的可用性、质量和安全性。这些流程确定数据所有者、数据安全措施和数据的预期用途。总体而言,数据治理的目标是维护安全且易于访问的高质量数据,以获取更深入的业务洞察。


不同的企业和机构对数据治理有不同的理解和目标。通过我的理解和查阅,数据治理比较通用的目标是:

  • 通过一系列技术等手段提升企业数据质量、稳定性和安全性

  • 通过数据标准和数据资产的建立,提高数据资产使用效率,降低数据使用成本

  • 通过数据挖掘,提升数据的价值,提高企业核心竞争力和影响力,实现商业价值


针对上面的目标,参考马斯洛需求的分层,我也将数据治理分成了 5 层。


02 数据治理的需求分层


马斯洛需求的五个层次分别是:生理需求、安全需求、社交需求、尊重需求、自我实现需求。



按照马斯洛需求分层的模式我们可以将数据治理分成以下五个层次,分别是:稳定需求、安全需求、易用需求、质量需求、成本价值需求。



模型越往上带来的价值越高,越往下越是基础的要求。但是没有基础需求层的支持就谈不上上层的需求。

03 稳定需求


数据的稳定性需求是指数据能够稳定产出,并且产出及时。就相当于马斯洛的第一层生理需求,解决吃饱饭(稳定产生数据)的问题。


这里对于数据稳定,我们将获取数据的及时性也归纳为稳定,那么主要分为 3 个维度,2 个指标:



可靠性:


在高可靠性(也称为可用性,英文描述为 HA,High Available)里有个衡量其可靠性的标准——X 个 9,这个 X 是代表数字,X 个 9 表示在系统 1 年时间的使用过程中,系统可以正常使用时间与总时间(1 年)之比。


  • 3 个 9:(1-99.9%)*365*24=8.76 小时

  • 4 个 9:(1-99.99%)*365*24=0.876 小时=52.6 分钟

  • 5 个 9:(1-99.999%)*365*24*60=5.26 分钟


由于数据数据计算往往不是供用户直接使用的在线系统,有的业务中经常用数据计算任务出现问题的次数来衡量数据的可靠性。


时延性


在大数据中我们经常将(交易日期 Transaction Date 简称 T,数据产生的日期)作为基准,然后通过它来描述数据行为产生到数据结果呈现的延迟。它们是:

  • T + 0:当天就能看到当天发生的数据,如果是及时的就是实时数据

  • T + 1:当天产生的数据,在第二天才可以查询

  • T+ 2,T+3 ... :当天产生的数据,在第 2,3...天才可以查询


此外 T 可以指代当周、当月、当年,如当 T+1 的月数据,是指当月产生的数据,在次月才能看到数据,一般适用于月度统计。


在准实时数据处理中也可以用 H+0,H+1 的方式来反馈数据处理的时延。


04 安全需求

数据安全需求,是指数据权限管理、敏感数据保护、合规要求。就相当于马斯洛的第二层安全需求,解决环境安全(数据安全合规)的问题。


数据安全包括两个方面第一就是数据不被泄露窃取,第二个就是数据合法合规。随着欧洲联盟《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)的颁布和《国内数据安全法》,《个人信息保护法》的实施,数据安全越来越重要。


数据权限


近年来,随着互联网的快速发展,数据泄漏屡见不鲜,基本上每年都会有数据或者账号的泄露的事件。如果数据安全都不能保证,那就谈不上数据治理。通常我们可以从下面三方面去做好数据的权限控制和隔离:

  • 计算存储资源的多租户数据隔离

  • 系统的多账号角色权限数据隔离

  • 内外网以及系统之间的数据隔离


数据合规

数据合规是指数据存储和使用符合相关法规和规范的要求。按照法规、公司制度、监管或行业标准对数据一般有以下要求:

  • 存档保留的时间

  • 数据脱敏处理

     对于像身份证、手机号、住址、籍贯等个人隐私敏感数据以及财务等企业敏感数据,必须要做好相应的脱敏处理,保证数据不被泄露。方法通常有遮盖处理、静态加密算法加密、动态加密算法加密。

  •  合规的获取和使用用户数据


05 易用需求


数据易用需求,是指数据在共享使用中,易于查询,理解,规范。就相当于马斯洛的第三层社交需求,解决交流分享(数据易查询使用)的问题。这个层主要解决的范畴为:


  • 数据查询

对于这块,往往是通过搭建一套 BI,OLAP 自主系统等手段来提升用户的使用查询数据的体验。技术手段比如采用开源的 OLAP 引擎:Kylin、Druid、ClickHouse、Doris、StarRocks,开源的数据可视化组件:Superset、Grafana、Davinci 常用指标有:TP90, TP95, TP99 查询返回时间,即 9X% 的数据都满足某一条件;QPS:(Queries Per Second),每秒查询率。


  • 数据标准

业务标准规范。数据统计标准,例如 CTR,ROI 如何计算;数据中分类的统一规范。

技术标准规范。数据的类型、长度、格式、编码、命名规则等。

管理标准规范。数据访问的标准流程,数据的删除,接入规范


  • 数据模型

数据模型的复用性。复用性低,说明模型设计的不太好,新需求不能基于模型开展,提高了开发维护成本。

数据模型的耦合性。耦合度过高会给数据的运维、治理带来很多影响,在数据下线、变更、治理过程中不得不考虑到依赖。

数据模型的稳定性。稳定性差,经常变动说明设计脱离业务,缺乏标准或者业务覆盖度不够。


解决好上面三方面的需求,数据易用性基本上就可以达到用户需求,数据治理成效也可以用前端页面给用户体现出来。

06 质量需求


数据易用需求,是指数据在准确性、完整性、一致性、有效性。就相当于马斯洛的第四层尊重需求,解决受人尊重(解决数据质量就会被使用者尊重)的问题。


数据质量需求主要依靠数据监控和数据调度配合完成才能提高数据质量,当然人工的参与和流程也需要规范。



  • 数据准确性监控。主要监控数据接入是否符合标准,数据产生到计算结果过程中数据是否出错,不一致。

  • 数据完整性监控。

  • 数据一致性监控。监测两种数据渠道数据结果是否一致。

  • 数据有效性监控


通过监测我们可以产生数据质量质量的数据,我们可以通过一些算法形成数据质量报告,来定期评估数据质量的提升。



07 成本价值需求


数据成本价值需求,是指数据生产的经济性,数据应用创造的价值。就相当于马斯洛的第五层自我实现需求,解决花钱赚钱(解决数据产生效益,完成自我实现)的问题。


这一层次的需求主要其实就是通过降低成本增加收益。我认为做到以下几点是数据质量在这块关注的重点:



  • 成本量化

数据血缘,元数据管理等手段,理清每个表数据的成本。通过日志分析来可视化每个大数据处理任务 Job 的费用。


  • 价值量化

数据治理到底重不重要,能带来什么价值,一直是困扰企业数据治理问题,也会经常被企业领导和业务部门质疑。如果能有够将数据治理带来的成功量化那势必会打消大家的疑虑。例如通过数据治理业务部门节约了多少成本;通过数据质量的提高业务部门的 ROI 是否得到提高;通过数据稳定性安全性的提升,业务系统是否更加稳定和避免了数据泄露损失。


  • 成本优化

通过表热度分析,处理僵尸报表和任务。对数据表进行 LTV 分析,对于低价值高消耗的数据计算任务,进行降级处理,例如降低计算频次,排到计算资源空闲的时间处理,存储在成本较低的介质上。对于高价值高消耗的任务,评估成本改造方案。

08 总结


数据治理几个需求分层之间是相互依赖不断迭代的,越往上层越接近业务,也越容易体现数据治理带来的成功。要想数据治理取得成功,除了技术工具,我们还应该关注流程规范和组织保障。


  • 组织保障

组织统一规划数据治理目标,固定的专业组织、充分赋权,有利于数据治理实施的整体推进;一套行之有效的制度,更容易让数据治理,数据规范落地执行。

  • 流程规范

这个其实就是指在数据治理中制定的数据接入输出等相关流程,建立的数据标准。有了流程规范才能知道数据治理的方向和细则,避免数据使用和提供方盲目抓虾。

  • 技术工具

技术工具平台是保障数据成果转化的关键,没有工具平台数据治理可能最后只是设想和空谈。一组优秀的平台工具可以保障数据治理规划和流程的完整落地,从而产生价值收益。


在数据治理过程中我们应该结合需求层次制定具体方案,通过评估收益来决策数据治理的投入。


原文链接:

https://mp.weixin.qq.com/s/tMoP8bCG3udLyPlCt9eUgA


作者简介:

刘周龙,易点天下大数据专家,大数据平台负责人。加入易点天下前曾就职于搜狐视频、腾讯,擅长大数据平台和相关系统建设,个人公众号“早起的码农”。


2023-02-17 18:355803

评论

发布
暂无评论
发现更多内容

软件测试 | 什么是CSS

测吧(北京)科技有限公司

测试

腾讯连续四次上榜福布斯2023全球区块链50强

科技热闻

ONES 支持多项信创适配,打造自主可控的国产化平台

万事ONES

vue实现一个鼠标滑动预览视频封面组件(精灵图版本)

JYeontu

Vue 视频

API Explorer 进阶之路 | 一篇文章快速入门!

华为云PaaS服务小智

解读 Java 云原生实践中的内存问题

阿里巴巴云原生

Java 阿里云 云原生

软件测试 | Bug的定位方法

测吧(北京)科技有限公司

测试

云原生微服务应用平台 EDAS 2022 年度报告

阿里巴巴云原生

阿里云 微服务 云原生

Relocating the Docker root directory

平凡人生

Docker

ChatGPT真的可以取代基础工作岗位吗?

老张

人工智能 产业发展 ChatGPT

为什么在容器中 1 号进程挂不上 arthas?

阿里巴巴云原生

Java 阿里云 容器 云原生

软件测试 | JavaScript如何使用

测吧(北京)科技有限公司

测试

docker setup mysql

平凡人生

MySQL

CleanMyMac X2023电脑最新版本更新内容

茶色酒

CleanMyMac X CleanMyMac X2023

Higress + Nacos 微服务网关最佳实践

阿里巴巴云原生

阿里云 云原生 nacos Higress

全景剖析阿里云容器网络数据链路(五):Terway ENI-Trunking

阿里巴巴云原生

阿里云 容器 云原生

基于图的下一代入侵检测系统

NebulaGraph

图数据库 安全检测 入侵检测

Nacos 配置管理最佳实践

阿里巴巴云原生

阿里云 开源 云原生 nacos

设计原则 — O 开放封闭原则

Lemoon Can

设计原则 开放封闭原则

软件测试 | web端常见bug解析

测吧(北京)科技有限公司

测试

推进行业生态发展完善,中国信通院第八批RPA评测工作正式启动

王吉伟频道

RPA 机器人流程自动化 中国信通院 RPA评测 RPA产业推进方阵

文件同步是什么?解析6个最佳的文件同步应用软件

镭速

现货合约量化交易系统开发机器人策略

薇電13242772558

量化

SpringBoot动态配置文件及项目打包部署

微枫Micromaple

maven Profile springboot 部署 项目上线

渲染速度慢,使用云渲染会快多少?

Renderbus瑞云渲染农场

云渲染 渲染慢怎么办?

大数据学习培训机构该怎么选择

小谷哥

软件测试 | 测试环境搭建

测吧(北京)科技有限公司

测试

软件测试 | 什么是HTML?

测吧(北京)科技有限公司

测试

核心应用实现云原生改造升级,波司登数字化战略加速落地

阿里巴巴云原生

阿里云 云原生

第四届OpenI/O启智开发者大会即将在深圳启动

OpenI启智社区

人工智能 开源 开发者大会 OpenI启智社区

突破边界:“超融合+”带来的商业化精益之路

脑极体

数据治理之需求层次_数字化转型_刘周龙_InfoQ精选文章