【QCon】精华内容上线92%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

为数据治理构建数据成熟度模型

  • 2007-09-10
  • 本文字数:1425 字

    阅读完需:约 5 分钟

在横跨 5 天的 5 篇博文中,数据治理博客提供了一个开发数据成熟度模型的快速入门指南。与先前建立数据治理成熟模型的方法的有趣的不同点是:它提倡一个为给定的组织量身定做适当的模型,而不是试图为了统一而应用标准模型。在这个 5 部分组成的数据治理系列中,开始部分关注定义范围,建立基线。在给你的数据建立一个成熟度模型时,首先在你的企业数据中划定要治理的那部分数据是非常有必要的。一旦数据的范围定义好了,就需要给它建立一个基线。见专题中的:

什么是你的数据集中成熟度级别最低的数据?你的回答可能是沿袭这条思路:未被审查的、没有被建模的,没有元数据、不知道它是什么的”,“它虽然在我们的协助数据模型中,但是除了字段名外没有其他信息,没有元数据”,或者“它在我们的模型中,我们有一些过时的定义,而且我们也不再认为它是可信赖的” 这可能会花费很多的时间,但最重要的是为它建立一个基线。需要捕获的主要内容是:

  1. 它在你的数据模型中吗?
  2. 你给它的元数据了吗?
  3. 如果有元数据,你信任元数据中的信息吗?

在第 2 天,介绍了数据成熟度模型的自然级数:

你现在要寻找的是你能看到的数据当前所处于的级别。从最低的级别开始,你能够看到的在成熟度中的下一个位置在哪里?如果你的起始级别是“未建模的、没有元数据、不知道它是什么的”,你的数据所能看到的下一步可能是“属于我们的数据模型但是我们对它获得不了其他的辅助信息”……与其建立一个需要强制我们的数据去适应它的数据成熟度模型,不如让我们用数据已经存在的不同的阶段来定义成熟度的路径。

3 篇 blog 把关注重点从最低级的成熟度转向最高级的成熟度,并试图使用一致的术语来架越鸿沟:

其实,我想让你做的是拿出你在第一天得到的内容并写下与它完全相反的内容,这个会帮助你确定最高的成熟度级别。所以,如果你的最低级别是:“未建模的,未被评审的,没有元数据的”,那么最适宜的最高级别应该是“数据模型经过了数据治理委员会评审和治理过的,验证过了数据模型并进行了及时更新”。这样做会让你的成熟度模型框定相同的项目。如果你在讨论你的最低级别的数据模型,你应该讨论包括最高级别在内的其他级别。

在第 4 篇博文中提供了成熟度模型可用的模板, 第 4 5 两篇博文带你领略如何为你的组织量身定制合适的成熟度模型。

先从最重要的事情开始,完成下列内容:填写你的数据治理成熟度模型模板,找出你的程序中的范围内数据。 下面要做的是从你的数据中取样,并确保你能从成熟度模型中轻松的为其进行定位。如果再让我我来做这步工作的话,我会随机的挑选出 40 个字段并逐一进行检查。我会查看这些字段,检查模型,检查它们是否拥有元数据等,并看它们是否可以属于某个级别。你需要确保所有这些数据字段都在成熟度模型中找到了归属位置。如果在这其中发生了生命问题,说明你还没有完全清晰的定义好了你的等级。如果它们同时被分到了两个级别中,你需要定义一个新的级别来说明其中的不同,或者根据它的特征合并到你其中一个已经存在的级别中。

查看英文原文: Building a Data Maturity Model for Data Governance - - - - - -

译者简介:孙向晖,儿子小名“豆豆”,常被人称为“豆豆他爹”。1998 年开始步入 IT 行业,现任浪潮软件质保中心副主任。专注于研究和实践 MDA/UP/UML/SCM 等相关技术在团队中的大规模应用,对产品化的软件项目管理、需求管理和配置管理略有心得。他的博客为 http://blog.csdn.net/xiaosun/ 。参与 InfoQ 中文站内容建设,请邮件至 china-editorial[at]infoq.com

2007-09-10 21:363154

评论

发布
暂无评论
发现更多内容

【案例】基于星环科技数据云平台TDC为富国基金建设万能的数据湖

星环科技

数据库

ToB月报丨二月融资总金额超152亿元;「东数西算」国家工程全面启动

ToB行业头条

Serverless 底座的持续创新

亚马逊云科技 (Amazon Web Services)

Serverless 架构

Rainbond 5.6 版本发布,增加多种安装方式,优化拓扑图操作体验

北京好雨科技有限公司

低代码平台设计探索,如何更好赋能开发者

雯雯写代码

低代码 开发平台 开发者,

布局说明 - 大屏云极简使用手册

shulinwu

可视化 数据可视化 大屏可视化 智慧大屏可视化 大屏

BFS/DFS/DP 算法案例 LeetCode题目:传递信息

OpenHacker

LeetCode 动态规划 深度优先搜索 算法解析 广度优先搜素

实践GoF的23种设计模式:SOLID原则(上)

华为云开发者联盟

设计模式 GoF SOLID SOLID原则 分布式应用系统

2021 “科创中国”开源创新榜单公布,优麒麟荣登两榜!

优麒麟

Linux 开源 开源社区 优麒麟

墨天轮国产数据库沙龙 | 许力:阿里云原生Lindorm TSDB数据库,驱动工业IT&OT超融合数字化系统升级

墨天轮

数据库 阿里云 tsdb

与容器服务 ACK 发行版的深度对话第二弹:如何借助 hybridnet 构建混合云统一网络平面

阿里巴巴云原生

阿里云 云原生 ACK Distro

Web 键盘输入法应用开发指南 (2) —— 键盘事件

天择

JavaScript 键盘 输入法 3月月更

【BBC learningenglish】with Tango

IT蜗壳-Tango

IT蜗壳教学 3月月更 Tango English

【技术分享】历经16年猪八戒网如何成功实现双活流量架构

八戒技术团队

架构

Serverless常见的应用设计模式

亚马逊云科技 (Amazon Web Services)

Serverless 架构

Linux之crontab命令

入门小站

Linux

HertzBeat赫兹跳动v1.0.beta.4 发布, 易用友好的高性能监控告警系统

TanCloud探云

开源 APM 监控 监控系统 监控告警

白话大数据 | 从买菜这件小事来聊聊数据仓库

星环科技

教你如何使用flask实现ajax数据入库

华为云开发者联盟

Python 数据库 flask 文件上传 ajax数据

ironSource 新功能发布,开发者可在同一会话中实时调整广告策略

Geek_2d6073

前端架构三大巨头之一Angular | 深度讲解

云智慧AIOps社区

开源 前端 Web angular 数据源

【C语言】数据类型存储、原码,反码,补码

謓泽

C语言 补码 原码 反码 3月月更

开讲了!龙蜥社区走进北大课堂

OpenAnolis小助手

开源 操作系统 龙蜥社区 北京大学 走进高校

Nebula Graph 的 KV 存储分离原理和性能测评

NebulaGraph

图数据库 分布式图数据库

阿里云智能编码插件,更Cosy的开发体验

阿里云云效

Java 阿里云 程序员 开发 研发

创建公司内部文档的入门指南

小炮

工作效率 企业管理 企业管理软件

融合通信常见问题2月刊 | 云信小课堂

网易云信

音视频 融合通信

cdr2022序列号CorelDRAW2022绿色密钥

茶色酒

CorelDRAW 2022

新思科技最新报告显示97%的应用存在漏洞

InfoQ_434670063458

新思科技 应用安全

网络安全kali渗透学习 web渗透入门 使用msf渗透攻击Win7主机并远程执行命令

学神来啦

网络安全 Web 渗透 kali kali Linux

直播带练 | 30 分钟用阿里云容器服务和容器网络文件系统搭建 WordPress 网站

阿里巴巴云原生

阿里云 云原生 课程 容器服务 直播回放

为数据治理构建数据成熟度模型_治理_Mark Figley_InfoQ精选文章