阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

为数据治理构建数据成熟度模型

  • 2007-09-10
  • 本文字数:1425 字

    阅读完需:约 5 分钟

在横跨 5 天的 5 篇博文中,数据治理博客提供了一个开发数据成熟度模型的快速入门指南。与先前建立数据治理成熟模型的方法的有趣的不同点是:它提倡一个为给定的组织量身定做适当的模型,而不是试图为了统一而应用标准模型。在这个 5 部分组成的数据治理系列中,开始部分关注定义范围,建立基线。在给你的数据建立一个成熟度模型时,首先在你的企业数据中划定要治理的那部分数据是非常有必要的。一旦数据的范围定义好了,就需要给它建立一个基线。见专题中的:

什么是你的数据集中成熟度级别最低的数据?你的回答可能是沿袭这条思路:未被审查的、没有被建模的,没有元数据、不知道它是什么的”,“它虽然在我们的协助数据模型中,但是除了字段名外没有其他信息,没有元数据”,或者“它在我们的模型中,我们有一些过时的定义,而且我们也不再认为它是可信赖的” 这可能会花费很多的时间,但最重要的是为它建立一个基线。需要捕获的主要内容是:

  1. 它在你的数据模型中吗?
  2. 你给它的元数据了吗?
  3. 如果有元数据,你信任元数据中的信息吗?

在第 2 天,介绍了数据成熟度模型的自然级数:

你现在要寻找的是你能看到的数据当前所处于的级别。从最低的级别开始,你能够看到的在成熟度中的下一个位置在哪里?如果你的起始级别是“未建模的、没有元数据、不知道它是什么的”,你的数据所能看到的下一步可能是“属于我们的数据模型但是我们对它获得不了其他的辅助信息”……与其建立一个需要强制我们的数据去适应它的数据成熟度模型,不如让我们用数据已经存在的不同的阶段来定义成熟度的路径。

3 篇 blog 把关注重点从最低级的成熟度转向最高级的成熟度,并试图使用一致的术语来架越鸿沟:

其实,我想让你做的是拿出你在第一天得到的内容并写下与它完全相反的内容,这个会帮助你确定最高的成熟度级别。所以,如果你的最低级别是:“未建模的,未被评审的,没有元数据的”,那么最适宜的最高级别应该是“数据模型经过了数据治理委员会评审和治理过的,验证过了数据模型并进行了及时更新”。这样做会让你的成熟度模型框定相同的项目。如果你在讨论你的最低级别的数据模型,你应该讨论包括最高级别在内的其他级别。

在第 4 篇博文中提供了成熟度模型可用的模板, 第 4 5 两篇博文带你领略如何为你的组织量身定制合适的成熟度模型。

先从最重要的事情开始,完成下列内容:填写你的数据治理成熟度模型模板,找出你的程序中的范围内数据。 下面要做的是从你的数据中取样,并确保你能从成熟度模型中轻松的为其进行定位。如果再让我我来做这步工作的话,我会随机的挑选出 40 个字段并逐一进行检查。我会查看这些字段,检查模型,检查它们是否拥有元数据等,并看它们是否可以属于某个级别。你需要确保所有这些数据字段都在成熟度模型中找到了归属位置。如果在这其中发生了生命问题,说明你还没有完全清晰的定义好了你的等级。如果它们同时被分到了两个级别中,你需要定义一个新的级别来说明其中的不同,或者根据它的特征合并到你其中一个已经存在的级别中。

查看英文原文: Building a Data Maturity Model for Data Governance - - - - - -

译者简介:孙向晖,儿子小名“豆豆”,常被人称为“豆豆他爹”。1998 年开始步入 IT 行业,现任浪潮软件质保中心副主任。专注于研究和实践 MDA/UP/UML/SCM 等相关技术在团队中的大规模应用,对产品化的软件项目管理、需求管理和配置管理略有心得。他的博客为 http://blog.csdn.net/xiaosun/ 。参与 InfoQ 中文站内容建设,请邮件至 china-editorial[at]infoq.com

2007-09-10 21:363166

评论

发布
暂无评论
发现更多内容

2022-12-01:从不订购的客户。找出所有从不订购任何东西的客户,以下数据的答案输出是Henry和Max,sql语句如何写? DROP TABLE IF EXISTS `customers`; C

福大大架构师每日一题

数据库 福大大

接口测试快速入门-1

度假的小鱼

接口测试 11月月更

架构实战营 1-3 面向复杂度架构设计随堂测验

西山薄凉

火山引擎边缘云荣获2022全球分布式云大会两项大奖

火山引擎边缘云

云原生 边缘计算 边缘云 火山引擎边缘计算

华为自研分布式时序数据库集群:初始GaussDB(for Influx)

清欢科技

架构实战营 1-2 架构图随堂测验

西山薄凉

「架构实战营」

嵌入式系统硬件概述

timerring

嵌入式系统 12月月更

常用的十大Python开发工具

千锋IT教育

架构解析:Dubbo3 应用级服务发现如何应对双11百万集群实例

Apache Dubbo

Java 开源 微服务 dubbo

Flink on Yarn三部曲之一:准备工作

程序员欣宸

大数据 flink hadoop YARN 12月月更

腾讯云曹磊:双碳、双循环政策驱动下,消费电子行业的新机遇

科技热闻

一文读懂|2021年数据库领域精彩回顾

YMatrix 超融合数据库

50亿海量数据如何高效存储和分析? 华为云数据库GaussDB (for Cassandra) 3个秘诀搞定

IT科技苏辞

深入浅出Seata的AT模式

Java 架构

架构实战营模块 7 作业

陌生流云

架构实战营

华为云数据库GaussDB(for Influx)与开源企业版性能对比

清欢科技

架构实战营 1-1 架构概念随堂测验

西山薄凉

「架构实战营」

一文了解 Go 方法

陈明勇

Go golang 方法

架构实战营 1-4 架构设计三原则随堂测验

西山薄凉

华为云数据库GaussDB(for Cassandra)揭秘:高性能低成本是什么样的体验?

科技说

测试如何发展副业,提升斜杠收入

老张

码农副业 斜杠

极客时间运维进阶训练营第四周作业

LiaoWD

pipeline SonarQube jenkins高级用法

三江学院计算机科学与工程学院举办“火焰杯”软件测试开发选拔赛颁奖仪式

测吧(北京)科技有限公司

软件测试 测试

腾讯产业生态规模大、增速快、质量高,2023年将加大生态开放力度

科技热闻

腾讯云升级发布两大区块链产品,助力产业区块链数字化生态建设

科技热闻

WeLink互动直播:维护网课秩序,杜绝外人乱入

与时俱进的时代

04 Redis sentinel 模式存储试卷

神奇的叶叔叔

Zig语言初探

Yuet

【愚公系列】2022年12月 微信小程序-页面栈和页面路由

愚公搬代码

12月月更

华为云数据库GaussDB (for Cassandra) 数据库治理 -- 大key与热key问题的检测与解决

IT科技苏辞

华为云数据库GaussDB(for Cassandra)揭秘:内存异常增长的排查经历

科技说

为数据治理构建数据成熟度模型_治理_Mark Figley_InfoQ精选文章