合理使用元数据工具,解决大数据治理落地难点

  • 杜小芳

2016 年 8 月 2 日

话题:大数据语言 & 开发架构

元数据并不止存在于数据领域,近年来,元数据管理的范围在不断扩大,从简单的库表,到整个数据平台,再到服务管理,不断突破传统元数据管理的范畴。InfoQ 采访了普元软件产品部副总、大数据产品线总经理王轩,了解如下问题:“元数据”和“大数据”之间的异同之处在哪里?大数据环境下的元数据管理有什么特点?元数据元数据驱动的微服务架构有何特点?企业大数据治理难点在哪里?

InfoQ:请问大数据环境下的元数据管理有什么特点?

王轩:大数据环境下的元数据管理与以往不同,这种不同主要反映在元数据的录入方式上,在传统 BI 时代,很多企业主要以人工的方式对元数据进行收集和整理,但大数据环境中的数据类型和数据结构都变得更加复杂,元数据管理的范围变得更广,人工录入的方式已经不再适用,主要原因有以下几点:

  1. 大数据环境下的工具众多,无论是商业产品还是开源产品都变得更加复杂;

  2. 大数据治理中的数据采集与数据处理链条会变得更长,二者之间更难形成关联;

  3. 大数据环境下的数据来源各式各样,其中除了企业内部的数据,更多的数据来自于第三方机构;

如此复杂的企业大数据环境,对企业使用的元数据管理工具提供了更高的要求,大数据环境下的元数据管理工具,不应该再一味地追求用户并发数,而是应该以全面自动化的元数据采集作为系统功能的核心,以此来代替传统效率比较低的人工录入方式,对大数据环境中的各种元数据进行自动化采集,这也是评判一个企业元数据管理是否成熟的重要标志。

InfoQ:请问“元数据”和“大数据”之间的异同之处在哪里?元数据具有什么样的特性?

王轩:“大数据”中包含众多的元数据,可以说元数据是大数据应用的基础和前提。 元数据是信息的维度,可以说,掌握了元数据就掌握了信息的维度,它描述了信息概念以及他们之间的连接。其中信息概念表示某个业务所有维度的集合,连接则是描述元数据之间关系的方式。

元数据管理的概念是随着数据仓库的建设逐渐完善起来的,所以现在人们普遍认为元数据只存在于数据领域,其实这种对元数据的认识是不全面的,近年来,元数据管理的范围在不断扩大,从简单的库表,到整个数据平台,再到服务管理,甚至到驱动微服务,一直在不断突破传统元数据管理的范畴,从而形成了广义元数据的概念,我们可以发现,其实元数据广泛存在于企业架构的方方面面,而不仅仅是局限于数据领域里。

InfoQ:在金融、电信、制造、政府、电力等行业,需求和数据都不一样,在进行元数据服务治理时,如何减少差异化?有没有统一的模型?

王轩:每个行业对数据治理的需求是相同的,但是治理的路径各有不同,在进行数据治理时,要根据各行业不同的状况,采用不同的数据治理方案,但是大体的理念和思想是一致的。

第一,无论对哪个行业来说,数据治理都是对数据全过程,全方位的管控,是对数据采集、加工、存储、共享、应用等一系列完整流程的治理;

第二,任何行业的数据治理都不应该只是局限在理论和架构层面,整个治理过程都要靠工具和平台来支撑,推动数据治理的落地。

InfoQ:普元在大数据治理上有多年的经验,是否有形成一套通用的大数据治理的平台架构?

王轩:是的,我们先后完成了多家大型企业的大数据治理项目,以后大数据治理也是我们主要的发展方向,我们认为,大数据治理应该以元数据为核心,配合大数据标准、大数据交换集成、主数据管理、大数据质量、大数据资产化、大数据共享等共同完成整个企业层面的大数据治理。

大数据治理的本质是提升企业数据资产价值,这就要求企业在大数据治理中要将数据与服务结合,通过“数据 - 服务 - 价值”之间的相互转换和相互促进,实现企业的数据资产变现。

InfoQ:与传统软件中的微服务相比,元数据治理中的微服务有哪些特点?这种微服务架构如何解决哪些难点和痛点?

王轩:在微服务架构中微服务的粒度小,数量多,微服务的设计与微服务之间的连接需要一套规范,同时需要一套可以对话的统一“语言”,而元数据就可以看成是这种“语言”,用元数据来驱动微服务架构,能够规范整个微服务体系的设计。

传统的微服务架构中经常遇到以下几个难点

一、微服务边界交互难;二、微服务开发和使用不够规范;三、微服务脉络分析难;四、微服务全生命周期难以管理。

元数据驱动的微服务架构可以很好地解决这些问题。

第一,此种微服务架构可以在事前定义好微服务边界,通过元数据协助微服务的之间的交互,解决微服务边界交互难的问题;

第二,在元数据驱动的微服务架构下,可以用元数据来定义微服务中的标准规范,对微服务的数据标准和服务标准进行统一定义,以此来规范微服务的开发和使用;

第三,某个微服务的改变通常会影响到多个服务的联动调整,基于元数据驱动的微服务架构在脉络分析上有着明显的优势,通过元数据可以分析出整个微服务调用关系图谱,解决传统微服务架构下的脉络分析难点;

第四,通过标准元数据,可以在微服务规划阶段规范微服务,在设计阶段提供连接其他微服务的元数据信息,在开发阶段协助开发测试,在上线后分析微服务的使用情况,并协助维护微服务的变更,最后微服务下架时,将微服务的元数据存档,确保对目前体系不产生影响,从而对微服务的全生命周期进行科学有效的管理。

未来元数据驱动的微服务架构的应用还会有很多,还需要进一步思考和研究。

InfoQ:在您多年的研究大数据治理经验里,您认为大数据治理最难的地方是什么?

王轩:从我们的大数据治理项目经验来看,我觉得大数据治理最大的困难在于如何有效地落地执行。

我认为大数据治理落地难的原因主要在两个方面,一是现在大部分企业的大数据治理组织架构存在问题,二是除了组织架构之外,企业大数据治理更需要一套完整的平台工具来支撑。

第一,在组织架构上,企业的大数据治理还是应该由业务部门来主导,IT 部门来执行,并且引入相应的考核体系,以此来推动大数据治理一系列规范的执行和落地;

第二,在平台工具上,大数据治理是对数据采集、质量控制、数据共享一整条线的治理,在大数据治理过程中,不能再把重点放在对人的管理上,而应该把重点放在平台和工具上,一套完整的平台工具和自动化手段,能帮助企业更容易地进行大数据治理。

InfoQ:目前普元的大数据团队的主要情况是什么样的?您们的团队文化是什么样的?您在团队管理上有什么样的心得体会?作为“船长”您如何选择您的“船员”?

王轩:普元的大数据团队是一个以产品研发为主的团队,也是很专注的团队,我们一直专注在大数据治理领域,有多个相关产品,同时也在大数据治理市场上有不错的占有率。整个团队有多名 10 年以上的数据治理专家,对元数据,数据交换,数据标准,数据质量等都很擅长。

我们的团队是目标感和执行力很强的团队,我觉得一个好的团队,首先,需要有一致的目标,大家在一致的目标下,发挥自己所长。其次,需要很强的执行力,在面对困难局面的时候能够坚持,并解决问题。最后,有浓厚的学习的氛围,能够主动学习,主动分享。

团队管理,我认为是如何发挥每一个人长处的过程,我的团队有各种各样的人,每个人都有不同,我需要做的事情很简单,就是把大家放到能发挥长处的事情上去,在这样的事情中,帮助大家持续学习,最大化长处,尽量减少短处,让团队中每个人能够都能成长。

最后我觉得我并不是船长,而是船员,我们没有大轮船,可能更像是龙舟,每个人都在船上互相配合一起让船划得更快一点,走的更远一点。我选择的船员是能认同方向和我们一起用浆划船的人。

InfoQ:感谢王轩老师接受我们的采访。

受访嘉宾介绍:王轩,普元信息软件产品部副总、大数据产品线总经理,2010 年加入普元,全面主持普元大数据产品的研发、拓展及团队管理工作。十年大型企业信息化架构设计与建设经验,曾任中国人民银行核心平台架构师。主持参与了国家开发银行大数据项目、中国人民银行软件开发平台、国家电网云计算平台等大型项目建设。点击“阅读原文”查看王轩的在线分享《大数据治理技术核心,可扩展的元数据架构设计》

对元数据治理感兴趣可扫描二维码加入由王轩主持的“普元大数据研发开放群”,与大牛讨论更多元数据、微服务、大数据治理相关内容,加群备注为“meta”

查看原文

大数据语言 & 开发架构