语义网与本体论技术继续成长

阅读数:576 2008 年 5 月 5 日

话题:SOA最佳实践架构

随着企业架构在各种组织中扎根,各种本体论和相关的管理正日渐盛行。现在已经出现了相应的工具支持,语义及本体论的概念也得到了更充分的理解。越来越多的参与者在这个领域做出他们的贡献。AKSW 研究组最近发布了他们的 Triplify 产品,“为万维网的‘语义化’提供建筑单元”。还有UMBEL 基干项目开始为万维网提供轻量级 的主体结构。Dan McCreary 也讨论了开发和维护企业本体论架构过程中容易遇到的一些主要陷阱

The Agile Knowledge and Semantic Web 研究组(ASKW)最近发布了Triplify 产品的新版本。Triplify 是一种小型的 Web 应用插件,它能够以 RDF、JSON 或者 Linked Data 格式提供数据库的内容,揭示出关系数据库中所保存的数据的语义结构。通过 Triplify 插件和在查询中调整数据列,Triplify 可以分析查询所返回的数据,并以前面提到的格式对外提供数据。Triplify 有利于中小型的 Web 应用参与到语义网中来,因为不需要为建立和维护大规模的语义定义而付出大量的努力。Triplify 的终极目标是“开拓 Web 应用背后的结构化的关系表示(representations),让万维网上的语义表示达到临界质量。”

Upper Mapping and Bind Exchange Layer(UMBEL)项目宣称自己是“轻量级的本体论,通过一组标准的主体概念(subject concepts)将万维网上的数据彼此联系起来”。UMBEL 将“主体概念(subject concepts)”定义为:

主体概念是一个明确的概念子集,来源是一些得到广泛理解的概念,包括 SKOS RDFS 词汇集、形式概念分析以及在一些上级本体论中非常通用的概念。主体概念是一类特殊的概念:它们是具体的、与主体相关的、非抽象的。它们与命名实体形成更鲜明的对照,命名实体是真实的事物,是主体概念类在真实世界中的实例。

UMBEL 项目的要旨,是为无穷无尽的、细粒度的、局部的本体论和概念映射之间的关系提供“元映射”。Michael K. Bergman给出了万维网主体基干的示意图,还制作了一组幻灯片来阐释 UMBEL 的在线例子和该项目的 11 个语义 Web Service

最后 Dan McCreary 讨论了定义企业本体论的时候需要注意的一些事项。当被问到企业在定义自己的本体论时会遇到哪些主要障碍,Dan 回答说“本体论”这个词本身就是一个大障碍:

这个词令很多人望而却步,他们会觉得这是高深的 AI 研究。有时候我们应该选一个更平易的名字。比如叫做“元数据注册表(metadata registry)”就令人容易接受得多。很多人在和数据库开发人员一起工作的时候把它叫做“逻辑数据模型”或者“企业数据字典”。而在 XML 行业里喜欢称之为“XML Schema 类型库”。看你的听众是什么人……选一个让听众觉得舒服的术语,把精力集中到对于企业组织真正有意义的方面。大约只有 25% 的客户我会告诉他们我在构建本体论。

当组织开始走上定义自己的本体论的正轨,需要对本体论进行管理并在整个企业中推行。Dan 说这些并不仅仅是企业上层的工作,而是需要在整个组织中展开。

上层本体论(upper ontology)本身几乎没有什么用处。它们自身并不解决实际的业务问题。只有展开到枝叶层次的元素,你才能开始把它映射到数据库的列。这个时候才算迈出长征的第一步。

当组织开始采纳本体论之后,就应该开始留心McCreary 列出的十大陷阱了

  1. 使用专门的本体论设计工具。
  2. 避免出现重复的数据元素。
  3. 不要将角色和本体论中的对象混淆在一起。
  4. 将定义语义的过程和定义约束的过程分离开。
  5. 全面地测试上层本体论。
  6. 为数据元素制定明确的定义。
  7. 元素的定义和对元素的描述不应该混杂在一起。
  8. 建立可搜索的结构,使复杂的全文搜索成为可能。
  9. 采纳某种版本跟踪实践,实现定义的可追溯性。
  10. 对于企业中的标识符 / 代码也应该定义其语义。

McCreary 还强调应该让组织中的某个团队或个人“拥有”某个本体论,让他们为语义的精确性负责。如果企业珍惜自身的本体论的价值,应该让这些个人扮演关键的领导角色。

查看英文原文:The Semantic Web and Ontological Technologies Continue to Expand