本体集成方法和工具综述.docx
《本体集成方法和工具综述.docx》由会员分享,可在线阅读,更多相关《本体集成方法和工具综述.docx(31页珍藏版)》请在三一办公上搜索。
1、本体集成方法和工具综述于晓繁/王效岳/白如江2012-11-15 16:23:54 来源:现代图书情报技术(京)2011年1期【英文标题】 Methods and Tools for Ontology Integration【作者简介】于晓繁,山东理工大学科技信息研究所,E-mail:yuxiaofan0211,淄博255049;王效岳,山东理工大学科 技信息研究所,淄博255049;白如江,山东理工大学科技信息研究所,淄博255049【内容提要】本体集成是消除本体异质、实现语义通信并达到最高层级的语义融合,最后达到知识重用和互操作的过程。对本体 集成的4种主要方法和5种主要工具进行综述,并对
2、它们进行比较分析。Ontology integration is a process that can eliminate ontology heterogeneous, so as to achieve the highest level of semantic communication and semantic integration, and finally achieve knowledge reuse and interoperability. The paper reviews the four main methods and the five main tools for o
3、ntology integration, and gives some comparative analysis.【关键词】本体集成/集成方法/集成工具 Ontology integration/Integration methods/Integration tools1引言1993年,Gruber等对本体进行深入研究后给出了一个比较明确、全面、概括的概念,他们认为本体是“共享概念模型的明确的形 式化规范说明”1。本体的目的是实现领域知识的共享和重用,它在人们与组织的信息和知识交流中起了非常重要的作用,在多个领 域取得了广泛的应用。但是,随着应用领域的扩大和本体描述语言的发展,本体的数量和规模
4、激增,由于本体创建者的不同和使用的 本体建模方法的不同,即使同一领域问题的建模,不同的专家开发出的本体也存在差别,不同的人和组织倾向于使用不同的本体。因 此,为了交流信息和知识,解决多专业、跨领域应用的协同异构信息交换,达到知识的重用和互操作,需要采用相同的本体,或者是 集成不同的本体。这就决定了本体集成研究的必要性,并直接导致了本体集成的复杂性。2研究背景欧洲委员会于2001年启动的SWAP(Semantic Web and Peer-to-peer)项目2发现了本体集成问题。该项目发现了将多个不同团队构建的不同小本体集成为大本体时的本体映射和本体合并问题3。另外,欧洲委员会资助的另一个项目
5、SEKT(Semantically Enabled Knowledge Technologies)4也发现了本质上的问题,他们需要找出本体间的关系,实现本体之间的交互,以达成基于这些本体的数 据的重用和互操作5。国外关于本体集成研究的总体状况是:实力较强的研究团队多、研究项目多、研究范围广泛、研究成果丰富、使用系统的研发增 多,更倾向于生物和医药方面的本体集成的研究。Klein从本体语言的语法角度研究了本体集成,并从语义角度研究了本体集成可能 存在的语义不匹配6; Wache等从本体集成的体系结构角度研究了信息源集成的三种方式,并分析了各种方式的优缺点7; Mitra介 绍了关联本体库的概念并
6、提出了本体代数8。通过对本体集成涉及关键技术的分析,对全局本体库和关联本体库进行了描述,给出了 相应的集成步骤。ONIONS项目的研究人员Gangemi等介绍了一种集成大量重要的医学术语的本体集成方法ONIONS9。生物医学信息 学团队、人工智能实验室的Perez-Rey等介绍了一种集成基因组和临床数据数据库的本体集成方法ONTOFUSION10。人工智能实验室 的Pinto等阐明了集成和本体集成的一些概念,并且展示了集成的一些相关工作,辨析了与本体集成过程有关的三个概念: Integration、Merge和Use11。Napier大学计算机学院的Keet以生物学为例阐述了本体集成的几个重要
7、方面12。国内的本体集成研究虽晚于国外,但近年来这方面的研究也取得了一定进展,主要特点是:研究单位逐渐增多,并形成了一些研 究团队;研究理论逐渐增多,囊括了本体集成基本理论、方法、评估等多个方面;系统方面出现了一些在国际上有一定影响的本体映 射系统。范莉娅等介绍了包括本体集成方法的语义强度、信息的丰富性、集成层次的深入性和方法的适应性4个方面的评价指标体系, 并对文法层、Chimaera、PROMPT FCA-Merge和IF-Map5种典型的本体集成方法进行了评价13。卢胜军等对本体匹配、本体映射、 本体联结、本体融合、本体集成以及本体协同等相关概念进行了分析,并给出了重要概念的较为准确的定
8、义14。于娟等介绍了本体 集成的相关概念,给出了集成的一般化工程化方法,并对国内外有代表性的本体集成工具进行了比较分析15。本文介绍了本体集成的问题、本体异质、本体集成的基本框架、方法和工具,并对4种集成方法和5种集成工具进行了比较分析。3本体集成3.1本体集成的问题及本体异质本体集成(Ontology Integration)是指使用已经存在的不同主题的本体建立一个范围更广或更具体的本体,本质上讲,就是消除 本体语义异质、实现语义通信并达到最高层级的语义融合的过程。在集成过程中,将两个或多个本体中的知识以一种统一的形式表示 在新的本体中,如果原本体由于某种原因需要调整,其直接或间接引用的本体
9、也需要进行相应的更新。文献14 对本体集成和本体融 合的概念问题进行了探讨,认为本体集成是比本体融合更为广泛的概念,不能强加条件、限定使用范围,也不能无条件限制地混用滥 用,强调本体融合的“归并、合并”的特点和本体集成的“一体化、综合”的特点。笔者没有刻意地区分本体集成和本体融合,一概用本体集成来描述。本体集成的问题在于不同组织机构开发的本体描述的领域可能相关或重叠、采用的语言和组织方式不同、对领域知识描述的侧重 点和详细程度不同、存储格式不同,从而导致了本体异质,形成了大量异构本体。参考文献15 和16根据本体异质产生的原因将其 划分为5个层次:表示层、术语层、概念层、语义层和系统层,如表1
10、所示:衰1本体异质异质层次畀质蜂因解决办概本体的描述语言不同本体品译本体亍实体命名不一致.主要表现在:同义词.词多义,不同语言的词汇定共同一 个实体、同义词汇的语文变韩(墙写、前后缀等不同用法词汇映射概念层簸域本体的内容不一致,主要表现在本体覆盖面不同,详细度不同.愤角不同本体对弁或者本体合并iff义房不同个体戒团体在不同的I F丈中对相同本体产生的不同理解,即没有正确理解本 体构建昔的意图瘦以解决主要是正确理 解本体构建者的意图系统朕平台岸质,在要表现在:操作系统.文件系统、晚件和信哀系统挺供通用的擂件接口本体集成主要解决两类问题:构建新本体时重用现有本体,实现对本体及其结构的持续改进和丰富
11、;跨领域应用本体知识时,对 不同领域本体进行集成,以解决不同应用间的信息异构问题。3.2本体集成的基本框架本体集成框架17主要包括3个部分:异质本体层、中间层和用户层。(1) 异质本体层,包括不同的异质的领域本体,是集成的对象。(2) 中间层,实现本体的管理,包括本体映射管理、本体查询管理和通信平台。本体映射管理主要是本体的范化、本体映射的生成 和进化,以实现异构本体之间的互操作。它包括:本体范化插件、范化本体库、近义词汇库、本体语义映射生成器和本体映射库。本 体范化插件根据各个异质本体的存储形式不同,把各个异质本体转化为标准形式,只需要概念、属性以及它们之间的语义、层次关系 的信息,不涉及具
12、体的实例。范化本体库存储范化后的本体。本体映射的实现需要计算本体元素的相似度,所以需要构建一个近义词 汇库。范化本体输入到本体语义映射生成器,根据近义词汇库,输出本体映射集,把映射集存放在本体映射库里。本体查询管理包括: 查询扩展器、查询转换器、查询插件和查询结果集成器。根据本体映射库,查询扩展器把查询扩展为相关领域本体的查询,查询转换 器把各个查询转换成各个领域本体的查询语言,再把各个领域本体的查询结果集成反馈给用户。通信平台负责领域本体、本体范化插 件、本体语义映射生成器和领域专家之间的通信。(3) 用户层,包括用户和领域专家。用户选择某个领域本体,提出查询需求,查询与这个领域本体相关的本
13、体信息。领域专家管理 本体的映射,负责近义词汇库的建立和管理、本体映射算法的制定以及对本体自动映射后产生的映射库进行修正和管理。本体集成的4个主要阶段包括: 分析领域本体。根据各个领域本体的存储方式,编写本体范化插件和查询插件,领域专家制定该领域近义词汇库。 确定映射法则。根据上一阶段的分析,确定本体映射算法和映射修正规则。映射算法主要用于本体的自动映射,映射修正规则 用于帮助领域专家对自动生成的映射进行修正。 建立映射。领域本体通过本体范化插件生成范化本体,并把它们存到范化本体库中。根据映射算法规则,为每个范化本体建立 映射集,并将它们存到本体映射库中,领域专家再对其进行修正。当领域本体发生
14、变更时,即时更新对应的映射集。 本体查询。选择入口领域本体,从这个本体出发,根据本体映射库中该本体的映射集,查询整个领域本体。4本体集成的主要方法4.1主要本体集成方法介绍(1) 基于WCONS的本体集成 WCONSWCONS18(Word and CONtext Similarity)是卢胜军等提出的,它是一种基于词语和语境相似度的本体映射方法,其依据是:词 语相似度和语境相似度表现本体概念的语义相似度,语境相似度起决定作用;词语相似度较高而语境相异度较低的概念的语义相似度 较高,词语相似度较低但语境相似度较高的概念的语义可能相似,这两种情况都可能产生映射19。WCONS将概念语境分为结构面
15、、 关系面、属性面、实例面4个分面语境,比较充分地考虑了语境对概念语义的作用,通过采用Levenshtein距离20与Tversky相似 度模型21等语义相似度度量方法来计算概念间的映射关系。 WCONS+解决的问题在WCONS的基础上提出了本体集成方法:WCONS+。WCONS+方法解决的主要问题是通过发掘两个领域本体中的概念与概念、关系与 关系、属性与属性等同类元素间的等同关系的映射,实现两个领域本体的有效集成。也就是说,WCONS+仅讨论两个同一领域或相关领 域的、具有重叠部分的本体的集成,且仅限于两个本体中概念与概念、关系与关系、属性与属性这三种相同类型元素间的等同关系的 映射。现阶段
16、,WCONS+针对的仅是采用OWL DL描述的领域本体。 WCONS+的过程WCONS+方法是本体集成基本过程的深化和重组,它分为准备、映射、集成和检测4个阶段。1)准备阶段:获取可用于集成的领域本体,并为消除本体语言方面的异质障碍做好准备;2)映射阶段:计算两个本体中同类型元素间的语义相似度,发掘、选择及确定相互匹配的概念,采用WCONS方法进行概念、关系 与属性等元素的映射,最终产生元素间的映射;3)集成阶段:本体集成操作时实现本体元素集成的基本工作,依据PROMPT、Chimaera等工具,WCONS+方法提出者设计了 6种基本 集成操作和25种具体集成操作,依据本体元素间的映射关系类型
17、,结合本体集成工具,对本体元素执行添加、删除、修改和合并等类 型的集成操作,最终实现本体集成;4)检测阶段:集成后的结果本体必须检测知识的一致性和连贯性,采用推理机推理、对照比较领域知识和领域专家评估等方式消 除集成后本体中存在的矛盾知识。WCONS+准备阶段针对的是语言层上可能出现的异质问题,映射阶段主要是解决本体层上的异质问题,集成阶段是使本体以紧密的 形式无障碍、无中介地进行语义通信,并能执行语义推理,实现知识的完全融合,产生集成的本体,检测阶段是对上述阶段的校验、 论证和总结,最终构建具有较高质量的本体。(2)基于RDFS闭包的本体集成 RDFS资源描述框架(Resource Desc
18、ription Framework, RDF)是由W3C自1999年开始开发的,目的是为了创建描述Web资源的元数据, 它是表述对象及对象之间二元关系的语言规范,是一个网络资源对象和其间关系的数据模型,拥有简单的语义,该数据模型可由XML 语法编码。RDF同时也是一种基本的本体描述语言,是语义网表示语义信息的基础22。RDFS23(Resource Description Framework Schema)是基于XML对RDF的实现,是一种扩展了 XML的符号和语法后形成的语言,是用来描述RDF资源的属性和类型的词汇集描述语 言,可以看做是RDF的扩展和补充。RDFS是一种定义RDF Sche
19、mas的声明语言,它的数据模型是基于框架的,为定义属性与资源之间 的关系提供了机制,核心的概念/类是类、资源和属性。RDF Schema支持从客观世界到抽象世界的映射,为知识共享打下基础。RDFS的基本结构是声明三元组的集合,其数据模型由资源(Resource)、属性 (Property)和声明(Statement)三部分构成。一个特 定的资源加上其属性、属性值就是一个RDFS的声明,这三个个性化的部分分别叫做主体、谓词和客体。RDFS本体可用具有节点和有 向边的有向图来表示24。基于RDFS本体集成方法的过程RDFS能够描述子类与父类及关系间的蕴含特征,使RDFS描述的本体具有一定的推理能力
20、。Hayes总结了一系列关于RDFS的公理, 其中包括13条推理规则25,对这13条推理规则进行扩展形成了 9条扩展规则,利用这些规则对已有的RDFS声明进行新的RDFS声 明,新的RDFS声明可以看做是原RDFS本体中隐含知识的显示说明。RDFS模型中所有显示的和隐含的声明统称为RDFS模型的闭包26。 循环地应用推理规则和扩展规则,如果有声明满足这些规则中的一条,则生成新的声明,将新的声明添加到原有声明中;直到所有声 明都不满足推理规则的触发条件,停止循环。这时所有声明组成了 RDFS的本体图闭包。通过对RDFS本体的研究,提出了一种基于RDFS图闭包的本体集成算法BRCOIA(Based
21、 RDFS Closure Ontology Integration Algorithm),过程为:本体的解析和过滤,使用Jena中的ARP(Another RDF Parser)工具将不同本体定义语言(如OWL、DAML+OIL等) 描述的本体统一转换成易于推理和检索的RDFS三元组描述的形式,并对生成的三元组进行过滤,去掉没有意义的空节点;RDFS图闭 包生成,RDFS模型的闭包中包含所有显示的和隐含的声明,在RDFS图闭包的基础上进行本体的集成,可以保留更多的领域知识,循 环推理规则和扩展规则,产生RDFS图闭包;相似性评估,生成图闭包后,进行本体间实体的相似度计算;本体推理映射,主要考
22、虑4 种映射:类等价、类包含、属性等价、属性蕴含,并用推理结果去修正初始相似度;本体剪枝,经上述步骤得到虚拟本体,虚拟本体 是已经建立了映射联系,但还没有对源本体中没有用到的类、实例、关系等进行删除操作。该步骤进行剪枝操作后就得到了最终的本 体。(3) ONTOFUSIONONTOFUSIONONTOFUSION10是基于本体的生物医学数据库集成系统方法,它有两个过程:映射和联合。映射是用虚拟模式命名的概念框架本 体链接数据库模式的半自动化的过程,有三种方法可以获得虚拟模式:自顶向下,利用已存在的本体,如UMLS或者Gene本体;自底 向上,建立一个新的领域本体;混合组合。联合是一个自动化的集
23、成本体的过程,之后数据库就可以链接到数据。基于这些方法提出 了 ONTOFUSION来集成大规模的基因组、临床数据库和生物医学本体。ONTOFUSION系统构建在多Agent系统JADE基础上,共有4个模块:用户界面、词表服务模块、中介器模块和数据访问模块。系 统的核心模块是中介器模块,负责提供对各异构数据库的一致性访问。词表服务模块负责维护和提供医学和遗传学本体,数据访问模 块实现对公共和私有生物医学数据库的查询,用户界面模块包括用户接口和管理模块。ONTOFUSION系统采用了多Agent架构,使得其 各个模块可以运行于不同的计算机上,增强了系统的并行处理能力和灵活性。ONTOFUSION
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本体 集成 方法 工具 综述
链接地址:https://www.31ppt.com/p-5335872.html