基于本体的语义垂直搜索引擎研究(可编辑) .doc
、多事未交硕士学位论文基于本体的语义垂直搜索引擎研究 作者:周源导师:于双元北京交通大学年月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。保密的学位论文在解密后适用本授权说明学位论文作者签名:导师签名.了镅厶习源签字日期:年月日年多月,占日签字日期:扣中图分类号:学校代码:密级:公开北京交通大学硕士学位论文基于本体的语义垂直搜索引擎研究作者姓名:周源学 号:导师姓名:于双元职称:副教授学位类别:工学学位级别:硕士学科专业:计算机科学与技术研究方向:分布式计算北京交通大学年月致谢本论文的工作是在我的导师于双元副教授的悉心指导下完成的,于老师严谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢两年来于老师对我的关心和指导。于老师在学习上和生活上都给予了我很大的关心和帮助,对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心的感谢。特别感谢姜雅文博士在算法实现方面给予我的巨大帮助,以及在论文研究和实现过程中提出的有价值的方法。在实验室工作及撰写论文期间,李亚飞、李帅等同学对我论文中的研究工作给予了热情帮助,在此向他们表达我的感激之情。感谢我的父母,妹妹,感谢我的朋友们,你们的理解和支持使我能够在学校专心完成我的学业。摘要搜索引擎作为获取因特网上海量信息的重要手段,是信息检索领域重要的研究课题,随着信息技术的不断发展,因特网上的信息量也与日剧增,内容庞大,组织松散。因此如何优化搜索引擎在该领域备受关注。垂直搜索引擎作为针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,通用搜索引擎的性质决定了其不能满足特殊领域,特殊人群的精确化信息需求服务。本文研究了本体和垂直搜索引擎技术,提出了一种基于本体的语义垂直搜索引擎,建立了语义查询扩展方法,并对原有结果排序算法进行优化。本文研究了垂直搜搜引擎的基本概念和设计理论,本体相关知识以及其在信息检索方面的应用,分析了国内外搜索引擎的现状以及存在的不足,以及本体技术与垂直搜索引擎相结合的意义和必要性。在对目前主要的本体构建方法进行分析比较后,选用.作为构建本体的编辑工具,作为本体描述语言建立了一个数码产品领域本体。运用数码产品领域本体将用户的查询请求划分为本体类概念,本体实例,本体属性和普通查询,着重研究了本体实例和普通查询的扩展方法,对于本体实例从继承关联和路径关联两个方面进行扩展,对于普通查询采用基于词语共现的语义查询扩展方法,提出了一种基于本体适合垂直搜索引擎的语义查询扩展算法。为了克服原有结果排序算法只考虑关键词和网页相关度不能反映网页本身重要程度的缺点,提出引入基于链接分析的算法对其进行优化。最后实现了基于本体的语义垂直搜索引擎原型,设计了相关实验,并与原有的查询方式和排序算法进行了实验对比分析。实验结果分析表明本文的研究内容可提高搜索引擎的查准率。关键词:垂直搜索引擎;本体;查询扩展分类号:,. ., . ., .,. . . , ,. , . . ,., .: ;:】目录摘要.绪论.研究背景和意义.研究现状.论文的主要研究内容和结构?.本文的组织结构?相关理论和技术一.垂直搜索引擎.垂直搜索引擎框架.垂直搜索引擎的特点.语义垂直搜索引擎.本体技术.本体的基本概念?.本体分类.本体描述语言?一.本体构建方法?.用户查询扩展技术?.查询扩展概述?.查询扩展技术分析?。.全文搜索工具包.简介.系统结构分析?.索引技术.本章小结语义查询扩展设计与结果排序算法改进?.数码产品领域本体建模.数码产品领域本体的简介?.数码产品领域本体分析与设计.基于本体的语义查询扩展设计.用户查询分析?.本体词汇语义扩展算法.基于词语共现的非本体词汇语义查询扩展算法?.检索结果排序算法优化.原有结果排序算法. 结果排序算法改进.本章小结基于本体的语义垂直搜索引擎的设计与实现.系统总体设计?.系统详细设计与实现?.数码产品领域本体的建立?.基于的主题爬虫模块.基于网页预处理模块.算法实现?.基于的索引器模块.语义查询扩展模块?。.系统展示.实验设计及分析.实验样本.查准率实验?.本章小结总结与展望参考文献?作者简历?独创性声明.学位论文数据集?绪论.研究背景和意义随着的飞速发展,现在已经成为人们获取信息资源的主要场所,互联网使得人们无论是发布,传播信息还是获取信息都变得极为方便。但是要在如此海量的信息中寻找所需要的信息已经成为困扰用户的一个难题。搜索引擎技术恰好解决了这一难题,搜索引擎以一定的策略在互联网中搜索、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的作用】。现有的搜索引擎技术主要基于关键词的全文匹配。通过人工或者网络机器人收集上的网页,对搜索到的文档进行预处理,按照一定的策略对其进行组织、存储和访问】。用户输入关键字进行查询,查询处理模块按照一定的匹配算法,计算文档与查询请求的相关度,排序返回与查询相关的信息。返回的信息主要是文档的标题、及摘要等【。但是目前搜索引擎大多采用“在语法层次上基于关键词匹配检索”的方式,缺乏语义匹配的能力,不能准确理解用户的检索要求与文档的语义,仅停留在字符匹配上,庞大的网络信息资源使得搜索变得越来越难以控制,用户需求和市场服务间的巨大差距产生了强大的搜索噪音,人们呼唤更有针对性的搜索引擎,于是垂直搜索引擎应运而生。垂直搜索引擎是新的搜索引擎服务模式,其是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务,具有浓郁的行业和领域特色。简单的说是搜索引擎领域的行业化分工,市场需求多元化决定搜索引擎的服务模式必将出现进一步细分,针对不同行业应该提供更加精确的行业服务,通用搜索引擎的性质,决定其不能满足特殊领域,特殊人群的精准化信息需求。垂直搜索引擎更大程度地提高了搜索的查全率和查准率,提供更多更专业、个性化的领域相关服务【】。通用搜索引擎的发展为垂直搜索引擎的出现提供了良好的市场空间,出现垂直搜索引擎在互联网中占据部分市场,也是搜索引擎行业细分的必然趋势。但是基于关键词的搜索引擎无法满足用的需求,传统查询扩展方式又会带来许多语义理解错误,针对这一问题基于本体的垂直搜索引擎概念模型被提出。本体是现实世界的抽象模型,客观反映了现实世界中概念和概念之间的相互关系。这些概念和关系在共享的范围内具有大家共同认可的、明确的、唯一的定义】,这样,人机之间以及机器之间就可以进行交流。如果将本体与搜索技术结合起来,整个垂直搜索引擎像领域专家一样,不仅给出查询结果,还给出与检索请求相关的资源,突破了关键词检索局限于形式的固有缺陷。通过本体的定义,可以使用本体把页面的信息与某些知识结构和规则链接起来,垂直搜索引擎就可以进行语义级别的分析和信息抽取,减少了不相关的返回结果,从而提高系统的查准率与查全率,进而提高用户的满意度。将本体的基于语义的知识表示和推理技术与现有的搜索技术结合起来,必然能够使搜索引擎的性能有一定的提高。近十年来,本体和本体工程在知识工程及其相关的应用领域获得广泛的关注。本论文在垂直搜索引擎现有研究成果的基础上提出了一种基于本体的语义垂直搜索引擎模型。主要目的是将本体技术,特别是领域本体应用到垂直搜索引擎中为专注于行业信息的人提供更有价值的服务。.研究现状本体在信息检索领域的应用研究始于世纪末世纪初,基于本体的搜索引擎是未来搜索引擎的发展方向,其发展主要决定于本体和自然语言处理技术的发展。基于本体的搜索引擎研究的最终目标是让计算机具有人的智能,能够理解人们提出的问题,将问题的解决方案返回给用户。其当前目标是让计算机返回的结果更有针对性、准确性。目前国内外大量的学者都在这个领域进行了各种的探?察。目前,世界各国对基于语义的搜索引擎及相关理论作了大量的研究,在语义网络等语义表示理论、自然语言处理研究领域的语法理论等提出之后,出现了越来越多的关于语义搜索引擎的研究项目,研究主要呈现两个重点:一个是关注对机器翻译、语义理解、人机会话等自然语言处理技术的研究,以支持人机会话等自然语言通信的搜索;另一个是关注本体在语义搜索中的应用研究】。其中具有代表性的系统主要包括:其研究目的是为了帮助用户检索到所需要的万维网上已有的本体,主要采用了参照本体。参照本体是以万维网上已有的本体为对象建立起来的本体,它保存有各类本体的元数据;:它是由开发组研发的,面向的是万维网上的网页资源,用来处理、和格式的信息源和信息源语义描述的系统,提供信息检索、查询和维护支持服务, 其核心是用形式化本体描述背景知识,并明确文档的语义, 以便综合利用本体论的表达能力和推理机制,但是由于是基于开发的,所以在支持上不是很好。基于框架和规则的,由:它是一种基于的知识表示语言,美国马里兰大学于年开发成功。使用不同于的一些标记对进行扩展, 使得可以在文档中插入本体。允许表示概念、概念分类以及推理规则, 其推理引擎可以通过它们推理出新知识。是一个针对互联网上的语义网文档、术语以及数据的搜索引擎。酉利用一种搜索器系统来发现资源描述框架文档以及内置有内容的文档。百会针对这些文档及其组成部分如术语和三元组进行推理,并在其数据库之中记录和索引具有实际意义的,关于这些文档及其组成部分的元数据。西宣称,将来它不仅仅是一个本体搜索引擎,更重要的是一个本体词典,汇总各种本体后,进行本体的匹配和融合,生成一个更完备和更多人公认的本体。不过基于语义的搜索引擎的研究现状并不容乐观。在理论上,多数研究者认为自然语言处理技术、语义理解技术在信息检索领域应用的效果并不理想。语义网技术还处于发展阶段,现有的语义垂直搜索系统也都处于初步研究阶段,离成熟的商业化水平还有一段距离。.论文的主要研究内容和结构本文分析主要探究了本体技术在垂直搜索引擎中的应用,介绍了本体的基本概念,重点研究了基于本体的垂直搜索引擎的关键技术,并以数码产品作为领域本体利用构建了一个基于本体的垂直搜索系统,本文使用了网络爬虫、结构化信息抽取、语义查询扩展和返回结果排序等技术,为解决语义歧义,信息冗余,准确度低等实际情况做出了尝试。本文的主要工作如下:对现有搜索引擎结构进行分析,发现其搜索质量不高的主要原因在于检索过程中所采用的基于关键字匹配的检索方式,引擎无法很好地理解用户查询的语义信息,分析得出将语义信息加入到检索中才能从根本上解决查准率低的问题研究了本体论的概念理论以及本体的构建原则、构建方法、描述方法等。分析了现有的本体构建方法,给出了一种构建数码产品领域本体的构建方法,并使用.构建了数码产品领域本体。运用该本体将用户的查询请求划分为本体类概念,本体实例,本体属性和普通查询,着重研究了本体实例和普通查询的扩展方法,对于本体实例从继承关联和路径关联两个方面进行扩展,对于普通查询采用基于词语共现的语义查询扩展方法,提出了一种基于本体适合垂直搜索引擎的语义查询扩展算法。基于设计了基于本体的语义垂直搜索引擎框架,针对原有结果排序算法只考虑关键词和网页相关度不能反映网页本身重要程度的缺点,提出引入基于链接分析的算法对其进行优化。使用,等开源包编程实现了基于本体语义垂直搜索原型系统并进行了相关测试。.本文的组织结构本文一共分五章,内容安排如下:第一章,绪论。主要论述了论文选题的背景和意义,以及目前国内外信息检索技术的研究现状和存在的问题,并简单介绍了本文的研究目的、研究内容,以及本文的组织结构。第二章,相关理论和技术。主要介绍了垂直搜索引擎,本体的定义,本体分类,本体的描述语言,本体的构建方法,查询扩展技术,并对全文搜索工具包开源包的系统结构和索引机制进行了详细描述。第三章,语义查询扩展与结果排序算法改进。在对本体构建方法的研究比较后,给出了一种构建数码产品领域本体的构建方法,并构建了一个数码产品领域的本体,然后运用该本体将用户的查询请求划分为本体类概念,本体实例,本体属性和普通查询,着重研究了本体实例和普通查询的扩展方法,对于本体实例从继承关联和路径关联两个方面进行扩展,对于普通查询采用基于词语共现的语义查询扩展方法,提出了一种基于本体适合垂直搜索引擎的语义查询扩展算法。针对原有结果排序算法只考虑关键词和网页相关度不能反映网页本身重要程度的缺点,提出引入基于链接分析的算法对其进行优化。第四章,基于本体的语义垂直搜索引擎的设计与实现。对该系统进行了介绍,给出了系统结构图、系统开发平台和工具;介绍了系统中各个关键模块的设计与实现。重点对基于本体的语义查询扩展和优化之后的结果排序算法与原有检索方法设计了实验,进行比较和分析。第五章,总结与展望。主要对论文的研究工作进行总结,并指出了进一步研究的方向。相关理论和技术. 垂直搜索引擎垂直搜索引擎是针对某一个行业的,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出重要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎专注具体、深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,这个领域外的闲杂信息不收录。这种高度目标化、专业化的搜索引擎的优势在于针对性强,对特定范围的网络信息的覆盖率相对较高,有明确的检索目标定位,有效地弥补了综合性搜索引擎对专门领域及特定主题信息覆盖率过低的问题。.垂直搜索引擎框架垂直搜索引擎通常由三大部分组成:抓取系统,索引系统和搜索系统。其框架如图.所示:图:垂直搜索引擎框架.:抓取系统,也就是蜘蛛程序,负责从信息源抓取数据,蜘蛛程序通常是基于预先构造的模板工作的,无模板的蜘蛛程序只能处理结构相对简单的信息,抓取系统涉及的关键技术点有爬行路径分析、增量抓取与全抓取、信息构造完整性、信息唯一性识别、多网页信息整合、自动标引等。索引系统,把抓来的信息建立类似书目的数据文件,以便于实现高速检索。索引系统涉及的关键技术点有分词技术、预评分和后评分、增量索引与全索引、排序技术、热点词高速缓存、标准检索语句解析等。搜索系统,就是提供搜索功能的网站,网站的具体表现形式大不相同,但是都提供全文搜索功能。很多人把通用搜索系统称之为站外搜索,而把其他基于数据库的搜索称之为站内搜索,其实所有的搜索引擎提供的都是站内搜索,数据都是预先存储在本地的。. 垂直搜索引擎的特点相对于通用搜索引擎,垂直搜索引擎有以下的特点:实时性:垂直搜索引擎需要获取的信息来自于某一特定领域的,这比起通用搜索引擎漫无边际的信息抓取,有一个非常大的优势,那就是信息的实时性。由于互联网上的信息量非常巨大,通用搜索引擎的数据更新周期短则十几天,长则几个月,而垂直搜索引擎的数据更新完全可以以秒为单位。个性化,社会化:查询服务只是垂直搜索引擎的一部分,垂直搜索引擎在用户的个性化方向的发展非常重要。垂直搜索引擎不能只提供一个窗口,它应该是一个用户高度参与交互的社会化平台。这不仅是用户粘度,忠诚度的问题,更为重要的是,垂直搜索引擎需要能够获取并且分析用户的偏好信息,从而提供更加完善而且准确的数据服务。智能化语义网:语义网 将有可能成为下一代互联网,这样网络上的数据和信息将被计算机程序所理解。这将为垂直搜索引擎提供一个巨大的机会,爬虫程序如果能理解网络上的数据,将对信息的收集和整理更加准确和专业,搜索服务的查全率和查准率将更高。多元化查询:目前的搜索引擎,都只局限于关键字搜索,其中主要的原因是,对用户的查询需求无法建模,无法模式化。而关键字搜索带来的问题是,搜索结果过多,并且不准确。互联网信息量越大,这种情况越严重,可以说是灾难。多元化查询服务的提供,将会成为对竞争对手的杀手锏。.正在这方面尝试,它提出了可视化查询的概念。.语义垂直搜索引擎语义垂直搜索引擎是研究基于语义网的垂直搜索技术,是语义技术的最直接应用,目的是针对传统垂直搜索引擎大部分基于关键字或者文本内容的检索不能充分表达语义信息的问题,从词语所表达的语义层次上来认识和处理用户的检索请求【】。通过对网络中的资源对象进行语义上的标注,以及对用户的查询表达进行语义处理,使得自然语言具备语义上的逻辑关系,能够在网络环境下进行广泛有效的语义推理,从而更加准确、全面的实现用户的检索。文献根据本体技术在语义垂直搜索引擎中的作用,将语义垂直搜索引擎分为三类:基于传统垂直搜索引擎的增强型语义垂直搜索引擎、基于本体推理的知识型语义垂直搜索引擎以及其它形式的语义垂直搜索引擎。基于传统垂直搜索的增强型语义垂直搜索引擎:这一类型的语义垂直搜索引擎利用语义技术来改善传统垂直搜索引擎的效果。其核心仍然是传统的垂直搜索引擎,本体技术以多种途径被用来增强关键字搜索,改善搜索引擎的查全率和查准率。基于本体推理的知识型语义垂直搜索引擎:这一类型的语义垂直搜索引擎以本体构建的知识库为主体,通过本体知识库推理实现知识发现型的语义搜索。根据搜索对象的不同,可将其分为概念搜索和关联搜索。本文主要研究基于传统垂直搜索的增强型语义垂直搜索引擎,如图.为一种基于本体的语义垂直搜索引擎的架构:图:语义垂直搜索引擎框架 .?: .本体技术.本体的基本概念本体的概念最早起源于哲学领域,被定义为“对世界上客观存在物的系统描述,即存在论”,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质,可以追溯到古希腊哲学家亚里士多德。对于本体的理解,在计算机界本体的定义随着时间不断发展。研究人工智能的等人最早将本体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义【。年,给出了一个最著名的定义,即“本体是概念模型的明确的规范说明【。后来,对这个定义做了修改,给出了另外一种定义,即“本体是共享概念模型的形式化规范说明】。德国卡尔斯鲁大学的等学者对上述定义进行了深入的研究,认为“本体是共享概念模型的明确的形式化规范说明。这个定义是目前为止最完善的定义,它体现了本体所包含的四层含义:概念模型、明确、形式化和共享。“概念模型指通过抽象出客观世界中一些现象的相关概念而得到的模型,“明确”指所使用的概念及使用这些概念之间的关系被精确定义,“形式化”指本体是计算机可读的即能被计算机处理,“共享指本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是社会范畴而非个体之间的共识。提出本体概念的目标是通过本体捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。也就是说,本体是对领域知识概念的抽象和描述,它能够辅助系统识别处理需求,定义各种规范。对于本体的构成,有很多不同的看法,其中等人用分类法的原则来组织:本体,归纳出本体的个基本的建模元语类或概念:含义很广泛,指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲,它表示对象的集合,还包括有关概念的各种特征的属性和属性的取值。关系妨:在领域中概念之间的交互作用。在形式上定义为维笛卡儿乘积的子集: ?×。从语义上分析,关系对应于对象元组的集合。基本的关系有四种:.和如表所示:表.本体基本的关系种类 关系名 关系描述表达概念之间部分与整体的关系表达概念之间的继承关系,类似于面向对象中的父类与子类之间的关系。表达概念的实例与概念之间的关系,类似于面向对象中的对象和类之间的关系。表达某个概念是另一个概念的属性。函数:一类特殊的关系。在这种关系中其前个元素可以唯一决定第个元素。形式化的定义如下:××?×.一。公理:代表永真断言,用于说明函数之间或关联之间存在的关联或约束。公理可以用来描述和解释元素及其之间的关联和约束。实例:代表元素,实例是指属于某个概念的具体个体,是类的具体对象。实例是本体中最基本的组成元素。一个个体从属于某个概念或就表示它是这个类的实例。在实际建模过程中,不一定要严格地按照上述类基本建模元语来创建本体,概念之间的关系不限于上面列出的种基本关系,可以根据领域的具体情况定义相应的关系,以满足应用的需要,如图.所示。图.:计算机科学领域本体部分图.: 图.定义了计算机科学领域本体的一些重要概念,除了基本的本体关系还定义了.关系,用来表示“语义网技术和“自然语言处理”相互交叉的关系,定义了.关系,用来表示“计算机领域本体是“本体”的一种这样的关系。由“本体是“语义网技术”的一部分,“计算机领域本体”是“本体的一种我们可以推理得出“计算机领域本体是“语义网技术”的一部分。.本体分类国内外研究机构都研究建立了各种各具特色的本体。按照不同的分类标准,可以对本体进行不同的分类。提出以详细程度和领域依赖度两个维度对本体进行划分。按照本体描述的详细程度划分,详细程度高的称作参考本体,详细程度低的称为共享本体。按照本体对领域的依赖程度,可以将本体划分为:顶层本体:描述的是最普通的概念以及概念之间的关系,其它种类的本体都是该类本体的特例。领域本体:描述的是特定领域中的概念以及概念之间的关系。任务本体:描述的是特定任务或行为中的概念以及概念之间的关系。应用本体:描述的是依赖于特定领域和任务的概念以及概念之间的关系。年和在分析研究了各种本体分类法的基础上,归纳了十种本体:知识表示本体、普通本体、顶级本体、元核心本体、领域本体、语言本体、任务本体、领域一任务本体、方法本体、应用本体。这种分类法对提出的分类方法进行了扩充和细化,但它们之间有交叉,层次不够清晰。.本体描述语言机器并不能像人类一样理解自然语言中表达的语义,本体中的概念更多的是为机器服务,本体的目的就是使信息成为机器可以理解的。因此,在计算机领域讨论本体,就要面临本体是如何描述的,也就是概念的形式化的问题。这就涉及到本体的描述语言。本体描述语言使得用户为领域模型编写清晰的、形式化的概念描述,因此它.应该满足以下要求】:良好定义的语法 、良好定义的语义.丘、有效的推理支持 、充分的表达能力 、表达的方便性 。自上个世纪年代以来,一些基于的本体实现语言陆续被提出,其中具有代表性的有、.等。其中是基于一阶逻辑的,和.是基于框架和一阶逻辑的,而是基于描述逻辑的。随着的发展,又出现了一系列基于的本体语言,如、.、。年,发布了支持语义网的个技术标准叫和。由于在实验中使用语言,建立在基础之上,下面重点介绍、.以及。. 资源描述框架, 是在的基础上开发的一种标准,目的是为了创建资源的元数据,用于表示任何的资源信息。用标识符统一资源标识符, 来标识事物,用简单的属性及属性值来描述资源。一个陈述是一个三元组,其中:是主体,声明描述的事物;是谓词,陈述事物的属性;是客体,是属性对应的具体的值。.是对的扩展。用类,属性和值描述资源。此外,也需要一种方式来定义应用程序细节的类和属性,应用程序细节的类和属性必须在定义时使用的扩展。这样的扩展就是格式。.并不提供实际的应用程序专用的类和属性,只是提供了描述应用程序专用的类和属性的框架。.的类与面向对象编程语言里的类很相象。这就使得资源可以定义为类的实例和类的子类。.有一些预定义的类,如:每一个类都是这个类的实例,:每个事物都是它的实例,:属性类,:文字类,:数据类型类。:定义属性的取值范围,:定义属性的定义域。:和:定义类与类之间、属性与属性之间的包含关系。用户还可以通过.提供的类型系统,定义描述资源的词汇表。. 是推荐的本体描述语言的标准,是在一种综合性的描述语言的基础上发展起来的,其中来自于美国政府支持的计划。是在欧洲的项目.中开发的。在提出的本体语言栈中,处于最上层,如图.所示图.:本体语义栈.: 针对不同的需求,提供了三种表达能力递增子语言,描述如下:用于提供给那些不需要很强表达能力,但是需要很强推理支持的用户,仅提供分类层次和简单属性约束。 是 的一个子集,它降低了 中的公理约束,保证一个迅速高效的推理过程,每个有效的结论都是一个有效的 结论。:用于提供给那些既需要较强表达能力又需要一定推理能力的用户,基于 描述的推理系统能够保证计算的完全性和可判定性,也就是既保证所有的结论被正确计算,同时又保证所有的计算都在有限的时间内完成。它包括了语言的所有约束,但是可以被仅仅置于特定的约束下。:用于提供给不需要可判定性保证,而需要最强的表达能力和完全语法自由的的用户。它允许在一个本体在预定义的、词汇表上增的推加词汇,由于其不具备可判定性保证,从而没有推理软件支持基于理。这三种子语言在表达能力方面一次递增,在推理能力方面一次递减。.本体构建方法本体是语义检索的基础,因此本体的构建方法称为了当前本体研究中的热点问题。由于各个学科领域的不同考虑,构建本体的过程各不相同,目前还没有一套标准的本体构建方法。比较有影响的是.在年提出的指导本体构建的个准则:明确性:本体必须能够用自然语言对术语给出明确,客观的定义。一致性:本体所定义的公理以及用自然语言进行说明的文档都应该具有一致性,不会产生矛盾。可扩展性:本体应该可以支持在已有的概念基础上定义新的术语时,不需要修改已有的概念定义。最小编码偏好程度:概念的描述不应该依赖于某一种特殊的符号层的表示方法。因为实际的系统可能采用不同的知识表示方法。最小本体约定:本体约定应该最小,只要能够满足特定的知识共享需求即可。这可以通过定义约束最弱的公理以及只定义通讯所需的词汇来保证。下面介绍几种常见的本体构建方法:.、骨架法】、法、法】、七步法】。.的概念是在结构化分析方法的基础上发展起来的,年美国空军公布程中首次使用了名为“”的方法。到目前为止,它已经发展成为一个系列。.通过两种语言形式即图表语言和细化说明语言来获取某个领域的本体论。它提供过程流图和对象状态转移网图这两种图表来获取、管理和显示过程。.提出的本体建设方法包括以下五个步骤:组织和确定范围:确定本体建设项目的目标、观点和语境,并为组员分配角色。数据收集:收集本体建设所需要的原始数据。数据分析:分析数据,为抽取本体做准备。初始化本体建立:从收集的数据当中建立一个初步的本体。本体的精炼与确认:完成本体建设过程。.骨架法的骨架法 在企业本体基础之上,是相关商业企业间术语和定义的集合,该方法只提供开发本体的指导方针。在建设过程中他们虽没有提出特有的评价方法,但是认为评价方法应该是其中的一个环节。“骨架法的流程如图.所示。图:骨架法流程图.: 其步骤如下:.确定目的和范围:在此阶段需要确定建立本体的目的和范围。建设本体:包括本体捕获、本体编码以及本体的集成。评价:没有提出自己的评价方法,只认为这应该是整个方法论的一个环节。文档化:包括本体中定义的主要概念、元本体等。目前很多知识库和本体缺少文档也是一种知识共享的障碍。.法. 的企业建模法用于项目中,该项目是多伦多大学实验室 的一个项目,它的目标是建立一套为商业和公共企业建模的集成本体,并且已经建成了相关本体。作为该项目的一部分,他们设计了一套创建和评价本体的方法“ 。该方法主要分为以下步骤:激发场景:应用领域的某些场景可以激发本体的建设,因此,给出一个场景有助于理解建设本体的动机。非形式化的能力问题:提出一个本体应该能够回答的各种问题,通过指明能力问题和场景之间的关系,可以对新扩展的本体进行一定的非形式化的判断,这也是一种初始的评价,来判断是否需要扩展本体,或者现有本体是不是已经可以涵盖所提出的非形式化问题。术语的规范化:从非形式化能力问题中提取非形式化的术语,然后用本体形式化语言进行定义。形式化的能力问题:把非形式化的能力问题用形式化的术语定义出来。形式化公理:本体中的公理指定了术语的定义以及约束。将公理用一阶谓词逻辑表示出来,这只是本体的规格说明,并不是本体的实现。完备性定理:当能力问题都被形式化的表述之后,必须定义在什么条件下这些问题的解决方案是完备的。.法法结合了骨架法和.方法,是一种更为通用的本体建设方法,专用于构建化学本体有关化学元素周期表的本体,该方法己被马德里大学理工分校人工智能图书馆采用。其基本流程如下:管理阶段:这一阶段的系统规划包括任务的进展情况、需要的资源、如何保证质量等问题。开发阶段:分为规范说明、概念化、形式化、执行以及维护五个步骤。维护阶段:包括知识获取、系统集成、评价、文档说明、配置管理五个步骤。.七步法由斯坦福大学医院开发的七步法,主要用于领域本体的构建。其步骤分别为:确定本体的专业领域和范畴。考查复用现有本体的可能性。列出本体中的重要术语。定义类和类的等级体系。定义类的属性。定义类的分面。创建实例。.用户查询扩展技术.查询扩展概述传统信息检索利用简单的词匹配法则计算文档特征值与检索词间的相似度,往往只有查询词出现在文档中才可能检索到。这样使得查询信息时出现难以克服的问题,即信息迷向、信息过载和词不匹配,导致查全率和查准率低下。因此,学者在年指出了仅通过原查询词来提高系统的检索性能是有限的,必须对原查询词进行修改以提高检索性能。查询扩展 指的是利用计算机语言学、信息学等多种技术,把与原查询相关的词或者词组添加到原查询,得到比原查询更长的新查询,然后检索文档。在一定程度上弥补了用户查询信息不足的缺陷,也有助于改善检索中的查全率和查准率。十几年来,查询扩展技术获得了巨大的成功,已成为改善信息检索中查全率和查准率的关键技术之一,倍受学者的重视和关注。然而基于关键词的传统查询扩展技术没有任何的语义信息,这样会带来语义理解上的错误,比如同一个词在不同的语境下表达的不同的意思,这就会产生歧义问题,比如“苹果可以表示一种水果,也可以表示一个电脑公司,也可以表示一家服装公司等。同样在自然语言里同一个事物经常会有多种不同的表达方式,这就造成了词不匹配的问题,比如“土豆,“马铃薯”,“洋芋”在中文里都表示的是一种事物,这样就影响了信息检索的效果,所以传统的查询扩展虽然能够提高查全率,但常常会带来许多语义问题,难以保证查准率。.查询扩展技术分析目前常规查询扩展技术按照其扩展词的来源不同主要有全局分析、局部分析、基于词表以及基于语义的查询扩展技术等几种。.基于全局分析的查询扩展全局分析是最早被提出来的查询扩展优化方法。其基本思想是对整个文献集的语词进行相关分析如语词共现分析,得到每对语词的关联程度如共现率,构造叙词表,再从叙词表中选取与原查询关联程度较高的词作为扩展词进行查询扩展。这里叙词表是指一种数据结构,类似于同义词词典。用来表示词与词之间的关系。全局分析的查询扩展技术经历了语词全局聚类技术、相似性词典、潜在语义索引等发展阶段。全局分析的优势是可以最大限度地探求词间关系,并在词典建立之后以较高的效率进行查询扩展。但是,当文档集合非常大时,建立全局的词关系词典在时间和空间上往往是不可行的,并且在文档集合改变后的更新代价巨大。因此,近期的查询扩展研究主要集中在与之对应的局部分析上。.基于局部分析的查询扩展局部分析的扩展技术利用两次查询的方法较好地解决全局分析的缺陷。它主要是利用初检出的与原查询最相关的篇文档作为扩展词的来源。而并非利用先前计算得到的全局词关系词典。目前流行的局部分析方法主要是局部反馈法,它是在相关反馈技术的基础上发展起来的。相关反馈技术需要同用户进行交互,根据用户对初次检索结果的评判,将相关的文章作为查询扩展用词的来源:而局部反馈则直接将初次查询的前篇文章认为是相关文章,并以此为依据对查询进行扩展。局部分析的方法是局部分析扩展技术主要有局部聚类技术、用户相关反馈技术和局部上下文分析技术等。目前应用最广泛的查询扩展方法,但是这种技术对初次查询的结果依赖性很大,一旦初次查询的前篇文档与原查询相关度不大时,大量无关的词就会被加入查询,从而严重降低查询精度,甚至导致检索结果比初次查询更差。.基于词表的查询扩展词表是指一套词组或者词语的集合,有时也包括集合中词间的各种关系。虽然词表在商业和实验性的信息检索系统中应用得很普遍,但实验显示出的检索效果并不稳定。有两种方式的人工词表:普适性的、基于词语的词表,如,等,词表中含有语义联系如同义词或者反义词,但是这种联系很少在信息检索系统中使用。面向信息检索的、基于词组的词表,例如美国国会图书馆主题词表,医学主题词表和汉语主题词汇表等。这些词表包含检索词之间的关系有:上位类检索词、下位类检索词、替代词和关联词,通常是由专家研究得出,因此构造这些词表的代价非常昂贵,而且需要很长时间。.基于语义的查询扩展前面三种传统的查询扩展方法都没有在语义的层面上进行。随着本体技术的发展,依据现有的词典或者本体进行语义查询扩展,成为当前研究的热点。本体资源如英文的语义词典和中科院语言信息中心的中文语义词典,本体作一个信息领域里的知识和结构的表示方法,是概念的集合,能够表示语义信息,并且具有可靠性和完整性。使用本体进行查询扩展既避免了全局方法中维护词典的巨大开销,由于本体本身维护的是概念之间的语义关系,又解决了局部分析带来的扩展不相关的问题。不但在时间开销上有效的提高了查询性能,同时这种扩展方法能够在保证了查全率的基础上,进一步提高查询的准确性。