基于本体的语义垂直搜索引擎研究(可编辑) .doc
《基于本体的语义垂直搜索引擎研究(可编辑) .doc》由会员分享,可在线阅读,更多相关《基于本体的语义垂直搜索引擎研究(可编辑) .doc(42页珍藏版)》请在三一办公上搜索。
1、 、多事未交硕士学位论文基于本体的语义垂直搜索引擎研究 作者:周源导师:于双元北京交通大学年月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。保密的学位论文在解密后适用本授权说明学位论文作者签名:导师签名.了镅厶习源签字日期:年月日年多月,占日签字日期:扣中图分类号:学校代码:密级:公开北京交通大学硕士学位论文基于本体的语义垂直搜索引擎研究作者姓名:周源学 号:导
2、师姓名:于双元职称:副教授学位类别:工学学位级别:硕士学科专业:计算机科学与技术研究方向:分布式计算北京交通大学年月致谢本论文的工作是在我的导师于双元副教授的悉心指导下完成的,于老师严谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢两年来于老师对我的关心和指导。于老师在学习上和生活上都给予了我很大的关心和帮助,对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心的感谢。特别感谢姜雅文博士在算法实现方面给予我的巨大帮助,以及在论文研究和实现过程中提出的有价值的方法。在实验室工作及撰写论文期间,李亚飞、李帅等同学对我论文中的研究工作给予了热情帮助,在此向他们表达我的感激之情。
3、感谢我的父母,妹妹,感谢我的朋友们,你们的理解和支持使我能够在学校专心完成我的学业。摘要搜索引擎作为获取因特网上海量信息的重要手段,是信息检索领域重要的研究课题,随着信息技术的不断发展,因特网上的信息量也与日剧增,内容庞大,组织松散。因此如何优化搜索引擎在该领域备受关注。垂直搜索引擎作为针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,通用搜索引擎的性质决定了其不能满足特殊领域,特殊人群的精确化信息需求服务。本文研究了本体和垂直搜索引擎技术,提出了一种基于本体的语义垂直搜索引擎,建立了语义查询扩展方法,并对原有结果排序算法进行优化。本文研究了垂直搜搜引擎的基本概念和设计理论,本体相关知识以
4、及其在信息检索方面的应用,分析了国内外搜索引擎的现状以及存在的不足,以及本体技术与垂直搜索引擎相结合的意义和必要性。在对目前主要的本体构建方法进行分析比较后,选用.作为构建本体的编辑工具,作为本体描述语言建立了一个数码产品领域本体。运用数码产品领域本体将用户的查询请求划分为本体类概念,本体实例,本体属性和普通查询,着重研究了本体实例和普通查询的扩展方法,对于本体实例从继承关联和路径关联两个方面进行扩展,对于普通查询采用基于词语共现的语义查询扩展方法,提出了一种基于本体适合垂直搜索引擎的语义查询扩展算法。为了克服原有结果排序算法只考虑关键词和网页相关度不能反映网页本身重要程度的缺点,提出引入基于
5、链接分析的算法对其进行优化。最后实现了基于本体的语义垂直搜索引擎原型,设计了相关实验,并与原有的查询方式和排序算法进行了实验对比分析。实验结果分析表明本文的研究内容可提高搜索引擎的查准率。关键词:垂直搜索引擎;本体;查询扩展分类号:,. ., . ., .,. . . , ,. , . . ,., .: ;:】目录摘要.绪论.研究背景和意义.研究现状.论文的主要研究内容和结构?.本文的组织结构?相关理论和技术一.垂直搜索引擎.垂直搜索引擎框架.垂直搜索引擎的特点.语义垂直搜索引擎.本体技术.本体的基本概念?.本体分类.本体描述语言?一.本体构建方法?.用户查询扩展技术?.查询扩展概述?.查询扩
6、展技术分析?。.全文搜索工具包.简介.系统结构分析?.索引技术.本章小结语义查询扩展设计与结果排序算法改进?.数码产品领域本体建模.数码产品领域本体的简介?.数码产品领域本体分析与设计.基于本体的语义查询扩展设计.用户查询分析?.本体词汇语义扩展算法.基于词语共现的非本体词汇语义查询扩展算法?.检索结果排序算法优化.原有结果排序算法. 结果排序算法改进.本章小结基于本体的语义垂直搜索引擎的设计与实现.系统总体设计?.系统详细设计与实现?.数码产品领域本体的建立?.基于的主题爬虫模块.基于网页预处理模块.算法实现?.基于的索引器模块.语义查询扩展模块?。.系统展示.实验设计及分析.实验样本.查准
7、率实验?.本章小结总结与展望参考文献?作者简历?独创性声明.学位论文数据集?绪论.研究背景和意义随着的飞速发展,现在已经成为人们获取信息资源的主要场所,互联网使得人们无论是发布,传播信息还是获取信息都变得极为方便。但是要在如此海量的信息中寻找所需要的信息已经成为困扰用户的一个难题。搜索引擎技术恰好解决了这一难题,搜索引擎以一定的策略在互联网中搜索、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的作用】。现有的搜索引擎技术主要基于关键词的全文匹配。通过人工或者网络机器人收集上的网页,对搜索到的文档进行预处理,按照一定的策略对其进行组织、存储和访问】。用户输入关
8、键字进行查询,查询处理模块按照一定的匹配算法,计算文档与查询请求的相关度,排序返回与查询相关的信息。返回的信息主要是文档的标题、及摘要等【。但是目前搜索引擎大多采用“在语法层次上基于关键词匹配检索”的方式,缺乏语义匹配的能力,不能准确理解用户的检索要求与文档的语义,仅停留在字符匹配上,庞大的网络信息资源使得搜索变得越来越难以控制,用户需求和市场服务间的巨大差距产生了强大的搜索噪音,人们呼唤更有针对性的搜索引擎,于是垂直搜索引擎应运而生。垂直搜索引擎是新的搜索引擎服务模式,其是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务,具有浓郁的行业和领域特色。简单的说是搜索引
9、擎领域的行业化分工,市场需求多元化决定搜索引擎的服务模式必将出现进一步细分,针对不同行业应该提供更加精确的行业服务,通用搜索引擎的性质,决定其不能满足特殊领域,特殊人群的精准化信息需求。垂直搜索引擎更大程度地提高了搜索的查全率和查准率,提供更多更专业、个性化的领域相关服务【】。通用搜索引擎的发展为垂直搜索引擎的出现提供了良好的市场空间,出现垂直搜索引擎在互联网中占据部分市场,也是搜索引擎行业细分的必然趋势。但是基于关键词的搜索引擎无法满足用的需求,传统查询扩展方式又会带来许多语义理解错误,针对这一问题基于本体的垂直搜索引擎概念模型被提出。本体是现实世界的抽象模型,客观反映了现实世界中概念和概念
10、之间的相互关系。这些概念和关系在共享的范围内具有大家共同认可的、明确的、唯一的定义】,这样,人机之间以及机器之间就可以进行交流。如果将本体与搜索技术结合起来,整个垂直搜索引擎像领域专家一样,不仅给出查询结果,还给出与检索请求相关的资源,突破了关键词检索局限于形式的固有缺陷。通过本体的定义,可以使用本体把页面的信息与某些知识结构和规则链接起来,垂直搜索引擎就可以进行语义级别的分析和信息抽取,减少了不相关的返回结果,从而提高系统的查准率与查全率,进而提高用户的满意度。将本体的基于语义的知识表示和推理技术与现有的搜索技术结合起来,必然能够使搜索引擎的性能有一定的提高。近十年来,本体和本体工程在知识工
11、程及其相关的应用领域获得广泛的关注。本论文在垂直搜索引擎现有研究成果的基础上提出了一种基于本体的语义垂直搜索引擎模型。主要目的是将本体技术,特别是领域本体应用到垂直搜索引擎中为专注于行业信息的人提供更有价值的服务。.研究现状本体在信息检索领域的应用研究始于世纪末世纪初,基于本体的搜索引擎是未来搜索引擎的发展方向,其发展主要决定于本体和自然语言处理技术的发展。基于本体的搜索引擎研究的最终目标是让计算机具有人的智能,能够理解人们提出的问题,将问题的解决方案返回给用户。其当前目标是让计算机返回的结果更有针对性、准确性。目前国内外大量的学者都在这个领域进行了各种的探?察。目前,世界各国对基于语义的搜索
12、引擎及相关理论作了大量的研究,在语义网络等语义表示理论、自然语言处理研究领域的语法理论等提出之后,出现了越来越多的关于语义搜索引擎的研究项目,研究主要呈现两个重点:一个是关注对机器翻译、语义理解、人机会话等自然语言处理技术的研究,以支持人机会话等自然语言通信的搜索;另一个是关注本体在语义搜索中的应用研究】。其中具有代表性的系统主要包括:其研究目的是为了帮助用户检索到所需要的万维网上已有的本体,主要采用了参照本体。参照本体是以万维网上已有的本体为对象建立起来的本体,它保存有各类本体的元数据;:它是由开发组研发的,面向的是万维网上的网页资源,用来处理、和格式的信息源和信息源语义描述的系统,提供信息
13、检索、查询和维护支持服务, 其核心是用形式化本体描述背景知识,并明确文档的语义, 以便综合利用本体论的表达能力和推理机制,但是由于是基于开发的,所以在支持上不是很好。基于框架和规则的,由:它是一种基于的知识表示语言,美国马里兰大学于年开发成功。使用不同于的一些标记对进行扩展, 使得可以在文档中插入本体。允许表示概念、概念分类以及推理规则, 其推理引擎可以通过它们推理出新知识。是一个针对互联网上的语义网文档、术语以及数据的搜索引擎。酉利用一种搜索器系统来发现资源描述框架文档以及内置有内容的文档。百会针对这些文档及其组成部分如术语和三元组进行推理,并在其数据库之中记录和索引具有实际意义的,关于这些
14、文档及其组成部分的元数据。西宣称,将来它不仅仅是一个本体搜索引擎,更重要的是一个本体词典,汇总各种本体后,进行本体的匹配和融合,生成一个更完备和更多人公认的本体。不过基于语义的搜索引擎的研究现状并不容乐观。在理论上,多数研究者认为自然语言处理技术、语义理解技术在信息检索领域应用的效果并不理想。语义网技术还处于发展阶段,现有的语义垂直搜索系统也都处于初步研究阶段,离成熟的商业化水平还有一段距离。.论文的主要研究内容和结构本文分析主要探究了本体技术在垂直搜索引擎中的应用,介绍了本体的基本概念,重点研究了基于本体的垂直搜索引擎的关键技术,并以数码产品作为领域本体利用构建了一个基于本体的垂直搜索系统,
15、本文使用了网络爬虫、结构化信息抽取、语义查询扩展和返回结果排序等技术,为解决语义歧义,信息冗余,准确度低等实际情况做出了尝试。本文的主要工作如下:对现有搜索引擎结构进行分析,发现其搜索质量不高的主要原因在于检索过程中所采用的基于关键字匹配的检索方式,引擎无法很好地理解用户查询的语义信息,分析得出将语义信息加入到检索中才能从根本上解决查准率低的问题研究了本体论的概念理论以及本体的构建原则、构建方法、描述方法等。分析了现有的本体构建方法,给出了一种构建数码产品领域本体的构建方法,并使用.构建了数码产品领域本体。运用该本体将用户的查询请求划分为本体类概念,本体实例,本体属性和普通查询,着重研究了本体
16、实例和普通查询的扩展方法,对于本体实例从继承关联和路径关联两个方面进行扩展,对于普通查询采用基于词语共现的语义查询扩展方法,提出了一种基于本体适合垂直搜索引擎的语义查询扩展算法。基于设计了基于本体的语义垂直搜索引擎框架,针对原有结果排序算法只考虑关键词和网页相关度不能反映网页本身重要程度的缺点,提出引入基于链接分析的算法对其进行优化。使用,等开源包编程实现了基于本体语义垂直搜索原型系统并进行了相关测试。.本文的组织结构本文一共分五章,内容安排如下:第一章,绪论。主要论述了论文选题的背景和意义,以及目前国内外信息检索技术的研究现状和存在的问题,并简单介绍了本文的研究目的、研究内容,以及本文的组织
17、结构。第二章,相关理论和技术。主要介绍了垂直搜索引擎,本体的定义,本体分类,本体的描述语言,本体的构建方法,查询扩展技术,并对全文搜索工具包开源包的系统结构和索引机制进行了详细描述。第三章,语义查询扩展与结果排序算法改进。在对本体构建方法的研究比较后,给出了一种构建数码产品领域本体的构建方法,并构建了一个数码产品领域的本体,然后运用该本体将用户的查询请求划分为本体类概念,本体实例,本体属性和普通查询,着重研究了本体实例和普通查询的扩展方法,对于本体实例从继承关联和路径关联两个方面进行扩展,对于普通查询采用基于词语共现的语义查询扩展方法,提出了一种基于本体适合垂直搜索引擎的语义查询扩展算法。针对
18、原有结果排序算法只考虑关键词和网页相关度不能反映网页本身重要程度的缺点,提出引入基于链接分析的算法对其进行优化。第四章,基于本体的语义垂直搜索引擎的设计与实现。对该系统进行了介绍,给出了系统结构图、系统开发平台和工具;介绍了系统中各个关键模块的设计与实现。重点对基于本体的语义查询扩展和优化之后的结果排序算法与原有检索方法设计了实验,进行比较和分析。第五章,总结与展望。主要对论文的研究工作进行总结,并指出了进一步研究的方向。相关理论和技术. 垂直搜索引擎垂直搜索引擎是针对某一个行业的,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出重要的数据进行处理后再以某种形
19、式返回给用户。垂直搜索引擎专注具体、深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,这个领域外的闲杂信息不收录。这种高度目标化、专业化的搜索引擎的优势在于针对性强,对特定范围的网络信息的覆盖率相对较高,有明确的检索目标定位,有效地弥补了综合性搜索引擎对专门领域及特定主题信息覆盖率过低的问题。.垂直搜索引擎框架垂直搜索引擎通常由三大部分组成:抓取系统,索引系统和搜索系统。其框架如图.所示:图:垂直搜索引擎框架.:抓取系统,也就是蜘蛛程序,负责从信息源抓取数据,蜘蛛程序通常是基于预先构造的模板工作的,无模板的蜘蛛程序只能处理结构相对简单的信息,抓取系统涉及的关键技术点有爬行路径分析、增
20、量抓取与全抓取、信息构造完整性、信息唯一性识别、多网页信息整合、自动标引等。索引系统,把抓来的信息建立类似书目的数据文件,以便于实现高速检索。索引系统涉及的关键技术点有分词技术、预评分和后评分、增量索引与全索引、排序技术、热点词高速缓存、标准检索语句解析等。搜索系统,就是提供搜索功能的网站,网站的具体表现形式大不相同,但是都提供全文搜索功能。很多人把通用搜索系统称之为站外搜索,而把其他基于数据库的搜索称之为站内搜索,其实所有的搜索引擎提供的都是站内搜索,数据都是预先存储在本地的。. 垂直搜索引擎的特点相对于通用搜索引擎,垂直搜索引擎有以下的特点:实时性:垂直搜索引擎需要获取的信息来自于某一特定
21、领域的,这比起通用搜索引擎漫无边际的信息抓取,有一个非常大的优势,那就是信息的实时性。由于互联网上的信息量非常巨大,通用搜索引擎的数据更新周期短则十几天,长则几个月,而垂直搜索引擎的数据更新完全可以以秒为单位。个性化,社会化:查询服务只是垂直搜索引擎的一部分,垂直搜索引擎在用户的个性化方向的发展非常重要。垂直搜索引擎不能只提供一个窗口,它应该是一个用户高度参与交互的社会化平台。这不仅是用户粘度,忠诚度的问题,更为重要的是,垂直搜索引擎需要能够获取并且分析用户的偏好信息,从而提供更加完善而且准确的数据服务。智能化语义网:语义网 将有可能成为下一代互联网,这样网络上的数据和信息将被计算机程序所理解
22、。这将为垂直搜索引擎提供一个巨大的机会,爬虫程序如果能理解网络上的数据,将对信息的收集和整理更加准确和专业,搜索服务的查全率和查准率将更高。多元化查询:目前的搜索引擎,都只局限于关键字搜索,其中主要的原因是,对用户的查询需求无法建模,无法模式化。而关键字搜索带来的问题是,搜索结果过多,并且不准确。互联网信息量越大,这种情况越严重,可以说是灾难。多元化查询服务的提供,将会成为对竞争对手的杀手锏。.正在这方面尝试,它提出了可视化查询的概念。.语义垂直搜索引擎语义垂直搜索引擎是研究基于语义网的垂直搜索技术,是语义技术的最直接应用,目的是针对传统垂直搜索引擎大部分基于关键字或者文本内容的检索不能充分表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于本体的语义垂直搜索引擎研究可编辑 基于 本体 语义 垂直 搜索引擎 研究 编辑
链接地址:https://www.31ppt.com/p-2394634.html