计算机信息科学专业本体论语义搜索引擎模型外文翻译.doc
《计算机信息科学专业本体论语义搜索引擎模型外文翻译.doc》由会员分享,可在线阅读,更多相关《计算机信息科学专业本体论语义搜索引擎模型外文翻译.doc(36页珍藏版)》请在三一办公上搜索。
1、本科毕业设计(论文)外文翻译中文译名本体论语义搜索引擎模型外文原文名Prototype of Semantic Search Engine Using Ontology外文原文版出处2010 IEEE Conference on Open Systems (ICOS 2010), December 5-7, 2010, Kuala Lumpur, Malaysia本体论语义搜索引擎模型计算机信息科学摘要在这篇文章中我们主要研究讨论网络信息检索的基本问题。信息在网络上是不会被按照语义分类 并储存的。本文主要研究适合基于Ontology的搜索引擎的语义功能。通过使用Ontology,搜索引擎将可以
2、搜索概念相关的关键字来取代以往只搜索类似单词的搜索引擎。本文也提供了关于提议改进的搜索引擎的较深层次的结构设计。本文描述了机制工作原理,基于机制工作原理,搜索引擎能够提取基于实体论而储存的信息并提出一个与搜索结果相关联的语义。在本文中也讨论了实体语义搜索引擎的成效以及在未来的发展。关键词;搜索引擎, 语义, 信息检索,Ontology.介绍最初的网络是静态的,它允许使用者们能够打开并阅读网页的内容,在用户和网络之间只存在一种单向的互动,随着技术的进步,Web-enabled装置越来越便宜,更无所不在的。越来越多的人能够访问网络利用丰富的信息。这引发了一种在网站的使用和人们的互动网络上的价值观的
3、转换。专家的平民创造了这个转向网络Web2.0。Web2.0的地点让用户更方便的进行图形与声音上的网络交互1。用户还可以出版他们的资料以供其他使用者来购买。这给予Friendster2,Youtube3, Blogger4和Facebook5等基于Web2.0的技术一个发展的方向。这是一个“信息取之于用户,用之于用户”的时代。内容创作并不是仅仅局限于一个组织而是任何一个有权访问互联网的用户。如Tim Berners Lee在他的书编织网6中提到的,网络将会在其搜索的网页上实现语义功能使其能够理解人类所使用的单词和条款。大量的信息放到网上可以使用搜索引擎检索。自从Web1.0出现以来,许多搜索引
4、擎得到了迅速的发展并逐渐的商业化。这些搜索引擎诸如谷歌7, Ask Jeeves 8、雅虎9、以及Lycos10等,在他们的时代在所有的搜索引擎中都处于统治地位。搜索引擎通过在网络上搜索信息并方便快捷的检索给用户。但是早期的搜索引擎事实上并不是一个搜索引擎。相反它是一个服务提供商手动索引的包含了索引信息的目录。谷歌最早的实现了自动化,检索以及爬虫机制,这些功能使得搜索引擎能够自动的在网页上爬行并索引检索网页,以供用户搜索11。谷歌使用通过追踪而来的链接以及与那些链接相关联的其他网页排序而来的网页。一个页面所关联的链接越多,这个页面也就越可信,因此这个页面也将排在其他页面的前面。所有的这些都是利
5、用数学算法通过计算频率以及反任期期限的频率来尖酸的。数据爬行以及抓取被储存在一个反向的数据库内,这使得搜索引擎能够找到术语存在的的文件以及链接。毫无疑问,网上搜集的信息越来越多。至于现在,现在的搜索引擎利用数学算法将可以克服这些困难。随着信息的采集越来越大,传统搜索引擎的准确性将越来越低。而不断降低的结果准确率将随着信息搜集量的急剧增长而进一步恶化。这项工作旨在从不同的角度解决这个问题。不再依靠机器速度以及处理能力来保持搜索引擎的准确性,采用更加复杂的数学算法,这项工作将探索语义搜索引擎。通过在搜索引擎中实现语义机制,使得信息在理论上可以相互关联。这将给予信息一个语义的索引,它可以大大提升信息
6、检索的功能。本次主要研究基本分析语义搜索引擎以及搜索引擎的发展,这种发展将使得用户可以更精确的得到所要的信息。第二部分描述了所做的相关作品。第三部分描述了发展一个语义搜索引擎的分析方法。第四部分介绍了为搜索引擎提供语义功能的架构以及算法。第五部分总结全文,最后第六部分描述了未来对这项工作的展望。相关工作目前,一个通用目的的“语义的搜索引擎已经被发展出来。此搜索引擎在可以获取。然而,大多数搜索引擎的机制拥有专利并被用于商业使用。Tim Berners Lee 6提及,“专利是网络发展的一个巨大的绊脚石。”Hakia12的所有技术都拥有专利并且是商业机密。这对于学术界对今后搜索引擎系统的改进以及其
7、他应用的研究是一个巨大的阻碍。许多搜索引擎已经发展在全国各地来的。其中最具优势的是谷歌7。各部门一起工作来产生搜索结果。在架构上,谷歌利用页级算法来识别结果的相关性。排序算法将在下一节里更加详细的解释。爬虫工作将穿越24/7超链接并下载网页内容放进储存器。所有的内容索引和解析被储存到另一个存储区域。该索引是反向的,让每一个术语可以与很多单词相关联。排序算法按照引用的原则排序网页。越多的链接提到这个特别链接,那么这个链接分数便越高。网页的内容多少也会被给予考虑。如果一个网页内容丰富并引用了一个网页,它的分数将更高。更高的分数将在网页排序中得到更高的位置。网页排序在所有的页面中公平规范的计算排序。
8、基本公式BRIN 3 :PR(A) = (1-d) + d (PR(T1)/C(T1) + + PR(Tn)/C(Tn)PR(A)是网站A的概率,包含T1到Tn的链接。PR(T1)表示T1的价值,维阻尼因子,可以设置为0到1。C(A)定义了从A网站出去的链接的数量。NUTCH是由Doug Cutting13开发的开源搜索引擎。NUTCH是LUCENE14的延伸,LUCENE是一个开源的信息检索系统。大部分的LUCENE函数库都被NUTCH使用。文中数据表明了NUTCH的索引以及搜索能力。Cutting 13认为NUTCH由两部分构成:A. 爬虫l Webdbl Fetcherl Indexer
9、l SegmentsB. 搜索器Webdb是一个记录页面记录,相关页面爬虫爬行的最后日期以及其他事实的数据库。此外,Webdb还储存网页图片。Fetcher就是一个爬虫。爬虫从一个网络爬行到另一个网络抓取信息返回系统。Indexer利用Fetcher抓取的内容形成一个反向的索引。这个反向的索引将会被分段,使得搜索器显示查询结果。搜索器为用户搜索提供界面。它需要猫作为Servlet的容器。NUTCH的结构在第四部分会详细讨论。Nutch利用分布式计算处理大数据集15。文件分配系统使用Hadoop16,Yahoo!也是用它为其搜索引擎系统是用。Hadoop使用了一款由谷歌7开发的设计模型MapRe
10、duce。 该模型采用一套作为计算输入。该输入采用地图功能,分析任务并生成中间键。这些中间键将被输入来减少功能并合并类似的中间键,产生一个输出。Nutch为抓取,爬虫和索引解析这套键并评价,这个评价将被复制到各种各样的机器中并被计算15。结果就会在指定的地点通过搜索器完美地融合在一起。Liyi Zhang 17 已经进行了一项研究,利用Ontology提高搜索精度。检索系统是一个基于Ontology采用向量空间模型的电子商务产品检索系统。它修改现有的向量空间模型将文件作为一个集合的概念,而不是用文件收集关键词。为了确定文件和用户查询之间的相似性,它采用是用tf-idf(术语的频率,在这种情况下
11、,概念和反向文档排序频率)的权重计算公式方案。据Liyi Zhang 17 所述,该系统进行并行搜索,使用OA-VSM SPARQL信息检索。这两种结果将会与需求匹配并排名,最好的结果将呈现给用户。我们的项目主要研究发展搜索引擎的扩展功能ZENITH。这种扩展是一个Nutch的插件18,使得它能作为一种语义的搜索引擎。通过整合Nutch和ZENITH,使他们像一种混合语义搜索引擎一样工作在一起,它可以作为我们研究工作的证明。方法论ZENITH开发使用可复用开发原型与组件开发相结合,如图1所示。最初的开发时从文献开始的。图 1. Zenith Methodology可以重复使用部件在这个项目中已
12、经被确认了。这个过程被称为领域工程。领域工程是一个识别软件组件的过程,这种过程适用于ZENITH的发展(19)。ZENITH的每一个功能都被分成组件。在组件sub-phase中,可重复使用的样机模型是可以实施的。一般来说,整个系统基本上是一个可重复使用的原型。因为一些因素这种方法是最适合ZENITH的发展。ZENITH的结构被高度模块化。在ZENITH的发展中从过去的项目采用的其他成分是可被重复利用的。有如前文,ZENITH发展是非常难以预料的。这种方法加剧了ZENITH发展的不可预知性。例如,该方法允许开发者用各种组件、方法和试验选定的组件来证明这一观点。这样的方法允许开发商回到以前的阶段进
13、行修改。此外,当开发者可以将开发力度移至另外的组件,那些由于开发者心理障碍引发的开发风险将会大幅减少。除了适应系统的发展要求,这种方法将会增加系统的可维护性和可扩展性。一个高度可扩展的系统能够在可利用的系统资源范围内迎合大量用户的要求。可维护性对于保持ZENITH在未来的发展是非常重要的。当系统是可维护、可扩展的时,我们能方便的加强该系统。冗余组成部分可以实现系统容错能力。引入冗余组件能起到增加系统性能的作用。总之,这个方法是为ZENITH发展专门进行设计和修改的。尽管该模型试图占领尽可能多的开发活动但是却都没有成功。分析通用搜索引擎的架构通用搜索引擎架构的介绍描述了搜索引擎的背骨。它由特征和
14、功能两部分构成,特征和功能分别能使它被作为搜索引擎识别和运行。通用搜索引擎架构形成于教育和经验丰富的猜测。在这项研究中,Nutch18将作为传统搜索引擎的原型。该样机将是我们能够更好的理解搜索引擎的机制以及特征。我们从原型的基础上推导出语义搜索引擎的设计。这个图案将被设计进被选中的设计部分。搜索引擎是由几个主要的关键部分组成。这些组件分为两个部分,前端和后端。我们在Brin 20提议和 Manjula 21分析的基础上对其主要部件进行了分析。基于架构的后端和前端部分设计了Nutch18。我们用这个架构作为所提出的语义搜索引擎设计的基础。通过增加一些组件和修改架构组件来实现语义的能力。A. 后台
15、后台就是进程中得到和储存从网络中收集的信息的地方。大多数的核心功能和搜索引擎的能力取决于后台设计。后台有网络爬虫,URL服务器、索引和存储。网络爬虫网站爬虫是一个脚本,它执行检索存储在网址(URL)服务器中的网页URL列表。为了使网络爬虫爬行的更有效,网络爬虫必须可以允许许多爬虫同时从URL服务器中爬行多重的网页。线程需要实现并行处理。另一个重要的功能是爬虫必须能够了解机器人排除协议。有的版主希望自己的地方不会被爬虫爬行导,其中就会包括爬行机器人排除协议文件。这个文件是一个离线的不会被爬虫获取的文本文件格式文件。这种方法也可以指定爬行他们网站的爬虫爬行他们的网站。最后所有的解析数据存储在URL
16、服务器的一个数据库中。URL服务器作为网址链接的存储地。经常访问的网站的url列表会被储存并成为爬虫爬行的起点。爬虫新发现的url将会被储存在服务器。索引器索引器通过将解析数据编入它的类型中来实现其功能。索引器会将数据进行分类。被爬虫爬行到的文件将被解析并用唯一的id、数据类型、文件和内容进行索引。索引器必须可以解析HTML,PDF,Words和其他的一些被爬虫活动发现的文件。解析HTML的数据将被提取并储存进入一个存储区域例如数据库或自定义的数据存储。大多数的搜索引擎将压缩所有的数据以便最大限度的利用存储空间。B. 前台.前台只有一个主要的组成部分,其中是搜索器。该组件在用户和系统之间充当中
17、介的角色。组件为用户提供接口使其可以搜索关键字。然后关键词会进入反向索引当中,这便会指向一个连接到一个网站的链接。由于很多用户将同时开展搜索,因此搜索器必须拥有多线程能力。总体结构设计ZENITH是Nutch18的一个扩展,这使它成为一个混合语义搜索引擎。原设计数据流在被改道进入索引器之前会被截取和修改。图2显示了ZENITH模型的整体构架。图 2. Nutch with Zenith Expansion Architecture我们利用基于Ontology的未成熟的机制来实现语义能力。这种机制依赖于我们如何提取并且找到语义上的关联。我们使用被称为Jena22的外部框架,Ontology信息的
18、提取方式如下:“主语关系谓语”主语表示了一种具有经过描述的声明的主体存在。它可以是开户银行名称、付款方法等。谓语表示了一种具有经过描述的声明的客体。关系表明了主体与谓语之间的联系。当爬虫爬行搜索文件时,语义索引器将使用主题作为关键词组进行搜寻。一旦被发现,它将在索引中标出谓语。一旦完成所有主体术语,它会使用谓语作为主题来重复这个过程。目前有两种类型的关系,积极的和消极的关系。积极的关系描述了相关的关系而消极的关系描述了不相关的关系。ZENITH扩展架构Zenith扩展结构中只有很少的几个组成部分一起工作才可以赋予NUTCH语义能力。这些组件有语义索引,Jena框架,Ontology,索引映射以
19、及Xerces。C. 语义索引器所有通过进程加工从索引器获得的信息的核心功能和算法使用Jena 22从Ontology提取信息并在数据中合并其语义值。数据然后回到索引器并被传递到搜索器,这将会在搜索结果中显示出来。该算法如图3。图 3. Semantic Indexer Skeleton1. 从Nutch提取数据2. 利用JENA从Ontology提取数据使用3. 在提取的Ontology信息上运行推理引擎4. 比较文件主题(如果正确指出谓语)5. 比较文件谓词(如果正确指出主题)如果有更多等级则重复操作。6. 重置数据流利用NUTCH插件的设计功能,这种方法是可行的。Zenith作为Nutc
20、h的一个扩展插件,它在数据被索引时会被运行。发展Nutch插件包括扩展Nutch所提供的IndexerFilter接口。在IndexFilter内实现语义接口。 SemanticIndexer.java架构如上图3。语义索引的主要框架将类似Jena框架、Xerces并可以相应的从Ontology和ontoIndex上提取信息。这些数据随后会被储存在记忆中以便应对以后操作的需要。如上所述,语义索引通过呼唤在下一章节解释过的组件来执行任务。D. Jena 框架Jena 框架是一个开源语义网框架22。它使得语义索引能够从.owl文件(Ontology)提取数据从而完成查询以及处理的操作。它还为语义索
21、引提供了一个通过添加规则来推断出Ontology的推理引擎。这建立了一种以Ontology关系为基础的逻辑规则,从而协助搜索引擎能够更好的定义概念之间的关系。E. OntologyOntology是语义产生的组件。它被看做是一个语义来源或知识来源的“脑”23。Ontoloay的题目范围越宽越广,搜索引擎便会获得越多的语义索引。F. XercesXerces是一个开源的能够使语义索引从.xml文件24提取数据的源程序库。这个源程序库是用来从OntoIndex上提取数据的。OntoIndex用于在索引之前检索来自于Ontology的信息。G. OntoIndexOntoIndex是一个在循环访问O
22、ntology数据时为语义索引作参考点的索引文件。OntoIndex用名字和价值在标签里储存信息。这个价值标签包含了多个被“|”分隔开的没有引用的值。Ontology包含了一些诸如分类名和过去的关系之类的信息。效绩评估H. Methodology这部分突出了一个检验NUTCH语义机制效益的引导测试。利用超链接html文件我们得到了一组成熟的测试数据。搜索引擎和测试网站都在同一台机器上如图4。我们选择电子商务作为测试的题目范围。图 4. Test Architecture测试数据的层次显示如图5:图 5. Hierarchies of Test DataOntology是基于Methontolo
23、gy(Fernandez)25建立的。这个方法的实施会在几个周期内完成,它包含步骤和活动区。每个周期包含3个主要类型的活动:管理、技术活动以及支持活动。一旦Ontology被创建,它就会在搜索引擎中测试。然后根据支持搜索引擎最高的效率来修改Ontology。管理工作是关于目标以及他们的使用者的计划。技术活动包含指定范围以及Ontology的粒度。粒度的等级意味着Ontology的详细程度。在这种情况下,它有两个等级的子类。Ontology的范围被定义为电子商务领域的知识。然后所有范围内的知识都会被概念化。关键词以及概念会通过他们之间的关系确定以及关联上。然后利用软件Protg创建Ontolog
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 信息科学 专业 本体论 语义 搜索引擎 模型 外文 翻译
链接地址:https://www.31ppt.com/p-3925965.html