本体论语义搜索引擎模型外文翻译.doc

上传人：laozhun

文档编号：2325474

上传时间：2023-02-11

格式：DOC

页数：36

大小：345.50KB

《本体论语义搜索引擎模型外文翻译.doc》由会员分享，可在线阅读，更多相关《本体论语义搜索引擎模型外文翻译.doc（36页珍藏版）》请在三一办公上搜索。

1、本科毕业设计（论文）外文翻译中文译名本体论语义搜索引擎模型外文原文名Prototype of Semantic Search Engine Using Ontology外文原文版出处2010 IEEE Conference on Open Systems (ICOS 2010), December 5-7, 2010, Kuala Lumpur, Malaysia本体论语义搜索引擎模型Ahmad Maziz Esa, Shakirah Mohd Taib, Nguyen Thi Hong计算机信息科学马来西亚国油大学霹雳州端洛maziz.esa, shakita.my, hongutp摘要在这

2、篇文章中我们主要研究讨论网络信息检索的基本问题。信息在网络上是不会被按照语义分类并储存的。本文主要研究适合基于Ontology的搜索引擎的语义功能。通过使用Ontology，搜索引擎将可以搜索概念相关的关键字来取代以往只搜索类似单词的搜索引擎。本文也提供了关于提议改进的搜索引擎的较深层次的结构设计。本文描述了机制工作原理，基于机制工作原理，搜索引擎能够提取基于实体论而储存的信息并提出一个与搜索结果相关联的语义。在本文中也讨论了实体语义搜索引擎的成效以及在未来的发展。关键词;搜索引擎, 语义, 信息检索,Ontology.介绍最初的网络是静态的，它允许使用者们能够打开并阅读网页的内容，在用户和

3、网络之间只存在一种单向的互动，随着技术的进步,Web-enabled装置越来越便宜,更无所不在的。越来越多的人能够访问网络利用丰富的信息。这引发了一种在网站的使用和人们的互动网络上的价值观的转换。专家的平民创造了这个转向网络Web2.0。Web2.0的地点让用户更方便的进行图形与声音上的网络交互1。用户还可以出版他们的资料以供其他使用者来购买。这给予Friendster2,Youtube3, Blogger4和Facebook5等基于Web2.0的技术一个发展的方向。这是一个“信息取之于用户，用之于用户”的时代。内容创作并不是仅仅局限于一个组织而是任何一个有权访问互联网的用户。如Tim Ber

4、ners Lee在他的书编织网6中提到的,网络将会在其搜索的网页上实现语义功能使其能够理解人类所使用的单词和条款。大量的信息放到网上可以使用搜索引擎检索。自从Web1.0出现以来,许多搜索引擎得到了迅速的发展并逐渐的商业化。这些搜索引擎诸如谷歌7, Ask Jeeves 8、雅虎9、以及Lycos10等，在他们的时代在所有的搜索引擎中都处于统治地位。搜索引擎通过在网络上搜索信息并方便快捷的检索给用户。但是早期的搜索引擎事实上并不是一个搜索引擎。相反它是一个服务提供商手动索引的包含了索引信息的目录。谷歌最早的实现了自动化，检索以及爬虫机制，这些功能使得搜索引擎能够自动的在网页上爬行并索引检索网页

5、，以供用户搜索11。谷歌使用通过追踪而来的链接以及与那些链接相关联的其他网页排序而来的网页。一个页面所关联的链接越多，这个页面也就越可信，因此这个页面也将排在其他页面的前面。所有的这些都是利用数学算法通过计算频率以及反任期期限的频率来尖酸的。数据爬行以及抓取被储存在一个反向的数据库内，这使得搜索引擎能够找到术语存在的的文件以及链接。毫无疑问，网上搜集的信息越来越多。至于现在，现在的搜索引擎利用数学算法将可以克服这些困难。随着信息的采集越来越大,传统搜索引擎的准确性将越来越低。而不断降低的结果准确率将随着信息搜集量的急剧增长而进一步恶化。这项工作旨在从不同的角度解决这个问题。不再依靠机器速度以及

6、处理能力来保持搜索引擎的准确性，采用更加复杂的数学算法，这项工作将探索语义搜索引擎。通过在搜索引擎中实现语义机制，使得信息在理论上可以相互关联。这将给予信息一个语义的索引，它可以大大提升信息检索的功能。本次主要研究基本分析语义搜索引擎以及搜索引擎的发展，这种发展将使得用户可以更精确的得到所要的信息。第二部分描述了所做的相关作品。第三部分描述了发展一个语义搜索引擎的分析方法。第四部分介绍了为搜索引擎提供语义功能的架构以及算法。第五部分总结全文，最后第六部分描述了未来对这项工作的展望。相关工作目前,一个通用目的的“语义的搜索引擎已经被发展出来。此搜索引擎在可以获取。然而，大多数搜索引擎的机制拥有专

7、利并被用于商业使用。Tim Berners Lee 6提及，“专利是网络发展的一个巨大的绊脚石。”Hakia12的所有技术都拥有专利并且是商业机密。这对于学术界对今后搜索引擎系统的改进以及其他应用的研究是一个巨大的阻碍。许多搜索引擎已经发展在全国各地来的。其中最具优势的是谷歌7。各部门一起工作来产生搜索结果。在架构上，谷歌利用页级算法来识别结果的相关性。排序算法将在下一节里更加详细的解释。爬虫工作将穿越24/7超链接并下载网页内容放进储存器。所有的内容索引和解析被储存到另一个存储区域。该索引是反向的,让每一个术语可以与很多单词相关联。排序算法按照引用的原则排序网页。越多的链接提到这个特别链接，

8、那么这个链接分数便越高。网页的内容多少也会被给予考虑。如果一个网页内容丰富并引用了一个网页,它的分数将更高。更高的分数将在网页排序中得到更高的位置。网页排序在所有的页面中公平规范的计算排序。基本公式BRIN 3 ：PR(A) = (1-d) + d (PR(T1)/C(T1) + + PR(Tn)/C(Tn)PR(A)是网站A的概率，包含T1到Tn的链接。PR（T1）表示T1的价值，维阻尼因子,可以设置为0到1。C(A)定义了从A网站出去的链接的数量。NUTCH是由Doug Cutting13开发的开源搜索引擎。NUTCH是LUCENE14的延伸,LUCENE是一个开源的信息检索系统。大部分的

9、LUCENE函数库都被NUTCH使用。文中数据表明了NUTCH的索引以及搜索能力。Cutting 13认为NUTCH由两部分构成：A. 爬虫l Webdbl Fetcherl Indexerl SegmentsB. 搜索器Webdb是一个记录页面记录，相关页面爬虫爬行的最后日期以及其他事实的数据库。此外，Webdb还储存网页图片。Fetcher就是一个爬虫。爬虫从一个网络爬行到另一个网络抓取信息返回系统。Indexer利用Fetcher抓取的内容形成一个反向的索引。这个反向的索引将会被分段，使得搜索器显示查询结果。搜索器为用户搜索提供界面。它需要猫作为Servlet的容器。NUTCH的结构在第

10、四部分会详细讨论。Nutch利用分布式计算处理大数据集15。文件分配系统使用Hadoop16，Yahoo!也是用它为其搜索引擎系统是用。Hadoop使用了一款由谷歌7开发的设计模型MapReduce。该模型采用一套作为计算输入。该输入采用地图功能,分析任务并生成中间键。这些中间键将被输入来减少功能并合并类似的中间键,产生一个输出。Nutch为抓取,爬虫和索引解析这套键并评价,这个评价将被复制到各种各样的机器中并被计算15。结果就会在指定的地点通过搜索器完美地融合在一起。Liyi Zhang 17 已经进行了一项研究,利用Ontology提高搜索精度。检索系统是一个基于Ontology采用向量

11、空间模型的电子商务产品检索系统。它修改现有的向量空间模型将文件作为一个集合的概念,而不是用文件收集关键词。为了确定文件和用户查询之间的相似性，它采用是用tf-idf(术语的频率,在这种情况下,概念和反向文档排序频率)的权重计算公式方案。据Liyi Zhang 17 所述，该系统进行并行搜索,使用OA-VSM SPARQL信息检索。这两种结果将会与需求匹配并排名，最好的结果将呈现给用户。我们的项目主要研究发展搜索引擎的扩展功能ZENITH。这种扩展是一个Nutch的插件18，使得它能作为一种语义的搜索引擎。通过整合Nutch和ZENITH,使他们像一种混合语义搜索引擎一样工作在一起,它可以作为我

12、们研究工作的证明。方法论ZENITH开发使用可复用开发原型与组件开发相结合,如图1所示。最初的开发时从文献开始的。图 1. Zenith Methodology可以重复使用部件在这个项目中已经被确认了。这个过程被称为领域工程。领域工程是一个识别软件组件的过程,这种过程适用于ZENITH的发展(19)。ZENITH的每一个功能都被分成组件。在组件sub-phase中，可重复使用的样机模型是可以实施的。一般来说,整个系统基本上是一个可重复使用的原型。因为一些因素这种方法是最适合ZENITH的发展。ZENITH的结构被高度模块化。在ZENITH的发展中从过去的项目采用的其他成分是可被重复利用的。有如

13、前文,ZENITH发展是非常难以预料的。这种方法加剧了ZENITH发展的不可预知性。例如，该方法允许开发者用各种组件、方法和试验选定的组件来证明这一观点。这样的方法允许开发商回到以前的阶段进行修改。此外,当开发者可以将开发力度移至另外的组件，那些由于开发者心理障碍引发的开发风险将会大幅减少。除了适应系统的发展要求,这种方法将会增加系统的可维护性和可扩展性。一个高度可扩展的系统能够在可利用的系统资源范围内迎合大量用户的要求。可维护性对于保持ZENITH在未来的发展是非常重要的。当系统是可维护、可扩展的时，我们能方便的加强该系统。冗余组成部分可以实现系统容错能力。引入冗余组件能起到增加系统性能的作

14、用。总之,这个方法是为ZENITH发展专门进行设计和修改的。尽管该模型试图占领尽可能多的开发活动但是却都没有成功。分析通用搜索引擎的架构通用搜索引擎架构的介绍描述了搜索引擎的背骨。它由特征和功能两部分构成，特征和功能分别能使它被作为搜索引擎识别和运行。通用搜索引擎架构形成于教育和经验丰富的猜测。在这项研究中,Nutch18将作为传统搜索引擎的原型。该样机将是我们能够更好的理解搜索引擎的机制以及特征。我们从原型的基础上推导出语义搜索引擎的设计。这个图案将被设计进被选中的设计部分。搜索引擎是由几个主要的关键部分组成。这些组件分为两个部分,前端和后端。我们在Brin 20提议和 Manjula 21

15、分析的基础上对其主要部件进行了分析。基于架构的后端和前端部分设计了Nutch18。我们用这个架构作为所提出的语义搜索引擎设计的基础。通过增加一些组件和修改架构组件来实现语义的能力。A. 后台后台就是进程中得到和储存从网络中收集的信息的地方。大多数的核心功能和搜索引擎的能力取决于后台设计。后台有网络爬虫,URL服务器、索引和存储。网络爬虫网站爬虫是一个脚本，它执行检索存储在网址(URL)服务器中的网页URL列表。为了使网络爬虫爬行的更有效,网络爬虫必须可以允许许多爬虫同时从URL服务器中爬行多重的网页。线程需要实现并行处理。另一个重要的功能是爬虫必须能够了解机器人排除协议。有的版主希望自己的地方

16、不会被爬虫爬行导，其中就会包括爬行机器人排除协议文件。这个文件是一个离线的不会被爬虫获取的文本文件格式文件。这种方法也可以指定爬行他们网站的爬虫爬行他们的网站。最后所有的解析数据存储在URL服务器的一个数据库中。URL服务器作为网址链接的存储地。经常访问的网站的url列表会被储存并成为爬虫爬行的起点。爬虫新发现的url将会被储存在服务器。索引器索引器通过将解析数据编入它的类型中来实现其功能。索引器会将数据进行分类。被爬虫爬行到的文件将被解析并用唯一的id、数据类型、文件和内容进行索引。索引器必须可以解析HTML，PDF，Words和其他的一些被爬虫活动发现的文件。解析HTML的数据将被提取并储

17、存进入一个存储区域例如数据库或自定义的数据存储。大多数的搜索引擎将压缩所有的数据以便最大限度的利用存储空间。B. 前台.前台只有一个主要的组成部分,其中是搜索器。该组件在用户和系统之间充当中介的角色。组件为用户提供接口使其可以搜索关键字。然后关键词会进入反向索引当中，这便会指向一个连接到一个网站的链接。由于很多用户将同时开展搜索，因此搜索器必须拥有多线程能力。总体结构设计ZENITH是Nutch18的一个扩展,这使它成为一个混合语义搜索引擎。原设计数据流在被改道进入索引器之前会被截取和修改。图2显示了ZENITH模型的整体构架。图 2. Nutch with Zenith Expansion

18、Architecture我们利用基于Ontology的未成熟的机制来实现语义能力。这种机制依赖于我们如何提取并且找到语义上的关联。我们使用被称为Jena22的外部框架，Ontology信息的提取方式如下：“主语关系谓语”主语表示了一种具有经过描述的声明的主体存在。它可以是开户银行名称、付款方法等。谓语表示了一种具有经过描述的声明的客体。关系表明了主体与谓语之间的联系。当爬虫爬行搜索文件时，语义索引器将使用主题作为关键词组进行搜寻。一旦被发现,它将在索引中标出谓语。一旦完成所有主体术语，它会使用谓语作为主题来重复这个过程。目前有两种类型的关系,积极的和消极的关系。积极的关系描述了相关的关系而消极

19、的关系描述了不相关的关系。ZENITH扩展架构Zenith扩展结构中只有很少的几个组成部分一起工作才可以赋予NUTCH语义能力。这些组件有语义索引，Jena框架，Ontology，索引映射以及Xerces。C. 语义索引器所有通过进程加工从索引器获得的信息的核心功能和算法使用Jena 22从Ontology提取信息并在数据中合并其语义值。数据然后回到索引器并被传递到搜索器,这将会在搜索结果中显示出来。该算法如图3。图 3. Semantic Indexer Skeleton1. 从Nutch提取数据2. 利用JENA从Ontology提取数据使用3. 在提取的Ontology信息上运行推理引擎

20、4. 比较文件主题(如果正确指出谓语)5. 比较文件谓词(如果正确指出主题)如果有更多等级则重复操作。6. 重置数据流利用NUTCH插件的设计功能，这种方法是可行的。Zenith作为Nutch的一个扩展插件，它在数据被索引时会被运行。发展Nutch插件包括扩展Nutch所提供的IndexerFilter接口。在IndexFilter内实现语义接口。 SemanticIndexer.java架构如上图3。语义索引的主要框架将类似Jena框架、Xerces并可以相应的从Ontology和ontoIndex上提取信息。这些数据随后会被储存在记忆中以便应对以后操作的需要。如上所述,语义索引通过呼唤在下

21、一章节解释过的组件来执行任务。D. Jena 框架Jena 框架是一个开源语义网框架22。它使得语义索引能够从.owl文件（Ontology）提取数据从而完成查询以及处理的操作。它还为语义索引提供了一个通过添加规则来推断出Ontology的推理引擎。这建立了一种以Ontology关系为基础的逻辑规则，从而协助搜索引擎能够更好的定义概念之间的关系。E. OntologyOntology是语义产生的组件。它被看做是一个语义来源或知识来源的“脑”23。Ontoloay的题目范围越宽越广，搜索引擎便会获得越多的语义索引。F. XercesXerces是一个开源的能够使语义索引从.xml文件24提取数据

22、的源程序库。这个源程序库是用来从OntoIndex上提取数据的。OntoIndex用于在索引之前检索来自于Ontology的信息。G. OntoIndexOntoIndex是一个在循环访问Ontology数据时为语义索引作参考点的索引文件。OntoIndex用名字和价值在标签里储存信息。这个价值标签包含了多个被“|”分隔开的没有引用的值。Ontology包含了一些诸如分类名和过去的关系之类的信息。效绩评估H. Methodology这部分突出了一个检验NUTCH语义机制效益的引导测试。利用超链接html文件我们得到了一组成熟的测试数据。搜索引擎和测试网站都在同一台机器上如图4。我们选择电子商务

23、作为测试的题目范围。图 4. Test Architecture测试数据的层次显示如图5：图 5. Hierarchies of Test DataOntology是基于Methontology（Fernandez）25建立的。这个方法的实施会在几个周期内完成，它包含步骤和活动区。每个周期包含3个主要类型的活动：管理、技术活动以及支持活动。一旦Ontology被创建，它就会在搜索引擎中测试。然后根据支持搜索引擎最高的效率来修改Ontology。管理工作是关于目标以及他们的使用者的计划。技术活动包含指定范围以及Ontology的粒度。粒度的等级意味着Ontology的详细程度。在这种情况下，它有

24、两个等级的子类。Ontology的范围被定义为电子商务领域的知识。然后所有范围内的知识都会被概念化。关键词以及概念会通过他们之间的关系确定以及关联上。然后利用软件Protg创建Ontology。除此之外，支持活动会被执行。支持活动主要获取客户方面的电子商务的知识以及Ontology的基本因素。由领域专家来验证这些知识同样是支持活动的重要组成部分。I. Results两个索引进程通过语义索引器的启用和禁用来管理。表1显示了分别用传统模型和语义激活模型的测试结果。显示的结果是一组通过搜索引擎得到的数据索引比较。表 1. Difference in amount of data indexed wh

25、en enabled and disabled表1的结果显示，磁盘空间上升了0.06%，术语增加了0.03%。这表明了当语义功能被禁用时，数据被检索更加的由对比性。表2显示了用样品搜索关键词时的搜索结果比较。表2. Search Results Comparison. 作为一个模型，用于搜索引擎的Ontology不能反映真实世界的数据和命名规则。关键词可以用银行名字，书或电影名称反映真实的世界以及真实世界的语义关系。虽然它不能反映真实世界，但是在概念上证明了，语义搜索引擎是有可能实现的。根据表2数据，语义搜索引擎能够返回信息，但是传统搜索引擎却不能，因为传统搜索引擎返回的结果包含实体的关键字，

26、而语义搜索引擎返回的结果包含实体关键字并且它的结果是语义关联的。J. Issues有限数据由于资源有限，只有小数据量的测试才可以实现。当要处理大量的数据的时候这样的测试可能展示不出Zenith的全部潜力和其全部的问题。评分系统评分系统会根据基于索引文件以及网站的重要性而形成的排名帮助搜索引擎使搜索结果系统化。由于运行了Zenith，它会扰乱NUTCH的评分系统。虽然结果会显示出包含关键词实体或与关键词语义相关的网址和文件，但是它不会根据重要性的排序来显示结果。为了解决这一问题，我们需要修改评分系统。今后系统的改进K. 人工智能在人工智能的领域里有着很多的技术，例如，模糊逻辑、神经网络以及遗传算

27、法的优化方法。模糊逻辑可以用于NUTCH搜索器。英语单词中大部分都是一些含义取决于上下文的模糊单词。模糊逻辑与遗传算法的结合可以用来关键词的准确性并且将这些术语存储进NUTCH索引的文件中。它也可以和语义索引器一起用来更准确的关联Ontology上的概念。最后模糊逻辑可以让NUTCH具有从网络爬取的数据中学习新概念的功能。L. WordnetWordnet是一种英语词汇数据库。它包含了可以用来识别一个词和其他词之间的联系的同义词集和词的类型例如形容词与动词26。它可以用来在语义关系的基础以及词汇的规则上提高Zenith的功能。M. 分布式计算NUTCH配备了使用Hadoop16的分布式计算设备

28、。语义索引器会被修改来利用分布式计算影响Ontology的推断进程以及术语的比较进程。总结总之，这次的研究完成了预定的目标。从实验的结果与分析中，我们发现NUTCH的Zenith扩展通过改变其架构将成为一个非常优秀的语义搜索引擎。随着越来越多工具与软件技术（Wordnet，Hadoop，etc）的发展，NUTCH可以运用它并进一步提高它的语义能力。最后，以上的分析与讨论并不是决定性的。在未来的研究中，研究和测试也许会改变Zenith的架构与设计。参考文献1 S. Murugesan,”Understanding Web 2.0”, IT Pro, IEEE Computer Society,

29、 July 2007, pg. 34 41.2 Friendster, Available: 3 Blogger, Available: 4 Youtube, Available: 5 Facebook, Available: 6 T. Berners Lee, “Weaving The Web” 2000, pp. 191-215.7 Google Search Engine, Available: 8 Askjeeve Search Engine, Available: 9 Yahoo Search Engine, Available: 10 Lycos Search Engine, Av

30、ailable: 11 S. Asadi and H. R. Jamali, Shifts in search engine development: A review of past, present and future trends in research on search engines. Webology, 1(2), 2004, Article 6.12 Hakia - Ontological semantic and natural language processing (NLP) based search engine., Availble: 13 D. Cutting a

31、nd M. Cafarella, “Building Nutch: Open Source”, Focus Search, April 2004, pg. 54 - 6014 Lucene - Text search engine library in Java, Available: http:/lucene.apache.org15 J. Dean and S. Ghemawat, “MapReduce: Simplified Data Processing on Large Clusters”, Whitepaper, Google, Inc.16 Shvachko, K. , Kuan

32、g, H. , Radia, S. ; Chansler, R, The Hadoop Distributed File System, IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST), 201017 L. Zhang, M. Zhu and W. Huang, “A Framework for an Ontology-based E-commerce product information retrieval system”, Journal of Computers, Vol 4, 2009, pg 4

33、36-443.18 Nutch - Open-source Web-search software, built on Lucene Java, Available: http:/nutch.apache.org/ 19 Nauman, J.D. and Jenkins, M. “Prototyping: The New Paradigm for Systems Development”, MIS Quarterly Vol. 6, Ed. 3, pg. 29-4420 S. Brin, L. Page, “Anatomy of a Large-Scale HypertextualWeb Se

34、arch Engine,” Proc. 7th International World Wide Web Conference, 1998.21 D.Manjula and T. V. Geetha, “Semantic Search Engine”, Journal of Information and Knowledge Management, Vol. 3, No. 1 (2004) pp. 107-117.22 Jena A Semantic Web Framework for Java , Available: 23 M. Uschold and M. Gruninger, Onto

35、logies and Semantics for Seamless Connectivity”, ACM SIGMOD Record COLUMN: Special section on semantic integration, Volume 33 , Issue 4, 2004, Pages: 58 64.24 The Xerces Java Parser 1.4.4, Available: http:/xerces.apache.org/xerces-j.25 A. Gomez, M.Fernandez, O.Corcho. “Ontological Engineering”, Spin

36、ger 2003, pg 3-526 Wordnet, A Lexical Database For English, Available: http:/wordnet.princeton.edu/wordnet.译文成绩（百分制）：指导教师签名：年月日Prototype of Semantic Search Engine Using OntologyAhmad Maziz Esa, Shakirah Mohd Taib, Nguyen Thi HongComputer Information SciencesUniversiti Teknologi PetronasTronoh, P

37、erakmaziz.esa, shakita.my, hongutpAbstractIn this paper we discuss the fundamental problem of information retrieval on the Web. Information on the Web is not semantically categorized and stored. This research focuses on applying semantic capabilities using ontology on search engine. By using ontolog

38、y, search engine can search keywords that are conceptually linked instead of just similarity of the words used. This paper also provides in depth description of the architecture design of our proposed modified search engine. This paper describes how the mechanism is designed so that the search engin

39、e can extract information stored based on the ontology and present a semantically linked search results. The benefits and future improvements are also discussed. Keywords-component; search engine, semantic, information retrieval, ontology.INTRODUCTIONThe Web at its infancy was a static page which al

40、lows users to open and read the contents of the Web pages. There was only a one-way interaction between the users and the Web. As the technology advances, Web-enabled devices were getting cheaper and more ubiquitous. More and more people are able to access the Web and utilize the wealth of informati

41、on in it. This triggered a paradigm shift in Web usage and the way people interact with the Web. Experts and laymen coined this shifting in Web interaction as Web 2.0. A Web 2.0 site enables users to interact with the Web more interactively with still and moving graphics as well as sound 1. Users we

42、re also able to publish their contents for the consumption of other users. It gave way to the birth of Web 2.0 technologies such as Friendster 2, Youtube 3, Blogger 4 and Facebook 5. It was an age of “content by the users for the users”. Content creation were not limited to just an organization but

43、also to anyone who has access to the Internet. As envisioned by Tim Berners Lee in his book titled Weaving the Web 6, the Web will implement semantic properties in its collection of Web pages which will understand the words and terms human used.The large amount of information on the Web can be retri

44、eved using a search engine. Since Web 1.0, many search engines were developed and been commercialized. These search engines such as Google7, AskJeeves8, Yahoo!9, and Lycos10 were among the search engines that were dominating at its time. Search engines help users by indexing all the information on t

45、he Web and make it easy and quickly retrievable for the users. Early search engines were not a search engine at all. Instead it was a directory which contained indexed information which were indexed manually by the directory provider. It was Google who among the first that implement automate indexin

46、g and crawling mechanism which enables the search engine to automatically crawl Web pages and indexed the retrieved Web pages for users to search 11. Google uses page rank by keeping track the number of incoming links and links linked to other pages. The more links linked to a page the more credible the page is, thus will be ranked higher than the other. All these were being computed using mathematical algorithms by calculating the term frequency and inverted term frequency. Data crawled and collected were stored in an inverted database which ena