网络搜索引擎的分析.doc
《网络搜索引擎的分析.doc》由会员分享,可在线阅读,更多相关《网络搜索引擎的分析.doc(38页珍藏版)》请在三一办公上搜索。
1、本 科 生 毕 业 论 文网络搜索引擎的分析院 系: 信息科学与技术 专 业: 计算机科学与技术 学生姓名: 学 号: 指导教师: 摘要随着互联网的飞速发展,信息革命引发的一个特别的工具-搜索引擎,其作用是在几十亿之间现有的网站中找出具体的用户想要查找的资料。大家都知道,网络搜索引擎已成为最重要的网络信息搜索工具,以获取以无法估计的速度出现的网页信息。到目前为止,很多以前流行的搜索引擎已经渐渐消失,其他新的搜索引擎又开始出现。但是在近几年出现的基于各种不同搜索算法的搜索引擎中, Google已经成为最流行的和成功的搜索引擎之一,Google为何能够成功在很大程度上归因于简单而优雅的PageRa
2、nk算法。该算法的实现原理很简单,当用户提交他或她的想要查询信息时,搜索引擎分析其数据库中已经存放网站,然后返回用户想要查询的超链接列表。更重要的是,此列表按照与用户查询信息的相关度进行排序,以方便用户准确有效地找到想要查询的网页。本论文首先讨论搜索引擎的发展历史、现实重要意义以及其发展趋势。接着详细介绍网页排序算法的实现原理、该算法的优缺点和如何改进该算法、以及对网页排序算法进行实例分析,进一步论述了Google采用的网页排序算法为何会取得如此大的成功。最后重点地介绍如何构建简单有效的搜索引擎,这也是全文的难点,这里只是实现搜索引擎的核心功能,还有更多搜索的功能急需进一步完善。关键词: 搜索
3、引擎 网页排序算法 构建搜索引擎 超链接AbstractWith the development of Internet, the information revolution gives rise to the search engine, a special tool whose task is to identify specifically information among billions of existing websites those are relevant to the users query. As we all know, web search engines ha
4、ve become the most important tools to access information that appear at the speed unevaluated. By now, many of search engines have gone out of business while others have merged. However, among millions of them based on various algorithms that have emerged in recent years, Google has become one of th
5、e most popular and successful one and this companys triumph largely attributes to the simple but elegant algorithm, PageRank algorithm. This principle of this algorithm implements as follows. When a user submits his or her query, the search engine analyzes its repository of stored web sites and retu
6、rns the list of hyperlinks to those that contain information requested by the query. Most importantly, this list is ordered so that most relevant web sites come up first, which might be convenient for the users to find the targets wanted. In this paper it begins our topic with the search engines his
7、tory of development, its practical significance and the future trend developed. Then we discuss the principle of PageRank algorithm in detail, the algorithms merit and shortage, also the modified methods about this algorithm and numerical tests on PageRank algorithm. And it indicates that why Google
8、s core search algorithm have so much potential for development. The last but not least, how to build effective search engines will be introduced. And How to efficiently build a simple engine will be the focus of this paper. In addition, the search engine is constructed to only achieve the core funct
9、ion, and there are many urgent functions to be improved.Keywords: search engine PageRank algorithm build the index hyperlink目 录摘要IAbstractII第一章 前言11.1搜索引擎的历史11.2搜索引擎的分类21.3搜索引擎的现实意义31.4搜索引擎的发展趋势4第二章 搜索引擎原理52.1搜索引擎原理分析52.1.1收集信息62.1.2建立索引72.1.3查询并返回结果72.1.4用户接口72.2PageRank算法82.2.1算法原理82.2.2算法实例分析92.2
10、.2.1第一次计算92.2.2.2第二次计算122.2.2.3第N次计算142.2.3算法的不足142.2.3.1偏重旧网页152.2.3.2主题飘移现象152.2.3.3专业站点被忽视152.2.3.4网页中超链接对网站PR值的影响152.2.4算法的改进162.2.4.1具有时间反馈的改进162.2.4.2基于网页链接和内容分析的改进17第三章 构建搜索引擎193.1Lucene入门193.1.1什么是Lucene193.1.2Lucene的特点193.1.3Lucene构建搜索引擎基本流程203.1.3.1建立索引203.1.3.2搜索流程213.2Lucene检索结果排序223.2.1
11、评分算法公式223.2.2评分算法的特点与不足223.2.3评分算法公式的改进233.2.4另一种评分算法-向量空间算法243.3Lucene构建搜索引擎253.3.1构建运行环境253.3.2搜索引擎的代码实现253.3.2.1索引建立253.3.2.2查询263.3.2.3搜索结果28第四章 结论31致谢32参考文献33第一章 前言1.1 搜索引擎的历史实际上所说搜索引擎是在近10年的不断发展中逐步形成的,建立在互联网中和计算机技术之上。其实也有人说搜索引擎的鼻祖就是黄页,诞生于19世纪末,因为黄页在电话诞生后成为了以电话为主体的信息门户,而且黄页把有电话的企业分门别类,的确与现的搜索引擎
12、有相似之处。下面就简短地介绍搜索引擎的发展历史1: 1990 年由Montreal 的McGill University 学生Alan Emtage、Peter Deutsch、Bill Wheelan 发明的Archie。后来,程序员们开发出了一个名叫“spider”(蜘蛛)的“Robot”(机器人)程序,它能自动以人类无法达到的速度不断重复地在网络上检索信息。 1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕
13、获网址(URL)。 1994年,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)诞生。除了网站搜索,它还支持Gopher和Telnet 搜索。 1994年7月,卡内基梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。 1995年12月,DEC的正式发布AltaVista。
14、AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。 1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google以网页级别(PageRank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。而且Google在PageRank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图、股票、词典、寻人等集成搜索、多语言支持等,像Altavista一样,再一次彻底改变了搜索引擎的定义。 2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北
15、京中关村创立了百度(Baidu)公司。2001年8月发布B搜索引擎Beta版(此前Baidu只为其它门户网站搜狐、新浪、Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎。 2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。1.2 搜索引擎的分类计算机技术飞速发展,关于搜索引擎的定义和发展过程,按其工作方式主要可分为全文搜索引擎、目录索引类搜索引擎和元搜索引擎三类2。 全文搜索引擎全文搜索引擎是名副其实的搜索引擎,它通过从互联网上提取各网页的信息而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的顺序返回给用户。而数据库的建立是通过一个叫网络机器人或叫网
16、络蜘蛛的软件,定期自动分析网络上的各种链接并获取网页信息内容,按规则加以分析整理,记入数据库。此搜索引擎主要依靠网络机器人搜索数据,因此需要的数据库容量非常庞大,但是收集内容往往不够准确。可以看出,百度和Google就是典型的全文搜索引擎系统: 目录索引类搜索引擎目录索引类搜索引擎虽然也具有搜索功能,却从严格意义上来讲不能算是真正的搜索引擎。因为此搜索引擎是通过人工的方式收集整理网络资料形成数据库的,能够提供更为准确的查询结果,但收集的内容却非常有限。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。主要代表如Yahoo雅虎,Open Directory Project(DMOZ
17、),网易搜索。 元搜索引擎元搜索引擎可以在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将搜索结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo。 1.3 搜索引擎的现实意义互联网正以前所未有的态势改变整个世界,它现在已经成为了人类有史以来资源数量最多、资源种类最全、资源规模最大的一个综合信息库。其信息来源丰富、分布广泛,各种类型信息资源异构地分布于网络空间中,如果不能使庞杂的信息有序化,就很难获取。如何准确有效地从互联网上获取信息,搜索引擎的重要性就显得越来越重要。搜索引擎的工作原理实质是信息的获取,传统的信息获取技术是通过线性匹配查找的资源,这种方
18、法无需对查找资源中的信息进行预处理,仅适用于资源较少的情况。但面对当前海量的信息,如何能够快速、准确、全面地获取信息呢?一般信息获取可为以下几个部分:1) 在获取信息之前,必须先构建文本数据库。这个文本数据用来保存所有用户可能检索的信息,数据库的信息可能会不断地变化。但是一旦文本模型确定下来后,就不应对其再进行大的变动。2) 有了这种文本模型后,就应该根据数据库内的文本建立索引。索引可以大大提高信息检索的速度。采用哪种方式取决于信息检索系统的规模。大型信息检索系统均采用倒排的方式来建立索引。3) 建立好索引后,就可以开始对其进行检索。通常是用户提交一个检索请求,该请求将被分析,然后利用文本操作
19、进行处理。对于真实的信息检索系统,在真正处理查询请求前还可以进行一些预处理。4) 根据用户的查询返回检索结果,通常需要对检索结果进行一定的排序与过滤,以便把重要的检索信息排在最前面。 用流程图表示搜索引擎工作流程如下: 图1-1 搜索引擎工作流程1.4 搜索引擎的发展趋势在互联网的发展初期,网站的数量比较少,信息查找相对容易。但是伴随着网络信息以指数的膨胀速度增长,单纯的简单搜索已经远远无法满足用户的需要。因此各类搜索引擎的品牌越来越多,如最初的Google、Yahoo到现今的baidu、MSN、Sogou等满足大众信息检索需求的专业搜索网站也应运而生。现在的搜索引擎往往将自己的搜索范围扩大到
20、整个因特网上,然而数据库规模庞大,为了提高查询速度而往往忽视了查询信息质量。对于一次检索,大型搜索引擎往往有成千上万条符合要求的信息,而用户只会浏览其中几十条,也就是说用户并不需要得到所有符合检索要求的信息,因此全面、准确、快速是衡量搜索引擎的重要标准。搜索引擎的发展趋势应该是更强调人的因素,用户只需告诉搜索引擎想要查询什么,而无需理会如何实现。而搜索引擎应该具有判断性收集信息的功能,即根据特定用户的行为来决定信息的取舍,提供多样化服务,也就是说将自动分类技术、中文内容分析技术及区域识别技术应用到大型搜索引擎中,除了在信息检索速度、更新频率等基本技术指标方面处于领先地位外,相关网页检索、纠错、
21、模糊查询、语音查询技术也具有较高的水准3。目前各搜索引擎的搜索功能仍然处理数据库基础建设和流程挖掘层面,搜索结果仍处于对数据初步加工过程。但相信在不远的将来,搜索必然搜索流程的多次加工和搜索输出项的个性化发展。一方面搜索巨头的发展必将导致搜索服务继续呈现高度集中的趋势;另一方面搜索技术、权力、需要、主体、利益等方面发生潜移默化的变化,又开始呼唤中小服务商的崛起以及与之密切相关的搜索领域的多样化竞争格局,搜索商业的集中和发散同时存在。第二章 搜索引擎原理2.1 搜索引擎原理分析搜索引擎一般由搜索软件、索引软件和查询软件组成,其中搜索软件用来在网络上收集网络信息;索引软件对收集到网页的信息进行自动
22、标引,并建立索引数据库;查询软件则通过查询索引数据库为用户提供服务。各种网络搜索引擎通过网络搜索软件定期或不定期地在网络上搜索信息,并对搜索到网络信息进行收集和整理,从而建立可供查询的索引数据库。因此搜索引擎的工作包括以下三个过程:一是在互联网中发现、搜索网页信息;二是对搜索的信息进行提取和组织,生成索引数据库;三是由检索程序根据用户输入的查询关键词,在索引数据库中快速查询出相关文档,进行文档与查询内容的相关度比较,对检出结果进行排序,并将查询结果返回给用户。以下是搜索引擎的基本结构4: 图2-1 搜索引擎系统结构图 下面详细地分析搜索引擎的工作三个流程以及相关的用户接口:2.1.1 收集信息
23、搜索引擎中网页的采集工作主要由网络搜索软件(如Robot、Spider、Worm)完成, 开发出性能良好的网络搜索软件是一个艰巨的工作。由于网络带宽窄、网页更新快, 搜索引擎的网络搜索软件搜集所有网页已经成为不可能的事情,优先获取重要网页逐渐成了网络信息搜索中重点研究的问题。不同种类的搜索引擎有各自的信息收集方式和范围,这样就导致不同的搜索在检索结果的数量以及质量产生很大的差别。例如有些搜索引擎会把搜索范围发往每一个站点,记录下每一网页的所有文本内容;有些搜索引擎则会搜索那些刚刚被更新的网站,然后再将其链接收集起来;有些搜索引擎首先分析数据库中的地址,以判别哪个站点最受欢迎,然后再去记录这些网
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 搜索引擎 分析
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-2394720.html