毕业设计论文基于SEO的网络行销平台设计与实现.doc

上传人：sccc

文档编号：4862437

上传时间：2023-05-20

格式：DOC

页数：68

大小：1.08MB

《毕业设计论文基于SEO的网络行销平台设计与实现.doc》由会员分享，可在线阅读，更多相关《毕业设计论文基于SEO的网络行销平台设计与实现.doc（68页珍藏版）》请在三一办公上搜索。

1、基于SEO的网络行销平台设计与实现摘要：本论文介绍了基于SEO的网络行销平台设计与实现，该平台主要分为SEO基础、SEO技术、SEO实例演示、搜索引擎结构分析和搜索引擎工作原理等几个部分。该平台利用SEO技术实现了孝感麻糖网（）关键词“孝感麻糖”在Google搜索引擎中的良好排名效果。本文首先提出了搜索引擎概述，分析了搜索引擎的结构和搜索引擎的工作原理，特别对搜索引擎的结构和工作原理进行了大量研究。然后深入研究SEO（搜索引擎优化）的各项技术，最后重点根据研究得出的理论方法运用到实际网站上，得到预期的效果。网站的效果可以在Google搜索引擎中查询关键词“孝感麻糖”而看到。关键词：搜索引擎；搜

2、索引擎优化（SEO）；搜索引擎结构；搜索引擎原理Design and Realization of network marketing platform based on SEOAbstract：This paper describes the network of SEO marketing platform based on the design and implementation, the platform consists of basic SEO, SEO techniques, SEO examples, the structure of search engines and s

3、earch engine works, and several other parts. The platform leverages technology to achieve the Xiaogan Sesame Chips SEO Network () keyword Xiaogan Sesame Chips in the Google search engine to rank well in the results.This paper presented an overview of search engines, analyzes the structure of search

4、engines and search engines work, in particular, the structure of search engines and working principle of a large number of studies. And in-depth study SEO (search engine optimization) of the technical, the final focus of the light of the theoretical methods applied to come to the actual site to get

5、the desired results. Sites in the Google search engine results for the query keyword Xiaogan Sesame Chips and see.Key Words: Search engine; Search engine Optimization (SEO); Search engine Structure; Search engine principle目录1 搜索引擎概述11.1搜索引擎概念11.2搜索引擎发展历程12 搜索引擎结构分析32.1搜索引擎的搜索器32.2 搜索引擎的索引器42.3搜索引擎的

6、检索器52.4UI(用户接口)63搜索引擎的工作原理83.1网页搜集83.2网页处理93.3查询服务114 Web信息检索124.1 Web信息检索基础124.2Web信息检索核心135 Web搜索技术165.1搜索引擎主要指标165.2搜索引擎爬虫（Spider）175.3 Robots协议206 SEO概述226.1 SEO226.2 SEO目的226.3 SEO具备的知识237 SEO与网站257.1 网站域名257.2 网站空间267.3 网站结构288 SEO与关键词328.1 网站标签328.2 关键词获取348.3 关键词放置358.4 关键词密度368.5 长尾关键词378.6

7、关键词趋势389 SEO与网站内容399.1内容为王399.2 撰写内容409.3 转载内容4310 SEO与网站链接4410.1 站内链接4410.2 站外链接4811 孝感麻糖网站SEO方案5111.1 优化目的5111.2 优化部分5111.3 优化详细说明5112. 结束语56【参考文献】57附录58致谢64641 搜索引擎概述1.1 搜索引擎概念搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，并将处理后的信息显示给用户，是为用户提供检索服务的系统。我们知道在浩瀚的互联网中想找到我们需要的咨询,在没有搜索引擎这个工具帮助下是很困难的。当

8、然客观来说，搜索引擎也并不是唯一的选择。在互联网发展的初期只是一些特殊的用户上传或下载FTP站点。当某一个用户需要在这些站点上查找需要的文档，除了利用知道文件明确的地址来获得文件，就只能一个一个的浏览每个文件，可想这样查找文件时相当的麻烦、浪费和困难的。搜索引擎的出现解决了上面的难题，在搜索引擎的搜索框中，输入你想查询的关键词，然后单击搜索按钮，稍等一会儿，你就会看到若干相关网页的介绍以及查询关键词的链接。然后你可以任意点击一个链接，查找是否是你想要的信息。搜索引擎也并不是在你点击搜索按钮之后，马上去检索整个互联网。它为您呈现的结果是在预先整理好的网页数据库中的网页，因此它能够很快帮助用户找到

9、所需要的信息。这也意味着搜索引擎要周期或不定期的去检索整个互联网，因为互联网上有很多新出现的网站，有很多更新频率较高的网站。其实真正的并不是上面介绍的这种“事先准备”型的搜索引擎，而是对互联网上几亿到几百亿网页进行检索，然后根据关键词进行检索和分类。最后包含所有的网页和关键词分类网页。当用户再进行搜索时候，所有的页面均包含了用户查找的关键词。这些关键词的相关性高低，排名前后都是经过科学、公正、复杂和快速而得出来的。1.2 搜索引擎发展历程前面提到了在互联网早期想找到查询的文件是非常的麻烦的，1990年，在McGill大学中，一个学生下定决心要解决这个难题，他就是Alan Emtage。他发明了

10、互联网的第一个搜索工具Archie。这个工具不同与现在的搜索引擎，它是在指定的网络中下载匿名的FTP站点文件列表。第一个真正具有现代意义的搜索引擎出现在1993年，它就是Wandex搜索引擎。发明者为Matthew Gray，他也是一名在校大学生。Wandex搜索引擎首次具有网页索引和搜索功能的程序。也是第一个使用网络爬虫（Spider）技术的搜索引擎。1993年，同时也诞生了另一个搜索引擎：Excite。1994年，Yahoo！搜索引擎诞生。1995年，Alta Vista搜索引擎诞生。1996年，Inktomi搜索引擎诞生。1997年，目前流行的Googel搜索引擎诞生。1998年，MSN

11、 Search搜索引擎诞生。目前国际上占有比较大市场的搜索引擎Google诞生于1997年，中国目前比较大的搜索引擎百度成立于2001年。可见搜索引擎发展是比较迅速的。目前在国内搜索引擎主要以百度为统治地位。随着搜索引擎的蓬勃发展，SEO也越显突出，一个企业通过SEO网络行销平台，收入倍增的例子越来越多，现在和未来加入这个领域的企业将是越来越多。目前国内研究搜索引擎优化的领域人的数量与日俱增。这还与搜索引擎优化主要特点有关，主要是投资成本低，效果明显。2 搜索引擎结构分析搜索引擎是指根据一定的策略、运用特定的计算机程序来搜集互联网上的信息。用户使用时候只需要在搜索引擎提供的搜索窗口中输入需要查

12、找信息的关键词搜索引擎主要有四个组成部分，分别为：搜索器、索引器、检索器和搜索界面。这四个部分基本构成了搜索引擎的体系机构。下面我将来研究搜索引擎的各部分的具体内容。2.1搜索引擎的搜索器搜索器是搜索引擎体系结构中比较重要的一部分，它的功能是在浩瀚的互联网海洋里不停的抓取网页，搜集信息。从而为以后其它各部分的工作铺垫。搜索引擎的搜索器一般叫做网络爬虫，目前网民普遍称为“网络蜘蛛”或者简称为“蜘蛛”(蜘蛛的英文为：spider)。通过它的字面意思我们不能理解它的功能，它在“爬行”时要又快又广又多地搜集各种各样的新信息；当我们在浏览网页时候，会发现一个网站的内容经常会更新，并且频率一般比较高，因为

13、一些信息具有实时性，超过一段时间后就会成为过时无用的垃圾信息，因此蜘蛛需要在规定的周期去抓取网页里面的内容，同时还要判别那些网页是更新过的，那些页面的内容已经陈旧，没有更新了，那些页面里面的链接是死链接，哪些页面已经是不需要再“爬行”等等。那么搜索器是如何搜集网站的相关信息了？一般是用下面的方法：“蜘蛛”从一个URL开始，顺着这个URL的超链接，利用各种方式在互联网中的网站之中发现信息，然后不断重复，于此同时搜索器也要把搜集到的所有网页存储起来。通过上面的介绍相信你对搜索引擎的搜索器有一定的认识。下面分析的是搜索器的一项比较重要技术，那就是网页内容提取技术。要知道网页内容提取技术首先要了解的是

14、搜索引擎建立索引，处理的对象只是文本文件。但是一般一个网站有若干网页组成，并且每张网页上会有不同格式的文件，如图片、flash、pdf、word、多媒体等等丰富多彩的格式。上面说过搜索引擎处理的是文本文件，那么索引器就会把网页里面的文本文件提取出来。而这项技术的支持是系统采用了各种各样的插件，遇到不同的格式的网页就会采取不同的插件来处理。2.2 搜索引擎的索引器索引器是搜索引擎的一个比较重要部分，它一般使用集中式索引算法或者分布式索引算法。索引器的算法对索引器，对搜索引擎是至关重要的，比如：我们熟悉的百度新闻，它是“由机器每5分钟自动选取更新”，比较具有实时性，并且数据量也是相当的大。此时索引

15、器的算法对索引器的影响就显得十分突出了。因此有人说，一个搜索引擎的有效性在很大的程度上取决于索引器的质量（精确的说应该归功于索引器的索引算法）。接下来我们一起来系统了解索引器的功能，索引器的功能是理解搜索器（上一节已经描述过了）搜索的信息，并对收集回来的网页进行分析，提取相关网页信息，如网页的关键词、页面使用的编码、网页URL等等。然后更具搜索引擎的相关算法进行大量复杂的计算，得到一些相关信息，然后利用这些相关信息建立相应的网页索引数据库。2.1.1索引项上面了解了索引器的一些知识，下面有必要对索引项有所了解。比如我们平时所说的索引器索引的时间，编码，作者，标题等等都属于索引项。索引项可以分为

16、两种，一种是客观索引项，另一种是内容索引项。其中客观索引项是与文档的内容无关的，比如，我们发一遍帖子，里面的发帖作者，发帖时间，帖子地址等等都是客观索引项；而内容索引项是反应文档内容的，其理解起来就很容易了，在此就不举例了。内容索引又可以分为单索引项和多索引项两种。2.1.2中文分词搜索引擎索引英语单词或者句子时候，是比较容易提取的，因为英文单词之间是用空格分开的，而这一切都是约定俗成的。但是对于汉语书写的句子，就不能凭空格区别了，必须要进行词语的切分，也就是常说的分词。中文分词是文本提取的基础，对于输入的一段中文，然后进行中文分词，然后搜索引擎达到识别语句含义的效果。中文分词的方法一般可以分

17、两种，一种是机械匹配方法（基于字符串匹配的分词方法），另一种是概率统计方法。其中机械匹配是建立在已有的词典大全上的，是和里面词语匹配而得到的分词结果。它一般分词方法有：正向最大匹配法（由左到右的方向），逆向最大匹配法（由右到左的方向），最少切分（使每一句中切出的词数最小）和双向最大匹配法（进行由左到右、由右到左两次扫描）。概率统计方法是通过概率统计后，然后再进行处理而得到分词。那么到底哪种分词算法的准确度更高了？到目前没有定论。一般对于任何一个成熟的分词系统来说，不可能单独依靠某一种算法来实现，都需要综合不同的算法。2.3搜索引擎的检索器首先我们一起来了解搜索引擎是如何把用户需要的信息反馈给用

18、户的。当用户在搜索引擎的搜索窗口中输入需要查找的关键词。如下图：图1 百度搜索界面然后搜索引擎的系统程序从网页索引数据库中找到符合该关键词的所有相关网页（未收录的不在其中）。此处需要补充说明一下的是，搜索引擎已经对网页的关键词的相关度已经算好了，只要按照已经现成的相关度数值排序，当然相关度越高，那么关键词排名就越靠前。最后页面生成系统将搜索结果的网页内容描述信息和网站标题以及标题链接按照约定的规则组织以来反馈给用户。例如下面是百度搜索“孝感学院”之后的界面图。其中的“孝感学院论坛-孝感学院|孝感学院新技术学院|春晖湖论坛”为网站的title部分，是比较网站核心内容的精简描述。接着下面的具体描述

19、文字是网站的描述信息，也就是我们常见的META标签里面description信息。图2 百度搜索“孝感学院”输出界面通过上面的具体实例和描述我们不难看出检索器的功能，具体来说是针对用户的查询关键词请求，在索引库中快速检索文档，接着对文档与用户查询的进行评比，对将输出的结果进行排序等操作，然后实现信息的反馈。2.4 UI(用户接口)UI(User Interface)即用户接口，其主要目的是方便用户使用搜索引擎，充分的利用搜索引擎来从搜索提供的结果中，快速找到有用的信息；其作用是输入用户查询，显示查询结果，反馈用户信息等。UI的设计思想是“以人文本”，通过设计来适应人类的思维行为习惯。在前面图1

20、中我们看到了百度的搜索界面，此界面为用户提供了搜索接口，在这个接口中，我们可以输入我们想要搜索的关键词，同时我们可以根据搜索引擎提供的接口去限制我们需要搜索的信息。例如：我们在百度里面需要搜索关于孝感学院的word(word文档的扩展名是.doc)文档，我们可以输入:“filetype:doc 孝感学院”那么我们会看到全部都是匹配的关于孝感学院的word文档列表。通过上面对搜索引擎结构分析，可以明白各大搜索引擎的处理能力和技术均有差别，因此抓取网页会有差别，排序算法也会有差别。例如：谷歌和百度搜索引擎的数据库都存储了互联网上几亿到几十亿的网页索引，数据量也是几千GB到几万GB，但是搜索引擎虽然

21、建立超过20亿网页的索引数据库，但是也占不到互联网上普通网页的30%，一般不同搜索引擎之间的网页数据重叠率一般在70%以下。根据这个原理，我们想要搜索更广更全的信息，可以使用不同的搜索引擎，这样我们将会有更大选择信息的余地。3搜索引擎的工作原理搜索引擎工作原理可以从它的工作中看出，一般搜索引擎工作原理分为三步，分别是：抓取网页，建索引数据库和在索引数据库中排序。下面分别来看看三部分是如何工作的。抓取网页：根据前面的介绍，我们很容易知道搜索引擎利用爬虫沿着任何网页中的所有URL爬行到其它的网页，不断的重复这个过程，然后把爬行过的网页收集回来。建索引数据库：搜索引擎的分析索引系统程序对收集回来的网

22、页进行分析，提取网页的信息，然后根据一定相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及链接中的每一个关键词的相关度，然后用这些相关信息建立网页索引数据库。索引数据库中排序：排序后的关键词，就是在用户输入关键词搜索后，搜索系统程序从网页索引中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度已经算好，索引只需要按照现成的相关度排序，相关度越高，网站排名越靠前。最后页面生成系统将搜索结果的网页内容描述信息和网站标题以及标题链接按照约定的规则组织以来反馈给用户。3.1网页搜集搜索引擎网页搜集过程并不是在用户提交关键词后进行及时搜索的，二是预先将网页搜集好并且进行相关的

23、处理之后等待用户的查询。我们知道，一般在网络比较顺畅时候，从网上下载一张网页大约需要1秒钟，因此如果用户在查询的时，即时去网上抓取成千上万张网页，一个个分析处理后再和用户的查询匹配，这样查询时间就会很慢，这样不能满足用户的需求，严重影响用户体验。有时可能有多个用户重复抓取一张网页，面对大量的用户查询，不可能每来一个查询，系统就到网上“搜索”一次。大规模的搜索引擎是将一批预先搜集好的网页进行管理和维护，那么如何去维护了？有以下几种方法：第一种方法：定期搜集法每次搜集替换上一次的内容，称之为“批量搜集”。由于每一次都是重新来一次，对于大规模搜索引擎来说，每次搜集的时间通常会花费几周的时间。这样的开

24、销是非常大的，通常两次搜集的间隔时间也很长，例如以前Google每隔28天搜索一次。这样方法实现比较简单，但是实时性不高，用户体验实在太差，还有重复搜集所带来的额外带宽的消耗。第二种方法：增量搜集法最初时搜集好一批数据，以后只是搜集新出现的网页和改变的网页并删除不再存在的网页。除了新闻网站外，许多网页的内容并不是经常变化的，这样每次搜集的网页量不会很大，于是可以经常进行搜集。30万张网页，一台PC机在一般的网络条件下，半天也可以搜集完毕，这样的系统表现出来信息的实时性就比较的高，但是最大的缺点是系统的实现比较复杂。在具体搜集过程中，如何抓取一张张网页？可以有不同的考虑。最常见的一种是所谓的“爬

25、取”，具体过程是，将Web上的网页集合看成是一个有向图，搜集过程从给定起始URL的集合S（或者说是“种子”）开始，沿着网页中的链接，按照先深，或者某种别的策略遍历，不停的从S中移除URL，下载相应的网页，解析出网页中的超链接URL，看是否已经被访问过，将没有访问过的那些URL加入集合S。整个过程可以形象为一个蜘蛛（spider）在蜘蛛网（Web）上爬行，一个真正的系统其实是多个“蜘蛛”同时在爬。一般我们使用的是让网站主动的向搜索引擎提交它们的网址，系统在一定时间内那些网站派出“蜘蛛”，扫描该网站的所有网页并将有关信息存入数据库。以下是比较著名搜索引擎的提交的接口地址：百度：Google：中国

26、雅虎：搜狗：必应： 3.2网页处理对于索引来说，只会关注文本信息，也只处理文本信息。而目前互联网上大部分信息都是以HTML格式存在，因此需要把网页中文本内容提取出来，过滤掉一些脚本标识符和一些无用的广告信息。网页处理主要包括四个方面：关键词提取，过滤重复网页，链接分析和计算网页的权值。3.2.1关键词提取由于html文档产生来源的多样性，许多网页在内容上比较随意，不仅文字讲究规范、完整，而且还可能包含许多和主要内容无关的信息(如广告，导航条，版权说明等)。为了支持查询服务，需要从网页的源文件中提取出能够代表它的内容的一些特性关键词。网页处理阶段的一个基本任务，就是要提取出网页源文件的内容部

27、分所包含的关键词。对于中文来说，就是要根据一个词典，用“切词软件”，从网页文字中切出词典所含的词语来。这样一篇网页就可以由一组词组来近似代表了。一般来说，可以得到很多的词，同一个词可能在一篇网页中多次出现。从效果和效率考虑，不应该让所有的词都出现在网页的表示中，要出去如“的”、“在”、“和”等没有内容指示意义的词，称为“停用词”，这样，对一篇网页来说，有效词语的数量大约是200个。3.2.2过滤重复网页我们知道Web上的信息存在大量的重复现象，统计分析表明，网页的重复率平均大约为4。也就是说，当通过一个URL在网上看到一张网页的时候，平均还有另外3个不同的URL也给出相同或基本相似的内容。这种

28、现象对于搜索引擎来说，它在搜集网页时要消耗机器时间和网络带宽资源，而且如果在查询结果中出现，将消耗查询者计算机的资源，也会引来用户的抱怨。因此，消除内容重复或主题重复的网页处理阶段的一个重要任务。3.2.3链接分析从信息检索的角度讲，如果系统面对的仅仅是内容的文字，我们能够依据关键词和关键词在文档集合中出现的频率来统计该词的相对重要性以及和某些内容的相关性。有了html标记后，情况还可能进一步改善。例如：和之间的信息很可能就比和之间的信息重要。尤其html文档中所含的指向其他文档的链接信息是人们特别关注的对象，认为他们不仅给出了网页之间的关系，而且还对判断网页的内容有很重要的作用。3.2.4计

29、算网页权值搜索引擎返回给用户的，是一个和用户查询相关的结果列表。列表中条目的顺序是很重要的一个问题。不同的顺序达到的结果是不一样的，因此搜索引擎实际上追求的是一种统计意义上的满足。例如：人们认为用Google查询比较好，是因为在多数情况下Google返回的内容要符合用户的需要。如何对查询结果进行排序有很多因素需要考虑，如何理解一篇网页比另一篇网页重要了？人们参照科技文档重要性的评估方式，核心思想就是“被引用多的就是重要的”。引用这个概念恰好可以通过在网页之间的超链接进行体现，谷歌的PR值就是这种思路的成功体现。初次之外，人们还注意到网页和文档的不同特点，即一些网页主要是大量对外的链接，其本身基

30、本没有一个明确的主题内容，而另外有些网页则被大量的其它网页链接。从某种意义上讲，这形成了一种对偶的关系，这种关系使得人们可以在网页上建立另一种重要性指标。这些指标有的可以在网页处理阶段计算，有的则要在查询阶段计算，但都是作为在查询服务阶段计算机，但作为在查询服务阶段最终形成结果排序的部分参数。3.3查询服务为了完成查询服务，需要有相应的元素来进行表达，这些元素主要有：原始网页文档、URL和标题、编号、所含的重要关键词的集合以及它们在文档中出现的位置信息、其它一些指标，如重要程度，分类代码等等。用户通过搜索引擎看到的不是一个“集合”，而是一个“列表”。如何从集合生成一个列表，是服务子系统的主要工

31、作。服务子系统是在服务进行的过程中涉及的相关软件程序，而网页处理子系统事先为这些软件程序准备了相应的数据。服务子系统的工作原理，主要有以下四个方面。分别是查询方式和匹配，索引库的建立，结果排序和文档摘要。其中查询方式和匹配是指系统允许用户提交查询的形式。对于普通用户来说，最自然的方式就是“需要查询什么就输入什么”。比如：用户输入“孝感学院”来查询他们想知道的相关信息。如今用一个词语或者短语来进行查询，是目前主流的查询模式，因为这种模式比较假单，比较容易实现。 4 Web信息检索Web信息检索系统的设计思路和具体实现各不相同，不同的搜索引擎会涉及一些类似的关键技术：文档搜集、文档预处理、索引数据

32、库的建立以及相似度计算和排序。4.1 Web信息检索基础文档搜集和文档预处理是Web检索的基础工作。其中文档搜集指的是spider利用http协议对Web进行遍历并下载网页，将搜集来的网页保存于文档库中。从前面介绍的可以知道，一个搜索引擎目前是不可能搜集到互联网上所有的网页的，主要的限制来自于当前的技术，例如：搜集技术，存储技术等。那么搜索引擎是如何去分辨搜集的了？搜索引擎的spider只搜集相对重要的网页。那么哪些网页重要了？主要的判别就是网页链接别引用的多，那么这些网页就是权重比较高的。对于一个网站来说，搜索引擎一般不会把整个网站的目录扫描完，换句话说搜索引擎设置了访问文件夹的深度，也就是

33、一般所谓的“层次”。例如一个网站的logo路径为：此时计算到logo.gif的层次就为4层了。各个搜索引擎对层次的要求都要一定的差别，取一个中间值3层是比较适合的。如果层次过多，也许spider是抓取不到的。上面提到搜索引擎搜索是的层次问题，与之相关的三个问题也是不容忽略的。我们在建站时是需要考虑的。第一：动态网站或者脚本语言问题。spider抓取的是静态网页，但是遇到asp、php、这种动态网页该如何去处理了？或者更难处理的一些如Javascript等等的脚本语言了？一般处理这种动态网页或者脚本语言，是spider自带了解释程序，但是这一并不是完全的。因此我们在做网站时候，需要考虑将网站的

34、内容静态化，当然伪静态也可以，例如：地址：第二：spider抓取周期问题。在互联网上有若干网站，有的网站更新频率是比较高的，有些并不高，前面提到spider会安装程序提供的周期去扫描网站，根据扫描结果去判断网页的各种状态，从而产生相应的动作。此时如果搜索引擎的更新周期太长，那么会有即时信息在搜索引擎上是搜索不到的，如果周期过短，搜索引擎的技术难以实现，同时带宽浪费比较严重，对服务器的要求也是非常高的。搜索引擎针对这个问题，采取的方法是：根据不同的网站采取不同的更新周期去抓取网页内容。例如：对于新闻发布类的网站，spider抓取周期是比较快的，一般几个小时就可以更新一次，有的甚至更短。Spide

35、r抓取网页的时候不是每一次都把网页浏览一遍，一般是根据日期去判断的，根据日期对比来进行网页的抓取。第三：网站访问权限问题。我们知道有些网站提供VIP会员制度，VIP与普通会员对于网站资源或者内容访问的权限是不相同的，或者一个网站的资料是有偿阅读的，网站主人肯定不希望让搜索引擎把这种内部资料公布于互联网上的。搜索引擎提供一个协议：Robots.txt协议，网站主人通过这个协议去控制各个搜索引擎的spider去抓取相应的网页。关于Robots.txt协议后面会有相关的具体实例。当搜索引擎把网页抓取后，需要进行一系列的处理，比如对搜索的网页内容进行关键词提取，分词，无用信息过滤等等工作。4.2 We

36、b信息检索核心索引数据库的建立以及相关度排序是信息检索的核心。索引数据库的建立是建立在网页预处理基础上，也就是网页预处理后，再建立索引数据库。相似度计算和排序是通过搜索引擎技术把相关的文档根据质量给予不同的排名。首先分析一下索引数据库的相关知识，我们知道当面对大量文档数据库时，采用一般的匹配方法肯定是不行的。而是需要建立对文档的表示建立索引。搜索引擎每天都面临大量的用户搜索信息，因此搜索引擎的检索算法效率要高，要将运算的工作在索引建立时完成。索引结构的质量关系到Web信息检索系统的性能。一个好的索引结构应该易于建立和维护，并且保证信息更新及时。目前对大规模文档快速检索采用的是倒排文件，它能够简

37、单高效的对文档数据索引。倒排文件中，Web文档集合中出现的每一个索引项均对应一个倒排列表项，倒排文件可以组织多种形式，每个列表项纪录了很多的信息，通过这样使查找用户查询中包含的索引项对应的倒排序列表项可以检索到文档。然后一起来分析一下相关度排序。各大搜索引擎使用各不相同的相关度排序方法，主要有以下四种：第一种：链接分析法，张网页被链接的次数越多，同时链接的站点权重较高，那么这个网页的权重就比较高。第二种：关键词频率法，一张网页中出现关键词的频率越高，其排序就越靠前，搜索引擎给予的权重就越高。第三种:付费竞价法,这是一种商业气息比较浓的排序方法,哪个网站付费越高,其网站的关键词在该搜索引擎上的排

38、名就越高。第四种：点击统计法，一张网页被点击的次数越多,此网站被搜索引擎认为越受欢迎,其关键词被排名就越高.以上四种不同的方法有不同的侧重点，有的搜索引擎也结合了上面的两种或多种方法，即几种方法并存。四种相关的排序方法中链接分析法是比较常用的一种有效方法。例如：Google使用的就为链接分析法。下面就来介绍链接分析法。目前有很多搜索引擎使用链接分析法，一般链接分析法都有一个共同点：更多的被其它页面链接的页面是质量更好的页面，并且从更重要的页面出发的链接有更大的权重。链接算法中最有名的还是要属于Google搜索引擎中的PageRank（PR）链接分析法。虽然在2010年4月，谷歌确认最后一次全面

39、更新PR值，在2010年10月，谷歌的员工证实PR值不更新了。但是这不意味着Google就放弃了链接算法。Google目前采用的是以PR为基础的算法改进的，并且还结合了关键词频率法得到的权值、用户行为分析等等众多因素进行综合分析计算，以此得到最终的权值，然后在根据权值进行排序。由于PR算法是对Web整体进行分析，通过模拟用户自Web上的随机链接访问对每一个网页计算其PR值。该方法是独立于用户查询的，可以对用户的要求产生快速的响应。PR是表示网页重要性的综合性指标，得到了高评价的重要网页会被给予较高的PR值，也就是网页等级的权值。Google的PR值一共用10个等级，为1到10。如果一个网页等级

40、的权值越高，那么在检索结果内的名次就越高。PR给出每一个页面的网页等级的权值，作为搜索引擎结果排序的一个参考，权值越高的页面就排在越前面。5 Web搜索技术我们知道在浩瀚的互联网上查找我们需要的信息，最好的方法就是使用搜索引擎，一般的搜索引擎在为我们反馈我们查找的信息时需要经历3个阶段。下面大致分析下：第一:发出spider，让它在互联网中检索，收集信息。第二：对spider收集回来的信息进行处理，一般是对信息进行过滤，提取，分类，然后建立索引库。第三：搜索引擎根据用户输入的需要查询的关键词，快速在索引库中检索出相关文档信息，然后与用户查询内容进行比较，再根据结果排序，最后把合适的查询结果返回

41、给用户。Web搜索技术的一些技术指标和特殊组成部分下面一起来分析一下。5.1搜索引擎主要指标Web搜索技术指标比较重要的几个参数有受欢迎程度、准确率、响应时间、建立索引方法和相关性等等。上面有些参数在前面提到过，现在就主要说明几个参数。1. 受欢迎的程度用户越喜欢一个搜索引擎，越喜欢利用搜索引擎搜索信息，则这个搜索引擎越受欢迎。一个搜索引擎受欢迎程度越高，其知名度就越高，性能越稳定，搜索质量就越高，越能满足用户的要求。归根结底一个搜索引擎受欢迎程度主要取决于搜索引擎的技术和服务能力，一个搜索引擎的技术实力强大，能够满足用户的各种需求；而一个搜索引擎的服务能力不仅要考虑自身的技术外，还需要时时刻

42、刻为用户考虑，站在用户的角度去看待问题。所以一个搜索引擎需要提供的信息要准确、精确。2. 准确率当我们在搜索引擎中查找需要了解的信息时，肯定需要立即找到准确，有用的信息，而不是大量垃圾而无关紧要的信息。这个就要涉及到搜索引擎的搜索准确率这个概念；Web搜索的准确率不仅要使有用而准确的信息排名靠前，而且要能够分辨垃圾网页垃圾信息，也就是所谓的网页抗干扰性。一般搜索引擎的spider有判断网页的信息是否可用，网页是否垃圾的功能，因此收集垃圾网页的概率就大大的降低。3. 相关性搜索引擎判断相关性主要是指关键词和网页直接的相关，一般的判断二者之间的关系主要是由两个参数来决定。一是关键词位置，当一个关键

43、词在网页位置的前面部分，例如：title、keywords标签位置，那么这个关键词就对网页来说是比较重要的；二是关键词密度，也叫关键词频率，是指整个关键词在页面中的出现的总次数，次数越多，其关键词密度或者关键词频率就越高。5.2搜索引擎爬虫（Spider）搜索引擎爬虫也叫网络爬虫、网络蜘蛛、蜘蛛程序和spider。以下简称为爬虫。它是一个自动抓取网页的程序，是搜索引擎的主要组成部分。爬虫在浩瀚的互联网上爬行网页，为搜索引擎抓取大量的数据。那么爬虫是如何工作的了？它是通过一个链接地址来寻找网页，找到网页之后，一般是从网站首页开始，从上往下抓取网站的内容，如果在网页中发现其他地址，则通过这个地址爬

44、行到其它网页。就这样一直爬行下去，把网页都抓取完。我们可以把整个互联网想象成为一个网站，爬虫利用上面提到的方法去抓取整个网站，可以想想实现爬虫的功能是及其复杂的。我们知道互联网上的网站网页链接关系没有规律，错综复杂。爬虫在爬行时会遇到很多分支，当遇到分支时候，需要各个爬行沿分支平爬行和抓取。但是也不是随便爬行，需要给它一定的规则，目前世界上是没有任何搜索引擎的任何爬虫能够爬行互联网上的所有网页的。爬虫开始爬行时候，需要提供一个URL列表，列表中的URL则是爬虫的起始地址，爬虫根据这些URL出发，开始互联网的爬行工作，爬行中发现新的URL后，继续根据这些URL爬行，如此工作下去。这个里面有一个名

45、词需要提示一下：DNS缓冲。何谓DNS缓冲?一般爬虫都有自己的DNS缓冲，建立它是为了加快URL解析成IP地址的速度。爬虫抓取网页内容是比较复杂的，一般抓取方法或者说策略有：广度优先、深度优先、网页抓取优先、不重复抓取、网页重新访问和网页抓取提速等。1. 广度优先广度优先策略也可以叫做层次优先，它是根据分层来进行不断遍历，第一层的优先级是最高，依次往下逐一降低。它不需要记录上次爬行的分支节点，因此比较容易控制。根据广度优先策略不难推测出它在抓取上的优点。一是：第一层的优先级最高，此时就相当于网站的根域名，靠近第一层的网页其优先级比较高，这和网页的等级权重是一致的。一般我们通过一个网站的导航条去

46、逐次点击下去，到最后会看到终点链接，当然网页权重也是逐渐降低的；二是：由于广度优先是采用分层的思想，比较适合爬虫的分布式处理，那么搜索引擎可以发出多个爬虫，根据层次分配爬虫；三是：我们知道到达一个网页的路径有多种，有的路径比较长，有的短，那么我们可以根据广度优先策略找到一条最短路径。2. 深度优先在面向对象编程技术中，核心之一的继承，由父类派生子类，有的语言还可以继续派生。这和古代的帝位继承制度也十分相似，一般的是长子继承，如果长子不幸去世，则由长孙继承，而不是次子，如果长孙去世且长孙无子，则有次子继承。类似与这个机制的关系也被叫做深度优先。爬虫在爬行过程中需要做一些判断，例如：这个网站是否已经被爬过？什么时候爬行停止？爬行分支是否统计？IP是否为国外的（对于中文检索的搜索引擎要判断是否是国内IP，如果为国外则放弃爬行）？通过上面的描述，我们不难发现，深度优先是让爬虫爬行到最远，但是又不能毫无节制的去爬行，要有一个比较好的算法来控制爬虫爬行重复路径。一般可以手动设置爬行的深度，具体几层，视情况而定。3. 网页抓取优先顾名思义，爬虫优先抓取权重较高的网页，一般爬虫先抓取权重比较高的网站的网页，例如:一个网站的首页或者重要栏目页。这样本来与一般抓取没有什么明显的区别，但是在资源消耗完时，能够保持一些权重较高的网页。一张网页的权重是否高，需要从一些方面考虑，首先是其链接