《搜索引擎的基本工作原理.ppt》由会员分享,可在线阅读,更多相关《搜索引擎的基本工作原理.ppt(45页珍藏版)》请在三一办公上搜索。
1、总课时:64,网络搜索引擎优化SEO班课程,网络搜索引擎优化SEO班课程,总课时:64,搜索引擎的基本工作原理,讲课人:杨波,SEO概念 什么是SEO,SEO:搜索引擎优化利用搜索引擎的搜索规则来提高网站在搜索引擎的自然排名并以获得网站流量为目的的技术和过程。SEO研究对象:搜索引擎结果页面上的自然排名部分2.SEO不仅仅对网站排名负责,更是对网站的网站结构、用户体验、网站流量等负责。,SEO概念 什么是SEO,SEO概念 为什么要做SEO,1.SEO是给网站带来访问者的最好方法,SEO概念 为什么要做SEO,2.搜索流量质量高:其他的网络推广方法都是把网站推到用户眼前,用户本没有访问你的网站
2、的意图,来自搜索的用户在主动寻找你的网站,目标非常精准,转化率高。3.长期有效:网络广告,ppc等一旦停止投放,流量立即停止,而SEO,搜索排名一旦上去,可以维持很长一段时间,流量源源不断。,SEO概念 为什么要做SEO,4.可扩展性:只要掌握了关键词的内容扩展方法,网站可以不停的增加目标关键词及流量。,SEO概念 为什么要做SEO,5.性价比高:SEO不是免费的,但确实相对成本较低,SEO概念 为什么要做SEO,6.搜索引擎是带来网站流量最好的方式,但搜索引擎的排名不是由你来决定的,想办法提高网站排名、获得搜索流量,这就是我们为什么要做SEO,二、认识搜索引擎,认识搜索引擎 什么是搜索引擎,
3、搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。,认识搜索引擎 搜索引擎工作原理,一、爬行和抓取蜘蛛:搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)各主流搜索引擎蜘蛛的 名称:百度:BaiduspiderGoogle:Googlebot雅虎:Yahoo!+Slurp微软MSN:msnbot搜狗:Sogou+web+spider网易有道:YoudaoBot腾讯搜搜:Sosospider,认识搜索引擎 搜索引擎工作原理,2.跟踪链
4、接:为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,最简单的爬行策略分为两种,一种是深度优先,另一种是广度优先。,深度优先,广度优先,深度优先和广度优先通常是混合使用的,这样既能照顾到尽量多的网站(广度优先),也能照顾到网站的内页(深度优先)。,认识搜索引擎 搜索引擎工作原理,地址库:未来避免重复爬行和抓取,搜索引擎建立记录已经被发现还抓取或未被抓取页面的地址库。4.文件存储:搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。每个URL都有一个独特的文件编号。,认识搜索引擎 搜索引擎
5、工作原理,二、预处理(提取文字、中文分词、去停止词、消除噪声、去重、正向索引)提取文字:搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容。去重:搜索引擎不喜欢重复性的内容。对来自不同网站的同一篇文章,搜索引擎希望只返回其中的一篇,所以搜索引擎进行了识别和删除重复内容。去重解释了为什么收录量增加后又减少的原因,也告诫我们原创的重要性,课堂导入,在浩如烟海的Internet上,特别是其上的Web(World Wide Web万维网)上,不会搜索,就不会上网。(提问)同学们,都经常上网,知道有哪些搜索引擎吗?你怎样运用它们为自己服务的?你了解搜索引擎
6、吗?它们是怎么工作的?今天我就和大家聊聊搜索引擎的话题。,搜索引擎原理的概念,搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。,搜索引擎的分类,获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录(Direct
7、ory)。,全文搜索VS分类目录,全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。,分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如网址之家http:/,全文搜索VS分类目录,全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准
8、确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,比如Google的全文搜索();把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,比如新浪搜索()和雅虎中国搜索()。,搜索引擎的工作原理,全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器
9、人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。,搜素引擎的工作原理,全文搜素引擎,我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。,分类目录,分类目录的整个工作过程分为:收集信息分析信息查询信息,分类目录,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分
10、类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。,案 例,如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的UR
11、L地址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。,主要的搜索引擎介绍,这里介绍的是在国内外影响比较大的主要的一些搜索引擎和分类目录站点,由于现在的站点一般都同时提供全文搜索和分类目录两种服务,所以我们按照其自有的技术进行分类和介绍。,Google,Google()。
12、Google成立于1997年,几年间迅速发展成为世界范围内规模最大的搜索引擎。Google数据库现存有42.8亿个Web文件,每天处理的搜索请求已达2亿次,而且这一数字还在不断增长。Google借用Dmoz(http:/dmoz.org/)的分类目录提供“网页目录”查询(),但默认网站排列顺序并非按照字母顺序,而是根据网站PageRank的分值高低排列。,Google的操作界面,百 度,百度()。百度是国内最早的商业化(早期为其它门户网站提供搜索服务,现在的竞价排名更是日进斗金)全文搜索引擎,拥有自己的网络机器人和索引数据库,专注于中文的搜索引擎市场,除有网页搜索外,百度还有新闻、MP3、图片
13、等搜索,并在2003年底推出“贴吧”、按地域搜索等功能。,百度的操作界面,雅虎中国分类目录,雅虎中国分类目录()。雅虎中国的分类目录是最早的分类目录,现有14个主类目,包括“商业与经济”、“艺术与人文”等,可以逐层进入进行检索,也可以利用关键词对“分类网站”进行搜索()。此外,雅虎中国也可以对“所有网站”进行关键词搜索(),早期,他的搜索结果使用Google的数据,2004年2月正式推出自己的全文搜索引擎,并结束了与Google的合作。,中国雅虎,新浪分类目录,新浪分类目录()。新浪的分类目录目前共有18个大类目,用户可按目录逐级向下浏览,直到找到所需网站。就好像用户到图书馆找书一样,按照类别
14、大小,层层查找,最终找到需要的网站或内容。通过和其它全文搜索引擎的合作,现在,也可以使用关键词对新浪的“分类网站”或“全部网站”进行搜索。,新浪搜索,概述,搜索引擎的原理,可以看做三步:从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。,三、关键词,关键词 什么是关键词,什么是关键词:关键词是用户在搜索引擎上寻找相关内容时输入的词语、词组。简单的说:关键词,就是用户输入搜索框中命令搜索引擎寻找的东西,可以是产品名称、服务等,关键词 如何选择关键词,内容相关:关键词必须与网站内容有相关性。排名相对容易,且提高网站的用户体验、转化率。2.关键词的数量:一般不超过4个主打关键词。极少人能将4个
15、主打关键词优化到搜索引擎首页。,关键词 如何选择关键词,关键词的竞争度不宜过大,也不宜过小。竞争度过大的关键词很难优化到首页,且这样的词语一般的转化率不高,竞争度过小的词语,很少有人搜索,做到首页后意义不大。,关键词 如何选择关键词,符合用户搜索习惯网址作为关键词,无人搜索,除了站长外没有人在知道网址的情况下,还去搜索引擎搜索网址的。上海搜索引擎优化=上海SEO,虽然词语意思是一样的,用户搜索习惯是搜上海SEO,总结,总结,SEO概念什么是SEO 从搜索引擎的自然排名中获得网站流量的技术和过程为什么要做SEO 从搜索引擎上获得网站流量认识搜索引擎什么是搜索引擎 将用户检索相关的信息展示给用户的系统搜索引擎工作原理 蜘蛛爬行、抓取、存储后进行预处理关键词什么是关键词 用户输入搜索框中的文字如何选择关键词 内容相关、竞争度把握、符合用户习惯,同学们都了解了吗?,Thanks for listening!,
链接地址:https://www.31ppt.com/p-6575455.html