欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > DOCX文档下载  

    百度搜索引擎原理.docx

    • 资源ID:3668614       资源大小:38.66KB        全文页数:4页
    • 资源格式: DOCX        下载积分:6.99金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要6.99金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    百度搜索引擎原理.docx

    百度搜索引擎原理百度搜索引擎原理 抓取网页 每个独立的搜索引擎都有自己的网页抓取程序。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 处理网页 搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词、判断网页类型、分析超链接、计算网页的重要度/丰富度等。 提供检索服务 用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提 取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 你的网页被搜索引擎索引的越多,网站被用户访问的机会就越多。多数搜索引擎“拒 绝”所递交URL的第二级或第三级以下层次网页的索引,如果你的网站有4-5级层次, spider就不带回网站的所有网页,解决的办法之一就是做一个“通道页”(hallway page),“通道页”放置你网站的所有链接。 下面解释一下搜索引擎如何spider你的网站,假如你有一个网站Chinese food,并向搜索引擎注册了网站的首页,首页即为树状结构的根部,如果首页包含两个链接, 分别指向sichuan-food.htm和guangdong-food.htm,则这两个网页就是第二级,在 sichuan-food.htm有链接指向chengdu-food.htm,则chengdu-food.htm为第三级,在 chengdu-food.htm有链接指向special-food.htm,则special-food.htm为第四级,如此类推。 第一级 index. htm 第二级 sichuan-food.htm和guangdong-food. htm 第三级 chengdu-food. htm 第四级 special-food. htm 多数搜索引擎“拒绝”索引第二级或第三级以下的层次,也就是说,第四级的所有网 页(对某些搜索引擎包括第三级的所有网页),将不能被搜索引擎发现,除非你直接注 册这些网页,但不建议直接注册这些网页,因为这样将降低你的排名位置,并且容易 超过搜索引擎规定的每日注册限制。这就是为什么要专门制作一个“通道页”的原因。 2、“论资排辈” 对于同一域名,某些搜索引擎限制接收的网页数,所以建议你在“通道页”中按网页的重要程度排序链接,而且每个“通道页”中的链接数应控制在50个以内。 最新冷笑话 银行利率网 银行贷款利率 黄金价格查询 汇率查询网 杭州艾玛医院 3、耐心 搜索引擎需要1天到6周的时间,以便把你的网页加入到其数据库中。在注册网站的首 页或“通道页”后,对第二级和第三级的网页,还需要多等待1到2周,并且随着网页 级别的降低,多数搜索引擎对网页的访问优先权也降低,然而有趣的是,一旦搜索引 擎把低级别的网页加入其索引数据库中,这些网页排名位置常常比直接注册高。 4、考虑多个域名 对于同一域名,很多搜索引擎限制加入到其数据库中的网页数量,每个搜索引擎限制 数不一样,一般地讲,在400个左右,但也有例外。如果你的网站有很多的网页,可 以考虑申请不同的域名,以便在搜索引擎中加进更多的网页。 5、避免CGI程序产生网页 大多数搜索引擎拒绝索引由CGI程序产生的网页,这种网页的URL地址通常包括问号 “?”和连接号“& ”,这些符号的作用是用来分隔参数的,如下所示: 6、检查你的网页的有效性 要经常检查网页在搜索引擎中的情况,也许你的竞争对手排在了你的前面,也许你的 网页莫明其妙地消失,你可利用某些网站提供的排名监测服务来进行监控,也可亲自到搜索引擎中查询你的网站。 7、经常更新 为鼓励网页更新,搜索引擎将清除长期没有更新的网页,所以,你应周期性地更新你 的主页内容,但对已在搜索引擎排名很高的网页来说,你应仔细考虑更新是否危机已 有“地位”。 8、重新注册 每次重新注册都应有原因,或排名降低,或网页更新,间隔时间可一周一次,或一月 一次,但不能向目录引擎(如Yahoo!)重新注册。 9、位置是最重要的 把你的网页加入到搜索引擎数据库并不困难,但多数人错误地认为网站加入到数据库 就万事大吉了,你还得继续非常重要的下一步,争取你的网站排在搜索引擎前十名到 二十名。

    注意事项

    本文(百度搜索引擎原理.docx)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开