搜索引擎之爬虫研究现状简介.ppt
《搜索引擎之爬虫研究现状简介.ppt》由会员分享,可在线阅读,更多相关《搜索引擎之爬虫研究现状简介.ppt(18页珍藏版)》请在三一办公上搜索。
1、搜索引擎,爬虫研究现状简介,目前主要的热点研究方向,聚焦爬虫技术智能爬虫技术高性能爬虫技术,聚焦爬虫(Focused Crawler),对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的不足,提出了面向主题的聚焦爬虫的研究。现在,聚焦爬虫已成为爬虫的研究热点之一。,什么是聚焦爬虫,聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(generalpurpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关
2、的网页,为面向主题的用户查询准备数据资源。,主要策略,基于内容评价的策略基于链接结构策略基于未来目报价值评价的策略基于“综合价值”评价的策略基于“动态”价值评价的策略(基于“动态”价值评价的搜索策略问题的研究受到重视。),例子,“个性化”搜索引擎的研究专业搜索引擎的研究(垂直搜索),研究的现状,国内:1北京理工大学 汪涛等 20042.南京大学 王超等 2004国外研究较多,智能爬虫,随着动态网页技术的发展,网络爬虫越来越困难了。很多动态网页是搜索不到的,例如bbs系统,聊天室系统等。还有很多页面是需要注册为用户并登录才可以看到。所以网络爬虫技术也在逐步发展。智能网络爬虫具有一定的人工智能,它
3、能够自动检测这个网页是否需要注册并登录,然后可以自动登录,看到所有的页面。,智能爬虫,利用网络爬虫技术发展出来的新的网络技术。这种检测爬虫可以自动登录到聊天室、论坛等系统,并随时检查各种信息,从中过滤出敏感信息来。并且可以将敏感信息的来源直接定位到ip地址(这个结合路由器和嗅探器是可以做到的),并且爬虫可以跟踪某个敏感话题的发展,并判断其影响力。爬虫不但可以跟踪网页形式的信息,还可以结合qq的协议,泡泡的协议等,直接检测这些信息。,智能爬虫,数据挖掘是近年的一个研究热点,其中的web挖掘的研究很多结合了网络爬虫的研究。聚焦爬虫和智能爬虫的界限不是十分明显。,研究现状,华东师范大学计算机应用研究
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 爬虫 研究 现状 简介

链接地址:https://www.31ppt.com/p-6575438.html