web service的网络爬虫设计与实现.doc
《web service的网络爬虫设计与实现.doc》由会员分享,可在线阅读,更多相关《web service的网络爬虫设计与实现.doc(73页珍藏版)》请在三一办公上搜索。
1、毕业设计(论文)说明书学 院 软件学院 专 业 软件工程 年 级 07级 姓 名 指导教师 2011年 6 月 15 日毕业设计(论文)任务书题目:面向web service的网络爬虫设计与实现学生姓名 学院名称 软件学院 专 业 软件工程 学 号 指导教师 职 称 教授 一、 原始依据(包括设计或论文的工作基础、研究条件、应用环 境、工作目的等。) Web Services技术是一种基于XML语言和标准的网络协议实现的分布式计算技术。Web Services技术是可以改变软件产业面貌和软件应用模式的技术之一。Web Services技术可以将Internet上的各种信息资源和服务功能整合在一
2、起,在任何时间、任何地点向用户提供优质的服务。Web Services技术还有助于改变企业对IT系统的应用方式和依赖程度。所以Web Services技术成为了网络上的主流技术之一,随之也来的是大量的开发人员开始开发Web服务,随着时间的推移,网络上出现了大量的Web 服务。但是,大量的Web服务分布在网络中的各个地方,给用户寻找特定功能的服务造成了不小的麻烦,也给服务开发者在原有的服务上进行再次开发造成了不便。本课题的任务就是研究如何把网络上分散的Web服务搜集在一起。二、 参考文献1孙立伟,何国辉,吴礼发;网络爬虫技术研究;Computer Knowledge and Technology
3、 电脑知识与技术;Vol.4,No.15,May 2010,pp.4112-41152李盛韬,余智华,程学旗.Web信息采集研究进展【J】.计算机科学,2003.3S.Chakrabarti,M.van den Berg and B.Dom.Focused Crawling: A New Approach to Topic-Specifi Web Resource DiscoveryC.In Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999.4郑力明,易平;Design o
4、f Crawler Based on HTML Parser Information Extraction;微计算机信息,Microcomputer Information;09,June,2009。 5J. Cho, H. Garcia-Molina. The evolution of the web and implications for an incremental crawler C. In Proceedings of the 26th Inter-national Conference on Very Large Database, Cairo, Egypt, 2000. 6李文
5、泽;个性化垂直搜索引擎研究;河南大学;2007-11-07;7曾伟辉,李淼. 深层网络爬虫研究综述J. 计算机系统应用, 2008. 8周立柱 ,林玲. 聚焦爬虫技术研究综述J.计算机应用, 2005年9月.9S. Chakrabarti, M. van den Berg and B. Dom. Focused Crawling: A New Approach to Topic-Specific Web Resource Discovery C. In Proceedings of the 8th International World Wide Web Conference, Toronto
6、, Canada, 1999. 10陈汶滨,夏学梅. 基于聚焦爬虫的手机天气预报系统J. 今日科苑. 2009年第2期.11邱哲,符滔滔. 开发自己的搜索引擎-Lucene 2.0+Heritrix. 人民邮电出版社, 2007-4.12罗刚. 自己动手写网络爬虫. 清华大学出版社. 2010-10-1;13Heritrix官方网站EB/OL. crawler.archive.org14seeda网站EB/OL. 15网络爬虫EB/OL. 三、设计(研究)内容和要求(包括设计或研究内容、主要指标 与技术参数,并根据课题性质对学生提出具体要求。) 本系统将要达到以下目标:l 提供给用户一个种子文
7、件,用户可以设置抓取Web服务的网站地址。l 根据种子地址,搜索种子网站上的Web服务。l 把搜索到的Web服务相关信息存入数据库中。为了达到以上目的,本系统将对Heritrix开源框架进行扩展,并针对服务网站上服务的特点选择合适的爬虫抓取过程。当服务网站提供了详细的服务信息,且网站服务的分布结构是有规律的,那么通过对网站结构的分析,可以得到网站中服务分布的一颗树,并用形式化语言描述这棵树,而经过扩展之后的爬虫对这颗树进行遍历,就实现了抓起网络上分布的Web Service。当服务网站没有提供服务的信息,只提供了WSDL文档的URL,那么就遍历网站中所有的本网站的网页,并判断网页中的链接是否是
8、WSDL文档的URL,如果是,就下载该WSDL文档。 指导教师(签字)年 月 日审题小组组长(签字)年 月 日天津大学本科生毕业设计(论文)开题报告课题名称Web Services 网络爬虫学院名称软件学院专业名称软件工程学生姓名指导教师冯一、 课题来源及意义: 互联网上的服务数量正快速的增长,分布在不同的网站上,导致服务的用户需要在不同的网站之间寻找一个或者多个符合自己需求的服务,对于服务开发者来说,他们无法快速、准确的得知现有的服务开发现状,服务开发者无法重用现有的服务,重复开发已有的服务,导致一个糟糕的服务开发环境。 本课题的任务是抓取互联网上分散的服务,具有重要意义:本系统把互联网上的
9、服务都收集起来,并存储在本地数据库。用户或者服务开发者就可以在基于该本系统数据库的搜索引擎中查找到所有的互联网上大部分的服务,节省了在不同网站间查找服务的时间。服务用户可以快速、准确的找到符合自己需求的服务,服务开发者可以快速得知服务开发现状,避免重复开发,并且可以利用现有服务进行组合开发等。二、 国内外发展状况: 收集互联网上的信息的系统被称为网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),它是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。网络爬虫按照系统结构和实现技术,大致可以分为以
10、下几种类型1:通用网络爬虫2、聚焦网络爬虫8、增量式网络爬虫5、Deep Web爬虫7。通用网络爬虫2又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web ,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。通用的网络爬虫大多应用于大型门户网站或类似于google这样的搜索引擎15。 聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler ),是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫3。随着垂直搜索的蓬勃发展,聚焦网络,也就是主题网络爬虫成为研究的前言,4提出通过深入分析生活类
11、网站网址的树形结构的架构,开发了收集种子页面的URL的模拟搜集齐,并基于HTMLParser的信息提取方法,从种子与页面中提取出与生活类主题相关的目标URL。增量式网络爬虫(Incremental Web Crawler) 5是指对已下载网页采取增 量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上 保证所爬行的页面是尽可能新的页面 。本课题研究的是针对Web服务的聚焦网络爬虫技术。因为聚焦网络爬虫技术能最快的,最准确的搜索Web服务信息。本课题并不是重新开发一个爬虫程序,而是在现有爬虫开源框架的基础上进行扩展。现有的网络爬虫框架有很多,例如:Heritrix、Nutch、
12、Larbin、J-Spider等。Heritrix13是一个由Java开发的、开源的Web网络信息采集程序。和其他开源的爬虫程序相比,Heritrix的优势在于它的扩展性,开发者可以扩展它的组件,来实现自己的抓取逻辑6。现已有很多应用是在Heritrix上开发的。例如:基于聚焦爬虫的手机天气预报系统,它是在Heritrix的基本功能上进行扩展11和修改12。 由以上对爬虫类型和爬虫框架的发展现状分析,本课题使用Heritrix开源框架,并通过分析网络上分布Web服务的网站的树形结构的架构,实现针对Web服务主题的网络爬虫。三、 目标和内容:我的研究目标是:把互联网上广泛分布的Web Servi
13、ce搜集起来,把相关信息存入数据库,存在两种情况:第一种情况:网站上的服务提供了关于服务的相关信息,那么本系统需要在抓取服务wsdl文档的同时,获取服务的相关信息。针对这种情况,主要的研究内容如下:1.开源框架Heritrix的扩展 因为现有的开源爬虫框架Heritrix提供了网络搜索的基本结构,所以,我会扩展Heritrix框架,使该框架适用于本系统。a. 重新改写Heritrix框架处理流程中的过滤链,以过滤不需要访问的网页。b. 重新改写Heritrix框架处理流程中的提取链,以提取网页包含的信息。c. 重新改写Heritrix框架处理流程中的写链,以下载搜索到的wsdl文档。 2.对网
14、站服务分布结构的分析a. 对网站所有Web Service的分类页面进行分析,分析出含有所有Web Service的种类URl的table表格结构和URL的结构。b. 对某类别Web Service页面进行分析,分析出含有所有该类别Web Service的详细信息页面URL的table表格结构和URL的结构。c. 对Web Service详细信息页面进行分析,分析出包含所有与该Web Service相关的信息的table表格结构。通过对网站结构的分析,可以得到网站中服务分布的一颗树,并用形式化语言描述这棵树。采用数据结构中的树结构来描述网站服务的分布树,而经过扩展之后的爬虫得到根节点,并通过根
15、节点对整棵树进行遍历,就实现了抓起网络上分布的Web Service。第二种情况:网站上只提供了服务的wsdl文档的url,没有其它信息,那么本系统就只需要抓取服务的wsdl文档,也就不需要分析网站服务分部结构。针对第二种情况,主要的研究内容如下:重新改写Heritrix框架处理流程中的写链,以下载搜索到的wsdl文档。利用httpClient编写下载wsdl程序。四、 方法和手段:在扩展Heritrix框架的过程中,遇到的问题或者使用的插件如下:1. 在改写Heritrix框架的提取链时,需要从分析网站结构中得到需要遍历的网页URL。2. 在改写Heritrix框架的写链时,涉及到访问远程服
16、务器,下载wsdl文档。解决该问题时,我们用到了HTTPClient插件,该插件能够实现下载远程服务器上的文档,还可以设定连接时间等。3. 由于Heritrix框架提供了完善的UI界面操作,但是没有提供完整的代码启动程序,同时本课题需要把爬虫启动操作嵌入到其他程序中,所以需要编写Heritrix的代码启动模块。在分析网站结构时,需要用到HTMLParser插件,该插件能够实现对网页的详细分析,包括获取所有网页标签信息等功能。利用该插件,我们可以准确无误的获取服务的所有详细信息。在分析网页结构时,需要人工对网页的包含信息的标签进行分析,得到该下信息分布的情况,然后使用HTMLParser准确定位
17、到需求信息的位置,并提取信息。分析网站结构过程如下:1. 提供一个包含所有Web service类别的网页的URL,分析该网页,用以上分析页面的方法提取出所有的类别页面的URL,取出一个服务类别页面URL。2. 并对该类别页面进行分析,提取出所有的Web service详细信息页面的URL。3. 对详细信息页面进行分析,提取出所有与Web service相关的信息。4. 把这些相关信息存入到数据库中。5. 提取下一个类别URL。并重复2步骤。 爬虫无限循环执行对页面的分析,直到没有未访问过的URL存在。五、可行性分析:网络上Web服务的飞速增长,例如网站的服务数量达到了2万多个,且服务的种类很
18、多,为本系统提供了非常好的搜索源。并且网站的分布结构十分清晰,有利于我们设计简单有效地搜索策略。同时网络爬虫技术的飞速发展,各种爬虫开源框架的出现,为我们的爬虫系统提供了良好的技术基础。在开源框架的基础上,结合对Web服务网站的结构分析,就可以实现对网络上分布的Web服务抓取。六、 进度安排:1. 学习与爬虫相关的基本知识,10.11.20至11.1.20。 2. 概念抽象,对于web services 爬虫的分析和设计,11.1.20至11.3.10。3. 构建web services 爬虫,11.3.10至11.4.10。 4. 编程实现与爬虫测试,11.4.10至11.5.1。5. 基于
19、此系统,完成论文,提出自己的主张,11.5.1至11.6.10。七、 参考文献:1孙立伟,何国辉,吴礼发;网络爬虫技术研究;Computer Knowledge and Technology 电脑知识与技术;Vol.4,No.15,May 2010,pp.4112-41152李盛韬,余智华,程学旗.Web信息采集研究进展【J】.计算机科学,2003.3S.Chakrabarti,M.van den Berg and B.Dom.Focused Crawling: A New Approach to Topic-Specifi Web Resource DiscoveryC.In Proceed
20、ings of the 8th International World Wide Web Conference, Toronto, Canada, 1999.4郑力明,易平;Design of Crawler Based on HTML Parser Information Extraction;微计算机信息,Microcomputer Information;09,June,2009。 5J. Cho, H. Garcia-Molina. The evolution of the web and implications for an incremental crawler C. In Pr
21、oceedings of the 26th Inter-national Conference on Very Large Database, Cairo, Egypt, 2000. 6李文泽;个性化垂直搜索引擎研究;河南大学;2007-11-07;7曾伟辉,李淼. 深层网络爬虫研究综述J. 计算机系统应用, 2008. 8周立柱 ,林玲. 聚焦爬虫技术研究综述J.计算机应用, 2005年9月.9S. Chakrabarti, M. van den Berg and B. Dom. Focused Crawling: A New Approach to Topic-Specific Web R
22、esource Discovery C. In Proceedings of the 8th International World Wide Web Conference, Toronto, Canada, 1999. 10陈汶滨,夏学梅. 基于聚焦爬虫的手机天气预报系统J. 今日科苑. 2009年第2期.11邱哲,符滔滔. 开发自己的搜索引擎-Lucene 2.0+Heritrix. 人民邮电出版社, 2007-4.12罗刚. 自己动手写网络爬虫. 清华大学出版社. 2010-10-1;13Heritrix官方网站EB/OL. crawler.archive.org14网络爬虫EB/OL.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- web service的网络爬虫设计与实现 service 网络 爬虫 设计 实现
链接地址:https://www.31ppt.com/p-2390098.html