硕士论文基于Lucene的Nutch垂直搜索引擎系统的设计与实现31.doc
《硕士论文基于Lucene的Nutch垂直搜索引擎系统的设计与实现31.doc》由会员分享,可在线阅读,更多相关《硕士论文基于Lucene的Nutch垂直搜索引擎系统的设计与实现31.doc(72页珍藏版)》请在三一办公上搜索。
1、学校代码: 10289分类号: 论文题目 基于Lucene的Nutch垂直搜索引擎系统的设计与实现 姓 名欧阳丽娜 江苏科技大学密 级: 学 号: (宋体小四)硕 士 学 位 论 文 (工程硕士) 基于Lucene的Nutch垂直搜索引擎系统的设计与实现 研究生姓名 导师姓名 申请学位类别 工程硕士 学位授予单位 学科专业 计算机 论文提交日期 20 年 月 日 研究方向 论文答辩日期 20 年 6 月 12 日 答辩委员会主席 评 阅 人 20 年 月 日摘 要现代互联网技术的更新换代以及人类对信息技术坚持不懈地追求,促使世界上每个国家都在进行史无前例的科技革命。一个国家的发展需要信息技术,
2、一个公司的发展需要信息技术,生活中的每个人也同样需要不断变革与发展的信息技术。同时互联网上的各种信息每天都在迅速增长着,互联网已经成为人们信息最重要的来源。信息技术的不断发展必然带来信息技术的爆炸性增长。如此海量的信息资源聚集必然导致用户获取有效信息的难度增加以及用户不需要的垃圾信息量的增加。就这样,能够快速准确地获取有用信息的工具即搜索引擎就这样诞生了。然而,随着互联网信息多元化的进一步发展,传统的搜索引擎系统爬虫需要爬取、索引和进行查询的网页内容急剧增加,因此,通常会出现这样的一种情况,我们用户不得不在海量的无关信息中困难地寻找自己所需要的信息。目前,对搜索引擎系统的主要关注点转向应该怎样
3、快速、准确地让用户能够找到对自己有用的信息。人们对得到的专业领域相关信息资源的实时性、针对性和准确性等方面有了更加严格的要求。鉴于此,垂直搜索引擎就这样诞生了。垂直搜索引擎系统是一种面向特定专业、特定领域的分类比较细致、精确、更新比较及时的搜索引擎。随着互联网上信息的爆炸式增长以及信息多元化的快速发展,垂直搜索引擎系统正成为研究热点和发展趋势。本文对面向手机数码领域的垂直搜索引擎系统的关键技术进行了研究,并提出了一种基于Lucene的面向手机数码领域的垂直搜索引擎系统的解决方案,研究、设计并实现了面向手机数码领域的垂直搜索引擎系统。本文的主要写作过程如下:首先,介绍搜索引擎的历史发展情况和研究
4、的背景,同时阐述了本文的研究内容和各个章节的安排。然后介绍搜索引擎的关键技术,同时分析了搜索引擎和垂直搜索引擎的工作原理以及各自的差异,并详细说明垂直搜索引擎研究中需要用到的关键技术,重点对网络爬虫的信息爬取技术和用户检索结果的排序技术进行了研究与分析。接着介绍开源搜索引擎Nutch和全文检索工具包Lucene的基本概念、工作原理,同时针对全文检索工具包Lucene的检索结果排序算法的不足之处,提出了一种改进的检索结果排序算法。其次根据相关的功能需求,对基于Lucene的面向手机数码领域的垂直搜索引擎系统的各个功能模块进行详细的分析与设计。同时利用垂直搜索引擎系统的开发环境Linux和开发工具
5、Cygwin、Tomcat、Ant、Luke,同时使用Java语言编程实现系统中的相关算法和模块的具体功能。详细介绍了基于Lucene的Nutch垂直搜索引擎系统的具体实现过程。并对系统运行情况和结果进行了相关的展示。最后,对论文的各项工作进行了总结,并指出了今后发展方向和下一步的研究工作,以便后续不断更新和完善。关键词: Lucene ;Nutch ;垂直搜索引擎;爬虫AbstractModern Internet technology upgrading of information technology and human perseverance in pursuit , prompt
6、ing every country in the world are conducting an unprecedented technological revolution . A countrys development needs of information technology , a companys development needs of information technology, the life of every people also need to constantly change and development of information technology
7、 . Meanwhile all kinds of information on the Internet are growing rapidly every day , the Internet has become the most important source of information .Continuous development of information technology will inevitably bring the explosive growth of information technology. So gather vast amounts of inf
8、ormation resources will inevitably lead to the difficulty of users to access useful information and an increase in the amount of information users to unwanted junk . Thus , it is possible to obtain useful information quickly and accurately search engine tool that was born .However, with the further
9、development of a wide range of information on the Internet , traditional search engine crawlers require crawling , indexing and query a sharp increase in web content , so often there will be such a situation , we have to mass -independent user information difficult to find the information they need
10、. Currently, the main focus should turn to search engines what the system quickly and accurately so that users can find useful information on their own . People timeliness , relevance and accuracy of the other aspects of professional fields related to information resources have more stringent requir
11、ements . In view of this , the vertical search engine was born .System is a vertical search engine for specific professional categories in specific areas more detailed, accurate , and timely updates comparison search engine . With the explosive growth of information on the Internet and the rapid dev
12、elopment of a wide range of information , the vertical search engine is becoming a hot research and development trends .In this paper, the key areas for mobile digital technology vertical search engine system is studied and proposed a vertical search engine for mobile phones based on Lucene field of
13、 digital solutions , research, design and implement the digital field for mobile phones vertical search engine system .The main process of writing the paper is as follows :Firstly, it introduces the history and background of the development of the study of search engines, and sets out the content an
14、d the various chapters of this paper .Then introduces the key technologies of search engines, while analyzing the working principle of search engines and vertical search engines as well as their differences , and details key technology vertical search engines need to use research , focusing on the n
15、etwork crawling reptiles of information technology and user search results sorting techniques were studied and analyzed.Then introduced Nutch open source search engine and full-text retrieval toolkit Lucene s basic concept , principle, while the package Lucene search results ranking algorithm inadeq
16、uate for full-text search tool , an improved search results ranking algorithm .Secondly, according to the relevant functional requirements for various functional modules for mobile phones based on Lucene field of digital vertical search engine for detailed system analysis and design . While taking a
17、dvantage of vertical search engine system development environment for Linux and development tools Cygwin, Tomcat, Ant, Luke, while using the Java programming language to achieve specific functions of the system of algorithms and modules. Details of the implementation process based on Lucene Nutch ve
18、rtical search engine system. The operation of the system and the results were related to the show.Finally, the paper summarizes the work and points out the future direction of development and further research work in order to follow constantly updated and improved.Keywords:Lucene ;Nutch ;Vertical Se
19、arch Engine;Crawler目 录摘 要IIABSTRACTIV第一章前言11.1 课题的研究背景11.2 研究意义和研究现状21.3 本文的研究内容41.4 本文的组织结构5第二章 搜索引擎的关键技术62.1 搜索引擎的基本架构62.2 垂直搜索引擎82.2.1 垂直搜索引擎定义82.2.2 垂直搜索引擎特点82.2.3 垂直搜索引擎优势92.3 网络爬虫92.4 主题网络爬虫技术研究102.4.1 主题网络爬虫工作原理及关键技术概述102.4.2 主题网络爬虫结构模型112.5 中文分词122.5.1基于字符串匹配的分词方法142.5.2基于统计的分词方法152.5.3基于理解的
20、分词方法152.6 网页相关性排序152.6.1 向量空间模型(VSM)152.6.2 搜索引擎的网页结果排序17第三章 开源搜索引擎NUTCH193.1搜索引擎工具包Lucene193.1.1 Lucene简介193.1.2 Lucene与Nutch的关系193.1.3 Lucene的结构203.1.4 Lucene的使用213.1.5 Lucene的评分公式243.1.6 Lucene的搜索结果排序253.2 Lucene的搜索结果排序算法的改进273.3 Nutch的介绍283.4小结29第四章 基于LUCENE的NUTCH垂直搜索引擎系统总体设计304.1系统体系结构304.1.1信息
21、抓取部分314.1.2信息预处理部分314.1.3查询服务部分324.2系统用例模型334.2.1角色的确定334.2.2创建用例334.3系统动态模型354.4系统整体工作说明384.4.1系统整体工作图解384.4.2系统总体工作流程描述384.5主题过滤说明394.5.1主题过滤的研究现状394.5.2主题过滤的评估简介404.5.3摘要分析41第五章 基于LUCENE的NUTCH垂直搜索引擎系统详细设计与实现425.1开发环境介绍425.2 Nutch主题网络爬虫模块的设计与实现425.2.1 Nutch采集策略425.2.2 Nutch数据采集实现435.3分词模块的设计与实现455
22、.4查询模块的设计与实现455.5 Nutch垂直搜索引擎的详细配置与实现过程465.5.1 第一部分 网页内容的下载465.5.2 第二部分 网页内容的搜索50第六章 结论与展望54参考文献56致谢58第一章 前言22.11.1 课题的研究背景现代互联网技术的更新换代以及人类对信息技术坚持不懈地追求,促使世界上每个国家都在进行史无前例的科技革命。一个国家的发展需要信息技术,一个公司的发展需要信息技术,生活中的每个人也同样需要不断变革与发展的信息技术。同时互联网上的各种信息每天都在迅速增长着,互联网已经成为人们信息最重要的来源。信息技术的不断发展必然带来信息技术的爆炸性增长。如此海量的信息资源
23、聚集必然导致用户获取有效信息的难度增加以及用户不需要的垃圾信息量的增加。就这样,能够快速准确地获取有用信息的工具即搜索引擎就这样诞生了。搜索引擎是信息检索领域的工具,所以我们对搜索引擎的研究就属于信息检索领域的一个分支。表1-1列举了搜索引擎诞生以及发展的一些历史。表1-1 搜索引擎的诞生历史1990年麦吉尔大学学生发明Archie只是一个可以搜索的FTP文件名列表,用户通过输入精确的文件名来查询哪个FTP站点可以获得该文件1993年Martin Koster发明了ALIWEBArchie的HTTP版本,靠主动提交信息来建立链接索引,类似Yahoo!1993年斯坦福大学学生发明Excite分析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 硕士论文 基于 Lucene Nutch 垂直 搜索引擎 系统 设计 实现 31
data:image/s3,"s3://crabby-images/532e2/532e286daae5226c7e05977ec6ea05f0cc30b41d" alt="提示"
链接地址:https://www.31ppt.com/p-2397486.html