基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文.doc
《基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文.doc》由会员分享,可在线阅读,更多相关《基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文.doc(85页珍藏版)》请在三一办公上搜索。
1、分类号 密级 UDC 编号 学 位 论 文基于Hadoop平台的教育资源垂直搜索系统的设计与实现Implementation of Education Resource Vertical Searching System Based on Hadoop分 类 号 : 密 级 : U D C : 编 号 : 学 位 论 文基于Hadoop平台的教育资源垂直搜索系统的设计与实现 Implementation of Education Resource Vertical Searching System Based on Hadoop 学科专业:计算机应用技术 计算机科学与通信工程学院2 0 11
2、年 04 月学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密 , 在 年解密后适用本授权书。本学位论文属于 不保密 。学位论文作者签名: 指导教师签名: 年 月 日 年 月 日毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和
3、致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作 者 签 名: 日 期: 指导教师签名: 日期: 使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名: 日 期: 学位论文原
4、创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密
5、论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日指导教师评阅书指导教师评价:一、撰写(设计)过程1、学生在论文(设计)过程中的治学态度、工作精神 优 良 中 及格 不及格2、学生掌握专业知识、技能的扎实程度 优 良 中 及格 不及格3、学生综合运用所学知识和专业技能分析和解决问题的能力 优 良 中 及格 不及格4、研究方法的科学性;技术线路的可行性;设计方案的合理性 优 良 中 及格 不及格5、完成毕业论文(设计)期间的出勤情况 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文
6、(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)指导教师: (签名) 单位: (盖章)年 月 日评阅教师评阅书评阅教师评价:一、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格二、
7、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)评阅教师: (签名) 单位: (盖章)年 月 日教研室(或答辩小组)及教学系意见教研室(或答辩小组)评价:一、答辩过程1、毕业论文(设计)的基本要点和见解的叙述情况 优 良 中 及格 不及格2、对答辩问题的反应、理解、表达情况 优 良 中 及格 不及格3、学生答辩过程中的精神状态 优 良 中 及格 不及格二、论
8、文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格评定成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)教研室主任(或答辩小组组长): (签名)年 月 日教学系意见:系主任: (签名)年 月 日摘 要互联网的出现改变了我们的生活、工作、学习乃至娱乐
9、的方式。网上丰富的基础教育资源为广大基础教育工作者、学生以及学生家长提供了充足的参考资料和教育信息,然而由于缺乏行之有效的整合标准和手段,目前这些资源的分布呈现高度分散状态,内容庞杂无序,结构化程度低,用户往往难以快速准确地获取到自己需要的信息。所以我们必须研究和设计出针对教育资源搜索的网络平台,以提高用户获取教育资源信息的速度和准确度。本文通过对现有的互联网搜索平台的分析,借鉴其他应用领域的垂直搜索平台所采用的架构和设计方法,通过使用Hadoop平台的分层分布的架构和聚焦蜘蛛的爬行技术,提出基于Hadoop平台的B/S多层分布式架构系统模型,给出提高搜索运行效率的若干关键技术,并基于该架构的
10、设计实现了系统。本文的主要工作包括:(1) 通过对Hadoop平台的基本原理和架构以及Hadoop平台的两个核心组件HDFS与Map/Reduce的分析,选择Hbase对系统的数据进行管理,并对可视化系统的Hbase数据模型的设计以及条件查询的改进进行阐述。(2) 基于抽样调查和教育经验,进行MDVSP的软件需求分析,设计基于Hadoop平台的教育资源垂直搜索(MDVSP)架构模型。该架构模型把业务处理服务器与Web服务器分开,采用并行计算提高业务处理能力,使得基于该架构模型下的系统具有良好的可伸缩性、可扩展性、可维护性和更高的安全性。(3) 研究基于Hadoop平台的教育资源搜索系统所采用的
11、关键技术,包括聚焦蜘蛛的爬行技术、网页信息结构化提取技术、远程过程调用(RPC)技术、基于Hadoop的Map/Reduce技术和基于Hadoop的负载均衡技术。(4) 以Hadoop为基础架构,采用Java开发语言,设计并实现Hadoop平台的教育资源搜索系统。经过详细的系统测试,系统在实现效率、搜索的准确率和可扩展性等方面较有代表性的垂直搜索平台先进。关键词:垂直搜索引擎;Hadoop;网页信息抽取;抽取规则;索引库AbstractThe WWW has been a tremendous impact on the way of human beings lives, works, an
12、d studies, even entertainments. Especially in education realm, educators, students and their parents can get more and more references and education resources with the help of internet. However, theres still an unresolved a problem, for lacking of suitable standards and filtering methods, actually, i
13、t will spend more time to get the resource you really want .To solve this issue, we need to do some research and design a better platform to extract interesting information conveniently, accurately and efficiently.On the basis of comparing the frameworks and designing methods adopted by current Sear
14、ching Engines, and learning from other applications used in vertical searching platform architecture and design method, by means of the hierarchical structure and the focused-spider creeping technology, this dissertation presents a new model of Multi-tier Distributed Vertical Searching Platform(MDVS
15、P) for Educational Realm based on Hadoop, which is a mixed B/S framework. The thesis also amply demonstrates the key techniques of improving the operating efficiency of the MDVSP. Moreover, based on the new mixed framework of MDVSP, the dissertation succeeds in designing the Prototype System of MDVS
16、P. The dissertation mainly concerns the following four aspects:1. This dissertation presents the basic principles and framework of the Hadoop platform, and introduces the two core components of Hadoop HDFS and Map/Reduce algorithm. To manage data on the Hadoop platform better, the MDVSP chooses Hbas
17、e as database storage, which is a major component of Hadoop. This thesis also uses several sections to describe the Hbases date structure model design and the query improvements.2. MDVSP software requirement analysis is based on sampling survey results and education experiences. MDVSP is chosen base
18、d on the analysis result. The advantage of this model is to process the business and Web separately, and it can parallel compute Map/Reduce. Which provide MDVSP better condensability, expendability, maintainability and higher security.3. The key technologies that MDVSP has been used includes focused
19、-spider creeping technology, structured web information extraction technology, remote procedure call(RPC) technology, Map/Reduce technology based on Hadoop and load balancing technology based on Hadoop.4. With the key technologies researching, and detailed analyzing the requirement of the MDVSP, thi
20、s dissertation accomplishes the design of the Prototype System of M-Disem, which uses Java programming language and structures on Hadoop platform. After a detailed system testing and compared with other Vertical Searching Systems, the MDVSP achieves high efficiency, accuracy searching and good scala
21、bility.Keywords Vertical; Searching Engine; Hadoop; Web Information Extraction; Extraction rules; Index Database目 录第一章绪 论11.1 课题研究背景及意义11.1.1背景及意义11.1.2 目前现状11.2 教育资源搜索存在的问题21.3 本文主要工作31.4 本文的组织结构3第二章 HADOOP平台架构52.1 Hadoop的产生52.2 基于Hadoop分布式架构的优势52.3 Hadoop组件62.4 本章小结6第三章 MDVSP平台需求分析83.1 教育资源垂直搜索的用户
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Hadoop 平台 教育 资源 垂直 搜索 系统 设计 实现 毕业论文
链接地址:https://www.31ppt.com/p-2393847.html