基于hadoop的分布式存储平台的搭建与验证毕业设计论文.doc
《基于hadoop的分布式存储平台的搭建与验证毕业设计论文.doc》由会员分享,可在线阅读,更多相关《基于hadoop的分布式存储平台的搭建与验证毕业设计论文.doc(100页珍藏版)》请在三一办公上搜索。
1、毕业设计(论文)中文题目:基于hadoop的分布式存储平台的搭建与验证英文题目: Setuping and verification distributed storage platform based on hadoop 毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
2、作 者 签 名: 日 期: 指导教师签名: 日期: 使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名: 日 期: 学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个
3、人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日任务书题 目: 基于hadoop的分布式文件系统的实现与验证 适合专业: 信息安全 指导教师(签名): 提交日期: 2013
4、 年 3 月 8 日学院: 计算机与信息技术学院 专业: 信息安全 学生姓名: 学号: 毕业设计(论文)基本内容和要求:本项目的目的是要在单独的一台计算机上实现Hadoop多节点分布式计算系统。基本原理及基本要求如下:1. 实现一个NameNodeNameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。实际的 I/O事务并没有经过 NameNode,只有表示 DataNode 和块的文件映射的元数据经过 NameNode。当外部客户机发送请求要求创建文件时,
5、NameNode 会以块标识和该块的第一个副本的 DataNode IP 地址作为响应。这个 NameNode 还会通知其他将要接收该块的副本的 DataNode。2。实现若干个DataNodeDataNode 也是一个通常在 HDFS 实例中的单独机器上运行的软件。Hadoop 集群包含一个 NameNode 和大量 DataNode。DataNode 通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。Hadoop 的一个假设是:机架内部节点之间的传输速度快于机架间节点的传输速度。DataNode 响应来自 HDFS 客户机的读写请求。它们还响应来自 NameNode 的创建、删除
6、和复制块的命令。NameNode 依赖来自每个 DataNode 的定期心跳(heartbeat)消息。每条消息都包含一个块报告,NameNode 可以根据这个报告验证块映射和其他文件系统元数据。如果 DataNode 不能发送心跳消息,NameNode 将采取修复措施,重新复制在该节点上丢失的块。具体设计模块如下: 1、 在虚拟机上安装多个linux系统。并将其中之一拟作为namenode,其余系统拟作为datanode 2、 在上述所有系统中安装ssh,以确保不同节点之间可以实现无密钥安全通信。 3、 在上述系统中安装hadoop,以确保各个系统都可作为hadoop系统的其中一个节点。毕业
7、设计(论文)重点研究的问题:1. 基于windows环境,完成虚拟机上一个linux系统下hadoop的实现。2. 基于系统克隆技术实现hadoop节点的复制。3. 在上述基础上实现节点间无密钥安全通信。4. 基于上述系统上运行wordcount以验证基于hadoop的分布式文件系统的有效性。5. 分析handoop 现有的安全机制可能存在的安全隐患并提出相应的解决措施。毕业设计(论文)应完成的工作:1。 了解整个系统的结构,针对系统所要完成的各项工作进行该方面的学习,掌握基于hadoop的分布式文件系统设计和实现方法。2。 完成系统中必备的各个配置步骤。3。 在系统上运行wordcount并
8、进行系统性能分析。4。 完成该项目所涉及代码及配置步骤的记录。5。 对handoop现有的安全机制存在的安全隐患提出相应的解决措施。 6。 毕业论文。参考资料推荐: Tom White著,曾大聃,周傲英译,Hadoop权威指南专著,北京:清华大学出版社,2010陈勇著,基于hadoop平台的通信数据分布式查询算法的设计与实现硕士学位论文,北京:北京交通大学计算机学院,2009 周品主编,hadoop云计算实战专著。北京:清华大学出版社,2012 赵书兰编著,典型hadoop云计算专著 。北京: 电子工业出版社, 2013其他要说明的问题:题 目: 基于hadoop的分布式文件系统的实现与验证
9、学院: 计算机 专业: 信息安全 学生姓名: 学号: 文献综述:Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到IT业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模人手通过对模型各组成部分进行分析并将其与传统的分布式文件系统进行比较。总结出Hadoop分布式文件系统具有的海量、高可扩展性、高可靠性、高性能等面向云计算领域应用的霞要特征。本文有助于研究者系统、深入地研究Hadoop分布式文件系统的设计与实现。并为云计算背景下的分布式文件系统设计提供雨要的参考。云计算是一种新兴的计算模型,它是
10、并行计算、分布式计算、网格计算的综合发展,或者说是这些计算科学概念的商业实现。它的基本原理是将计算、存储及软硬件等服务分布在非本地的大量计算机构成的资源池上,用户通过网络获得相应的服务,从而有效的提高资源利用率,实现了真正的按需获取。目前云计算模型众多,但多为商业模型,而Hadoop作为开源的云计算模型,它模仿和实现了Google云计算的主要技术,并且使用Java语言编写,可移植性强,为个人和企业进行云计算方面的研究和应用奠定了基础。Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)高可靠性和高可扩展性的分布式文件系统能够提供海量的文件存储能力
11、。它的开发和实现遵循了Coogle文件系统(Google file system,GFS)的核心原理,而GFS作为Google云计算核心技术体系的底层,为相关技术如MapReduee分布式计算模型、Bigtable分布式数据库等)的实现提供了有效的支撑。同样,Hdfs本身以及以它为基础的一系列开源软件技术的研究和开发,已被业界广泛应用到云计算的具体实践中获得了非常好的效果。当前针对HDFS的研究普遍关注其具体的技术细节和实施效果尚缺乏对其进行系统设计理论上的分析和比较。本文从模型分析的角度人入手首先介绍在业界获得普遍认同的分布式文件系统的用户需求和架构模型然后针对HDFS的体系架构进行实现,最
12、后将HDFS与传统的分布式文件系统进行比较总结了HDFS在云计算领域中应用的优势及存在的安全问题。并对其设计和应用提出建议。从模型的角度出发可以分析出HDFS在设计和实现上的主要特征。1采用专用的服务器提供目录服务。Namenode对文件元数据进行管理能够维护统一的文件名字空间供用户访问以及从全局上对系统进行控制提高了系统的透明性和可扩展性:同时。Namenode不承担文件内容的供给,减轻了节点压力。2采用数目众多的服务器提供扁平文件服务。多个Datanode可以同时为用户提供文件数据块服务。它们分布广泛并互为备份提高了系统在节点级的可靠性。因此单个节点可以由普通的PC服务器担当。有利于降低系
13、统成本。3采用文件数据分块和数据块复制机制。文件数据被划为多个数据块,有利于对其内容进行查找和定位,同时数据块的多个拷贝能够提高系统在文件级和数据块级的可靠性;同时,分布在不同Datanode上的数据块可以被并行访问,改善了访问性能。4采用多种通信机制。根据通信对象和传输内容的不同,分别提供了远程过程调用和数据流两种通信方式,实现了带外控制,提高了访问性能。Hadoop的优点在于:1)可扩展:不论是存储可扩展还是计算可扩展都是Hadoop的设计根本。Had00p的扩展非常简单,不需要修改任何已有的结构。2)经济:其框架可运行在任何廉价Pc上,对硬件没有特殊的要求。3)可靠:分布式文件系统的备份
14、恢复机制及M印Reduce的任务监控保证了分布式处理的可靠性,Hadoop默认提供1个以上备份。4)高效:分布式文件系统高效数据交互实现及MapReduce结合kal Data处理的模式,为高效处理海量信息打下基础。但是,通过对比、分析也可以发现,HDFS在一些方面仍然有待完善,可以向传统的分布式文件系统借鉴相关的方法和技术。同时,HDFS也不是万能的,文件服务的提供者必须根据实际需要选择合适的文件系统。主要参考文献:(1)Tom White著,曾大聃,周傲英译,Hadoop权威指南专著,北京:清华大学出版社,2010(2)陈勇著,基于hadoop平台的通信数据分布式查询算法的设计与实现硕士学
15、位论文,北京:北京交通大学计算机学院,2009(3) 周品主编,hadoop云计算实战专著。北京:清华大学出版社,2012(4)赵书兰编著,典型hadoop云计算专著 。北京: 电子工业出版社, 2013(5)赵春燕云环境下作业调度算法研究与实现北京交通大学,2009(6)纪俊一种基于云计算的数据挖掘平台架构设计与实现(7)李析,廖志恒云计算的关键技术及发展现状J九江职业技术学院学报20112(8)云存储技术研究百度文库http:/www。wenku。baidu。com(9)张建勋,古志民,郑超云计算研究进展综述J计算机应用研究201027(2):429433(10)金松昌方滨兴杨树强,贾焰基
16、于Hadoop的网络安全日志分析系统的设计与实现A全国计算机安全学术交流会论文集C,北京,20lO:257262研究方案1。基于windows环境,完成虚拟机上一个linux系统下hadoop的实现。2。基于系统克隆技术实现hadoop节点的复制。3。在上述基础上实现节点间无密钥安全通信。4。基于上述系统上运行wordcount以验证基于hadoop的分布式文件系统的有效性。5。分析handoop 现有的安全机制可能存在的安全隐患并提出相应的解决措施。研究步骤1。 了解整个系统的结构,针对系统所要完成的各项工作进行该方面的学习,掌握基于hadoop的分布式文件系统设计和实现方法。2。 完成系统
17、中必备的各个配置步骤。3。 在系统上运行wordcount并进行系统性能分析。4。 完成该项目所涉及代码及配置步骤的记录。5。 对handoop现有的安全机制存在的安全隐患提出相应的解决措施。6。 毕业论文。预期结果1。在linux下搭建好基于hadoop的分布式文件系统2。在该文件系统下实现wordcount的运行3。对hadoop的安全机制进行分析并提出可行建议毕业设计(论文)进度安排:序号毕业设计(论文)各阶段内容时间安排备注1调研,收集资料,了解基本概念3。103。152熟悉linux系统,熟悉hadoop的架构3。163。253在linux下安装hadoop搭建基于hadoop的分布
18、式文件系统3。264。094在文件系统下运行wordcount并分析性能4。104。175分析hadoop的安全漏洞并提出解决措施4。185。206撰写毕业论文5。136。10指导教师意见:指导教师签名: 审核日期: 年 月 日中文摘要Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到IT业界极大关注,并已被广泛应用。本毕业设计主要任务是要在单独的一台计算机上实现Hadoop多节点分布式存储平台并研究其安全机制。论文介绍了课题的相关研究背景知识,并且对hadoop的组成及原理进行了详细地介绍和研究。根据实验的需要,完成了平台的总体设计,并针对其性能进行了验证,还对其
19、安全机制进行了研究。首先介绍在业界获得普遍认同的分布式文件系统的用户需求和架构模型然后针对HDFS的体系架构进行实现,最后分析了hadoop的安全机制及相应的安全策略总结了HDFS在云计算领域中应用的优势及存在的安全问题。并对其设计和应用提出建议。本文所采用的实验平台是在virtualbox上安装的ubuntu10。10,应用的是hadoop跨平台文件系统。系统所有的编写、调试与测试都在此实验平台下进行。关键词:hadoop;文件系统;安全;云计算AbstractHadoop Distributed File System is based on the principle of Google
20、 file system developed and implemented by the great concern of the IT industry, and has been widely used.The thesis aims to set up Hadoop multi-node distributed storage platform and analyze its security mechanisms to be implemented on a separate computer.The thesis first introduces the research back
21、ground knowledge of the subject, and detailed description of the study and the principle of the hadoop. According to the requrements of the experiment, the overall design of the platform, and its performance were verified, further security mechanisms. First the industry generally accepted user requi
22、rements and the architecture of the distributed file system model are introduced。 Then for HDFS architecture to achieve the Hadoop security mechanisms and the corresponding security policy. In addition,the advantages of HDFS in the field of cloud computing applications and the security problem are s
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 hadoop 分布式 存储 平台 搭建 验证 毕业设计 论文
链接地址:https://www.31ppt.com/p-2392171.html