内蒙古科技大学计算机技术开题报告ppt课件.ppt
指导教师: XXX 副教授,班级:工硕2013B7班学生:XXX学号:201303371,信息工程学院计算机技术学位论文开题,日期:2015年06月27日,论文题目:基于Hadoop数据挖掘算法的研究,提 纲,一、文献综述 1.Hadoop的概述与发展历史 2.Hadoop的国内外研究背景 3.Hadoop的发展趋势二、选题依据及方案 1.选题依据 2.研究方案三、课题研究的可行性及技术路线 1.课题研究的可行性 2.技术路线四、主要研究内容及创新点 1.主要研究内容 2.创新点 五、进度安排六、参考文献,内蒙古科技大学信息工程学院,第2页,1、Hadoop的概述与发展历史,2、Hadoop的国内外研究背景,3、Hadoop的应用现状和发展趋势,一、文献综述,内蒙古科技大学信息工程学院,第3页,1、Hadoop的概述与发展历史,Hadoop系统最初的源头来自于Apache Lucene项目下的搜索引擎子项目Nutch,该项目的负责人是Doug Cutting。2003年,Google公司为了解决其搜索引擎中大规模Web网页数据的处理,研究发明了一套称为MapReduce的大规模数据并行处理技术,并于2004年在著名的OSDI国际会议上发表了一篇题为“MapReduce:Simplified Data Processing on Large Clusters”的论文,简要介绍MapReduce的基本设计思想。论文发表后,Doug Cutting受到了很大启发,他发现Google MapReduce所解决的大规模搜索引擎数据处理问题,正是他同样面临并急需解决的问题。因而,他尝试依据Google MapReduce的设计思想,模仿Google MapReduce框架的设计思路,用Java设计实现出了一套新的MapReduce并行处理软件系统,并将其与Nutch分布式文件系统NDFS结合,用以支持Nutch搜索引擎的数据处理。2006年,他们把NDFS和MapReduce从Nutch项目中分离出来,成为一套独立的大规模数据处理软件系统,并使用Doug Cutting小儿子当时呀呀学语称呼自己的玩具小象的名字“Hadoop”命名了这个系统。2008年他们把Hadoop贡献出来,成为Apache最大的一个开源项目,并逐步发展成熟,成为一个包含了HDFS、MapReduce、HBase、Hive、Zookeeper等一系列相关子项目的大数据处理平台和生态系统。,第4页,1、Hadoop的概述与发展历史,2、Hadoop的国内外研究背景,3、Hadoop的应用现状和发展趋势,一、文献综述,内蒙古科技大学信息工程学院,第5页,2、Hadoop的国内外研究背景,MapReduce编程模型的思想来源于函数式编程语言Lisp,由Google公司于2004年提出并首先应用于大型集群。同时,Google也发表了GFS、BigTable等底层系统以应用MapReduce模型。在2007年,Googles MapReduce Programming Model-Revisted论文发表,进一步详细介绍了Google MapReduce模型以及Sazwall并行处理海量数据分析语言。Google公司以MapReduce作为基石,逐步发展成为全球互联网企业的领头羊。,第6页,1、Hadoop的概述与发展历史,2、Hadoop的国内外研究背景,3、Hadoop的应用现状和发展趋势,一、文献综述,内蒙古科技大学信息工程学院,第7页,3 Hadoop的应用现状和发展趋势,Hadoop因其在大数据处理领域具有广泛的实用性以及良好的易用性,自2007年推出后,很快在工业界得到普及应用,同时得到了学术界的广泛关注和研究。在短短的几年中,Hadoop很快成为到目前为止最为成功、最广泛接受使用的大数据处理主流技术和系统平台,并且成为一种大数据处理事实上的工业标准,得到了工业界大量的进一步开发和改进,并在业界和应用行业尤其是互联网行业得到了广泛的应用。由于在系统性能和功能方面存在不足,Hadoop在发展过程中进行了不断的改进,自2007年推出首个版本以来,目前已经先后推出数十个版本。,第8页,1、选题依据,2、研究方案,二、选题依据及方案,内蒙古科技大学信息工程学院,第9页,选题依据,2012年以来,大数据(Big Data)技术在全世界范围内迅猛发展,在全球学术界,工业界和各国政府得到了高度关注和重视,掀起了一场可与20世纪90年代的信息高速公路相提并论的发展热潮。,第10页,选题依据,第11页,大数据也同样成为各发达国家高度关注的战略性高科技技术和产业。2012年3月,美国总统奥巴马签署并发布了一个“大数据研究发展创新计划”(Big Data R&D nitiative),投资2亿美元启动大数据技术和工具研发,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油”,将大数据研究上升为国家意志,认为大数据将对未来的科技与经济发展的带来重大影响,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点。在随后的近两年里,英国、法国、德国、日本等发达国家政府都纷纷推出了相应的大数据发展战略计划。,1、选题依据,2、研究方案,二、选题依据及方案,内蒙古科技大学信息工程学院,第12页,研究方案,本论文试图对Hadoop数据挖掘展开条理地分析,然后对其基础算法加以系统化的处理,最后的目的是达到数个专业数据优化分析,同时,顾及到相关的要求来设置合理的步骤要求。本论文正是根据以上的相关的课题要求来设置、解决相关的对策的。,1、课题研究的可行性,2、技术路线,三、课题研究的可行性及技术路线,内蒙古科技大学信息工程学院,第14页,课题研究的可行性,为了使得本文的研究切实可行,本文采用了MapReduce数据挖掘基础算法中的K-Means聚类算法和频繁项集挖掘算法作为本文研究的hadoop数据挖掘的主要构架,将这个系统分为三层结构,客户端层、应用服务(WEB服务器)层、数据存储层。客户机层或Web浏览器,它负责实现人机交互,根据应用程序服务器位于Web服务器可以实现应用程序扩展Web服务器的功能和接受用户的请求它的使命,相应的应用程序执行的扩张和连接到数据库,数据处理,比如SQL数据库服务器通过应用方法,然后Web服务器访问数据库服务器数据处理结果,然后发送回客户机的Web服务器。同时还使用了管理系统集中管理技术、数据库技术以及编程技术相关技术,保证本文设计的功能模块都能够实现。,1、课题研究的可行性,2、技术路线,三、课题研究的可行性及技术路线,内蒙古科技大学信息工程学院,第16页,技术路线,充分搜集国内外关于大数据相关资料,对资料进行研究总结,理论分析与实证研究相结合来完成本文的写作,即:查阅文献资料确定研究方向资料分析确定研究内容确定研究方法制定研究计划归纳总结得出结论整理资料撰写论文。,第17页,1、主要研究内容,2、创新点,四、主要研究内容及创新点,内蒙古科技大学信息工程学院,第18页,主要研究的内容,第19页,主要研究的内容,第20页,主要研究的内容,第21页,1、主要研究内容,2、创新点,四、主要研究内容及创新点,内蒙古科技大学信息工程学院,第22页,创新点,目前国内对于大数据的研究设计资料虽然较多,但是大多数主要集中在对于算法的研究和开发,对于MapReduce聚类算法和频繁项集算法的研究和设计的资料较少。本论文特色是通过对Hadoop数据挖掘算法那的论述,结合国内外大数据应用的具体业务情况,对大数据MapReduce聚类算法和频繁项集算法展开讨论的。主要创新之处如下:,第23页,论文工作时间进度安排如下:2015年06月-2015年07月 搜集资料,查阅有关文献资料,找出问题,明确研究方向,完成开题报告;2015年07月-2015年11月 对要设计和实现的系统进行整体分析和框架设计;2015年12月-2016年01月 详细设计,对具体的功能模块进行设计;2016年02月-2016年04月 综合分析、总结,撰写论文,完成初稿;2016年04月-2016年05月 修订、完善,第二稿初定;2016年05月-2016年06月 对论文进行修改完善,准备答辩。,五、进度安排,内蒙古科技大学信息工程学院,第24页,总结与展望,研究不足,合理性有待检验,范围窄、数量少、时间短,客观性受限,严密性不足,研究中的不足,算法的难度适应性,算法探究设计,展望,1 序号主要责任者文献题名J刊名,出版年份,卷号(期号):起止页码2 戴元顺.云计算技术简述J.信息通信技术,2010,2: 29-35.3 张兰廷.大数据的社会价值与战略选择J.探讨信息化设计,2014,02:045-0464 肖飞.大数据时代基于物联网和云计算的地质信息化J.北京印刷学院学报,2011,06:23-245 刘红岩,陈剑,陈国青.数据挖掘中的数据分类算法综述J.清华大学学报:自然科学版 2002,42(6): 727-730.6 陈杰.大数据场景下的云存储技术与应用J.中兴通讯技术,2012,18(6):47-51.7 王敏.德国云计算行动计划解读.信息化建设,2011,4:218 钟鑫.浅析国外云计算的发展及其在安防领域的最新应用J.中国安防,2012(9):100-105.9 刘红岩,陈剑,陈国青.数据挖掘中的数据分类算法综述J.清华大学学报:自然科学版 2002,42(6): 727-730.10 张晓洲.云计算关键技术及发展现状研究J.网络与信息,2011,25(9): 36-37.,六、参考文献,内蒙古科技大学信息工程学院,第26页,11 赵兴华,李杰,王云峰.数据挖掘在电信中的应用分析J.科技情报开发与经济,2007,17(12):218-219.12 张晓洲.云计算关键技术及发展现状研究J.网络与信息,2011,25(9): 36-37.13 雷景生,林冬雪,符浅浅.基于改进向量空间模型的Web信息检索技术研宄J.计算机工程,2005,31(1): 14-1614 李燕,陈董,董秀兰,等.基于神经网络的遥感图像识别算法【J.测绘与空间地理信息,2012,35(2): 156-158.15 张洋.云计算发展现状及趋势分析J.中国新通信,2013,15(10):41-41.16 魏红宁.基于SPRINT方法的并行决策树分类研宄J.计算机应用,2005,25(1):39-41.17 李成华,张新访,金海,等.MapReduce:新型的分布式并行计算编程模型J计算机工程与科学,2011,33(003): 129-135.18 朱珠.基于Hadoop的海量数据处理模型研究和应用学位论文.北京:北京邮电大学,2008.19 郝树魁.HadoopHDFS和MapReduce架构浅析fl.邮电设计技术,2012, 7: 008.20 霍树民.基于Hadoop的海量影像数据管理关键技术研宄学位论文.长沙:国防科学技术大学,2010.,六、参考文献,内蒙古科技大学信息工程学院,第27页,21 杨宸铸.基于Hadoop的数据挖掘研究学位论文.重庆:重庆大学,2010.22 陈勇.基于Hadoop平台的通信数据分布式查询算法的设计与实现学位论文.北京:北京交通大学,2009.23 何元.基于云计算的海量数据挖掘分类算法研宄学位论文.成都:电子科技大学,2011.24 董峰,刘远军.数据挖掘中决策树SPRINT算法探讨j.邵阳学院学报(自然科学版),2007,4(2).25 Jim Gray. What Next? A New Remaining Problem in Information Technology EB/OL.http:/ Jim Gray. What Next? A New Remaining Problem in Information Technology EB/OL.http:/ Hadoop The Power of the Elephant, http:/ Raileanu, Laura Elena,and Kilian Stoffel. Theoretical comparison between the gini indexand information gain criteria. Annals of Mathematics and Artificial Intelligence 41.1, 2004,pp: 77-93.29 Hadoop MapReduce Next Generation - Cluster Setup, http:/hacloop.apache.org/docs/current/hadoop-project-dist/hadoop-common/ClusterSetup.html.30 Borthakur, Dhruba. HDFS architecture guide. Hadoop Apache Project, http:/hadoop.apache. org/common/docs/current/hdfs_design.pdf, 2008.,六、参考文献,内蒙古科技大学信息工程学院,第28页,31 Barroso LA, Dean J, Holzle U. Web search for a planet: The Google cluster architecture. IEEEMicro, 2003,23(2):22-28.32 Brin S,Page L.The anatomy of a large-scale hypertextual Web search engine.ComputerNetworks, 1998,30(1-7):107-117.33 Burrows M. The chubby lock service for loosely-coupled distributed systems. In:Proc. of the7th USENIX Symp. on Operating Systems Design and Implementation. Berkeley:USENIXAssociation,2006.335-350.34 Barham P, Dragovic B, Fraser K,et al. Xen and the art of virtualization. In:Proc. of the 9th ACMSymp.on Operating Systems Principles. New York: Bolton Landing, 2003.164-177.35 sard M, Budiu M, Yu Y, et al. Dryad: Distributed data-parallel programs from sequentialbuilding blocks. In:Proc. of the 2nd European Conf. on ComputerSystems(EuroSys),2007.59-72.36 Zhang YX, Zhou YZ. 4VP+: A novel meta OS approach for streaming programs in ubiquitouscomputing. In: proc. of IEEE the 21st Intl Conf. on Advanced Information Networking andApplications(AINA 2007). Los Alamitos:IEEE Computer Society,2007.394-403.,六、参考文献,内蒙古科技大学信息工程学院,第29页,37 Zhang YX, Zhou YZ. Transparent Computing: A new paradigm for pervasive computing. In:Ma JH, Yang LT,Tsai JJP, eds.Proc. of the 3rd Intl Conf. on Ubiquitous Intelligence and Computing (UIC 2006). Berlin, Heidelberg: Springer-Verlag, 2006.1-11.38 Robert Leaman, Graciela Gonzalez. “BANNER: an executable survey of advances inbiomedical named entity recognition”, Pacific Symposium on Biocomputing 13:652-663(2008).39 Adomavicius G., Tuzhilin A. Toward the next generation of recommender systems: A survey ofthe state-of-the-art andpossible extensions. IEEE Trans. on Knowledge and Data Engineering,2005, 17(6): 734-749.,六、参考文献,内蒙古科技大学信息工程学院,第30页,敬请各位老师批评指正,谢谢,大家,内蒙古科技大学信息工程学院,聆听,第31页,