《Google_云计算核心技术及应用场景分析.ppt》由会员分享,可在线阅读,更多相关《Google_云计算核心技术及应用场景分析.ppt(41页珍藏版)》请在三一办公上搜索。
1、Google云计算,核心技术介绍及应用场景分析,Cloud Computing,2023年2月23日,1,网络信息内容安全讲义/张华平/2010-10,http:/,小组成员,2023年2月23日,2,内容目录,2023年2月23日,3,云计算的基本概念,云计算的概念,云计算的服务形式,云计算的发展现状,2023年2月23日,4,是由分布式计算,并行处理,网格计算发展来的新兴商业计算模型.将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力,存储空间和各种软件服务.类似电厂集中供电模式,最终目标是将计算,服务和应用作为公共设施提供给公众,使人们能够像使用水,电,煤气那
2、样使用计算机资源.,云计算的概念,2023年2月23日,5,云计算的发展现状,2023年2月23日,6,IaaS(Infrastructure as a service)Amazon Web服务(AWS)IBM的Blue Cloud等PaaS(Platform as a service)Google的App EngineSalesforce的开放平台八百客的800APPSaaS(Software as a service)Google DocsGoogle MailSalesforce的CRM,ERP,云计算的服务形式,2023年2月23日,7,Google云计算核心技术,并行计算模型MapR
3、educe,分布式文件系统GFS,分布式数据库BigTable,2023年2月23日,8,Google拥有海量数据,并且需要快速处理,为什么需要MapReduce?,Google MapReduce架构设计师Jeffrey Dean,2023年2月23日,9,处理和生成海量数据的并行编程模型;用于大规模数据集(通常大于1TB)的并行运算;MapReduce的核心是Map和Reduce两个函数Map,映射,对列表中的所有元素进行指定的操作,返回基于这个处理的中间结果集;Reduce,化简,对中间结果集进行分类和归纳得到最终的计算结果;两个函数可能会并行运行普通的PC机集群上;,MapReduce
4、的概念,2023年2月23日,10,MapReduce执行流程,1,2,3,4,5,6,7,2023年2月23日,11,Worker故障Master 周期性的ping每个worker,检查状态重新执行失效节点上已经执行或尚未执行的Map任务重新执行失效节点上未完成的Reduce任务Master故障定期写入检查点数据备恢复之用Master的数据多重备份机制重新发起MapReduce计算请求,MapReduce架构的思考,MapReduce计算架构有什么问题?,?,?,2023年2月23日,12,任务分割的粒度:时间复杂度任务备份机制:解决长尾效应本地文件读写:节省带宽跳过异常记录:避免崩溃,Ma
5、pReduce的优化,2023年2月23日,13,MapReduce的性能,实践证明,MapReduce是出色的分布式计算模型对分布于1000台计算机上1TB数据进行排序仅需要68s对4000台计算机上的1PB数据进行排序处理仅需要6小时2分钟(每次测试至少会损坏1块硬盘)Google MapReduce平均每天的数据处理量是20PB,相当于美国国会图书馆当年5月份存档网络数据的240倍,Google云计算平台上运行的MapReduce实例,2023年2月23日,14,网站访问量统计Map:Reduce:反向连接分析Map:Reduce:倒排索引Map:Reduce:,MapReduce的应用
6、场合,2023年2月23日,15,MapReduce示例:单词计数,案例:单词记数问题(Word Count)给定巨大的文本文件(大于1TB),如何计算文件中所有单词出现的数目?,2023年2月23日,16,MapReduce示例:单词计数,使用MapReduce求解该问题定义Map和Reduce函数(Pseudo Code),2023年2月23日,17,MapReduce示例:单词计数,使用MapReduce求解该问题Step 1:自动对文本进行分割,2023年2月23日,18,MapReduce示例:单词计数,使用MapReduce求解该问题Step 2:在分割之后的每一对进行用户定义的M
7、ap进行处理,生成新的对,2023年2月23日,19,MapReduce示例:单词计数,使用MapReduce求解该问题Step 3:对Map返回的中间结果集归拢排序,2023年2月23日,20,MapReduce示例:单词计数,使用MapReduce求解该问题Step 4:将分组过的中间结果集传给Reduce操作,通过计数生成最后结果,2023年2月23日,21,Google云计算核心技术,并行计算模型MapReduce,分布式文件系统GFS,分布式数据库BigTable,2023年2月23日,22,产生的背景数据存储在多个可能出故障的普通PC机集群上和传统文件系统相比文件很大(GB级别)多
8、数文件在写操作时为追加内容而不是重写主要负担为文件持续或随机读取,同步写,连续写等功能特性可扩展的分布式文件系统用于访问大量数据的大型应用高效运行在廉价硬件的集群上容错:集群中的机器可热拔插,分布式文件系统GFS,2023年2月23日,23,GFS文件系统架构,分布式文件系统GFS,块大小为64MB?,Master的必要性?,2023年2月23日,24,Google云计算核心技术,并行计算模型MapReduce,分布式文件系统GFS,分布式数据库BigTable,2023年2月23日,25,BigTable的概念大型的分布式数据库,存储大规模结构化数据建立在GFS,Lock Service和M
9、apReduce之上把所有数据都作为对象来处理BigTable的作用为Google云计算应用提供数据结构化存储功能为应用提供简单数据查询功能(不支持联合查询)为MapReduce提供数据源或数据结果存储,分布式数据库BigTable,2023年2月23日,26,BigTable的数据模型分布式的多维映射,以(row,column,timestamp)索引,分布式数据库BigTable,Rows,Columns,timestamps,“contents:”,2023年2月23日,27,Google云计算应用场景,学术搜索服务Google Scholar,流量统计服务Google Analytic
10、s,应用架构服务Google AppEngine,2023年2月23日,28,学术搜索服务Google Scholar,2023年2月23日,29,数据抽取寻找包含学术论文信息的网页数据,并结构化存储学术论文信息抽取(分析参考文献,摘要等)可能的技术方案:MapReduce+BigTable数据统计基于抽取的数据进行统计分析(如分析被引用次数等)可能的技术方案MapReduce+BigTable数据存储行键:论文标题列键:作者,主题词,摘要,参考文献,期刊信息,被引次数等,学术搜索服务Google Scholar,?,2023年2月23日,30,学术搜索服务Google Scholar,202
11、3年2月23日,31,学术搜索服务Google Scholar,2023年2月23日,32,Google云计算应用场景,学术搜索服务Google Scholar,流量统计服务Google Analytics,应用架构服务Google AppEngine,2023年2月23日,33,Google Analytics免费的企业级网络分析解决方案帮助企业了解网站流量和营销效果能以灵活的方式(各类报表)查看并分析流量数据,流量统计服务:Google Analytics,2023年2月23日,34,流量统计服务:Google Analytics,2023年2月23日,35,应用特征海量数据:要存储海量的
12、用户行为数据(如点击时间,位置)海量用户:需要为任意多的网站提供流量分析技术路线使用BigTable存储和检索数据使用MapReduce统计数据,流量统计服务:Google Analytics,2023年2月23日,36,Google Analytics业务流程,流量统计服务:Google Analytics,?,?,2023年2月23日,37,Google云计算应用场景,学术搜索服务Google Scholar,流量统计服务Google Analytics,应用架构服务Google AppEngine,2023年2月23日,38,应用架构服务:Google AppEngine,2023年2月
13、23日,39,Google云计算关键技术并不仅仅是GFS,BigTable,MapReduce,还依靠其他软硬件的支持;3项关键技术都比较成熟,最近几年也有比较大的更新和修正,开源社区也有类似的开源项目可供研究使用,比如Hbase(BT),Hadoop(GFS+MapReduce);Google正在研发新的分布式计算框架Spanner,希望能够在全球范围内配置,调度计算资源;由于时间有限,研究不够深入,有兴趣的同学可以自行阅读相关论文和书籍.,报告总结,2023年2月23日,40,相关书籍:叶伟,互联网时代的软件革命:SaaS架构设计M,北京:电子工业出版社,2009相关论文(http:/Simplified Data Processing on Large ClustersBigTable:A Distributed Storage System for Structured DataThe Google File System其他资源SlideS(Cloud Computing,GFS,BigTable,MapReduce),参考资源,2023年2月23日,41,
链接地址:https://www.31ppt.com/p-2719187.html