云计算和大数据技术-概念应用与实战PPT第一章.ppt
云计算和大数据技术:概念应用与实战,第1章,云计算基础,人民邮电出版社,21世纪高等院校云计算和大数据人才培养规划教材,集群系统概述,云计算基础,分布式系统中计算和数据的协作机制,云计算与物联网,1.1,1.2,内容导航,CONTENTS,1.3,1.4,1.1云计算技术概述,自从2006年谷歌公司CEO埃里克施密特提出云计算概念后,云计算已经成为了全球关注度最高的IT词汇。随着信息技术水平的不断发展,云计算将会成为引领未来整个信息系统建设的主导者。云计算具有一体化的信息平台和运营平台,这种全新交付模式将会对IT界产生重大的影响。,云计算简介,云计算技术是硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型,通常技术人员在绘制系统结构图时用一朵云的符号来表示网络,云计算这个奇怪的名字就是因此而得名的。云计算并不是对某一项独立技术的称呼,而是对实现云计算模式所需要的所有技术的总称。,分布式计算技术虚拟化技术网络技术服务器技术,数据中心技术云计算平台技术分布式存储技术,Hadoop、HPCC、Storm、Spark等,云计算简介,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,它就像我们日常生活中用水和用电一样,按需付费,而无需关心水、电是从何而来的一种资源管理模式。,维基百科中对云计算的定义,云计算简介,云计算是基于互联网的服务的增加、使用和交付模式,通常涉及通过互联网来提供动态、易扩展且经常是虚拟化的资源。云计算是传统计算机和网络技术发展融合的产物,它意味着计算能力也可作为一种商品通过互联网进行流通。,2012年的国务院政府工作报告将云计算作为国家战略性新兴产业给出了定义,云计算简介,在云计算时代基本的3种角色,云计算的特点,资源池弹性可扩张,按需提供资源服务,虚拟化,网络化的资源接入,提高可靠性和安全性,云计算技术分类,这种类型的云计算系统在技术实现方面大多体现为集群架构,通过将大量节点的计算资源和存储资源整合后输出。这类系统通常能实现跨节点弹性化的资源池构建,核心技术为分布式计算和存储技术。MPI、Hadoop、HPCC、Storm等都可以被分类为资源整合型云计算系统。,1、按技术路线分类,资源整合型云计算,云计算技术分类,优点:用户的系统可以不做任何改变接入采用虚拟化技术的云系统,是目前应用较为广泛的技术,特别是在桌面云计算技术上应用得较为成功。,资源切分型云计算,这种类型最为典型的就是虚拟化系统,这类云计算系统通过系统虚拟化实现对单个服务器资源的弹性化切分,从而有效地利用服务器资源,其核心技术为虚拟化技术。,缺点:跨节点的资源整合代价较大。KVM、VMware都是这类技术的代表。,云计算技术分类,公有云:指服务对象是面向公众的云计算服务,公有云对云计算系统的稳定性、安全性和并发服务能力有更高的要求。,2、按服务对象分类,私有云:指主要服务于某一组织内部的云计算服务,其服务并不向公众开放,如企业、政府内部的云服务。,云计算技术分类,混合云:是把公有云和私有云结合在一起的方式。在这个模式中,用户通常将非企业关键信息外包,并在公有云上处理,而掌握企业关键服务及数据的内容则放在私有云上处理。,2、按服务对象分类,社区云:是公有云范畴内的一个组成部分。它由众多利益相仿的组织掌控及使用,其目的是实现云计算的一些优势,例如特定安全要求、共同宗旨等。社区成员共同使用云数据及应用程序。,云计算技术分类,(1)基础设施即服务:把单纯的计算和存储资源不经封装地直接通过网络以服务的形式提供的用户使用。,3、按资源封装的层次分类,(2)平台即服务:计算和存储资源经封装后,以某种接口和协议的形式提供给用户调用,资源的使用者不再直接面对底层资源。,云计算技术分类,(3)软件即服务:将计算和存储资源封装为用户可以直接使用的应用并通过网络提供给用户,SaaS面向的服务对象为最终用户,用户只是对软件功能进行使用,无需了解任何云计算系统的内部结构,也不需要用户具有专业的技术开发能力。,3、按资源封装的层次分类,集群系统概述,分布式系统中计算和数据的协作机制,1.1,1.2,内容导航,CONTENTS,1.3,1.4,云计算基础,云计算与物联网,1.2集群系统概述,当前云计算技术领域存在两个主要技术路线,一个是基于集群技术的云计算资源整合技术,另一个是基于虚拟机技术的云计算资源切分技术。基于集群技术的云计算资源整合技术路线将分散的计算和存储资源整合输出,主要依托的技术为分布式计算技术。Google、Hadoop、Storm、HPCC等系统都采用了集群技术,其资源整合是跨物理节点的。学习集群技术的基本知识对理解云计算与大数据技术有很好的作用,只有这样在学习时才能知其所以然。,集群系统的基本概念,集群系统是一组独立的计算机(节点)的集合体,节点间通过高性能的互联网络连接,各节点除了作为一个单一的计算资源供交互式用户使用外,还可以协同工作,并表示为一个单一的、集中地计算资源,供并行计算任务使用。集群系统是一种造价低廉、易于构建并且具有较好可扩放性的体系结构。,集群系统的基本概念,网络接口与节点的I/O总线松耦合相连;各节点有一个本地磁盘;各节点有自己的完整的操作系统。,集群系统具有以下重要特征:,集群系统的各节点都是一个完整的系统,节点可以是工作站,也可以是PC或SMP器;互联网络通常使用商品化网络,如以太网、FDDI、光纤通道和ATM开关等,部分商用集群系统也采用专用网络互联;,集群系统系统的分类,1)高可用性集群系统。,2)负载均衡集群系统。,3)高性能集群系统。,4)虚拟化集群系统。,集群系统概述,云计算基础,分布式系统中计算和数据的协作机制,1.1,1.2,内容导航,CONTENTS,1.3,1.4,云计算与物联网,1.3分布式系统中计算和数据的协作机制,计算和存储也是云计算系统研究的核心问题,分布式系统中计算和数据的协作关系非常重要,在分布式系统中实施计算都存在计算如何获得数据的问题,在面向计算时代这一问题并不突出,在面向数据时代计算和数据的协作机制问题就成为了必须考虑的问题。通常这种机制的实现与系统的架构有紧密的关系,系统的基础架构决定了系统计算和数据的基本协作模式。,基于计算切分的分布式计算,MPI将大量的节点通过消息传递机制连接起来,从而使节点的计算能力聚集成为强大的高性能计算,主要面向计算密集的任务。MPI提供API接口,通过MPI_Send()和MPI_Recv()等消息通信函数实现计算过程中数据的交换。,高性能计算是一种较为典型的面向计算的系统,通常处理的是计算密集型任务,因此在基于MPI的分布式系统中并没有与之匹配的文件系统支持,计算在发起前通过NFS等网络文件系统从集中的存储系统中读出数据并用于计算。,基于计算切分的分布式计算,通常将MPI这样以切分计算实现分布式计算的系统称为基于计算切分的分布式计算系统。这种系统计算和存储的协作是通过存储向计算的迁移来实现的,也就是说系统先定位计算节点再将数据从集中存储设备通过网络读入计算程序所在的节点,在数据量不大时这种方法是可行的,但对于海量数据读取这种方式会很低效。,MPI的典型系统架构,基于计算切分的分布式计算,MPI的典型系统架构,基于计算和数据切分的混合型分布式计算技术网格计算,硬件和网络发展到一定阶段后,硬件价格的便宜使大多数人都有了自己的个人电脑,但却出现了一方面一些需要大量计算的任务资源不够,另一方面大量个人电脑闲置的问题。得益于网络的发展网格技术正好是在这个时期解决这一矛盾的巧妙方法。人们对网格技术的普遍理解是:将分布在世界各地的大量异构计算设备的资源整合起来,构建一个具有强大计算能力的超级计算系统。,基于计算和数据切分的混合型分布式计算技术网格计算,典型网格系统的基本架构,基于数据切分的分布式计算技术,通过数据切分实现计算的分布化是面向数据技术的一个重要特征,2003年Google逐步公开了它的系统结构,Google的文件系统GFS实现了在文件系统上就对数据进行了切分,这一点对利用MapReduce实现对数据的自动分布式计算非常重要,文件系统自身就对文件施行了自动的切分完全改变了分布式计算的性质,MPI、网格计算都没有相匹配的文件系统支持,从本质上看数据都是集中存储的,网格计算虽然有数据切分的功能,但只是在集中存储前提下的切分。具有数据切分功能的文件系统是面向数据的分布式系统的基本要求。,基于数据切分的分布式计算技术,2004年Jeffrey Dean 和Sanjay Ghemawat发表文章描述了Google系统的MapReduce框架。与MPI不同,这种框架通常不是拆分计算来实现分布式处理,而是通过拆分数据来实现对大数据的分布式处理,MapReduce框架中分布式文件系统是整个框架的基础,这一框架下的文件系统一般将数据分为128MB的块进行分布式存放,需要对数据进行处理时将计算在各个块所在的节点直接发起,避免了从网络上读取数据所耗费的大量时间,实现计算主动“寻找”数据的功能,大大简化了分布式处理程序设计的难度。,基于数据切分的分布式计算技术,基于数据切分的分布式系统结构,基于数据切分的分布式计算技术,MapReduce框架使计算在集群节点中能准确找到所处理的数据所在节点位置的前提是所处理的数据具有相同的数据类型和处理模式,从而可以通过数据的拆分实现计算向数据的迁移,事实上这类面向数据系统的负载均衡在其对数据进行分块时就完成了,系统各节点的处理压力与该节点上的数据块的具体情况相对应,因此MapReduce框架下某一节点处理能力低下可能会造成系统的整体等待形成数据处理的瓶颈。2005年Apache基金会以Google的系统为模板启动了Hadoop项目Hadoop完整地实现了上面描述的面向数据切分的分布式计算系统,对应的文件系统为HDFS,Hadoop成为了面向数据系统的一个被广泛接纳的标准系统。,基于数据切分的分布式计算技术,3种分布式系统的对比,基于数据切分的分布式计算技术,续表,集群系统概述,云计算基础,分布式系统中计算和数据的协作机制,1.1,1.2,内容导航,CONTENTS,1.3,1.4,云计算与物联网,1.4云计算与物联网,云计算和物联网在出现的时间上非常接近,以至于有一段时间云计算和物联网两个名词总是同时出现在各类媒体上。物联网的出现部分得益于网络的发展,大量传感器数据的收集需要良好的网络环境,特别是部分图像数据的传输更是对网络的性能有较高的要求。在物联网技术中传感器的大量使用使数据的生产实现自动化,数据生产的自动化也是推动当前大数据技术发展的动力之一。,1.4云计算与物联网,云物联网的英文名称为“The Internet of Things”,简称:IOT。由该名称可见,物联网就是“物物相连的互联网”。这有两层意思:,因此,物联网的定义是通过射频识别(RFID)装置、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。,第一,物联网的核心和基础仍然是互联网,是在互联网基础之上的延伸和扩展的一种网络;,第二,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信。,1.4云计算与物联网,Xen物联网系统需要大量的存储资源来保存数据,同时也需要计算资源来处理和分析数据,当前我们所指的物联网传感器连接呈现出以下的特点:,连接传感器种类多样,连接的传感器数量众多,连接的传感器地域广大,1.4云计算与物联网,物联网的产业链,物联网的产业链可以细分为标识、感知、处理和信息传送4个环节,每个环节的关键技术分别为RFID、传感器、智能芯片和电信运营商的无线传输网络。云计算的出现使物联网在互联网基础之上延伸和发展成为可能。物联网中的物,在云计算模式中,它相当于是带上传感器的云终端,与上网本、手机等终端功能相同。这也是物联网在云计算日渐成熟的今天,才能重新被激活的原因之一。,1.4云计算与物联网,云计算技术将给物联网带来以下深刻的变革,1)解决服务器节点的不可靠性问题,最大限度地降低服务器的出错率。2)低成本的投入可以换来高收益,让限制访问服务器次数的瓶颈成为历史。3)让物联网从局域网走向城域网甚至是广域网,在更广的范围内进行信息资源共享。4)将云计算与数据挖掘技术相结合,增强物联网的数据处理能力,快速做出商业抉择。,THANKS,