第1章-云计算与大数据基础方案课件.ppt
《第1章-云计算与大数据基础方案课件.ppt》由会员分享,可在线阅读,更多相关《第1章-云计算与大数据基础方案课件.ppt(89页珍藏版)》请在三一办公上搜索。
1、云计算与大数据技术,人民邮电出版社,王鹏 黄焱 安俊秀 张逸琴 编著,目 录 CONTENTS,第1章 云计算与大数据基础 第2章 云计算与大数据的相关技术 第3章 虚拟化技术 第4章 集群系统基础 第5章 MPI面向计算第6章 Hadoop分布式大数据系统第7章 HPCC面向数据的高性能计算集群系统 第8章 Storm基于拓扑的流数据实时计算系统第9章 服务器与数据中心 第10章 云计算大数据仿真技术,第1章云计算与大数据基础,云计算与大数据技术,第1章 云计算与大数据基础,1.1云计算技术概述1.1.1云计算简介1.1.2云计算的特点1.1.3云计算技术分类1.2大数据技术概述1.2.1大
2、数据简介1.2.2主要的大数据处理系统1.2.3大数据处理的基本流程1.3云计算与大数据的发展,1.1.1云计算简介,云计算技术是硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型云计算并不是对某一项独立技术的称呼,而是对实现云计算模式所需要的所有技术的总称。,云计算技术的内容很多包括分布式计算技术、虚拟化技术、网络技术、服务器技术、数据中心技术、云计算平台技术、存储技术等。从广义上说,云计算技术几乎包括了当前信息技术中的绝大部分。,1.1.1云计算简介,维基百科中对云计算的定义为:云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。2
3、012年的国务院政府工作报告将云计算作为国家战略性新兴产业给出了定义:云计算是基于互联网的服务的增加、使用和交付模式,通常涉及通过互联网来提供动态、易扩展且经常是虚拟化的资源。云计算是传统计算机和网络技术发展融合的产物,它意味着计算能力也可作为一种商品通过互联网进行流通。,1.1.1云计算简介,云计算技术的出现改变了信息产业传统的格局。传统的信息产业企业既是资源的整合者又是资源的使用者;这这种格局并不符合现代产业分工高度专业化的需求,同时也不符合企业需要灵敏地适应客户的需要。,1.1.1云计算简介,传统的计算资源和存储资源大小通常是相对固定的,面对客户高波动性的需求时会非常的不敏捷,企业的计算
4、和存储资源要么是被浪费,要么是面对客户峰值需求时力不从心。云计算技术使资源与用户需求之间是一种弹性化的关系,资源的使用者和资源的整合者并不是一个企业,资源的使用者只需要对资源按需付费,从而敏捷地响应客户不断变化的资源需求,这一方法降低了资源使用者的成本,提高了资源的利用效率。,1.1.1云计算简介,云计算时代基本的3种角色:资源的整合运营者、资源的使用者、终端客户。资源的整合运营者就像是发电厂负责资源的整合输出;资源的使用者负责将资源转变为满足客户需求的各种应用;终端客户为资源的最终消费者。,1.1.1云计算简介,云计算这种新的模式的出现被认为是信息产业的一大变革,吸引了大量企业重新布局:IB
5、M、微软、谷歌、DELL等企业国内企业:华为、中兴、腾讯、阿里、联想、浪潮、五舟等企业,1.1.1云计算简介,云计算技术作为一项涵盖面广且对产业影响深远的技术,未来将逐步渗透到信息产业和其他产业的方方面面,并将深刻改变产业的结构模式、技术模式和产品销售模式,进而深刻影响人们的生活;云计算会逐步成为人们生活中必不可少的技术;,1.1.1云计算简介,移动互联网的出现使云计算应用走向了人们的指间,推动了云计算技术的应用发展,今后云计算将是一项随时、随地、随身为我们提供服务的技术;云计算的出现也将如电的出现一般,为信息产业的发展提供无限的想象空间,使应用的创新能力得到完全释放。,1.1.1云计算简介,
6、1.1.2云计算的特点1资源池弹性可扩张2按需提供资源服务3虚拟化4网络化的资源接入5高可靠性和安全性,1.1.2云计算的特点,与传统的资源提供方向相比,云计算具有以下特点:(1)资源池弹性可扩张云计算系统的一个重要特征就是资源的集中管理和输出,这就是所谓的资源池。从资源低效率的分散使用到资源高效的集约化使用正是云计算的基本特征之一。分散的资源使用方法造成了资源的极大浪费,现在每个人都可能有一到两台自己的计算机,但对这种资源的利用率却非常的低,计算机在大量时间都是在等待状态或是在处理文字数据等低负荷的任务。资源集中起来后资源的利用效率会大大地提高,随着资源需求的不断提高,资源池的弹性化扩张能力
7、成为云计算系统的一个基本要求,云计算系统只有具备了资源的弹性化扩张能力才能有效地应对不断增长的资源需求。大多数云计算系统都能较为方便地实现新资源的加入。,1.1.2云计算的特点,(2)按需提供资源服务云计算系统带给客户最重要的好处就是敏捷地适应用户对资源不断变化的需求;云计算系统实现按需向用户提供资源能大大节省用户的硬件资源开支,用户不用自己购买并维护大量固定的硬件资源,只需向自己实际消费的资源量来付费;按需提供资源服务使应用开发者在逻辑上可以认为资源池的大小是不受限制的,应用开发者的主要精力只需要集中在自己的应用上。,1.1.2云计算的特点,(3)虚拟化现有的云计算平台的重要特点是利用软件来
8、实现硬件资源的虚拟化管理、调度及应用。在云计算中利用虚拟化技术可大大降低维护成本和提高资源的利用率。,1.1.2云计算的特点,(4)网络化的资源接入。从最终用户的角度看,基于云计算系统的应用服务通常都是通过网络来提供的,应用开发者将云计算中心的计算、存储等资源封装为不同的应用后往往会通过网络提供给最终的用户。云计算技术必须实现资源的网络化接入才能有效地向应用开发者和最终用户提供资源服务。以网络技术的发展是推动云计算技术出现的首要动力。,1.1.2云计算的特点,(5)高可靠性和安全性。用户数据存储在服务器端,而应用程序在服务器端运行,计算由服务器端来处理。所有的服务分布在不同的服务器上,如果什么
9、地方(节点)出问题就在什么地方终止它,另外再启动一个程序或节点,即自动处理失败节点,从而保证了应用和计算的正常进行。数据被复制到多个服务器节点上有多个副本(备份),存储在云里的数据即使遇到意外删除或硬件崩溃也不会受到影响。,1.1.2云计算的特点,1.1.3云计算技术分类,1.1.3云计算技术分类1按技术路线分类2按服务对象分类3按资源封装的层次分类,目前已出现的云计算技术种类非常多,对于云计算的分类可以有多种角度:从技术路线角度可以分为资源整合型云计算和资源切分型云计算;从服务对像角度可以被分为公有云和私有云;按资源封装的层次来分可以分为:基础设施即服务(Infrastructure as
10、a Service,IaaS)平台即服务(Platform as a Service,PaaS)软件即服务(Software as a Service,SaaS)。,1.1.3云计算技术分类,1按技术路线分类资源整合型云计算:这种类型的云计算系统在技术实现方面大多体现为集群架构,通过将大量节点的计算资源和存储资源整合后输出。这类系统通常能实现跨节点弹性化的资源池构建,核心技术为分布式计算和存储技术。MPI、Hadoop、HPCC、Storm等都可以被分类为资源整合型云计算系统。,1.1.3云计算技术分类,资源切分型云计算:这种类型最为典型的就是虚拟化系统,这类云计算系统通过系统虚拟化实现对单个
11、服务器资源的弹性化切分,从而有效地利用服务器资源,其核心技术为虚拟化技术。这种技术的优点是用户的系统可以不做任何改变接入采用虚拟化技术的云系统,是目前应用较为广泛的技术,特别是在桌面云计算技术上应用得较为成功;缺点是跨节点的资源整合代价较大;KVM、VMware都是这类技术的代表。,1.1.3云计算技术分类,2按服务对象分类公有云:指服务对象是面向公众的云计算服务,公有云对云计算系统的稳定性、安全性和并发服务能力有更高的要求。私有云:指主要服务于某一组织内部的云计算服务,其服务并不向公众开放,如企业、政府内部的云服务。公有云与私有云的界限并不是特别清晰,有时服务于一个地区和团体的云也被称为公有
12、云。所以这种云计算分类方法并不是一种准确的分类方法,主要是在商业领域的一种称呼。,1.1.3云计算技术分类,3按资源封装的层次分类基础设施即服务(Infrastructure as a Service,IaaS):把单纯的计算和存储资源不经封装地直接通过网络以服务的形式提供的用户使用。这类云计算服务用户的自主性较大,就像是发电厂将发的电直接送出去一样。这类云服务的对象往往是具有专业知识能力的资源使用者,传统数据中心的主机租用等可能作为IaaS的典型代表。,1.1.3云计算技术分类,平台即服务(Platform as a Service,PaaS):计算和存储资源经封装后,以某种接口和协议的形式
13、提供给用户调用,资源的使用者不再直接面对底层资源。平台即服务需要平台软件的支撑,可以认为是从资源到应用软件的一个中间件,通过这类中间件可以大大减小应用软件开发时的技术难度。这类云服务的对象往往是云计算应用软件的开发者,平台软件的开发需要使用者具有一定的技术能力。,1.1.3云计算技术分类,软件即服务(Software as a Service,SaaS):将计算和存储资源封装为用户可以直接使用的应用并通过网络提供给用户;SaaS面向的服务对象为最终用户,用户只是对软件功能进行使用,无需了解任何云计算系统的内部结构,也不需要用户具有专业的技术开发能力。,1.1.3云计算技术分类,图1.1云计算服
14、务体系结构,如图所示,云计算系统按资源封装的层次分为IaaS、PaaS、SaaS,分为对底层硬件资源不同级别的封装,从而实现将资源转变为服务的目的。,传统的信息系统资源的使用者通常是以直接占有物理硬件资源的形式来使用资源的,而云计算系统通过IaaS、PaaS、SaaS等不同层次的封装将物理硬件资源封装后,以服务的形式利用网络提供给资源的使用者。,在这里资源的使用者可能是资源的二次加工者,也可能是最终应用软件的使用者,通常IaaS、PaaS层面向的资源使用者往往是资源的二次加工者,这类资源的使用者并不是资源的最终消费者,他们将资源转变为应用服务程序后以SaaS的形式提供给资源的最终消费者。,实现
15、对物理资源封装的技术并不是惟一的,目前不少的软件都能实现,甚至有的系统只有SaaS层,并没有进行逐层的封装。,1.1.3云计算技术分类,云计算的服务层次是根据服务类型即服务集合来划分,与大家熟悉的计算机网络体系结构中层次的划分不同。在计算机网络中每个层次都实现一定的功能,层与层之间有一定关联。而云计算体系结构中的层次是可以分割的,即某一层次可以单独完成一项用户的请求而不需要其他层次为其提供必要的服务和支持。,1.1.3云计算技术分类,在云计算服务体系结构中各层次与相关云产品对应。应用层对应SaaS软件即服务,如:Google APPS、SoftWare+Services。平台层对应PaaS平台
16、即服务,如:IBM IT Factory、Google APPEngine、F。基础设施层对应IaaS基础设施即服务,如:Amazo EC2、IBM Blue Cloud、Sun Grid。虚拟化层对应硬件即服务,结合PaaS提供硬件服务,包括服务器集群及硬件检测等服务。,1.1.3云计算技术分类,1.2大数据技术概述,1.2大数据技术概述 1.2.1大数据简介1什么是大数据2数据的来源3生产数据的三个阶段4大数据的特点5大数据的应用领域,1.2大数据技术概述,1.2.1大数据简介计算和数据是信息产业不变的主题,在信息和网络技术迅速发展的推动下,人们的感知、计算、仿真、模拟、传播等活动产生了大
17、量的数据,数据的产生不受时间、地点的限制,大数据的概念逐渐形成,大数据涵盖了计算和数据两大主题,是产业界和学术界的研究热点,被誉为未来十年的革命性技术。,1.2.1大数据简介,2008年,Nature杂志推出了“大数据”专辑,引发了学术界和产业界的关注;2011年,大数据应用进入我国并快速发展,目前大数据的应用和研究已经是学术界和产业界的热点;2012年3月,美国政府发布大数据研究和发展倡议,投资2亿美元发展大数据,用以强化国土安全、转变教育学习模式、加速科学和工程领域的创新速度和水平;2012年7月,日本提出以电子政府、电子医疗、防灾等为中心制定新ICT(信息通信技术)战略,发布“新ICT计
18、划”,重点关注大数据研究和应用;2013年1月,英国政府宣布将在对地观测、医疗卫生等大数据和节能计算技术方面投资1.89亿英镑;2013年我国上海、重庆等地相继发布大数据行动计划。,1什么是大数据维基百科将大数据描述为:大数据是现有数据库管理工具和传统数据处理应用很难处理的大型、复杂的数据集,大数据的挑战包括采集、存储、搜索、共享、传输、分析和可视化等。大数据的“大”是一个动态的概念以前10GB的数据是个天文数字;而现在,在地球、物理、基因、空间科学等领域,TB级的数据集已经很普遍。大数据系统需要满足以下三个特性。(1)规模性(Volume):需要采集、处理、传输的数据容量大;(2)多样性(V
19、ariety):数据的种类多、复杂性高;(3)高速性(Velocity):数据需要频繁地采集、处理并输出。,1.2.1大数据简介,2数据的来源大数据的数据来源很多,主要有信息管理系统、网络信息系统、物联网系统、科学实验系统等;其数据类型包括结构化数据、半结构化数据和非结构化数据。(1)管理信息系统:企业内部使用的信息系统,包括办公自动化系统、业务管理系统等,是常见的数据产生方式。管理信息系统主要通过用户输入和系统的二次加工的方式生成数据,其产生的数据大多为结构化数据,存储在数据库中。,1.2.1大数据简介,(2)网络信息系统:基于网络运行的信息系统是大数据产生的重要方式,电子商务系统、社交网络
20、、社会媒体、搜索引擎等都是常见的网络信息系统,网络信息系统产生的大数据多为半结构化或无结构化的数据,网络信息系统与管理信息系统的区别在于管理信息系统是内部使用的,不接入外部的公共网络。(3)物联网系统:通过传感器获取外界的物理、化学、生物等数据信息。(4)科学实验系统:主要用于学术科学研究,其环境是预先设定的,数据既可以是由真实实验产生也可以是通过模拟方式获取仿真的。,1.2.1大数据简介,3生产数据的三个阶段(1)被动式生成数据:数据库技术使得数据的保存和管理变得简单,业务系统在运行时产生的数据直接保存数据库中,这个时候数据的产生是被动的,数据是随着业务系统的运行产生的。,1.2.1大数据简
21、介,(2)主动式生成数据:互联网的诞生尤其是Web 2.0、移动互联网的发展大大加速了数据的产生,人们可以随时随地通过手机等移动终端随时随地地生成数据,人们开始主动地生成数据。(3)感知式生成数据:感知技术尤其是物联网的发展促进了数据生成方式发生了根本性的变化,遍布在城市各个角落的摄像头等数据采集设备源源不断地自动采集、生成数据。,1.2.1大数据简介,4大数据的特点(1)数据产生方式:在大数据时代,数据的产生方式发生了巨大的变化,数据的采集方式由以往的被动采集数据转变为主动生成数据。(2)数据采集密度:以往我们进行数据采集时的采样密度较低,获得的采样数据有限;在大数据时代,有了大数据处理平台
22、的支撑,我们可以对需要分析的事件的数据进行更加密集地采样,从而精确地获取事件的全局数据。(3)数据源:以往我们多从各个单一的数据源获取数据,获取的数据较为孤立,不同数据源之间的数据整合难度较大;在大数据时代,我们可以通过分布式计算、分布式文件系统、分布式数据库等技术对多个数据源获取的数据进行整合处理。,1.2.1大数据简介,(4)数据处理方式:以往我们对数据的处理大多采用离线处理的方式,对已经生成的数据集中进行分析处理,不对实时产生的数据进行分析;在大数据时代,我们可以根据应用的实际需求对数据采取灵活的处理方式,对于较大的数据源、响应时间要求低的应用可以采取批处理的方式进行集中计算,而对于响应
23、时间要求高的实时数据处理则采用流处理的方式进行实时计算,并且可以通过对历史数据的分析进行预测分析;,1.2.1大数据简介,大数据需要处理的数据大小通常达到PB(1024 TB)或EB(1024 PB)级;数据的类型多种多样,包括结构化数据、半结构化数据和非结构化数据;巨大的数据量和种类繁多的数据类型给大数据系统的存储和计算带来很大挑战,单节点的存储容量和计算能力成为瓶颈;分布式系统是对大数据进行处理的基本方法,分布式系统将数据切分后存储到多个节点上,并在多个节点上发起计算,解决单节点的存储和计算瓶颈。常见的数据切分的方法有随机方法、哈希方法和区间方法:随机方法将数据随机分布到不同的节点;哈希方
24、法根据数据的某一行或者某一列的哈希值将数据分布到不同的节点;区间方法将不同的数据按照不同区间分布到不同节点。,1.2.1大数据简介,5大数据的应用领域大数据在社会生活的各个领域得到广泛的应用,不同领域的大数据应用具有不同的特点,其对响应时间、系统稳定性、计算精确性的要求各不相同,其对比如表1.1所示。表1.1 典型的大数据应用特征对比,1.2.1大数据简介,1.2.2主要的大数据处理系统大数据处理的数据源类型多种多样,如结构化数据、半结构化数据、非结构化数据,数据处理的需求各不相同:对海量已有数据进行批量处理,对大量的实时生成的数据进行实时处理,在进行数据分析时进行反复迭代计算,对图数据进行分
25、析计算。,1.2.2主要的大数据处理系统,目前主要的大数据处理系统有:数据查询分析计算系统、批处理系统、流式计算系统、迭代计算系统、图计算系统和内存计算系统。1数据查询分析计算系统大数据时代,数据查询分析计算系统需要具备对大规模数据进行实时或准实时查询的能力,数据规模的增长已经超出了传统关系型数据库的承载和处理能力。目前主要的数据查询分析计算系统包括HBase、Hive、Cassandra、Dremel、Shark、Hana等。,1.2.2主要的大数据处理系统,HBase:开源、分布式、面向列的非关系型数据库模型,是Apache的Hadoop项目的子项目;源于Google论文Bigtable:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算 数据 基础 方案 课件
链接地址:https://www.31ppt.com/p-3952909.html