大数据存储与管理课件.pptx
《大数据存储与管理课件.pptx》由会员分享,可在线阅读,更多相关《大数据存储与管理课件.pptx(93页珍藏版)》请在三一办公上搜索。
1、大数据导论,孟宪伟 许桂秋 主编 万世明 檀大耀 梁烽 董国忠 孟剑 副主编,数据中国“百校工程”项目系列教材数据科学与大数据技术专业系列规划教材,BIG DATATechnology,第4章 大数据存储与管理,本章主要内容如下。(1)数据的存储模式。(2)大数据时代的存储管理系统。,4.1 数据存储概述,4.1.1 数据的存储介质 存储介质是数据存储的载体,是数据存储的基础。存储介质并不是越贵越好、越先进越好,我们要根据不同的应用环境,合理选择存储介质。早期的存储介质有纸带、卡片、磁带等,目前常见的数据存储介质有机械硬盘、固态硬盘、可记录光盘、U盘、闪存卡等。1机械硬盘 组成:机械硬盘即传统
2、普通硬盘,主要由盘片、磁头、磁头停泊区、磁头臂等组成,如图4-1所示。,图4-1 机械硬盘,读/写原理:机械硬盘的磁头可沿盘片的半径方向运动,加上盘片每分钟几千转的高速旋转,磁头就可以定位在盘片的指定位置进行数据的读/写操作。机械硬盘中所有的盘片都装在一个旋转轴上。每张盘片之间是平行的,在每个盘片的存储面上有一个磁头,磁头与盘片之间的距离比头发丝的直径还小,所有的磁头连在一个磁头控制器上,磁头控制器负责各个磁头的运动。另外,机械硬盘在读取的时候,各个部件在做机械运动,所以会产生一定的热量和噪声。,稳定性:机械硬盘都是磁碟型的,数据存储在磁碟扇区里,所以机械硬盘不能摔,通电不能移动,否则易损坏。
3、优缺点:优点在于便宜,性价比高,可以用较少的花费获得较大容量,使用寿命长;缺点是相对固态硬盘来说,读/写速度较慢;防震性也没有固态硬盘好。,2固态硬盘 组成:固态硬盘(Solid State Drive,SSD)是用固态电子存储芯片阵列制成的硬盘,由控制单元和存储单元(Flash芯片、DRAM芯片)组成,如图4-2所示。,图4-2 固态硬盘,读/写原理:与普通磁盘的数据读/写原理不同,固态硬盘的读取直接由控制单元读取存储单元,不存在机械运动,因此读取速度非常快。相对机械硬盘,固态硬盘的读取速度提高了两倍多。由于固态硬盘属于无机械部件及闪存芯片,所以具有发热量小、散热快等特点,而且没有机械马达和
4、风扇,工作噪声值为0分贝。稳定性:固态硬盘使用闪存颗粒(即内存、MP3、U盘等存储介质)制作而成,所以内部不存在任何机械部件,这样即使在高速移动甚至伴随翻转倾斜的情况下,也不会影响正常使用。而且在发生碰撞和震荡时,能够将数据丢失的可能性降到最小。相较机械硬盘,固态硬盘更可靠。优缺点:固态硬盘的优点是读取和写入速度快,缺点是价格较高,有写入次数的限制,读/写有一定的寿命限制。,3可记录光盘 常使用的可记录光盘分为CD-R、CD-RW、DVDR/RW多种格式,如图4-3所示。,图4-3 可记录光盘,(1)CD-R是一次刻录、可多次读取的光盘,标准容量为650MB,现在常用的刻录容量为720MB。(
5、2)CD-RW是可以多次刻录、反复擦写的光盘,容量为650MB。(3)目前主流的DVD刻录盘有两种DVD-R/RW和DVD+R/RW。,4U盘 U盘是一种Flash存储设备,是用Flash芯片(Flash RAM,电可擦写存储器)作为存储介质制作的移动存储器,如图4-4所示。U盘采用通用串行总线(Universal Serial Bus,USB)接口,可反复擦写的性能大大加强了数据的安全性。U盘使用极为方便,无须外接电源,支持即插即用和热插拔,只要用户计算机的主板上有USB接口,就可以使用。由U盘发展起来的MP3、MP4播放机也可当数据存储设备使用。,图4-4 U盘,5闪存卡 闪存卡一般用于数
6、码类的产品中,如用于手机、数码照相机、数码摄像机、数码录音笔等。常用类型有SD卡、MiniSD卡、MicroSD(TF)卡、CF卡、记忆棒等,如图4-5所示。,图4-5 闪存卡,6数据存储介质的选择原则 数据存储介质的选择主要考虑如下原则。(1)耐久性 耐久性能高的存储介质不容易损坏,降低了数据损失的风险。因而存储数据应选用对环境要求低、不容易损伤、耐久性能高的介质。,(2)容量恰当 介质的高容量不仅有利于存储空间的减少,还便于管理,但会使存储的成本增加。对大容量数据,如果存储介质容量低,将不利于存储数据的完整。介质的存储容量最好与所管理的数据量大小相匹配。(3)低费用 介质的价格低,可以减少
7、存储管理与系统运行的费用。(4)广泛的可接受性 为减少IT业界对存储介质不支持的风险,我们应当选用具有广泛可使用性的存储介质,特别应注意选用能满足工业标准的存储介质。,4.1.2 数据的存储模式 目前,数据有3种常见的存储模式(见图4-6),它们被广泛应用于企业存储设备中:附加直接模式(Direct-Attached Storage,DAS);附加网络模式(Network-Attached Storage,NAS);存储区域网络模式(Storage Area Network,SAN)。,图4-6 数据的存储模式,1DAS DAS将存储设备通过SCSI接口直接连接到一台服务器上使用,如图4-7所
8、示。DAS是通过小型计算机系统接口(Small Computer System Interface,SCSI),在计算机与外部设备之间进行连接。,图4-7 DAS(1),DAS依赖主机的操作系统来实现数据的读/写、管理、备份等工作,如图4-8所示。,图4-8 DAS(2),(1)DAS的优点 配置简单:DAS购置成本低,配置简单,仅仅是一个外接的SCSI接口。使用简单:使用方法与使用本机硬盘并无太大差别。使用广泛:在中小型企业中,应用十分广泛。,(2)DAS的缺点 扩展性差:在新的应用需求出现时,需要为新增的服务器单独配置新的存储设备。资源利用率低:不同的应用服务器存储的数据量随着业务发展出现
9、不同,有部分应用存储空间不够,而另一些却有大量的存储空间。可管理性差:数据分散在应用服务器各自的存储设备上,不便于集中管理、分析和使用。,异构化严重:企业在发展过程中采购不同厂商、不同型号的存储设备,设备之间的异构化严重,使维护成本很高。I/O瓶颈:SCSI接口处理能力会成为数据读/写的瓶颈。,2NAS NAS存储设备是一种带有操作系统的存储设备,也叫作网络文件服务器。NAS设备直接连接到TCP/IP网络上,网络服务器通过TCP/IP网络存取与管理数据。应用:文档、图片、电影的共享等。典型的NAS架构如图4-9所示。,图4-9 典型的NAS架构,(1)NAS的优点 即插即用:容易部署,把NAS
10、设备接入以太网就可以使用。支持多平台:可以使用Linux等主流操作系统。(2)NAS的缺点 NAS设备与客户机通过以太网连接,NAS使用网络进行数据的备份和恢复,因此数据存储或备份时都会占用网络带宽。存储数据通过普通数据网络传输,因此容易产生数据泄漏的安全问题。只能以文件级访问,不适合块级的应用。,3SAN SAN是一个采用网状通道(Fibre Channel,FC)技术,通过FC交换机连接存储阵列和应用服务器,建立专用于数据存储的区域网络,如图4-10所示。SAN支持数以百计的磁盘,提供了海量的存储空间,解决了大容量存储问题;这个海量空间可以从逻辑层面上按需要分成不同大小的逻辑单元,再分配给
11、应用服务器。SAN允许企业独立地增加它们的存储容量。SAN的结构允许任何服务器连接到任何存储阵列,这样不管数据放在哪里,服务器都可以直接存取所需的数据。,图4-10 SAN,(1)SAN的优点 传输速度快:SAN采用高速的传输媒介,并且SAN网络独立于应用服务器系统之外,因此存取速度很快。扩展性强:SAN的基础是一个专用网络,增加一定的存储空间或增加几台应用服务器,都非常方便。磁盘使用率高:整合了存储设备和采用了虚拟化技术,因而整体空间的使用率大幅提升。,(2)SAN的缺点 价格贵:不论是SAN阵列柜还是SAN必需的光纤通道交换机,其价格都是十分昂贵的,就连服务器上使用的光通道卡的价格也是不易
12、被小型企业所接受的。异地部署困难:需要单独建立光纤网络,异地扩展比较困难。,4不同应用场景对应的存储选择 CPU密集的应用环境:某种应用极其消耗CPU资源,其程序内部逻辑复杂而且对磁盘访问量不高。这种程序在运行时根本不用或只需少量读取磁盘上的数据,只是在程序载入的时候读入一点点程序数据而已。进程运行后便会使CPU的核心处于全速状态,这会造成其他进程在同一时间只能获得少量的执行时间,进而严重影响性能。,I/O密集的应用环境:某种程序的内部逻辑并不复杂、耗费的CPU资源不多,但要随时读取磁盘上的数据,如FTP服务器。对高并发随机小块I/O或共享访问文件的应用环境:我们往往会采用NAS。因为对小块的
13、I/O读/写并不会对网络造成大的影响,并且NAS提供了网络文件共享协议。,4.2 大数据时代的存储管理系统,在普通PC中,目前已经被广泛使用的存储管理系统有普通的文件系统、键-值数据库和关系型数据库。在大数据时代,普通PC的存储容量已经无法满足大数据需求,需要进行存储技术的变革,我们采用分布式平台来存储大数据。,4.2.1 文件系统1文件系统简介 在计算机中,文件系统(File System)是提供了命名文件及放置文件的逻辑存储和恢复等功能的系统。DOS、Windows、OS/2、Macintosh和UNIX-based操作系统都有文件系统。在此系统中,文件被放置在分等级的(树状)结构中的某一
14、处。文件被放进目录(Windows中的文件夹)或子目录。文件系统是软件系统的一部分,它的存在使应用可以方便地使用抽象命名的数据对象和大小可变的空间。,2操作系统和文件系统的关系 文件系统是操作系统用于存储设备(磁盘)或分区上的文件的方法和数据结构,即在存储设备上组织文件的方法。操作系统中负责管理和存储文件信息的软件机构被称为文件管理系统,简称文件系统。文件系统是对文件存储设备的空间进行组织和分配,负责文件存储并对存入的文件进行保护和检索的系统。具体地说,它负责为用户建立文件,允许用户进行存入、读出、修改等操作。,4.2.2 分布式文件系统1分布式文件系统简介 普通文件系统的存储容量有限,但是大
15、数据一般都是海量数据,无法在以前的普通文件系统进行存储。分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。和以前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布式文件系统所采用的计算机集群,都是由普通硬件构成的,这就大大降低了硬件上的成本开销。计算机集群的基本架构如图4-11所示。,图4-11 计算机集群的基本架构,2分布式文件系统的整体结构 如图4-12所示,分布式文件系统在物理结构上是由计算机集群中的多个节点构成的。这些节点分为两类,一类叫“主节点(Master Node)”或者也被称为“名称节点(NameNode)”,另一类叫“从节点(S
16、lave Node)”或者也被称为“数据节点(DataNode)”。,图4-12 分布式文件系统的整体结构,3Apache下的分布式文件系统 Hadoop是Apache软件基金会旗下的一个分布式系统基础架构。Hadoop框架最核心的设计就是HDFS、MapReduce,为海量的数据提供存储和计算。MapReduce主要运用于分布式计算,HDFS主要是Hadoop的存储,用于海量数据的存储。HDFS是一个分布式文件系统,具有高容错的特点。它可以部署在廉价的通用硬件上,提供高吞吐率的数据访问,适合那些需要处理海量数据集的应用程序。HDFS使用的是传统的分级文件体系,因此,用户可以像使用普通文件系统
17、一样,创建、删除目录和文件,在目录间转移文件,重命名文件等。,在HDFS中,一个文件被分成多个块,以块作为存储单位,块的作用如下。(1)支持大规模文件存储(2)简化系统设计(3)适合数据备份,HDFS采用了主从(Master/Slave)结构模型,如图4-13所示。一个HDFS集群包括一个名称节点(NameNode)和若干个数据节点(DataNode)。名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问。集群中的数据节点负责处理客户端的读/写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际上是保存在本地Linux文件系统中的。,图4-1
18、3 HDFS的体系结构,HDFS主要组件的功能(见图4-14)。,图4-14 HDFS主要组件的功能,(1)NameNode 名称节点(NameNode)存储元数据,元数据被保存在内存中(磁盘上也保存了一份),保存文件Block、DataNode之间的映射关系;NameNode记录了每个文件中各个块所在的DataNode的位置信息。元数据的内容包括文件的复制等级、修改和访问时间、访问权限、块大小及组成文件的块。对目录来说,NameNode存储修改时间、权限和配额元数据。,(2)DataNode 数据节点(DataNode)负责数据的存储和读取,数据被保存在磁盘中,维护BlockId到DataN
19、ode本地文件的映射关系。DataNode定期向NameNode发送Block信息以保持联系,如果NameNode在一定的时间内没有收到DataNode的Block信息,则认为DataNode已经失效了,NameNode会复制其上的Block到其他DataNode。,4.2.3 数据库 数据库(DataBase)就是一个存放数据的仓库。这个仓库是按照一定的数据结构(数据结构是数据的组织形式或数据之间的联系)来组织、存储的,我们可以通过数据库提供的多种方式来管理数据库里的数据。数据库家族如图4-15所示。,图4-15 数据库家族,1关系型数据库 关系型数据库把复杂的数据结构归结为简单的二元关系(
20、即二维表格形式)。在关系型数据库中,程序对数据的操作几乎全部建立在一个或多个关系表格上,即程序通过对这些关联表的表格分类、合并、连接或选取等运算来实现对数据的管理。,2非关系型数据库 非关系型数据库也被称为NoSQL数据库,如图4-16所示。NoSQL的本意是“Not Only SQL”,指的是非关系型数据库,而不是“No SQL”的意思,因此,NoSQL的产生并不是要彻底否定关系型数据库,而是成为传统关系型数据库的一个有效补充。NoSQL数据库在特定的场景下可以发挥出难以想象的高效率和高性能。,图4-16 非关系型数据库,NoSQL是非关系型数据库的广义定义。它打破了长久以来关系型数据库与A
21、CID理论“大一统”的局面。NoSQL数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。该术语(NoSQL)在2009年初得到了广泛认同。当今的应用体系结构需要数据存储在横向伸缩性上能够满足需求,而NoSQL存储就是满足这个需求而诞生的。NoSQL典型产品包括Memcached、Redis、MongoDB、HBase等。,4.2.4 键-值数据库 键-值(Key-Value)数据库是一种NoSQL数据库,用户可以通过Key来添加、查询或者删除数据。因为使用Key主键访问,所以会获得很高的性能及扩展性。键-值存储非常适合不涉及过多数据关系和业务关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 存储 管理 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-2147240.html