海量分布式存储的概念与技术.ppt
海量分布式存储的概念与技术,主讲:XXX PPT:XXX,Page 2,目录,海量分布式存储的概念,01,存储模式选择,02,网络存储技术,直连式存储技术,对象存储技术,数据库策略,03,Page 3,一、概念,如今的互联网正处于一个信息爆炸的时代。面对信息爆炸的互联网,对信息的存储和处理也就产生了海量的数据。,Page 4,概念,海量数据是指数据量极大,往往是Terabyte(1012bytes)、Petabyte(1015bytes)甚至Exabyte(1018bytes)级的数据集合。存储这些海量信息不但要求存储设备有很大的储存容量,且还需要大规模数据库来存储和处理这些数据,在满足通用关系数据库技术要求的同时,更需要对海量存储的模式、数据库策略及应用体系架构有更高的设计考虑。,Page 5,二、存储模式的选择,存储系统的存储模式影响着整个海量数据存储系统的性能,为了提供高性能的海量数据存储系统,应该考虑选择良好的海量存储模式对于海量数据而言,实现单一设备上的存储显然是不合适的,甚至是不可能的。分布式是解决这种问题的一个很好的解决方案。,存储分类(根据服务器类型),Page 6,2.1 直连式存储(DAS),其存储设备通过电缆(通常是SCSI接口电缆)或者光纤直接连到服务器,I/O请求直接发送到存储设备,它依赖于服务器,本身不带有任何存储操作系统。,典型 DAS结构,Page 7,2.1 直连式存储(DAS),主要问题和不足:直连式存储依赖服务器主机操作系统进行数据的IO读写和存储维护管理,数据备份和恢复要求占用服务器主机资源(包括CPU、系统IO等),数据备份通常占用服务器主机资源20-30%,因此许多企业用户的日常数据备份常常在深夜或业务系统不繁忙时进行,以免影响正常业务系统的运行。直连式存储的数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大。无论直连式存储还是服务器主机的扩展,从一台服务器扩展为多台服务器组成的群集,或存储阵列容量的扩展,都会造成业务系统的停机,从而给企业带来经济损失,Page 8,2.1 直连式存储(DAS),由于DAC本身弊端与网络技术的崛起,直连式存储(DAS)已显得非常力不从心,存储模式从以服务器为中心转向以数据为中心的网络存储模式,网络存储也成为目前典型存储技术,Page 9,2.2 网络存储方式,存储区域网络(SAN),网络附加存储(NAS),单击此处添加文字,单击此处添加文字,单击此处添加文字,单击此处添加文字,网络存储方式,Page 10,2.2.1 网络附加存储(NAS),或称网络接入存储,采用网络技术,通过网络交换机连接存储系统和服务器主机,建立专用于数据存储的存储私网。它拥有自己的文件系统,通过NFS或CIFS这两种网络文件系统对外提供文件访问服务。NAS 将存储设备通过标准的网络拓扑结构连接到现有的网络上来提供数据和文件服务。,Page 11,2.2.1 网络附加存储(NAS),优缺点:NAS管理简单、扩容方便,统一的文件系统使数据共享变得非常简单,所以其最大的优点是跨平台性很好,但NAS 服务器在网络存储中处于数据通路上,当服务请求激增时存在I/O瓶颈,性能是NAS 的最大问题,Page 12,它是存储设备与服务器经由高速网络设备连接而形成的存储专用网络。SAN 一般基于光纤通道FC(FibreChannel)或iSCSI(internet SCSI)构建,它是块级的存储,2.2.2 存储区域网络(SAN),Page 13,2.2.2 存储区域网络(SAN),优缺点:SAN的优点是高容量、高可靠性、低延迟缺点是SAN 没有一个统一的存储系统接口,对存储设备的共享访问存在数据的完整性与安全性问题,设备的跨平台性较差,Page 14,2.3 对象存储技术,对象存储(Object-Based Storage,OBS)综合了NAS和SAN的优点,同时具有SAN的高速直接访问和NAS的数据共享等优势,提供了具有高性能、高可靠性、跨平台以及安全的数据共享的存储体系结构。,Page 15,2.3 对象存储技术,对象(Object)包含了文件数据以及相关的属性信息,可以进行自我管理 OSD(Object-based Storage Device)一个智能设备,OSD 为存储对象数据的设备,它是一个智能设备,包括处理器、RAM 内存、网络接口、存储介质等以及运行在其中的控制软件 MDS 元数据服务器(Metadata Server)系统提供元数据、Cache一致性等服务网络连接文件系统文件系统运行在客户端上,将应用程序的文件系统请求传输到MDS和OSD上,对象存储系统组成,Page 16,2.3 对象存储技术,传统块存储与对象存储,对象存储结构,Page 17,2.3 对象存储技术,对象存储模式用于海量数据存储的优势:高性能数据存储:访问节点有独立的数据通路和元数据访问通路,可以对多个OSD 进行并行访问跨平台数据共享:由于在对象存储系统上部署基于对象的分布式文件系统比较容易,所有能够实现不同平台下的设备和数据的共享。可伸缩性:对象存储模式具有分布式结构的特性。由于OSD 是独立的智能设备,可以通过增加OSD 数量,使存储系统的聚合I/O 带宽、存储容量和处理能力得到提高,这种平衡扩展模式使得存储系统能够具有良好的可伸缩性。,Page 18,2.3 对象存储技术,对象存储模式用于海量数据存储的优势:可伸缩性:对象存储模式具有分布式结构的特性。由于OSD 是独立的智能设备,可以通过增加OSD 数量,使存储系统的聚合I/O 带宽、存储容量和处理能力得到提高,这种平衡扩展模式使得存储系统能够具有良好的可伸缩性。智能的存储设备:OSD 中集成了部分的存储管理功能方便安全的数据访问:I/O 通道的建立及数据的读写需要经过授权许可才能进行,从而保证了数据访问的安全性;另一方面,任何Client 都可以通过对象存储系统提供的标准文件接口访问OSD 上的数据,统一的命名空间使Client 访问数据的一致性得到了保证。,Page 19,2.3 对象存储技术,与传统存储方式对比,Page 20,三、数据库策略,数据库管理系统(DBMS)是海量数据存储检索系统的核心部件,所有对数据的控制都要通过DBMS来实现基于海量数据环境,针对海量数据的有效存储方法为了实现高性能的海量数据存储可采取的数据库策略有:分区技术:为了更精细地对数据库对象如表、索引及索引编排表进行管理和访问。可以对这些数据库对象进行进一步的划分,这就是所谓的分区技术并行处理技术:为了提高系统性能,可以让多个处理器协同工作来执行单个SQL 语句,这就是所谓的并行处理技术,21,感谢您的关注,