毕业设计论文基于iSCSI的重复数据删除系统的设计与实现.doc
《毕业设计论文基于iSCSI的重复数据删除系统的设计与实现.doc》由会员分享,可在线阅读,更多相关《毕业设计论文基于iSCSI的重复数据删除系统的设计与实现.doc(42页珍藏版)》请在三一办公上搜索。
1、摘 要信息化的快速发展致使数据量与日俱增,简单的存储这些数据对企业而言并不是最佳的解决方案存储需要投入成本,大量的文件最终将会加重企业数据备份以及灾难恢复系统的负担。企业与其不断的扩充磁盘容量来应对数据量的增加,还不如转向数据删除技术,以存储更少的数据。近年来新兴的重复数据删除技术就是减少存储空间的有效方式之一。通过对重复数据删除技术的深入研究,提出了一种基于iSCSI平台的重复数据删除存储系统。该系统实现了LBA映射、指纹计算、指纹检索和指纹索引表管理等功能。通过LBA映射表的组织和管理,实现了重复数据删除前后数据块逻辑地址的转化和对应关系;指纹计算模块中采用基于散列的SHA-1算法,实现了
2、将4KB数据块转化为160位摘要值的过程;指纹检索和指纹索引表的管理采用三级索引结构,实现了指纹的精确定位和快速查找。为了弥补重复数据删除带来的系统性能的损失,针对重复数据删除功能中指纹检索性能瓶颈进行了优化,提出了基于布鲁姆过滤的指纹检索算法,大量的指纹检索请求被过滤掉,从而提高检索效率。对系统性能、重复数据删除压缩比和检索过滤算法的效果进行了相关测试。分别测试了标准iSCSI和加入重复数据删除模块后的iSCSI系统的性能,结果表明,加入重复数据删除之后,虽然系统性能有所下降,但是下降的幅度还是预期的范围之内;对重复数据删除压缩比进行了测试,测试结果表明压缩效果的好坏与应用环境密切相关,当应
3、用于那些信息重复度较高的环境如备份存储系统、归档存储系统等时,具有较好的压缩效果;最后对检索过滤算法进行了测试,测试出的过滤率和误判率都可以达到预期效果。关键词:重复数据删除,指纹检索优化,存储性能AbstractResulted in the rapid development of information technology increasing the amount of data, simple storage of these data to enterprises is not the best solution - storage needs input costs, a la
4、rge number of documents that will ultimately increase the enterprise data backup and disaster recovery burden. Compared to expand disk capacity to respond to the increase in the amount of data, companies might as well turn to remove the technical data to store less data.In recent years, new data ded
5、uplication technology is one of effective way to reduce storage space.Data de-duplication technology by further research, a platform based on iSCSI deduplication storage systems. This system has LBA mapping, fingerprint calculation, fingerprints and fingerprint search index table management. LBA map
6、ping table by the organization and management, and data de-duplication before data blocks the conversion of logical address and correspondence; fingerprint calculation module based on SHA-1 hash algorithm, implemented into the 4KB block 160 Summary value of the process; fingerprints and fingerprint
7、index table to retrieve the management of all three index structure is used to achieve precise positioning and fast fingerprint search. To make up for deduplication performance caused the loss of data deduplication feature for fingerprint retrieval performance bottlenecks, for a special algorithm op
8、timization, proposed fingerprint retrieval based on Bloom filter filtering algorithm to filter out a large number of fingerprint retrieval request, thereby enhancing the efficiency of retrieval. On system performance, data deduplication, compression ratio and the effect of filtering algorithms to re
9、trieve the relevant tests. ISCSI and standard were tested by adding data deduplication module of the iSCSI system performance, results show that adding data deduplication, the system performance has declined; on data deduplication compression ratio were tested, the test results show that good compre
10、ssion bad environment is closely related with the application, when applied to repeat that information environment such as a higher degree of backup storage systems, archival storage systems, etc., and has good compression effect; Finally, the search filter algorithm has been tested, tested the filt
11、ration rate and false positive rate can achieve the desired results. Keywords: De-duplication, Fingerprint search optimization, Storage Performance目 录摘 要IABSTRACTII目 录IV1绪 论11.1课题背景11.2课题研究目的及意义21.3国内外发展现状21.4课题的主要研究工作41.5课题的来源52系统关键技术概述62.1iSCSI平台简介62.2重复数据简介72.3重复数据删除的基本原理82.4数据处理粒度分析92.5BLOOM FIL
12、TER算法102.6本章小结133重复数据删除方案设计143.1系统功能需求143.2系统总体设计143.3LBA映射表163.4指纹计算模块163.5指纹管理和检索模块173.6基于BLOOM FILTER算法的指纹检索优化193.7本章小结204重复数据删除系统实现214.1LBA映射表实现214.2指纹计算模块实现224.3指纹索引表的建立与指纹检索224.4BLOOM FILTER过滤算法的实现234.5处理流程分析244.6本章小结275系统测试与分析285.1测试环境介绍285.2测试结果及分析285.3本章小结326总结与展望336.1总结336.2未来展望33致 谢35参考文献
13、36371 绪 论本章首先介绍了当前存储系统面临的挑战和技术发展趋势,然后简述了本论文研究的目的及意义,接着分析了重复数据删除技术的发展现状,介绍了国内外在重复数据删除领域的相关研究工作,最后对本文的主要研究内容及课题来源作了具体说明。1.1 课题背景随着信息化时代的推进,各企事业单位的信息数据量也不断增长,存储管理员不断努力地处理日益激增的数据,比如,文本、声频、视频、图像,还有不断增加的大容量邮件附件。然而存储这些数据对企业而言并不是最佳的解决方案存储需要投入成本,大量的文件最终将会加重企业数据备份以及灾难恢复系统的负担。企业与其寻求更多的存储数据的不同方式,还不如转向数据删除技术,以存储
14、更少的数据。近年来新兴的重复数据删除技术1就是减少存储空间的一种方式,它通过识别和消除数据环境中的冗余数据,确保只将单一的数据保存在存储介质中,从而节省了大量的存储空间,降低了存储成本。这意味着只需要更少的磁盘和更低频率的磁盘采购。更有效地利用磁盘空间,就能够延长磁盘保存期限,这样,提供了更好的恢复时间目标,更长的备份时间。同时,重复数据删除还可以缩减必须通过无线网络传送来实现远程备份、复制和灾难恢复的数据2。这样不仅显著提高现有磁盘存储空间的有效容量,从而使保护数据所需的物理磁盘数量更少,还有助于企业对数据的维护管理。这便可以帮助企业减轻硬件投资和后期维护所带来的经济压力。由于重复数据删除技
15、术可使一些因存储容量需求巨大而成本高的数据管理和保护方案变得经济可行,因此,在工业领域,重复数据删除技术在数据保护和归档留存领域得到了应用。当前,在学术研究领域,重复数据删除技术也是研究的热点之一。本课题的研究中,在基本的iSCSI平台中加入重复数据删除技术,数据存储之前先进行去重处理。为了弥补重复数据删除带来的性能损失,利用过滤技术对数据检索模块进行了优化,提高检索性能。1.2 课题研究目的及意义重复数据删除技术通过有效地减少数据,消除备份成为减低数据存储成本的重要技术,成为大家关注的焦点。在一个完整的备份工作中往往会存在大量的重复数据,如果所有的数据不加处理的进行备份,那么这种备份开销是巨
16、大的,更何况很多情况下数据会备份好几份。在使用磁带作为存储介质的系统中,这种完全备份还是可以接受的;但是在磁盘系统中,完全备份会消耗大量的磁盘空间,使成本增加。这种开销多数情况下是企业不愿意去承受的。将重复数据删除技术应用于备份系统中带来的优势就很明显了:(1)减少备份容量需求,节约成本。研究表明,这种容量缩减幅度一般保持在10-20倍,在这个幅度中实现的磁盘容量需求减缩将为用户带来强有力的成本节约,包括:更小的磁盘、更低的能耗和冷却成本。(2)“释放”容量意味着以更少的介质管理,完成更多的备份数据,获取更长的数据保留时间。(3)重复数据删除改善恢复时间目标(RTO)和可靠性。用户备份到磁盘的
17、数据越多,就越能满足RTO需求,重复数据删除技术使客户在磁盘上备份更多的数据,保留更长的时间,从而提高RTO。通过重复数据删除技术,所有到来的数据请求都要先进行检索,如果发现该数据已经存在,则只进行相关的映射处理,而不再重复存储。这样就可以保证没有重复数据,从而降低存储消耗,降低成本。1.3 国内外发展现状当前国际上的各大存储厂商均开始在自己的存储系统中开始应用重复数据删除技术,比如EMC, NetApp, DataDomain等。目前比较成熟的产品中,重复数据删除技术一般是用于备份和归档系统;用于主存储系统和分布式系统中的还相当少。国内的存储厂商如华赛、H3C等公司,也开始了重复数据删除方面
18、的研究,并已申请了相关专利。目前,市场上提供重复数据删除的厂商基本上可以分为两个阵营:In-line(带内)重复数据删除和Post-process(带外)重复数据删除。In-line重复数据删除是指数据保存到存储系统之前就进行重复数据删除,这样做的优势在于备份过程只需进行一次。Post-process重复数据删除是指在数据备份处理之后才进行重复数据删除,它的优势在于我们无需担心由于重复数据处理使CPU负担加重而导致备份服务器和存储目标之间出现瓶颈。重复数据删除技术大致分为两个方向,一方面是数据备份领域,另一方面是基础存储领域。从目前市场情况来看大部分应用主要还是在备份领域,重复数据删除技术通过
19、识别和消除数据环境中的冗余数据,从而大大减少需要保护的数据量,确保同样的数据信息只被保存一次,这样不仅显著提高现有磁盘存储空间的有效容量,从而使保护数据所需的物理磁盘数量更少,还有助于企业对数据的维护管理。这便可以帮助企业减轻硬件投资和后期维护所带来的经济压力。随着数字信息的爆炸式增长,所存在的重复数据越来越多,造成了存储资源的极大浪费。重复数据消除技术的出现在很大程度上缓解了该问题,该技术也得到了越来越广泛的认可。目前重复数据删除技术在工业上主要应用于三个方面:数据备份系统、归档存储系统和远程灾备系统。为了满足用户的需求,备份设备已渐渐从传统的磁带库过渡到磁盘设备,但是考虑到成本不可能为磁盘
20、设备无限扩容,而随着数据量的不断增加,所有备份的数据越来越多,面临容量膨胀的压力,重复数据删除技术的出现,为最小化存储容量找到有效的方法。由于参考数据的数量不断增长,而法规遵从要求数据在线保留的时间更长,并且由于高性能需求需要采用磁盘进行归档,因此,企业一旦真正开始进行数据的归档存储就面临成本问题,重复数据删除技术通过消除冗余实现高效率的归档存储,从而实现最低的成本,目前,归档存储系统的重复数据删除技术主要是基于Hash的方法,产品的销售理念是以内容寻址存储(CAS)技术为主,分为纯软件和存储系统两类。在远程灾备系统中,需要将大量的数据迁移到异地的系统中,随着数据量的不断增长,数据传输的压力越
21、来越大,通过重复数据删除技术在数据传输前检测并删除重复的数据,可以有效地减少传输的数据量,提高数据传输速度,例如飞康的MicroScan软件就采用了该技术。重复数据删除技术正在不断发展,因此,可以预计其应用也会不断拓展,用户将在多种应用环境中可获得重复数据删除带来的成本效益,这些应用环境不仅只是包括备份和归档,而且将覆盖其它存储应用、网络应用和桌面应用中。1.4 课题的主要研究工作本论文研究的主要内容有以下几个方面:(1)重复数据删除技术的设计与实现。通过分析重复数据删除的一般流程,实现了重复数据删除模块的基本功能,包括LBA映射表的管理、指纹计算以及指纹索引表的建立与管理。(2)重复数据删除
22、中指纹检索优化设计与实现。指纹检索过程是重复数据删除技术中的一大瓶颈,本系统通过基于Bloom Filter算法的检索过滤技术的实现,极大的提高了指纹检索的性能。本论文内容组织如下:第一章对重复数据删除技术的相关背景知识做了简单的介绍,对课题研究的目的、意义以及国内外研究发展状况做了简要的描述。第二章详细介绍了重复数据删除系统的总体设计。首先阐述了重复数据删除技术的基本原理和系统的总体设计框架,然后对各个功能模块分别进行介绍,包括LBA映射表、指纹计算模块和指纹检索模块。第三章描述了重复数据删除系统的具体实现过程。首先分模块详述了各个模块的实现方案,然后重点对检索优化算法部分的设计和实现进行了
23、说明,最后分析了系统的处理流程。第四章对重复数据删除系统各方面的性能进行测试。第五章总结目前所做的工作并展望未来的研究工作。1.5 课题的来源本课题受国家973重大基础研究计划 “高效能存储系统组建方法研究”(项目编号:2011CB302300)资助。2 系统关键技术概述目前国内外已经在很多平台上实现了重复数据删除技术,在本文的研究中,是基于iSCSI平台实现的。本章首先介绍了iSCSI存储平台的相关知识,然后介绍了重复数据删除技术,最后就Bloom Filter算法的背景、算法基本原理和误判率作了简要分析。2.1 iSCSI平台简介iSCSI3(互联网小型计算机系统接口)是一种在Intern
24、et协议网络上4,特别是以太网上进行数据块传输的标准。它是由Cisco和IBM两家发起的,并且得到了IP存储技术拥护者的大力支持。是一个供硬件设备使用的可以在IP协议上层运行的SCSI指令集。简单地说,iSCSI可以实现在IP网络上运行SCSI协议,使其能够在诸如高速千兆以太网上进行路由选择。iSCSI的主要功能是在TCP/IP网络上的主机系统(启动器initiator)和存储设备(目标器target)之间进行大量数据的封装和可靠传输过程。其工作流程如图2. 1所示:当客户端发出一个数据、文件或应用程序的请求后,操作系统就会根据客户端请求的内容生成一个SCSI命令和数据请求,SCSI命令和数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 基于 iSCSI 重复 数据 删除 系统 设计 实现
链接地址:https://www.31ppt.com/p-4863736.html