分布式存储系统概述.docx
内容总括分布式存储系统是基于分布式架构,由多个软硬件协同的存储节点通过网络互联来提供存储服务的系统.或简言之,分布式存储系统使用分布式的方法来提供存储服务.分布式存储系统首先是存储系统,作为存储存储系统,最基本的需求是提供系统的可靠性和可用性.可靠性是指,用户在存储系统写入的数据不能丢,读取的数据不能错;可用性是指,系统提供的服务不中断。除了可靠性和可用性,存储系统还需要具备高性能、高数据存储效率、高安全、易管理等特点.高性能是指系统提供高IOPS、高带宽、低时延;高数据存储效率是指,存储系统利用数据缩减方法(如RAID、EC、电弱、压缩等)使用户写入的数据占用尽最小的存储空间;高安全主要针对存慵系统的用户业务、存储设备、存博网络等,需要保证它们不易受到安全威胁和攻击,即使收到攻击后也易于恢复;易管理是指系统在生命周期内可以进行方便的配置、维护、优化等.分布式存储是使用分布式的方法设计的,必然具有分布式系统的特点.这些特点包括易扩展、融合存储服务、生态开放等.易扩展是指可以在方便地在已有的分布式存储系统中添加(或缩减)节点,并且系统的整体性能(IOPS、带宽)和节点数量(近)线性相关;融合服务能力是指存储系统可以同时支持块、文件、对象、HDFS等多种存储服务;生态开放是指分布式存储不仅可以方便地对接各种上层应用,其系统自身的软硬件也具有相对开放的生态.人们总是追求完美的产品,对于分布式存储产品,也不例外.比如数据高可靠要高,永远不会丢数据;系统可用性要高,永远在线;系统扩展性要强,可任意扩、缩存储节点;系统容错性强,随便坏几块硬盘,甚至坏几个节点都不会影响存储系统的可靠性和系统可用性;当然,存储还必须具备高性能.但是,完美的存储系统是不存在的。这倒不完全是由于技术的原因,一些更深层的原理,比如分布式存储中的CAP理论,就从理论上制约了完美存储的存在.实际上,我们在设计分布式系统的时候,往往要在可靠性、可用性、性能、存储效率、成本等不同的方面进行权衡和取舍.不同的用户、不同的应有场景,对分布式存储系统的关注点也不尽相同.这也是为什么即使是同一个的厂商的分布式存储产品,也会分成不同的产品系列和型号。其主要作用就是满足不同场景和用户的需求.本文的主要目的,是对分布式存储系统设计中所关注的问颖和方法做一些简要的说明,以期读者通过此文对分布式存储系统有一个基本的了解。下面,我将对本文中提及的分布式存储的特征做一个基本描述.因为文章长度的限制,这里的描述是粗略的。之后,我希望根据读者的兴趣和本人的能力,对分布式存储系统中的一些问题和方法进行专题论述.二、可靠性首先,我们看一下分布式存储系统的可靠性."可靠性"在不同的语境下有不同的含义.为避免歧义,此文中我们特指存储系统数据的可扉性.更加严格一点说,是指存储系统在给定的时间内(定量计算中一般取一年)数据不丢失的概率.比如,亚马逊S3存储服务的数据可宛性指标是11个9,也就是99.999999999%。照此计凭,用户存储百亿对象,平均十年可能出现1个对象丢失.对分布式存储系统来说,造成数据丢失的主要原因是硬件失效(除硬件失效外,软件Bug也会造成数据可靠性降低,软件Bug不在本文中论述)。硬件失效包括硬盘失效、存储节点失效、网络异常、IDC故障等.硬件失效时不可避免的.为了保证在发生硬件失效时,从整个存硫系统的角度不丢失数据,一般采用数据冗余的方法,在分布式存储集群内做数据冗余,甚至在IDC机房间的不同分布式存储集群间做数据冗余(数据备份)。当前较为成熟的数据冗余方法包括多副本和纠删码,一些新的网络编码方案也探索中.多副本,腺名思义,就是把数据在分布式系统中保存多份;纠删码是RAID技术的拓展,它把格存储数据分割成固定长度的数据片段,基于这些数据片段,利用算法计算出若干个校验片段,然后把数据片段和校验片段存储到不同的存谛介质上.为了最大限度的提高数据可靠性,数据的不同副本或纠刷码片段尽最要存储在不同存储节点(甚至不同机架)。基于硬件失效(硬盘、节点、网络等)的数据可篇性可以通过建模的方法计算出来.常见的算法模型包括蒙特卡洛方法和基于泊松分布的数据估计方法,后续文章专门论述,本文从略。数据可靠性还包含了数据完整性.用户写入存博系统的数据再读取时必须正确的.实际上,数据进入存储系统,要经过网卡、CPU、内存、RAID(HBA)卡、硬盘等多个部件的处理,理论上,每个部件在处理过程中都可能发生数据错误.为避免这些可能的错误,需要数据中添加校睑信息,以保障最终落盘数据的完整性.校验信息不仅可以保障落盘数据的完整性,还可以避免另一类更要问题,即静默错误(SilentDataCorruption)。磁盘发生静默错误的原因包括介质损坏、firmware问题等.在读取发生静默错误的数据时,通过校验信息,就可以发现读物数据的问期.此时,通过其他副本(或其他校验方法)可以更新读出正确的数据,保证读取数据的完整性.为了提升分布式存储系统的数据可靠性,需要从多个维度进行考量.从存储节点部件(硬盘、内存、CPU、RAID/HBA卡)级,到存储集群系统级,再到解决方案级,需要多个层次通盘考虑.在部件级,硬盘(包括HDD和SSD)最终承载了用户数据,且其数量大,相对易出错,所以,如何有效、快速地识别和处理硬盘故障,把硬盘故障对整个系统的影响降到最低,是可靠性设计面临的关键挑战.对硬盘可靠性提升的方法包括硬盘坏道检测、错误处理、满盘检测和隔寓、故障预测等内容.除硬盘外,网卡、内存等部件有需要相应的可靠性检测和保护技术.存储集群系统级的可品性技术包括数据布局的方法、故障节点的快速检测和切换、数据的快速函构等.数据布局技术就是数据的副本或EC分片在存储集群中的分布方法。良好的数据布局在可以在相同副本或EC配首下最大化数据可靠性.为此,经常需要综合利用节点池、硬盘池、故障域、保护域等多种技术.节点故障(包括硬盘故障)的快速检测对提升存储系统数据可旅性和系统可用性(下文中详细讲解)都要蚕要作用.通常利用基于软件心跳的方法检测节点故障,部分厂商基于硬件故障上报或软硬结合的方法,可以更快地进行故障检测和切换.在单个硬盘或节点失效时,存储系统部分数据可靠性处于降级状态,此时,需要尽快地进行数据电构,恢且数据完整性.计算表明,数据至构的时间和数据可求性并非线性关系,而是指数型关系,所以快速圭构对于数据可靠性的提升具有重大意义.而数据田构速度在很大程度上依赖于数据布局策略,良好的数据布局可以充分发挥分布式存储的特点,多个节点(硬盘)并行重构数据,从而大幅提升电构效率.解决方案级的数据可靠性技术主要包括不同存储系统间的异步复制和同步夏制技术.此处不详述.三、可用性系统的可用性(availability)指系统可以正常提供服务的能力。对分布式存储系统而言,可用性就是指系统可以正常提供读/写数据的能力.这里所谓的"正常",是指用户的读写操作在合理的时间内被存储系统执行,用户写入数据被正确地持久化在存储系统内,用户读出的数据是最近更新成功的数据.可用性一般用系统提供正常服务的时长与总时长的比例来衡量。比如,若一个存储系统的可用性指标是99.9999%,则该系统在一年内不能提供服务的时间约为30秒.对分布式存储系统来说,硬件部件(如硬盘)故障、节点失效、网络故障都被视为无可避免的正常情况。要实现系统高可症,就是在这些情况出现,分布式存储整体作为一个系统,将不可提供读写服务的时间压缩到最短,甚至没有(主机应用读写无感知)。理论上将,对于一个含有N个节点的对称式分布式存储集群来说,每一份写入集群的数据最好能在笛个节点上有一个副本,这样,及时N-I个节点全部失效,剩下的一个节点也包含完整数据,可以对外提供读写服务。但如果这样做,必然导致数据存储效率的降低,以及较低的性能.这时显而易见的.所以,系统设计时,要在可用性和存储效率、性能之间做一定的取舍和均衡.分布式存储系统的一个好处是,系统中的任何一个节点都可以提供读写服务。-个自然的要求是,我们希望每个节点在同一时刻看到的数据是一致的.更具体地说,就是在一个具有一致性的分布式系统中,一旦对任何一个节点的写入返回成功,后续系统中其它任何节点都可以立即读到这个更新值.这个性能称为分布式系统的一致性(Consistency).一致性的要求是合理的,比如对于一个分布式应用来说,一些节点需要从存储系统的不同节点上读取数据的最新写入值,并根据这个值做进一步处理.此时,如果不能满足数据一致性的要求,就可能导致应用错误.分布式系统的另一个合理要求是分区容错性(Partitiontolerance).分区即网络分区,是因为网络故障导致网络不连通,不同节点分布在不同的子网络中,子网内通信正常.分区容错性就是在发生网络分区时,系统仍然可提供服务,系统仍然可用.从需求上说,系统可用性、一致性、分区容错性都是分布式存储的必备性质。然而,2002年,麻省理工学院的Gilbert和1.ynch发表了著名的CAP定理,证明了在分布式系统中,一致性(Consistency)、可用性(Availability)、分区容错性(Partitiontolerance)不可装得.虽然CAP定理存在一定争议,但争议本身已在不断加深人们对分布式系统内在性质的理解.实际上,一致性的模型是比较巨杂的.从概念上分,一致性模型包括严格一致性、线性一致性、眼序一致性、因果一致性、单调一致性、最终一致性等.CAP定理中的一致性指线性一致性,底于强一致性中的一种。对一致性的详细介绍在专门的文章中讨论.对分布式存储来说,网络分区(P)是不可避免的。而C.A、P又不能共存,那么我们只能选择CP或者AP.对于一个通用的分布式存体系统来说.缺少一致性对部分应用来说是不可接受的,所以,大部分分布式存硅系统都是CP型系统.当然,这并不意味着完全舍弃了可用性(八).实际上,CAP理论中的A是理论上的最高可用性.在实际的系统中,并不会放弃A,设计者只是选择在C和A中选择哪个更妥一点,再一次做权衡和取舍.在发生分区的时候,我们选择了CP;不发生分区的时候,C和A自然是可以兼顾的。然而在此时,可用性和性能,具体地说,是可用性和时延又成了一对不可兼得的特性.也就是说,在无分区的情况下,要追求更强的一致性,就得接受更高的响应时长。这个结论出自PACE1.C定理。对这个定理的一个粗略解释是:更强的一致性必然要求数据以同步的方式进行复制,相比于异步复制,同步豆制需要花芟更多的时间.响应时长就是性能三大指标之一的时延.从这里我们也可以看到,及时在不发生网络分区的情况下,可用性和性能(时延)之间也要做仔细的权衡和取舍。分布式存储系统要做到商可用,需要从多个角度进行设计.分布式存储系统自身首先要做到高可用。存储系统中保存多份数据(数据可靠性).并且其中多个(甚至所有)节点都可以独立对外提供存储服务,这是高可用的基础.另外,在系统中发生故障时,需要系统具备快速的故障检测和故障转移能力.距商来说,外部主机通过虚拟地址连接到存储集群中的某一台存储节点读写集群数据,在该存储节点发生宕机等事件无法继续提供服务时,存储系统要具备快速将服务切换到虚拟地址对应的备用存储节点上继续提供服务.要提升可用性,有时还需要应用侧(主机侧)进行配合。比如,在主机通过多路径软件连接到分布式存储集群时,在存储集群检测到其中某个存储节点故障时,可以立即通知主机侧(如通过主机上安装的代理软件),进行快速路径切换。这种方法比简单地通过主机侧利用软件超时的方法进行故障倒换要快的多.再比如,在主机侧安装特定的存储客户端软件,使主机以负载分担的方法,和存玮集群中的多个节点同时通信.此时,若某个节点故障,主机还可以通过其他道路读写集群数据,这也是对可用性的提升.除了在本地分布式存储集群中考虑提升可用性外,如果有更高的可用性要求,可以考虑基于不同地理位置的业务连续性保护方案,典型如异步夏制方案、AA双活方案等.异步巨制方案中,存储系统一股分为主端和从端。主端存储系统的数据会周期性地备份到从端存储系统.这样,在主存储端整体不可用(如断电、火灾等)时,还可以利用从端的数据继续提供服务.AA双活的两个存储系统均处于活跃(Active),用户端从任意一个系统写入的数据会以同步的方式写入到另一个系统。当一个系统发生设备故障,甚至单个系统整体故障时,业务自动切换到另一个存储系统.AA双活系统比异步远程系制提供更高的可用性(以及数据可靠性),当然,其实现的技术复杂度、实施成本、技术限制(互联距离、互联带宽/时延要求)也更高.高可用性的获得不仅体现在技术上,也体现在服务能力上.比如,备件能力、可维护性等.总之,系统的高可用性是多个因素共同作用的结果.四、IO性能对于存储系统,经常用IOPS(I/Opersecond)、带宽(Throughput)、时延(1.atency)这三个参数作为性能衡最指标.IOPS指的是系统在单位时间(1眇)内能处理的最大的I/O数量。把IOPS的值乘以IO尺寸,就得到了带宽指标.所以说,IOPS和带宽不是两个独立的指标.那为什么人们为什么要采用两个指标来做度量呢?实际上,这和存储系统本身的特性相关:对于不同尺寸和访问模式(随机/顺序)的数据,存慵系统性能会表现出很大差异!具体来说,在相同的设备上,对于小尺寸IO(如4KB、8KB)的随机读写和大尺寸10(如IMB以上)的读写,从存储系统所能获得的带宽可能有数最级的差异!所以,我们提到存储存房系统的IOPS,一般是指在小尺寸IO(即小IO)下每秒内可获得的10次数;而带宽指大尺寸IO(即大I。)下(这里不再区分随机/顺序不同模式的原因是大IO性能对不同模式不敏感酌读写存储系统所获得的吞吐量.再进一步追问,为什么不同尺寸在性能上会有如此大的差异呢?这是存储介质(HDD.SSD)的特性所决定的。以目前在存储系统中最广泛使用的磁盘(HDD)为例,一般SATA接口的硬盘,在4KB的IO尺寸下,IOPS值大概是100,照此计算,此时的带宽是0.4MB;在IMB的IO尺寸下,其带宽却可以达到100MB.由此可见,不同的】。模式,磁盘的带宽值可以相差数百倍!至于磁盘的性能表现为何如此,这是由其物理特性和读写方式决定的,此处不再详述.实际上,正式因为磁盘在不同IO尺寸和访问模式下性能的巨大差异,才导致了需要对以磁盘为主要存储介质的存储系统进行性能优化的可能如果磁盘在任意IO下的性能是相同的,性能优化的意义就大打折扣.对存储系统的写性能优化和读性能优化,其原理并不相同.实际上,在存储系统的发展过程中,对性能优化的一个关键技术就是如何能充分发挥存储介质的性能.在存储系统中,和IO处理直接相关的部件基本指标如下图所示:从上图可以看出,从CPU到CPUCache,再到DRAM内存、PCM(Phase-ChangeMemory,非易失性内存的一种)、SSD、HDD,访问时延和容量都迅速变大.所以,对于性能优化,一方面要充分利用高速缓存介质,另一方面要充分HDD和SSD的性能,因为数据最终要存储在这些介质上.如前所述,对于HDD来说,其大块数据的联序读写性能远高于随机读写性能.对于SSD来说,作为半导体存储,不存在HDD通过机械臂寻道导致的时延问题,但由于其自身的GC机制(垃圾回收),顺序访问的性能同样高于随机访问,当然,其访问性能差异远没有HDD大.应用访问存储的10读写模式并不固定,既有以随机小IO居多的应用(如数据库),也有以IO居多的应用(如视频、HPC等),当然,更多的是大小10混杂应用.既然大IO可以充分发挥硬盘(HDD或SSD)性能,那么,性能优化的一个方向就是把小IO变成大IO,把随机IO变成娱序IO.下面分别从IO存取两方面分别说明.首先看一下基本的数据写入流程:在应用将数据写入到存储系统的内存后,系统会在把数据的副本(通常以日志形式)写入非易失性高速介质(如NVDlMM、PCM、NVMeSSD等)后,就会向应用返回写入成功信息;然后,内存中的数据以异步的形式写入真正的存储介质,即使盘中.这样做一方面可以在节点数据可靠性(因为写入了非易失性介质中,即使突然断电,系统重启后数据可恢且)的前提下做到低时延,另一方面可以对内存中的写入数据(小10)进行一定的处理,使得这些数据写入硬盘是获得更好的性能.从而在整体上写入性能上获得低时延,更高的带宽。把写入的随机小IO变成大IO(或顺序IO的方法之一就是利用写缓存技术。其原理如下:我们以磁盘为例进行说明,大体上有两类方法进行写性能优化.其一是IO调度法。在多个随机小I。写入缓存(高速介质,如内存)后,由我法根据IO调度调度的结果是部分小IO(重期位置相邻腋合并成较大IO;部分小IO被电排,击排后的IO可以使跟盘的磁头以相对较好的顺序性访问磁盘,从而提升写入性能.其二是数据至映射法.这种方法的核心思想是小IO不再进行"in-place"的写入,而是通过引入一个重映射层(或称索引层),把随机写入的IO以追加写(append)的方式变成变成对磁盘的顺序写入.这样就可以充分利用磁盘峡序写入的高带宽特性,付出的代价是首先,要建立原有随机小IO和新的顺序IO之间的映射表(索引);其次,要有垃圾回收机制,因为数据不是以“in-place"的方法写入的,旧有的数据必须在系统后台定期进行清理,释放出空间.再次,新的映射层会导致对上展应用来说逐辑连续的数据在磁盘上可能不再连续,从而对数据的连续读性能造成影响。实际上,以上两种对写性能的优化思路在系统层面和部件层面都广泛存储。除了广为人知的存储系统软件、操作系统等厩面使用写缓存技术,在部件层面,比如RAID卡、HDD、SSD等,也都存在用于写优化的缓存层.对于读性能的优化,主要的方法是根据应用IO读请求的特点对数据进行预取,预取数据放在高速缓存(Cache)中,这样,在下一个读请求命中CaChe时,可以快速返回数据.我们知道,在存储系统中,读Cache的容量比介质容量要小若干个数最级.所以,此种方法的核心的如何对读请求作出正确的预测,使得后续读请求数据可命中Cache.实际上,多相当多的应用来说,读取数据时具备一定的空间局部性(temporallocality),也就是说,假设应用目前在读取第K块数据,那么接下来有很大的几率读取第K块附件的数据,所以我们可以将第K块附件的数据(对于HDD来说,这些数据数据很可能也是物理连续的,可以充分发挥磁盘眼序读取的性能优势)预读到Cache中.当然,如果对于真正完全随机的数据,预读的方法是没有用处的,反而会造成一定的系统负担.真实世界中,完全题机的读取时很少的.目前人们在探索利用AI的算法对读请求进行模式识别,这会比简单地根据空间局部性预测命中率更高,一些公司在这方面已经取得了很好的结果.同写缓存类似,读缓存也分为多个层次.分布式存储中,一般存在一个由各存储节点的高速介质(易失或非易失性内存)组成的分布式全局缓存.全局缓存一股采用读写缓存分离设计.这样做的好处是一方面避免读写缓存相互影响(写缓存刷盘、读缓存淘汰数据),一方面可以对读写缓存独立实施实现灵活的策略(缓存空间占用大小、副本数、后端存取介质等)。除此之外,为实现对后端存储介质友好(大块连续数据)的数据写入,还会在全局缓存局实现随机小IO到大块顺序0的10聚合功能.如前文所述,此时需要记录随机小对象到聚合对象的映射关系,这个映射一般采用KV数据库实现(一般基于1.SM或B+树实现,典型如RockDB).在存储海信数据时,KV数据库的读写效率会称为影晌性能的关键因素.利用缓存(单层或多层)固然可以提升读写性能,但需注意由此引入的读写数据一致性的问题.比如,在多屉级的读写缓存中,由于在写入过程中数据是自上而下(也是由商速到低速)逐层写入的,在读取数据时,为保证数据一致性,必须保证同一展级先写后读(先从写缓存寻找数据再从读缓存寻找数据),不同屎级自上而下的原则.对于由N个节点组成的分布式存储系统,主机应用可能通过网络,连接N个节点中的部分或全部节点,并行读写存储系统.所以,从理论上说,存储系统作为一个整体的性能不超过各个节点性能之和。要使系统到达高性能,从数据布局(datalayout)的角度说,一方面要将数据充分打散存储,另一方面就是要将保证数据在存储介质上基本均衡.数据打散就是存储系统把来自主机应用的大块数据切割成小块,分散放置到不同节点的不同硬盘上,这就相当于以并行的方式访问硬盘,性能自然高。数据均衡则从概率的角度使得每块硬盘具有近似的访问几率,这样就从整体上可以发挥所有硬盘的能力,从而达到性能最佳值.数据布局就是要把打散的定长数据块映射到系统中的某个硬盘上.映射的方法基本可以分成两类。一类是显示映射法,就是系统对于每个分块数据,根据硬盘的状态(容0、使用率等)显示地指定,并把这个映射关系记录下来形成映射表.之后,读写这块数据都要直询这个映射表.另一类方法是采用广义的HASH计算法,就是根据分块数据的特性(命名空间、1.UN或文件名、地址偏移信息等)利用HASH函数以伪随机的方法映射到某个硬盘.这个映射关系不需要显示记录,因为HASH函数的计算极快,下次访问此数据块只要再计算一下就可以找到对应的硬盘。在分布式存储中启用的DHT、CRUSH等方法均属此类.显示映射法和广义HASH法各有千秋.显示映射法可以设置灵活的数据布局策略,在数据均衡、迁移、数据耐久性变更等方面易于实现,但因为要显示的记录映射关系,不易处理海量数据.广义HASH法因不需要存悻映射表,存储的数据信理论上可以无穷大,但其在数据均衡性、数据布局策略灵活变更等方面不及显示映射法.实际的分布式存储系统往往两种方法结合使用。十多年前布硫系统的存储介质主要是HDD磁盘.因为CPU、内存和HDD性能的巨大差异,单颗CPU下可以挂数十块甚至上百块磁盘.随着SSD技术的长足进步(性能、容量不断增长,价格则不断下降),SSD在存储系统中被广泛采用,全闪存储设备高速增长.SSD和CPU都是基于半导体技术,性能差异已经显著缩小。目前商用的单块NVMeSSD(PCIe4.0)的带宽性能可达68GBs.IOPS达数十万.这个性能是HDD的千百倍,对于存储系统来说,除了基本的读写之外,还需要提供EC/RAID计算、快照/克隆、数据电册、压缩、加密等增值功能,这些功能骤加在一起,对CPU的性能的要求急剧提升.这对以通用计凭为目的设计的CPU来说就显得有些心有余而力不足。此时,就需要一些专用处理器做协议卸载,这些专用硬件如智能网卡、计算存储设备(ComputationalStorageDevice).DPU(DataProcessingUnit)等.DPU专为数据处理而设计,存储系统可以利用CPU+DPU的组合方案,把存储IO处理、纠删码计算、数据类删'数据压缩、加密等功能卸载到DPU上.CPU只集中于系统控制面的功能.一些更加激进的公司甚至在存储系统中用DPU完全取代了CPU,从整个存储行业来看,DPU的应用还处于起步阶段,后续随着DPU本身的不断发展,它会在存储系统中发挥越来越歪要的作用.存储系统的性能发挥不仅依赖于其本身,还与存慵访问协议和网络相关.常用的存阵网络包括FC、EHT/IP、IB等.其中FC网络专为存储设计,在网络稳定性、可用性、时延等方面具有优势,但其速率不如ETH和】B,成本也高;IB网络主要应用在超算领域,可为应用提供超高带宽,但其成本高,供应商少;ETH/IP是数据中心最为广泛采用的网络技术,带宽高,成本低,但其在拥塞避免.拥塞控制、时延、易用性等方便不如FC。近几年,EHT借鉴IB网络的RDMA方法,将RDMA承载在无损以太网上,发展了RoCE(RDMAoverConvergedEthernet)方法.为了更好地和存储结合,一些厂商还在RoCE的基础上进行了增强,使其可用性(快速故障倒换)、易用性和丢包率等指标接在访问协议上,传统存储主要以SCSl协议访问磁盘。SCSl协议不能发挥SSD介质的高性能,NVMe协议以及NVMe-OF协议应运而生.NVMe协议面向SSD介质设备,在并发能力(队列数量、队列深度)和传输能力上均好于SCSI.NVMe-oF协议兼容性好,可以使NVMe运行在多种网络上.在实际部署中,将NVMe承载在FC上、RoCE上、以及TCP上是目前常用的方法.五、数据存储效率随着数据量的高速增长,所需存储设备的空间越来越大。如何在固定的存储物理空间上存储更多的数据,就是数据存睹效率问题.需要说明的是,高效的数据存储不能损害数据可靠性。常见的提升数据存储效率的方法包括精简配笆、RAID/EC(Erasurecoding)、更删、压缩等技术.下面对分布式存储中常用的纠删码(EC)、重删、压缩等技术做一简要说明.纲删码存储系统为了提高数据的容错能力,一般会采用多副本或者纠删码技术.纠删码比多副本有更高的存储效率,更加适合海量数据存储.纠删码在数学上主要利用了伽罗华域(GaloisField),使得其运算保持封闭性.纠删码是指将要存储的数据分割成小的数据块,通过算法将数据块进行编码生成校验数据块,然后把这些数据块(包括原始数据块和校验数据块)存储在不同的存储位占。相对单纯的副本方式,使用组删码在同样的硬盘或节点配置下可以为用户提供更多的有效存催空间,盘的利用率吏高.纠删码配置比例一般用(k,m)标识.k表示原始数据块数量,m是校验数据块数量.总数据块n=原始数据块k+校验块m组删码存描空间利用率为k/n,例如系统6块硬盘,纠删码配置为(4,2)可以表示6个硬盘,4个存储数据,2个存储校验数据,存储空间利用率为4/6=66.7%;对应三副本存描,数据需要放舌3份,存储空间利用率为33.3%存储空间利用率率纠删码比副本多一倍.如果采用大比例纠删码,利用率可以进一步提升,甚至到90%以上!和副本技术相比,纠制码的编码(存储)和解码(数据恢巨)需要更多的CPU处理能力,同时,由于较多的分片(尤其是大比例纠删码)会产生较大的尾时延.分布式存储实际应用中,经常把副本和组删码结合使用:为减少时延,数据首先以副本的方式存在缓存屋,立即向应用返回IO成功,之后,再以异步的方式通过纠删码存储在后端介质上.压缩数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提商其传输、存储和处理效率,或按照一定的算法对数据进行正新组织,诫少数据的冗余和存储的空间的一种技术方法.数据压缩能够实现是因为多数现实世界的数据都有冗余,数据压缩的过程是去除多余的冗余数据.压缩的本质是对信息进行再编码,即使用另一种更简洁的方式重新表达.数据压缩技术可以分为两大类,一类是有损压缩,一类是无损压缩.存储系统中一般使用无损压缩.无损压缩是指使用一定的算法对数据进行压缩,用压缩后的数据进行重构,可以恢且原始的数据信息,压缩前后信息不受损失.无损压缩广泛应用于文本数据、程序和特殊应用场合的图像数据等需要精确存储数据的压缩.在存储领域,除了通用压缩管法,还在研究基于特定场景和数据类型的专用晓法,以期进一步提升数据存储效率.重删函复数据恻除技术(简称“函册J")也是一种函要的数据缩减技术,通过对新数据与已存储数据进行对比分析,避免将已经存储在设备中的数据再一次存储,通过建立"索引”来将多份数据指向设备中已存在的数据,这样可以有效的节省存储空间.重复数据删除可优化冗余,而不会损坏数据保真度或完整性。电删本质上是一种压缩技术.函删的基本流程如下图所示.蚤且数据册)除按数据处理时间可以分类为在线电删和后电删.在线更删是在数据存储到存储设备上的同时进行再复数据删除麋作,在数据存储到硬盘之前,田复数据已经被去除掉了.后电删是在写到存储设备的同时不迸行电册处理,先把原始数据写到盘上,随后启动后台进程对这些原始数据进行正删处理.与在线主删相比蛟,后更删需要更高的硬盘性能。对分布式存储来说,存储海量数据一个关键技术是如何处理较大的指纹表.从数据函删步骤可以看出,在数据块长度固定的前提下,指纹库的大小和数据量成正比.举例来说:假定一个存储服务器包含24块硬盘,每块硬盘容量4TB数据块采用定长方式,每块8KB.指纹生成采用SHAl算法,即每个指纹20Byte。在此情况下,计或可得,若存储服务器写满数据,指纹所需的内存空间为240GB!这还仅仅是一个存储服务器的指纹容量.所以,在实际应用函删技术时,一般采用牺牲一部分数据存储效率,在内存中只存储"热指纹”的方法;另外,为了保证全局再删的效果,需要保证指纹库的分布式布局.六、安全性任何IT系统都面临着安全威胁,既有传统安全威胁也有新兴的安全威胁.对于存储系统,除了网络安全威胁,如IP攻击、软件混洞、病毒、木马、ARP歌茶、恶意插件等外,还面临着数据泄露、数据患改、数据勒索等.这些安全威胁都需要通过技术控制手段,保证数据完整性、保密性和可用性。传统的存储安全包括存储设备安全、存储网络安全、存储业务安全、存储管理安全等方面.存储设备安全包括操作系统加固、Web安全、补丁管理等;存储网络安全包括存储三网分离(管理网、业务网、存储网)、安全传输通道等;存储业务安全包括数据安全性、访问控制、认证的权鉴、防算改等;存储管理安全则包括用户安全、密码安全、日志和告警管理等内容.除了传统的安全威胁,勒索病毒对IT系统的安全威胁日益增大.勒索病毒,是一种特殊的恶意软件.这种病病利用各种加密算法对文件进行加密,被感染者一般无法解密,必须拿到解密的私钥才有可能破解。对于存储系统,应对网络病毒主要从病毒检测、数据加密传输和保存、可症的数据备份等方法.对于勒索病毒的检测,除了传统的方法,还可以利用AI技术,通过计算文件境值、相似度等进行检测,数据加密传斯和保存包括,NFS、S3等存楮协议加空,存储数据加甑(软件机密、SED加密)等.可靠的数据备份要备份确保数据的不可变性,数据防篁改、防制除,至用的方法包括WORM、快照等.数据安全问题是一个永恒的主题,安全手段不断增强,新的挑战也会不增加.对于存扁系统来说,必须从整体方案的角度出发,保证足够的"数据韧性",保证即使在部分系统和数据感染病毒(包括勒索病毒)后,仍然从收到保护的备份系统中尽快恢且数据.七、可管理性分布式存储系统的管理一般包括安装部署、集群管理、系统管理.变更管理、监控管理、告瞥管理、日志审计管理等内容.当前AIOps技术收到较多关注.AlOps最早由Gartner在2016年提出,它旨在借助大数据分析和机器学习凭法,自动地从运维数据中分析和学习,实现异常检测、瓶颈热点分析和多维关系分析等,从而招助IT运维人员准确甄别系统异常、快速定位故障根因,并对系统运行的潜在风睑进行主动预测,提前告警,最终实现IT基础设施和业务的持续洞察和主动优化改进.在存储领域,智能运维已经成了各大存储厂商新的必争之地.HPE在此领域首先发力,通过收购NimbIeStorage的云的智能运维平台InfoSight,将其整合,引入到整个存储和服务器产品线中,为其系列产品提供了基础架构层面的全局可见性、预测分析能力和推荐引擎等功能。DE1.1.(EMC)、NetApp、IBM等厂商也相继发布智能运城方案.国内存储厂商包括华为、新华三、浪潮等在智能运堆上不断投入,提供包括故障预测、性能预测、容量预测、AI自动调优等多种功能.要让Al运维效果好,需要进行大最的数据训练,一般训练使用的数据样本越多,训练的效果越好。为了获得训练的大数据,存阵厂家一般都建一个云数据中心,用户的存储设备不断地为数据中心提供系统的各种运行状态数据,这些数据就是训练数据,在云数据中心进行训练和预测,预测结果则会发送给存储设备或者设备管理员.这种模式的问题是,用户因为数据合规性要求或者担心数据泄露风睑,不能向云数据中心提供训练数据.这是目前基于云的AIOps在国内不能广泛部署首要障碍.要解决这个问题,需要在数据安全技术和政策法规方面提供新的方法和支撑.