网络存储技术发展综述.ppt
存储技术发展综述,基本问题,信息存储的定义数字信息学的科学基础容量问题高可用性问题性能问题管理复杂性问题 生命周期问题,三种基本的信息操作,处理 传输 存储,基本定义,处理:对信息进行变化和加工传输:信息跨越空间的传播存储:信息跨越时间的传播 存储是信息技术的三大基石之一(被我国忽略的领域),对人类文明的重要性,处理:产生知识通讯:传播知识存储:积累知识,人类自然的信息状态,处理:大脑 通讯:语言,手势、表情 存储:大脑通过技术的发明来克服自然状态的局限与不足,大自然赋予人类大脑极其优秀的处理能力,而通讯和存储能力不足在电脑发明前,几乎所有的信息工具发明都集中在通讯和存储:通讯:烽火台、旗语、鼓语、邮递、交通、电报、电话、无线电、电视、Internet存储:结绳计数、文字、绘画、纸和印刷(非常伟大的发明,现代技术很多方面都没有超过它)、照相、录音、录像、数字存储处理:算筹、算盘、计算机,不识庐山真面目只缘身在此山中,我们处于人类历史上(数万年)信息技术(IT)的一个伟大的转折过程(大约需要100年):各种信息技术都向数字化转移!(电的对比)现在正处于变化最剧烈的拐点,一切都变化得这样快我们对这个过程有没有足够的认识?,具有历史意义的现象:数字化大转移,世纪之交的信息技术大转移:数字化大转移时间:世纪之交前后50年50年前开始(以计算机发明为开端),50年后成熟,信息领域数字技术一统天下目前正是转移的高峰期:数字控制、数字录音、数据通讯(目前主干,即将用户)、数字计算、数字电视、数字广播、数字相机、数字摄像、数字城市、数字流域、数字地球.数字化生存50年后,不是数字的信息产品很难见到(成熟),本质:数字具有特别强大的信息表达能力!,“数字”是人类至今为止找到的最佳信息媒介!(终于找到了!),数字的神奇力量the power of data,可与各种信息形式进行转化(人能接受的信息:文字、声音、图形、图像、视频;触觉?嗅觉?味觉?;机器能接受的信息:电流、电压等)可表达人的思想、办法、事物的规律(程序的巨大能力)可以单一的形式进行处理、传输、存储,是唯一可以承担三种信息任务的媒介,信息技术统一于数字!,结 论,进入数字域讨论,数字信息学的,科学基础(力学:牛顿定律)(电学:麦克斯韦方程)(数字信息学:?),最基本的理论:图灵机,希尔伯特问:存不存在一个解决所有数学问题的一般算法?图灵答道:有!图灵理论的俗解:如果不考虑时间,只要按某种规律对bit进行处理、传输、存储三种简单操作,就能在理论上解决任何数学计算问题!图灵机模型主要是针对计算的,但存储和通讯隐含在其中这个理论指明了bit的强大功能,也包含了计算机的设计思想,第二层的理论:信息论关于信息时空传播的理论,在通讯和存储两个领域工作过的人都会发现,他们涉及的问题竟然如此类似通讯的编码理论完全可以用于存储通讯:信源编码,信道编码存储:纠错编码,调制编码,磁盘阵列的容错原理加密理论、信息的压缩原理对通讯和存储是一样的本质的道理:通讯和存储都是信息的传播,差别在于:一个跨越空间,一个跨越时间原来信息论适用于信息的传播!在空间和时间上,他们遵从一样的原理!,三位一体的数字信息学理论,图灵机主要是针对计算的,但隐含了通讯和存储信息论主要是针对通讯和存储的,但隐含了计算处理、传输、存储在理论上是三位一体的,缺一不可上述理论解决了数字信息学的全部?NO!,数字的力量到底有多大?后图灵理论(推论),只要对bit进行处理、传输、存储,就能解决一切信息问题!只要处理和传输的速度足够快,存储的容量足够大,一切信息问题都能解决!(存在着这样的可能性),一种新科学美国科学家Stephen Wolfram 2002年出版了一部科学巨著:A New Kind of Science传统的科学建立在数学基础上新的科学建立在计算机程序上数学只能表达相对简单的科学规律,不能描述复杂现象:生物世界,湍流,社会,思维,经济,股票,新科学的要点:宇宙的一切规律都可以由简单的程序经过反复计算而得到!可能揭示了前所未知的科学本质!有新的结果!数字的潜力还没有被充分认识!,上述理论给予我们的终极信念对数字的操作能表达一切信息规律和现象!数字化的信息世界一定能实现!,数字信息技术的总轮廓,第一步:现实域数字域第二步:数字域三种简单的操作处理(计算),传输,存储第三步:数字域现实域,软硬件新论,硬件新定义,硬件:对数字操作的机器系统不论多么复杂的硬件系统,基本原理极为简单即:操作数字!数字硬件:对数字进行处理、传输、和存储的硬件转换硬件:将各种形式的信息转换为数字信息,或者将数字信息转换为各种形式的硬件(图像、声音、文字输入输出设备,目前重要的设备是显示器),数字域的三种操作,处理:CPU,DSP,ASIC,FPGA,Gate传输:总线(CPU内部、系统总线,I/O总线),网络(机器内部网,LAN,WAN,INTERNET,无线网)存储:RAM,ROM,FLASH,硬盘,光盘,存储系统(RAID,NAS,SAN)硬件的核心技术:集成电路技术,软件新定义,(可运行的)思想和内容的数字化思想:算法、规律、办法-程序表达内容:图形、图像、数据、声音、文字等 归结为程序和数据软件的核心:算法(一个好的算法可以代替大量的硬件:FFT,MPEG),所有的硬件都是相似的,软件则各有各的不同,各种硬件在数字域都有相同或相似的内脏(只有三个部分:处理、传输、存储)-IT全息论今后的各种信息工具和设备外部虽然千变万化,内部都是一样的(统一性)软件是思想和内容的数字化,各个领域都有自己的软件,所以是各不相同的,IT人的两大任务,创造越来越快、越来越大、越来越可靠的硬件利用硬件平台创造具有共性的软件(操作系统,语言平台,工具软件,中间件,办公软件),应用软件则应由各行各业的人自己去开发,当前硬件的发展规律,硬件发展的6个规律,1 Moore定律:微处理器内晶体管数每十八个月翻一番;2 Bell定律:如果保持计算能力不变,微处理器的价格每十八个月减少一半;3 Gilder定律:未来25年(1996年与预言)里,主干网的带宽将每6个月增加一倍;4 Metcalfe定律:网络价值同网络用户数的平方成正比。5.半导体存储器发展规律:DRAM的密度每年增加60%,每三年翻四倍。6。硬盘存储技术发展规律:硬盘的密度每年增加约一倍,后PC时代的计算-普适计算Pervasive Computing,后PC时代计算机发展的特点:1.无所不在的含有智能的小装置;2.支持服务的后台服务器和巨型计算机,对应于后PC时代两极分化的存储,移动存储:Flash,微硬盘,微光盘企业级海量存储,数据存储的基本问题,当一切信息都转换为数字,问题就产生了,容量问题和新摩尔定理,从现在起,每18个月,新增的存储量等于有史以来存储量之和!1998年图灵奖获得者Jim Gray,70s80s90s00s10s,数据信息爆炸式增长,第一爆发点:单机多媒体第二爆发点:Internet 第三爆发点:宽带(目前)第四爆发点:空间影像和虚拟现实普遍应用,空间影像,另一种模式:不断的增长,即使处理、传输能力固定不变,随着数据不断产生,存储能力也需要动态单调地增加。(水泵、水管、水桶的比喻)处理和传输速度越高,容量的增加的梯度就越高,这就是存储系统的不断扩展特性。结论:无限的容量需求和动态扩展需求,容量问题的解决途径,1.减小bit位元尺度,提高密度 采用各种物理原理和现象减小位元 磁(翻转尺寸)、光(光点大小)、电(线宽)、生物、量子 密度:道密度、面密度、体密度2.建立存储系统,用“砖头”构造“大厦”,单个硬盘的技术进展的进展,硬盘是最重要的大容量存储设备,50年代由IBM发明以来密度增加了1,000,000倍,到目前为止,还没有找到能与之竞争的对手最近的密度超过100Gb/in2,主要技术:超低飞行磁头10nm,加钌超稳定介质,PRML读通道,光磁混合纪录,垂直磁记录,硬盘的进展-密、快、小、廉,微硬盘 Microdrive,应用领域移动计算数码相机、数码摄像机,光存储的进展,目前:CD-ROM,DVD-ROM,DVD机 DVD-RW(DVR)最近要产品化的技术:向高密度进军 蓝光DVD,HD-DVD 多层多阶光存储 近场光存储 全息光存储,存储系统用“砖头”构建的大厦,正如无论多快的单处理器无法满足超级计算的要求一样,无论多大的单个硬盘也无法满足网络存储和企业存储的需要,存储系统的技术发展思路(处理与存储的对比),单处理器-多处理器-多计算机-网格硬盘-阵列-存储网-数据网格由软件和硬件共同实现,磁盘阵列(多个硬盘),容量、速度、可用性,Storage Area Networks(SAN)存域网结构图,系统结构必须和软件相配合,存储虚拟化软件(单一逻辑映像)存储资源管理软件(容量、级别,性能)存储备份、数据迁移软件,可靠性和可用性问题当关键信息转换为数据时,数据成为最宝贵的财富,对很多领域,数据是比硬件设备宝贵得多的资源:银行、电信、保险、电子商务、网站、企业信息,数据物理安全:存储最重要,处理部件、传输部件损坏:损失有限,更换可恢复存储部件损坏:数据丢失!巨大的损失!建筑行业一定有安全系数,80%的信息系统没有安全系数!,三种级别的可用性,1.数据不丢失(最起码的要求)2.系统不停机(724服务的保障)3.性能不下降(优质服务的保障)解决可用性问题的典型途径:冗余(双机,网络RAID)备份(磁带、光盘、硬盘),解决可用性的新思路(参考),具有耗散结构的存储系统借鉴生物系统原理:心脏之所以保证数十年的可用性,不是因为材料特别好,而是因为新陈代谢UCB的ISTORE,性能问题:瓶颈的转移 应用的转移,共享处理机,共享存储器里的数据Make the common case fast!,网站的存储:几十万用户同时点击到一个站点去获得海量存储系统中的信息。WWW:world wide web 变为world wide wait,解决性能问题的8条途径,1.Cache 技术,RAM-DISK,RAM-RAID RAID-TAPE(HSM)2.高速I/O通道:SCSI(160-320),FC(1-2-4G)SATA(150-300),IP(1-10G)3.聚合带宽(并行技术):多主机-单存储,单主机-多存储4.改变工作方式:基于磁盘的系统,随机小写与连续大写性能差100倍,变小写为大写5.提高协议效率:FC vs iSCSI6.采用就近原则7.PTP对等存储原理8.第三方直接传输,解决性能问题的新思路,对现状的观察(1)硬盘每年的容量和性能都在提高(2)现有的RAID系统,换了一个硬盘之后整体性能没有提高(3)越用性能越差进化存储系统(1)物理进化(2)数据分布进化,管理复杂性问题,异构的存储系统规模越来越大系统越来越难以管理,人为错误越来越多管理成本越来越高,管理成本超过设备成本,管理复杂性的解决途径,原因:目前的存储设备都是被动的,对设备的管理都在上层进行,面对异构的多种存储设备和异构的互联网络,管理软件都要适应,造成复杂性日益增加解决途径:基于对象的存储系统,主动存储 CMU提出OBD,SNIA提出标准 存储对象:包括数据和对数据的操作 管理下移,使存储设备包含更多的智能 标准的对外接口和描述 管理大为简化,数据生命周期问题,一切都存下来,不是一个好的办法无限扩大容量,成本无谓增加管理和保存无用的数据,是巨大的浪费无用信息干扰当前信息存取的性能 解决途径:向大脑学习遗忘机制 重要的信息深层记忆,不重要的浅层记忆,无用的信息忘掉,结论,处理、传输、存储是信息技术的三大基石存储是信息跨越时间的传播只要对数字进行操作,就能解决一切信息问题信息论是信息时空传播的共同理论基础硬件是数字操作机(只有三种简单操作:处理、存储、传输)软件是思想和内容的数字化 存储系统的基本问题有容量、可用性、性能、管理复杂性、数据生命周期等,要思考的问题,PC热-网络热-存储热,国际IT业的第三次热潮和淘金机会IT设施的投资花在存储系统上我国的海量存储系统几乎全部进口十年前的通讯市场和目前的存储市场十分相似谁是存储领域的联想、华为?我国的标志性成果:10万亿次超级计算机,万兆路由和交换,存储没有等量级的标志性成果,各位同学,要解决存储问题,任重道远,让我们共同努力!,