数据中心供电系统设计理念的变化.ppt
数据中心供电系统设计理念的变化,2010年2月,目录,一 新的NCPI设计理念的形成过程-供电系统设计理念的变化,二 新的设计理念对机房建设、供电系统设 计、设备功能和选用配置标准,以及设 计和设备提供厂商定位影响,近5年来对网络基础物理设施提出的问题,生命周期成本问题:优化投资问题、装配速度问题、服 务费用问题、投资风险问题,适应性和扩展性问题:系统和部件的标准化与规范 化、不可预测的功率密度问题、如何适应不断变化的其他需求,系统可用性问题:人为操作失误问题、如何把UPS与关键 负载之间的故障点减至最少、减少大面积断电的故障点、谐波干扰 问题、信息共享问题,管理性问题:分路管理问题、监控负载机柜的电源状态、线 缆管理的问题、预防性故障分析的问题,维护服务问题:降低系统的复杂性问题、减少平均维修时 间MTTR的问题、带电操作的问题、供应商之间的相互推诿的问题,一,新的NCPI设计理念的技术形成背景-供电系统设计理念的变化,1 研究工作从单台UPS设备向整个供电系统变化,2 对系统可靠性的研究向可用性研究变化,3 从对单纯的供电系统研究向 整个IT基础物理设施(NCPI)变化,4 提高UPS供电系统的“适应性”,5 集成一体化架构-基础设施建造的最重要的原则,,6 系统模块化设计-是基础物理设施的最基本的法则,设计理念变化(一),一个完整的系统中除了UPS系统外,还可能有变压器、瞬态电压浪涌抑制器、电网进线开关柜、负载配电柜、柴油发电机、交流稳压器、变压器、电池系统、各种开关、断路器、保险、转插,上百乃至几百个级连接点和相应的传输线。由于这些部件和环节在可靠性模型中的串联特性,以及它们之间的相互影响,就使得系统可靠性大幅度降低。,研究工作从单台UPS设备向整个供电系统变化,年设备质量故障台数/年总故障台数=0.259按总故障台数计算可靠性:=年总故障台数/总台数=19835台/196711台年=0.1 MTBF=1/=10年=87600小时按设备质量故障台数计算可靠性:=年总故障台数/总台数=5141台/196711台年=0.0261 MTBF=1/=年=335632.2小时,系统故障数据的启示,对系统研究的问题包括,系统中各种设备和环节的相互匹配和可靠性问题;系统可靠性和冗余配置问题;可修复和降低修复时间问题;UPS设备的模块化冗余系统结构问题;各种设备和环节连接技术的研究和规范化问题、供电系统的布局(集中式、区域式、分散式)问 题等,对设备的研究要适应系统研究的变化,设计理念变化(2),越来越多的厂商和用户已经形成这样一个共识:在UPS性能指标已完全满足计算机网络设备要求的情况下,真正能为用户带来价值的是其可用性。,对系统可靠性的研究向可用性研究变化,系统在使用过程中,可以正常使用的时间与总时间之比。可用平均无故障工作时间MTBF和平均修复时间MTTR表示,在概念上它包含了系统中设备的可靠性、可管理性和可维护性。可用性高意味着给用户更多的正常使用时间,把故障后不可用时间降到最低限度。,可用性定义为:,“不停电”观念的变化,市电故障后延时1015分钟供电,保证计算机数据存储并安全关机。系统要求可靠性,不停电保护系统,市电故障后保证系统不间断继续供电。系统要求可用性,不停电供电系统,失效率:式中:ns试验开始时正常工作的样品数;n在运行(t1-t2)时间间隔内出现故障的样品数;可靠度:平均无故障时间:平均维护时间:可用性:,UPS的可靠性与可用性指标,可靠性科学,数学家Erich Pieruschka串联系统的解答得出了有关产品可靠性的 Lusser 定律,Rs=R1 x R2 x.x Rn,二十世纪四十年代,德国火箭科学家Von Braun 在 V1 导弹项目中创建了最早的预测可靠性模型。“链的强度取决于最弱的一环”,提高可用性的措施之一-提高薄弱环节可用性的基本措施,1,提高设备的额可靠性-MTBF先进电路技术可靠性电路设计智能管理功能可靠性热设计电磁兼容性设计生产工艺生产管理,2,降低故障维护时间-MTTR模块化插拔维护-电路板、功能电路、功能模块模块化冗余热插拔维护智能管理与通讯功能可维护性-提高维护水平,提高设备的可靠性措施,提高设备的MTBF-提高功率器件的规格和档次(IGBT等)改进控制技术,提高逻辑控制电路规格和档次(CPU,DSP)采用更先进的主电路结构严格生产工艺,加强质量管理(ISO9000),此方法有效,但是困难大,效果有限因为:组成UPS主机的上千个元器件和几千个接点,在可靠性等效图上是串连的,整个系统的可用性是这上千个元器件和几千个接点可用性的乘积受其它元部件工艺和技术革新和发展的限制,系统不可用时间比例,提高可用性的措施之二-冗余配置,系统运行总时间=1,系统可用时间比例A,两个系统串联,两个系统冗余并联,(空间状态图),MTBF与失效率及产品寿命的关系,MTBF与产品生命周期无关以 50 万个 25 岁的人作为抽样。在一年的时间内,收集这些人口的“故障”(死亡)数据。这些人口的生活时间是 500000 x 1 年=50 万人年。在这一年当中,有 625 个人“出现故障”(去世)。故障率为 625 个故障/50 万人年=0.125%/年。MTBF 是故障率的倒数,即 1/0.00125=800 年。,故障率的浴缸曲线,MTBF与失效率及产品寿命的关系,MTBF并非产品可达到的连续工作时间MTBF和是时间的概率函数,MTBF和对特定的时间段才有意义例如:MTBF=200000小时,并不是可连续20年不发生故障。在一年中,年失效率=1/MTBF=8760/200000=0.0438 一年中的故障可能性为4.38%在一个月中,月失效率=720/200000=0.0036 在一个月中的故障可能性为0.36%同理,天失效率=0.00012,一天中故障的可能性为0.012%,同样,MTBF只有在产 品寿命期限内才 有意义,NTBF的反浴缸曲线,保证计算机和网络IT设备正常运行的条件除了配置UPS供电设备外,还必须有与之配套的完整的供电系统、空调及通风系统、机架及IT设备线缆的支撑系统、消防及门禁系统、基建及装修装饰等,统称为网络关键物理基础设施,即NCPI(NetworkCriticalPhysicalInfrastructure),这些设施都会在一定程度上影响信息系统的可用性,所以研究工作自然地就由单纯的电力供应扩展到空气调节(包括IT机架微环境)、IT设备机械支撑、系统的集中管理。从UPS设备到一体化供电系统,再到NCPI,是供电系统设计思维模式的重大变化。,设计理念变化(三),从对单纯的供电系统研究向整个IT基础物理设施(NCPI)变化,-系统:相互关联-实质:IT微环境是终极目标,IT系统对NCPI的终极要求,IT微环境状态是衡量NCPI质量的最终标准,NCPI与整体机房,Decoration装修空调,Ceiling天花板,Grounding接地,RaisedFloor地板,Shielding屏蔽,消防,动力配电,机房,机架、微环境系统管理,IT设备厂商,NCPI,机柜(架)-数据中心中与IT设备直接发生联系的基础物理设施要解决的问题:对不同厂家不同型号设备的兼容;机架级电源分配和线缆管理;机架微环境通风散热问题;机架电源状态和环境(温度、湿度、烟雾 等)状况的监测和管理。,提高UPS供电系统的“适应性”,设计理念变化(四),当经济环境的变化周期小于设备的生命周期时,就会对设备的适应性提出要求。由于技术发展和经济环境的不确定性和不可预测性,要求一台设备能够自动而有准备地适应新的需求是根本不可能的。,经济形势的变化;IT设备技术革新和功率密度的变化;维护人员操作水平的变化、组织管理模式的变化;设备运行场地的变化等。,部署传统 NCPI 系统典型的 400 天时间表,计划内过度规划设计增加20%余量,可提高设备的可靠性。规划程序及其缺陷对需求的假设包括:设计人员不能犯容量不足错误;在生命周期的中途增加容量的成本非常高;在生命周期过程中增加容量会带来严重的、无法接受的故障停机风险;必须事先完成所有最终机房容量的工程设计与规划工作;负荷未来将会提高,但是增加的程度是无法准确地预测的。造成过度规划设计的根本原因在设计流程中进行预测的能力非常差;目前采用的系统容量设计技术是一种逻辑上的过度规划设计,这种系统是通过降低“系统无法在生命周期过程中满足负荷要求”这种可能性,来防止系统受到最终实际功率过高的影响。,传统设计观念导致过度规划设计,要求 系统统筹设计(可用性、可扩展能力、总拥有成本、建设周期等)设备制造和供应渠道的统一化;设备结构的一体化和连接的规范化;各设备和环节状态管理的集中化;体系结构和物理空间的可修复性设计、各设备和环节结构的 模块化、冗余配置和连接的热插拔功能。,集成一体化范围:系统规划、机房设计建造、强电系统、机房内供电系统、温湿度调节、防静电功能、防雷系统、新风净化、安全系统、消防系统;环境监测系统;维护管理。,设计理念变化(五),集成一体化架构-基础设施建造的最重要的原则,,基础设施集成一体化架构,集成一体化机房规划与设计、工程实施、工程验收,机房规划设计,机房供配电,UPS供电系统,机房空调制冷,机房布线,机房安全,机房装修,机房妨雷,系统管理,数据中心UPS供电系统典型结构示意图,软件管理产品:自诊断及保护功能、通信功能、管理软件,企业管理:英飞中央管理器容量管理器变化管理器,物理威胁管理:环境及安全NetBotzEMS/EMU,分布式软件:UPS监控及操作系统安全宕机PowerChute Business EditionPowerChute Personal EditionPowerChute Network Shutdown,设备管理:监控管理卡(NMC,BMC,EMC)电池监控,MGE UPS管理产品Solution-PacEPM(Enterprise Power Management)Monitor-Pac,服务器访问:远程服务器操作-KMM、KVM,集成一体化架构的优势,提高系统可用性,提高系统适应性,降低总拥有成本,集中管理,机房物理空间总体布局优化设计,提高管理维护水平,成熟案例和经验的积累,兼容性、开放性,方案可行性仿真设计,系统可用性最优化设计,系统总拥有成本最佳化设计,系统可扩展规划设计,系统统筹规划,设备制造和供应渠道的统一化,供货周期保证,系统预调试,缩短故障修复时间,缩短建设周期,降低MTTR,设备及各环节的匹配,设备容量的匹配,设备输入输出阻抗的匹配,设备及各环节的连接的规范化,提高MTBF,资源共享,降低运营费用,现代信息系统对基础设施的一个基本要求是:该系统必须能连续工作,一个能连续工作的系统必然是一个能够修复和可快速修复的系统,一个能修复和可快速修复的系统要求组成该系统的所有子系统都必须有模块化功能,系统模块化设计-是基础物理设施的最基本的法则,设计理念变化(五),提高的人类学习能力,标准化NCPI,使事物,模块化,易于理解,避免出错预见问题共享知识提高效率,对人提高的价值,对设备提高的价值,构造模块结构,可扩展可更改可移植可拔插,避免出错预见问题共享知识提高效率,标准化NCPI的基本特征,标准化是提高NCPI商业价值的根本途经,其他行业中标准化的旧观念已上升到一个新的高度,成为了一种富有创造性并具突出战略意义的企业哲学。数据中心基础设施 NCPI的标准几乎没有什么进展。还停留在手工行业阶段:将来自不同供应商的不兼容的设备进行定制化设计,组合成一个数据中心独特的大型基础设施系统。因而产生了难以设计、部署、维护和管理的系统 简单地定制连接和组建以便使之运转(鲁伯哥德堡效应),必然增加复杂性,并提高发生人为错误的几率外。不适应 NCPI 的大小或功能进行重新配置以适应迅速变化的商业需求,对于 NCPI 的效率与价值至关重要。全球数千计的数据中心的 NCPI 所具有的复杂程度和不一致性面前,使其他所有成熟行业的系统分析家们都会目瞪口呆。困难源于缺乏公众监督的动力或行业内广泛的变革兴趣,NCPI 的标准化并不是规模、内容和形式的一致化,而是基础设施(元素)的标准化,NCPI的标准化势在必行,独特性不适合基础设施(元素)基础设施由为我们实际所感熟悉的子系统提供支持的基础系统所构成。基础设施(元素)的作用是功能性的。对整个 NCPI 进行一次性的工程设计将产生一个独一无二的系统,随之而来的是需要独特诊断、管理和修改程序的独特问题,这不仅仅需要耗费大量资金与时间,而且对于将来会发生的独特问题或组织内其他数据中心所发生的问题毫无借鉴作用。NCPI 标准化的目标在于避免一次性独特工程设计的低效及容易出错的复杂性,透明地管理 IT 物理基础设施的日常业务,几乎在 NCPI 产品与流程的每个方面都存在着实现标准化的可能性。任何类型的基础设施无疑都应当采用标准化,而非独特性。,在一个多变的环境中利用标准化优势的关键在于模块化,即可根据用户需求进行配置的预先设计的标准化构造模块。将标准化组件迅速组装成一个合理配置以应对变化的功能及财务需求,,独特的一次性工程设计好的艺术品,但不适合基础设施,准化模块组件可更改、缩放、重复并易于理解,标准化的关键在于模块化,模块的基本特征:模块是系统中一个可独立运行的单元;结构上整体安装、拆卸、更换、移动;相同单元可冗余并机运行;,系统模块化要考虑的内容设备安装空间:可在线维护、拆卸、设备扩容、移动、更换PDU及线缆铺设:可在线扩容、更换、重组(不允许带电操作)致冷与通风:出风口风量调节和位置变动,冗余模块和在线维护.,一个螺帽,一条电缆,它们都有独立功能,但系统运行后,由于工具和物理空间原因,无法再对其拆卸,则该螺帽就不具备模块化功能;一台复杂的UPS设备,它有冗余并机功能,可在线维护、拆卸、扩容、移动、运进运出更换,则这台UPS具备模块化功能,系统模块化程度,模块化子系统,冗余配置的模块化子系统,可插拔更换修复的模块化子系统,可插拔更换修复的冗余配置模块化子系统,设备、线缆、开关等可独立运行且结构上可整体安装、拆卸、更换、移动的单元,(N+1)UPS、(N+1)空调及其它有冗余配置功能的模块化子系统,扩容模块化UPS、保险丝、无工具安装线缆及其它有可插拔安装功能的模块化子系统,(N+1)模块化UPS及其它有同样功能的模块化子系统,提高系统可用性,提高系统适应性,降低总拥有成本,可修复的系统,可连续工作的系统,系统模块化设计,可插拔更换的系统模块化设计,可快速修复的系统,可冗余配置的系统模块化设计,减少单路经故障点,降低MTTR,提高MTBF,子系统标准化,系统模块化设计,设备工作效率提高,避免过度规划,降低一次性投资,提高部署速度,提高系统扩展能力,可重新配置能力,系统模块化设计,降低备件成本,系统模块化设计,系统模块化设计,降低运行能源成本,系统模块化设计,降低维护难度,降低非能源成本,系统模块化设计的优势,系统模块化设计,减少人为错误,模块化结构,降低非设备资本成本,简化规划、设计、安装流程,基础设施的可维护性评估,部署速度,可扩展的能力,重新配置的能力,适应性,标准化 模块化,模块化与标准化对提高系统适应性的贡献,提高部署速度:便于合理配置系统结构(物理排列、设备数量与类型);灵活性为边成长边投资提供条件;标准化批量生产现货供应,提高了交货速度;结构和连接方式的标准化,现场配置速度加快;标准化模块可在工厂进行模拟连接并预测试,提高了系统调试速度;,可扩展的能力:可使IT 空间的配置达到最佳状态;扩展时无需重新对整个系统进行工程设计;扩展时无需关闭关键设备。可控制系统规模“最优化”,重新配置的能力:模块化组件可插拔,便于重新排列并重新连接;为重新配置不同级别的冗余、不同电压或不同连接类型提供了可能性;将重新设计的需要降至最低;并最大限度地提高了将现有设备重复用在新配置中的能力。,标准化和模块化对提高适应性的贡献,减少了MTTR,提高了可靠性,减少了人为错误,模块化/标准化,可 用 性,模块化与标准化对系统可用性的贡献,可用性的三个关键因素:,可靠性:恢复时间:人为错误:,批量生产的优势成本更低质量更高更易于维修产量更大交货速度更快,提高可靠性:标准化易于批量生产,降低了生产缺陷;模块化可返回到工厂处进行维修,提高维修质量厂修复的模块 发生新的故障或无法恢复到满负荷工作状态方面的概率要低 500-2000倍;标准化连接可以按照与现场同样的方式在工厂内进行预配置、预测试,发现解决系统问题;模块化便于内部冗余以及热插拔更换;标准化的设备监控系统可以方便地进行前瞻性维护;标准化可减少预防性维护量,提高使用维护质量。,减少平均恢复时间(MTTR):模块化可以对故障模块拔插更换;标准化令系统更容易理解与操作,加快问题的诊断速度和 正确性;提高用户自己进行诊断与更正的可能性。,减少人为错误:标准化使设备与程序的功能更加透明,操作更加简 单,并更容易学习;维护和操作高度程序化,减少和消除人为错误,标准化和模块化对提高可用性的贡献,减少了资本成本,减少了非能源运营成本,减少了能源成本,模块化与标准化,总拥有成本,模块化与标准化对降低总拥有成本的贡献,二,新的设计理念对机房建设、供电系统 设计、设备功能和选用配置的影响,3 系统设计、机房建造和设备厂商产品定位的变化,1 对机房设计建造技术的影响,2 对设备功能要求和选用标准变化的影响,新的理念产生的同时就在酝酿并发生着相应的变化,1 对机房设计建造技术的影响,(1)从机房环境延伸到IT设备微环境:,对供电系统的设计不能局现在向机房提供满足功率容量和电压制式要求的动力电,而是要对整个机房乃至IT设备微环境(机架或机柜)的供电质量、可靠性和可用性、电力传输、各种设备的匹配和连接等一系列问题做全面的研究和设计;对机房空调制冷系统的研究和设计不能局限在保证机房内的温度和湿度,还要保证IT设备微环境(机架或机柜)的温度和湿度,这方面研究理念的一个重要变化是“如何把IT设备产生的热量有效地带走”,保证IT设备在最佳的温湿度环境下工作;对整个机房的集中管理成为所有系统设计和机房建设者的普遍重视。,(2)为解决超规模建设、适应性、可扩展性和降低风 险提供了可能性,1 对机房设计建造技术的影响,(3)改变传统的设计观念寻求模块化、标准化的途径,传统的NCPI设计与建造鲁伯哥德堡效应与手工行业阶段:将来自不同供应商的不兼容的设备进 行定制 化设计,组合成一个数据中心独特的大型基础设施系统。因而产生 了难以设计、部署、维护和管理的系统,模块化、标准化将是NCPI设计建造最终的发展目标,可靠性和输出能力成为最重要的指标;为了改善匹配能力,降低系统中的干扰源,输入功率因数和输入电流谐 波成分已经成为最重要的指标,输入功率因数是否做到0.99和输入电 流谐波成分是否小于5%已经为先进UPS的主要标志了;为了提高系统的可用性,在系统配置能力上它必须有多台输出均流冗余 并机的能力;为了提高系统的可用性,它必须是可修复和可快速修复的设备,因此在 体系结构上采用模块化可在线热插拔技术是当前UPS技术发展的主要趋势;UPS具有更强大的智能管理功能,将电源管理系统与企业信息管理系统集成 开始成为最重要的技术内容之一,,2 对UPS设备功能要求和选用标准变化的影响,对UPS的性能要求和评估选用标准发生了明显的变化,3 设备提供厂商产品定位的变化,从UPS设备到集成供电系统,是一次认识上的进步,由集成供电系统向NCPI,是另一次更大的系统思维模式的飞跃,新的设计理念将促成供电设备厂商、机房设计建筑商、IT系统集成商和设备经销商定位的变化将出现知识共享、业务大联合,或功能的重组。,定位的变化为NCPI的技术进步,以及实现最终目标模块化和标准化提供了可能性,具有重大的战略意义,