HP灾备方案建议书.doc
《HP灾备方案建议书.doc》由会员分享,可在线阅读,更多相关《HP灾备方案建议书.doc(33页珍藏版)》请在三一办公上搜索。
1、HP灾备方案建议书中国惠普有限公司2007.8目 录核心数据容灾系统24.2.1容灾概述24.2.2关键业务系统中普遍存在的问题24.2.3业务连续性/容灾的重要意义44.2.4国外计算机业务系统灾难备份应用情况64.2.5灾备系统实施容灾方案的意义74.2.6什么是容灾系统84.2.7灾难及应对分析94.2.8系统建设的目标164.2.9系统建设的原则174.2.10业务系统现状174.2.11灾备系统灾难备份系统解决方案184.2.12容灾系统的管理234.2.13培训254.2.14测试灾难恢复计划254.2.15测试方法254.2.16维护264.2.17惠普公司容灾实施服务内容264
2、.2.18HP容灾系统优势31核心数据容灾系统4.2.1 容灾概述在今天的科技社会中,IT技术的运用已经渗透到了我们生活和工作的各个层面,为我们带来了以往任何一次技术革命都没有的便利和迅捷,可以说,由于采用了IT技术的新的生产方式已经基本上代替了原来的生产方式,成为现代社会运作和发展的主流,我们对计算机系统的依赖超过了以往任何一种技术。然而计算机系统在为业务的迅猛发展提供信息技术基础架构的同时,也带来了以往我们不曾发觉的负面因素。例如由于信息和处理的高度集中使业务运转过度依赖于IT系统,并会因为IT系统的突发问题而受到很大影响,严重的甚至可以导致业务系统无法正常进行。这些问题包括了进行系统检修
3、和升级带来长时间的系统停机,系统自身的或者人为的因素或事故发生连锁性的扩大,以及不可预见的故障和突发性灾难等等。如何避免业务运转受到影响,或者使业务影响尽可能降到最低,这是每一个企业管理者必须考虑和重视的问题。领导经过认真的思考,如何切实有效的保障制证系统等关键业务系统的连续运行已经成为领导层十分关注的问题。本方案的内容涵盖了高可用的信息技术基础平台建设、日常运作流程设计、突发事件管理和大型灾害的应对计划和策略,业务持续性管理团队建设和咨询等诸多方面的服务。希望能够帮助客户从技术、流程、人员三方面提高业务持续能力,保证关键业务的正常运行和发展。4.2.2 关键业务系统中普遍存在的问题提高IT系
4、统的高可靠性以及IT系统的容灾建设早已不再是新鲜的话题了,随着许多用户实施业务系统大集中,针对IT系统的高可靠性和容灾能力的需求日渐突出,很多用户都已经实施了有针对性的容灾系统,并且更多讨论的是如何实现业务数据的有效保护和业务的连续性运行。然而,目前大多数容灾系统的建设还是存在许多问题的。这些问题中不仅有技术层面的缺陷,更多的是在流程和人员方面的不足。这些问题可能导致的直接后果就是当发生灾难时,根本无法实现应用系统的快速恢复,甚至可能导致业务运转的长时间灾难性中断。我们可以列举出其中的一些:1 仅从产品功能层面考虑问题,最终建设的容灾环境仅是一个多种产品的堆积。仅实现了数据的远程复制或者离线存
5、放,没有进行灾难的各种场景测试和灾难预演,并缺乏灾难恢复机制和危机应对流程。发生灾难时,不知道到底数据或者系统能否恢复正常。2 进行了一定的测试和预演,但是缺少相应的灾难恢复计划和特殊情况下的行动指南,更没有全面的业务连续性计划。在真正发生灾难时,百废待兴、千头万绪的情况下,没有依据和参考,可能无法顺利进行有关操作。3 有了灾难恢复计划等必要文档,但是没有及时的将IT系统,业务流程和管理人员等不断变化的信息更新,导致容灾手册成为一纸空文。4 具备了以上的要素,但是容灾系统的建设局限在IT部门,缺少业务部门的参与和管理高层的介入和全力支持。发生灾害时,IT系统能够恢复但是业务流程仍无法恢复运转。
6、除了以上列出的问题之外,还有许多问题如容灾系统的负载能力估计不足,实施过程中没有严格遵循高可靠标准,实施过程工作界面过多沟通不足,日常运维管理方面存在不足和漏洞,缺少厂商、系统集成商的后续支持服务等等都可能导致业务持续性系统建设的失败。除了以上的问题之外,另一类问题是项目小组仅将目光放在了大型灾难等突发事件的应对之上,而忽略了计划性停机对业务运行的影响。根据有关统计,非计划性停机只占13%的停机概率,而在非计划停机中大型自然灾难占的比例就更低了。所以在项目实施时,未能很好的优化现有系统和流程,没有充分发掘现有潜力,未能将日常操作流程和业务持续性目标充分整合,虽然实现了容灾但是仍没有从本质上解决
7、持续性问题。HP公司提供的业务连续性解决方案是基于HP公司长期的实践经验和业界公认的业务持续方法论(BCP),结合客户的具体实际情况,采用业界先进成熟的产品和技术,由资深顾问和技术专家构成的实施小组遵循IT服务管理(ITSM)理念进行实施。充分考虑了以上普遍性问题,保证了项目目标的成功实现,同时HP公司可以提供整个容灾项目的整体解决方案单点后续支持服务,这一点完全不同于业界其他友商仅能提供单一产品支持的服务模式。4.2.3 业务连续性/容灾的重要意义在突发性灾难面前,目前的信息系统的确是非常脆弱的。当越来越多的人们已经习惯于工作、生活在基于计算机系统的支持环境中,任何关键信息系统运转的中断或者
8、数据的丢失都将导致不可估量的损失。一个已经证实的数据是:网上银行每分钟运转中断成本为7000美元,企业资源管理系统为13000美元,而呼叫中心更是高达27000美元!据IDC的统计数字表明,美国在2000年以前的10年间,发生过灾难的公司中,有55%当时倒闭,剩下的45%中,因为数据丢失,有29%也在两年之内倒闭,生存下来的仅占16%。当然,早在数年前许多企业及政府要害部门就有了危机意识,他们也正在尽力避免危机的产生。对于例如计算机软硬件故障、人为因素以及资源不足等引起的计划性停机所导致的系统停止运转,众多的用户采用了各种解决方案如本地双机热备份、负载均衡、动态切换等,得以实现系统冗余,增强业
9、务系统的高可用性。但是,无论对硬件和软件采取什么样的监控和改善措施,一场不可预测的突发性灾难,比如地震、火灾等降临时,业务数据还是会在瞬间消失。如何才能保证尽量减少业务数据的丢失、将危险与灾难的损失降低到最小程度呢?这就需要建立异地容灾系统。容灾系统的核心就在于使用各种技术和管理手段将灾难的影响化解,在实践中主要表现为两个方面:一是保证业务数据的安全;二是保证业务的连续性。通过在生产站点和灾难恢复站点运行同样的系统,包括操作系统、基础数据库和应用软件,并通过数据复制完成在线和实时的数据复制,或者通过光纤通道的远程数据复制。假如工作站点发生突发灾难,不能再继续工作,这时容灾中心会将业务数据及时恢
10、复到备用服务器上,并迅速将业务系统加载到备用服务器,然后实现业务的远程切换(Fail-over),恢复应用系统不间断的运行,在容灾中心实现业务的恢复运转,这个过程只需要几分钟或者几十分钟的时间;在此基础上,在灾难过后,生产系统恢复正常后,再将业务运行切换回正常的生产系统,实现业务系统的灾难恢复(Fail-back)。一般来讲,一家运行关键业务的企业应该拿出IT总预算的7%到15%用于灾难备份与恢复。在发达国家,面对高级灾难防护,一般公司每月要支付大约5万美元到10万美元的费用,而对于大公司,这一数字可能高达100万美元。这个数字十分惊人,但当用户进行整体的评估和核算后,会发现一次业务中断所造成
11、的经济损失将远远超过投资于业务持续性系统的成本。在国内,当前应用级容灾系统的用户还不多。究其原因,首先观念是重要因素。容灾系统的投入相当大,而它所针对的只是一些诸如火灾、洪水、地震等小概率事件,因此,对许多用户来说,这种高投入和相对的小概率产出使他们望而却步。但是对于像财税研究机构这样的政府要害部门来说,关键数据丢失造成的损失是远远不能用财务数据来衡量的。同时还应当指出,容灾系统并不仅仅针对突发性灾害等小概率事件,其它一些宕机事件,如人为误操作、机房事故(电源、空调、管道漏水)、计划内的系统维护和扩容等,也可使用异地容灾系统实现关键业务的持续运转。此外,在生产系统正常运转的情况下,容灾系统还可
12、以被用来开展诸如数据挖掘、经营分析以及用户查询等其他业务,从而使为防止灾难而采购的软硬件设备在平时也能得到很好的应用。如上所述,综合考虑业务中断、数据丢失所导致的损失和增值业务所带来的收益,容灾系统的建设投入还是值得的。4.2.4 国外计算机业务系统灾难备份应用情况灾难备份计划在发达国家电信行业和金融行业得到了较早实施,现已较为普遍。例如美国,因一九八五年纽约银行计算机故障,联邦管理部门更加强了在这方面的监管力度。现美国计算机业务系统一般出于以下三方面来考虑灾难备份计划:重要数据保护与业务连续运行的需要:在美国,各行业内部竞争激烈,各项业务的正常开展完全依赖于计算机系统的高性能、高可靠运行,一
13、旦因突发性灾难而造成数据丢失或业务中断,必将会造成重大乃至致命的打击。审计的要求:美国较大型的企业一般会由第三方独立审计公司来提供其资信业务、管理等方面咨询服务,而世界著名的五大审计公司在对企业的评估项目中均包含灾难备份计划一项;评估企业数据在灾难等威胁破坏下数据的完整性与安全性,及业务可恢复性等,有些还会参于验证这种计划的具体操作过程。缺少灾难备份计划及其危害性会在报告中被显示出来。法律的要求:美国政府及州政府通过多项法律强制性要求金融、电信等大型企业备有计算机安全及灾难备份计划。对于没有遵守这项灾难备份计划的企业,会遭受曝光及罚款等处理,同时亦可能对相关责任人进行罚款甚至监禁等处罚。已知的
14、灾难例子有:日本神户大地震、美国佛罗里达州飓风(数百家企业实施了灾难备份计划)、台湾大地震等。4.2.5 灾备系统实施容灾方案的意义我国的相关政策法规:2003年9月,中共中央办公厅、国务院办公厅转发了国家信息化领导小组关于加强信息安全保障工作的意见(中办发200327号),提出各基础信息网络和重要信息系统建设要充分考虑抗毁性与灾难恢复;2004年1月9日全国信息安全保障工作会议上下发了关于做好国家重要信息系统容灾备份工作的通知;2004年央行提出各银行要在2009年前完成灾难备份工作;2005年1月国信办组织起草了重要信息系统灾难恢复规划指南;灾备系统自身业务需要:灾备系统目前日常研发工作依
15、赖于Oracle数据库软件,这套软件分别运行在2套由HP小型机组成的HA集群中,此配置保证了数据库服务应用在单机出现故障时可以迅速切换到集群中的另一台机器上去。当整个机房出现比较大的灾难时(如水灾、火灾等),2套HA集群内的主机都不能提供服务,更严重的是:灾难可能会对目前存放在EVA4000磁盘阵列中的数据造成损坏和丢失。即使事后可以通过备份来恢复数据,但是数据的部分丢失不可避免;而且新购买阵列、小型机的流程较长,灾备系统正常正常使用在较长的一段时间内都会受到严重的影响。因此,为了保证数据的安全性和应用的连续性,我们建议在一个备场地建立一个灾备数据中心,灾备数据中心的数据和主数据中心数据实时保
16、持同步。随着灾备系统的业务开展的深入,数据量的增加,必然要考虑建设灾难备份中心,其目的就是在于防止一些灾难性的小概率事件可能对集中式信息系统造成的不可恢复的原始数据的丢失,这些灾难性事件可能包括为火灾、水灾、地震、电源故障及一些人为的操作失误等等。综上所述,灾备系统建设灾难备份中心有如下的意义:l 重要业务数据在灾难发生后得以保护。l 重要业务,核心数据库系统在灾难发生后可以在设定的时间内恢复,从而实现业务的连续运行l 业务计算机系统抵御突发性灾难的能力和级别提高4.2.6 什么是容灾系统容灾系统是业务永续运行的重要的组成部分。所谓灾难,通常是指引起关键业务的信息服务中断,且中断的时间及造成的
17、损失超出企业所能承受的范围之外的意外情况。引起灾难的因素很多,可以是系统环境中的软件、硬件故障,有意或过失的人为破坏,还可能是因火灾、飓风、地震而引起的数据处理设备的损坏等等,只要造成了关键业务的中断,都是灾难。而容灾就是通过预先建立的备份中心、备份设备和备份数据等,在可以容忍的时间内恢复业务系统的正常运行,将企业因业务中断而导致的损失降低到预定的程度。相对于业务永续运行来说,容灾强调的是企业的关键业务在灾难发生时的应对能力和恢复能力,即通过尽可能快速的、全面的企业业务恢复运作,将因灾难造成的损失降低到最小程度。显然,它并不保证业务的零间断能力;实际上,容灾系统的整个灾难恢复过程必须会造成一段
18、时间的业务中断。另外,也正是因为可以容忍一段时间的业务间断,所以其实施难度、周期和规模都要远远小于实现业务持续性系统的建设。从广义上讲,任何提高系统可用性的努力,都可称之为容灾。本地容灾,例如主机集群:当某台主机出现故障,不能正常工作时,其他的主机可以替代该主机,继续进行正常工作。而我们平时讲到的容灾,尤其是值得重视的容灾,一般都是指远程容灾。远程容灾可以这样理解:在各行业企业用户的IT系统中,必然有一部分(尤其是核心部分)是非常重要的,我们叫它生产中心。人们往往给生产中心配备一个备份中心,该备份中心是远程的,并且在生产中心的内部,已经实施了各种各样的数据保护。不论采取什么方式进行保护,当火灾
19、、地震这类突发性灾难发生时,一旦生产中心瘫痪了,备份中心将能接管生产系统,继续提供网络服务。比如,全国铁路调度中心网络系统,当发生火灾、地震等灾难性事件时,该系统仍要保持正常进行,不能因为调度中心出现灾难性事件,全国的铁路系统就处于瘫痪状态,让灾难不合理地蔓延。我们认为,一个有效的高可靠性计算环境应该能够做到:l 数据中心任何计算机系统硬件,软件及应用的单点故障将不会影响整个数据中心的处理工作;l 数据中心由于灾难(火灾、地震、断电)等原因无法工作时,应有一个备份数据中心能够迅速接管关键应用,继续运行;l 主数据中心恢复后,应用系统、业务数据应能迅速切换回主中心运行。4.2.7 灾难及应对分析
20、4.2.7.1 灾难的定义一般来说,人们可将灾难分为下面几个类型:自然灾难(洪水、飓风、地震),外在事件(电力或通讯中断)、技术失灵(电脑宕机或网络受损)、设备受损(火灾)及人为操作(黑客入侵、恶意破坏、员工误操作)等。在本文中,灾难的定义主要是指自然的和人为的灾难,包括系统硬件,网络故障,机房断电,人为破坏甚至火灾地震等,例如台湾的台北大地震导致该区域内建筑及大部分机器均遭到严重破坏。而突发性灾难发生从而引发的IT系统崩溃的后果将可能导致生产停顿,失去客户以及减少定单、收入,甚至威胁到企业的生存。灾备系统面临着多种可能出现的风险和灾难因素,从类型上可以大致分为自然灾害和人为因素;从发生的概率
21、看可以分为比较可能,可能,和基本不可能。分析各种风险是制定相应的容灾策略以预防或尽可能降低灾难影响的基础。对业务环境中可能发生的突发性灾难归纳如下:比较可能可能基本不可能l 人为过失/故意破坏(对公司不满的员工,外部黑客,计算机病毒等)l 气候灾难(暴风雪,严寒等)l 设备/硬件/系统故障l 业务应用软件故障l 火灾l 基础设施故障(网络,通信,电力,空调,通风等)l 气候灾难(台风,洪水等,沙尘暴)l 城市事件(罢工,动乱等)l 工作场所的环境紧急事件(化学污染等)l 地震l 流行疾病l 社会性恐慌l 恐怖袭击(炸弹威胁,爆炸,挟持人质等)l 战争l 核战以上列出的灾难因素分析仅作一般性参考
22、。灾备系统的具体情况(IT系统环境,地理,人文,社会服务环境等),可以在项目的风险分析阶段针对性的明确与细化。另一方面,从灾难的后果和影响来看,大致可以分为两大类:业务停顿,但一般可以在能忍受的时间内完成本地修复,不需要异地切换。例如:机房电源设备发生故障、IT设备软硬件故障、消防系统和空调系统等机房环境告警、人为因素误操作的情况等,电信供应商的IT系统普遍建立了相应的本地高可用性系统(HA)、备份/恢复策略,运维管理流程,并购买了IT厂商高级别支持服务,以及其它一些基础设施的防护措施等。我们建议首先应立足于现有系统环境,在现有条件下解决自身的灾难预防和风险规避问题,尽可能避免发生大的突发性灾
23、难并降低灾难的破坏力。同时需要统筹规划容灾系统的建设,按系统的方法论分阶段、有步骤进行相应的分析、设计、实施、测试、人员培训等工作。这也正是目前容灾规划所关注的课题。4.2.7.2 容灾可以达到的目标层次根据企业自身的现有环境、客观条件、投资规模、实施阶段的不同,容灾方案可以达到多种目标层次,这些层次可以在企业不同的层面上实现不同的容灾功能要求。下面的图表展示了各个容灾层次:关于这些层次的描述如下:数据保护:数据保护的目标是防止企业在意外情况及突发灾难下丢失数据,通常采用异地数据备份或存储介质镜像的方法保护企业的数据资产。应用保护:应用保护的目标是在发生意外时不仅可以实现数据恢复,还要能够将数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HP 方案 建议书

链接地址:https://www.31ppt.com/p-2392021.html