XX省工商局容灾系统建设方案.doc
《XX省工商局容灾系统建设方案.doc》由会员分享,可在线阅读,更多相关《XX省工商局容灾系统建设方案.doc(55页珍藏版)》请在三一办公上搜索。
1、XXX工商局数据大集中容灾系统建设方案安徽中科大国祯信息科技有限责任公司2009年4月目 录1概述32信息系统可用性风险和技术分析42.1计划内停机维护对IT系统的影响分析和技术解决方案42.2意外事件对IT系统的影响分析和技术解决方案52.3各种技术解决方案对企业信息高可用性的保护覆盖范围63省工商应用级容灾系统建设方案93.1方案综述93.2容灾方案的功能特点说103.3容灾系统的工作原理113.4容灾工作过程详解173.5应用级容灾系统费用估算214省工商数据级容灾系统建设方案224.1方案综述224.2Symantec远程镜像数据容灾原理224.3Symantec远程镜像数据容灾系统故
2、障和灾难的响应244.3.1当生产中心数据系统故障254.3.2灾备中心数据系统故障以及生产中心和灾备中心SAN链路故障264.3.3故障修复后的恢复(远程镜像快速恢复)264.4系统容灾方案结构和实现274.5应用级容灾系统费用估算275容灾系统外包285.1我公司的容灾外包服务方式285.1.1初级数据保护服务实现方式305.1.2中级数据保护服务实现方式315.1.3高级数据保护服务实现方式325.2我公司的数据灾备专业服务模式355.2.1运维及管理的组织机构365.2.2运维及管理的规范395.2.3应急服务流程405.2.4灾难演练流程设计475.2.5日常运行维护管理策略525.
3、3服务外包费用估算571 概述随着省工商业务量快速增长,业务系统越来越依赖他们的信息技术服务,信息服务的可用性对于政府服务公众越来越重要。同时,随着政府信息化的不断完善,信息服务管理人员(信息中心)开始意识到,仅有一个可用的IT系统远远无法满足业务的需要,政府机构的信息服务应当基于一个高可用的架构,以确保信息系统具备在相当长的一段时间内持续执行其功能的能力。尤其是省工商关键业务系统停顿时间决对不能超过1分钟,目标是永不宕机,而省工商的业务系统作为关键应用,业务停顿时间不能超过半个小时,目标是5分钟的时间。无论何时何地我们对于IT系统的追求都是在降低成本的前提下,IT系统宕机时间越短越好。而目前
4、传统的架构是难以满足这样的要求的,从经验判断:在建设了政务信息系统后,管理人员开始发现,尽管在系统建设的时候,已经充分地考虑的服务器以及存储设备的硬件冗余,但信息系统还是经常由于种种原因而不得不停止正常的服务。事实上,IT系统的可用性是一种“链”,即使最简单的一个信息服务系统,也是由诸多软、硬模块共同组合而成,在“链”中的任意一个环节的不可用对于用户而言,其结果都是一样的无法使用信息服务在IT建设阶段,用户通常会将系统可用性的注意力集中在Network和Server层面上,以构建一个稳健的硬件架构;但当系统投入使用后,用户逐渐意识到Application/Database/OS/Storage
5、的可用性往往显得更为重要,企业信息系统几乎90%以上的停机事件是由于系统/存储/应用程序等方面原因造成的。IT系统的停机事件可以基本分为2大类:1计划内停机维护2意外事件造成的停机故障2 信息系统可用性风险和技术分析2.1 计划内停机维护对IT系统的影响分析和技术解决方案在IT系统运行的过程中,企业需要周期性地停止IT系统的服务,对系统的软硬件以及存储进行一定的调整,技术上我们称这种停机事件为计划内停机维护,它通常包含以下一些内容:n 系统的一般性检查维护,包括:网络设备检测、主机硬件设备自检、磁盘数据校验、OS一般性告警事件检查,或更换工作不正常的部件,添加部件以改善性能等n 硬件Firmw
6、are和主机系统OS的升级,打补丁等需要重启硬件设备的操作,或相关可能对系统造成潜在严重影响,但又必须完成的例行工作(比如某些安全补丁或固件升级会造成系统的崩溃或运行不正常)n 应用系统或数据库的软件升级,通常需要停止相应的信息服务n 存储系统的调整,比如添加/替换磁盘,调整存储空间,调整存储网络但随着企业业务可用性的要求不断增长,允许系统管理者进行停机维护的时间越来越短,甚至要求在进行上述正常周期性维护的时候,不能停止信息服务,面对这样的需求,通常会采用一些高可用技术方案来满足:n 采用冗余的,支持热插拔的硬件设备,当需要进行固件升级的时候,将硬件插拔到其他系统进行。n 构建共享存储的Clu
7、ster群集环境,包括购买群集软件,添加冗余的主机设备,当需要进行系统维护时,将信息服务系统切换到热备的主机上,继续提供服务,待系统维护完成后,再切换回原系统。n 购买专业的存储管理软件,升级磁盘阵列系统,构建弹性的企业存储平台2.2 意外事件对IT系统的影响分析和技术解决方案信息系统的意外事件其实包含着许多因素:n 人为的错误,比如误操作或误删除数据造成信息服务的不可用n OS、应用程序、硬件设备的失效或任何一个环节发生改变后所造成的不兼容问题都会导致信息服务不可用n 由于软件设计过程的原因,造成运行一段时间后服务提供能力出现下降,也会导致信息服务不可用n 由于软件设计原因,导致当出现某种特
8、定事件时,数据发生逻辑上的不一致,将直接导致该应用的不可用n 战争、自然灾害、公共设施等非可抗力原因也会造成信息系统长时间甚至永久的不可用针对上面的意外事件因素,企业信息管理者需要在2个技术层面来保障系统可用性:1在存储上保证应用数据的可用性,包括:n 通过存储快照技术来防范应用逻辑错误以及人为失误带来的数据不可用风险n 通过存储镜像技术来防范磁盘或磁盘阵列失效带来的存储系统不可用风险n 通过存储多路径技术,防范由于网卡板卡端口故障带来的存储系统不可用风险n 通过数据复制技术,防范灾难带来的数据损毁风险2在应用上保证程序运行的不间断性,包括:n 采用并行计算技术提高应用程序的可用性级别n 采用
9、HA群集软件,让备份系统可以迅速接管不可用的应用系统2.3 各种技术解决方案对企业信息高可用性的保护覆盖范围综合上面的分析,我们可以发现,合适的部件冗余,群集技术和存储镜像、快照、复制技术是构建一个高可用企业IT平台的必要技术手段,虽然没有任何一种单一技术可以解决企业信息系统的全部高可用需求,但通过灵活组合这些高可用技术并形成高可用的解决方案,可以满足企业用户的高可用需求,各种高可用技术的分析如下表:高可用技术保护覆盖范围无法防范的停机因素硬件冗余主机服务器失效操作系统失效SAN 网络失效应用程序错误机房故障/失效逻辑数据不一致RAID磁盘故障多磁盘同时故障,阵列故障主机服务器失效操作系统失效
10、机房故障/失效逻辑数据不一致存储快照逻辑数据不一致多磁盘同时故障,阵列故障主机服务器失效操作系统失效机房故障/失效群集技术应用程序错误 主机服务器失效操作系统失效逻辑数据不一致存储失效数据复制/广域群集机房故障自然灾害逻辑数据不一致但是,信息系统管理员的挑战不仅限于发现这些能提高企业IT可用性的技术,而在于有效利用这些技术,来提高最终信息服务的可用性,比如:主机操作系统或应用系统需要支持所配置的冗余部件,否则就无法达到高可用目的;存储管理软件需要支持多路径技术,否则就无法抵御存储网络的意外风险,尽管已经部署了冗余的网络结构;群集系统需要支持快照及存储冗余技术,否则就无法实现应用程序的高可用性。
11、这说明只有整合这些高可用的技术,简化在部署这些高可用组件的过程中,所带来的额外的复杂性问题,才能够在信息服务的整体高度层面上实现高可用架构的规划。传统的IT架构采用单一服务器作为应用系统的承载平台,而这样的架构面临着巨大的挑战,多数大型企业已经放弃这一架构,转而采用更为高性能、高安全性、高扩展的应用及安全承载方案建立集中的数据中心以及后台存储系统,面向应用的提供统一的数字资源共享服务。在系统建设中面临如何实现海量、高性能、安全开放的数据存储、如何保障系统扩展性、关键数据安全等问题。各应用的关键性较强,是整体的核心应用。应用系统的数据量将不断增长,在线访问人数也将不断增加,对于存储系统的建设,提
12、出了较高要求。因此,核心存储系统应具有高端的处理性、海量存储、性能与容量在线扩容等能力,以支撑业务发展的需求。长期以来,对企业而言,建立一套可行的容灾系统相当困难,主要是高昂的成本和技术实现的复杂度。鉴于此,从可行性而言,必须具有良好的性能价格比。 建立异地容灾系统,即指建立远程的数据中心,通过配置远程容灾系统将本地数据实时进行远程复制,同时实现本地系统故障时应用系统的远程启动,确保系统的不中断运行。 建立异地容灾中心的优势在于: 强大的一级灾难抗御能力。 有效防止物理设备损伤产生的灾难后果。 提供99.9999%的安全机制。 实时数据复制提供强大的数据交换能力。随着数据安全技术的发展,Clu
13、ster(HA)的技术越来越成熟,Cluster 的部署越来越普及,Cluster 技术确实解决了用户系统的高可用性问题,为业务的良性发展提供了稳定的基石。随着业务的发展,商业环境对服务供应商提出的要求也越来越苛刻,这必将使应用系统及其数据对高可用性的要求走上一个新的台阶。 一个本地Cluster 系统理论上可以提供99.99%以上的系统高可用性,但一旦发生火灾、自然灾害、人为破坏等意外事件,服务商将如何应对呢?如果没有必要的准备和应对手段,这样的一次意外对服务上来说将是灾难性的。对于IT 部门来讲,要提高自己的抗灾能力,其必要的技术就是建立起一个容灾系统。 容灾系统的归类在另一个方面要由其最
14、终达到的效果来决定。从其对系统的保护程度来分,我们可以将容灾系统分为:数据容灾和应用容灾。 所谓数据容灾,就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个实时复制。在本地数据及整个应用系统出现灾难时,系统至少在异地保存有一份可用的关键业务的数据。该数据可以是与本地生产数据的完全实时复制,也可以比本地数据略微落后,但一定是可用的。 所谓应用容灾,是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统(可以是互为备份)。建立这样一个系统相对比较复杂,不仅需要一份可用的数据复制,还要有包括网络、主机、应用、甚至IP 等资源,以及各资源之间的良好协调。应用容灾应该说是真
15、正意义上的容灾系统。3 省工商应用级容灾系统建设方案3.1 方案综述1. 目前省工商已建立了生产节点的高可用系统,生产节点的2台数据库服务器主机构成一个高可用集群,2台应用服务器构成1个高可用集群,通过SAN连接到高可用磁盘阵列,在提业务高可用性同时为应用容灾做好准备。2. 建立容灾节点的高可用系统。新购两台服务器主机(和生产中心的服务器为同一品牌)和新购一台存储设备;并建立生产节点和容灾节点之间的以太网链路及FC SAN链路。3. 在所有相关主机(包括生产节点的4台服务器和容灾节点的2台服务器)上安装Veritas基础套件(Storage Foundation HADR),以完成数据容灾和应
16、用容灾全部功能。4. 将生产节点主机的数据(逻辑卷),通过适当的方式(同步/异步)复制到容灾节点的容灾主机上,从而实现数据容灾。5. 生产节点和容灾节点均为高可用集群环境,通过全局集群管理模块GCO管理生产节点和容灾节点集群的切换;当生产节点发生灾难时,整个业务集群环境可以切换到容灾节点,从而实现应用容灾。3.2 容灾方案的功能特点说为便于描述,按照系统可能出现的各种故障和潜在风险,说明本方案对各种情况下的数据保护措施:1 生产中心的物理故障:生产中心为无单点故障的系统,所以能够从容应对各种可能性的物理故障。服务器故障:1台数据服务器故障,1台应用服务器故障,网络通信故障,均能快速切换到本地的
17、备用服务器上,保持系统正常运行。光纤交换机故障:这里采用两台光纤交换机作双连接,彻底消除SAN环境下的存储连接的单点故障。磁盘阵列故障:解决磁盘阵列单点故障的方式有两种,方式一、采用双阵列,通过VERITAS的软件实现跨阵列的数据镜像,(两台阵列还可跨越到不同的大楼中,最远可达100公里)任何一台阵列失效,系统照样运行;方式二、采用高可用的无单点故障的阵列,该阵列具备双电源,双控制卡,双通路等,磁盘仍然划成镜像的数据卷,仍然能够实现无单点故障,和方式一实现的效果相同,但缺点是镜像的数据盘只能在一个机柜中,不能放到较远的地方。(本方案由于生产中心在一个大楼里,故采用方式二)2 生产中心灾难生产中
18、心发生毁灭性的灾难时,由于数据是采用VVR实时复制到容灾中心,容灾中心保留了生产中心的最新的实时数据拷贝;同时容灾中心建立了与生产中心相同的高可用集群环境,通过GCO的控制可立刻启动容灾中心的高可用系统,接管生产中心的全部应用。3.3 容灾系统的工作原理本章将就该方案的每个细节进行讨论,包括方案的详细讲解,软件的实际配置方法等。通过阅读和理解本章,您将了解VERITAS容灾解决方案的实现方法,并清楚地知道VERITAS容灾解决方案是切实可行的,并且有相关的实施案例和实施经验。我们假设原来就已经按照双机系统设计,那么本方案仅需要增加不同地点间的广域连接,不需要增加其它硬件。软件方面要用VERIT
19、AS高可用软件替换原有的HA/Cluster软件,新增Volume Manager、VERITAS Volume Replicator和Global Cluster Manager,该模块均包含在DR套件中。在介绍功能前,需要强调的的是:VERITAS提供的是完整的容灾解决方案。各个软件的功能完全集成在一起,建立一个容远程数据复制、本地容灾、远程应用切换于一体的方案。1 VERITAS Volume Manager(简称VxVM) 将在物理磁盘上建立多个或一个逻辑卷(Volume)。以裸设备的方式使用卷,或在卷上建立文件系统。将数据(特别是需要进行远程复制的相关文件系统、数据库)存放在卷上。由
20、于数据复制是基于卷的,所以,Volume 是进行复制的基础。2 VERITAS Volume Replicator(简称VVR)负责远程数据复制。VVR复制基于Volume进行。复制的数据可以是数据库中的数据(文件方式或裸设备方式)和文件。复制的示意图见图。1) VVR与VxVM完全集成在一起。用VxVM管理界面和命令统一配置管理;由于VVR仅仅将Volume上每次I/O的实际数据实时复制到远程节点,所以在网络线路上传输的数据量很少,对带宽的需求也很小。;2) 将各个业务系统中需要进行远程复制的多个或一个卷定义为一个Replicated Volume Group(简称RVG);3) 在Site
21、 A定义一条RLINK,指向Site B;在Site B也定义一条指向Site A的RLINK。RLINK是单向的;需要进行复制的两个系统各定义一个指向对方的RLINK;每个RVG定义一个RLINK。例如有Site A和Site B两套系统同时用Site C的系统作为备份。在Site A定义一个RVGa,包含需要进行数据复制的卷;在Site B定义一个RVGb,包含需要进行数据复制的卷;在Site C定义两个RVG,名为RVGa和RVGb,分别作为Site A RVGa和Site B RVGb的备份。然后,在Site A定义RLINK to_c1,指向Site C;在Site B定义RLINK
22、 to_c2,指向Site C;在Site C定义两个RLINK,一个to_a,指向Site A,另一个to_b,指向Site B。 4)Storage Replicator Log(简称SRL)是VVR中的重要部件。将数据复制各方的某个卷定义为一个SRL。需要复制的数据首先要写入SRL,然后传到异地。VVR通过SRL保证数据复制严格按照写顺序进行,这在异步工作方式下非常重要。当网络中断或异地系统出现故障时,本地数据将记录在SRL中,等系统恢复正常时再将SRL中的数据按照先进先出的顺序传送到异地。当SRL满后,VVR将通过Data Chang Map(简称DCM)记录变化过的数据块的块号。 V
23、VR数据流程见: 5)Data Change Map(简称DCM)与主节点的RVG相关,它其中的内容是位图信息,记录某一时间点后修改过的数据块位置。DCM在正常情况下不使用,在SRL满后记录变化的数据块的块号,当恢复正常复制后,等SRL中的数据传送完后,将DCM中记录的块传送到异地。灾难恢复后的反向复制也用到DCM。6)数据复制的工作模式缺省为同步/异步自适应,即在网络延时情况较好、数据能够及时复制时,工作在同步方式,完全保证两边数据的一致性;当网络延时情况较差、数据不能及时复制时,工作在异步方式下,保证主节点的I/O性能。数据复制根据实际情况,自行在两种工作模式之间切换。 如果数据复制的线路
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- XX 工商局 系统 建设 方案
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-3468169.html