赛门铁克软件 银行NBU备份系统改造建议书.doc
-
资源ID:2392387
资源大小:2.33MB
全文页数:19页
- 资源格式: DOC
下载积分:8金币
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
赛门铁克软件 银行NBU备份系统改造建议书.doc
中国银行NBU备份系统改造建议书版本号:1.3赛门铁克软件(北京)有限公司Systex2010年05月28日一、中国银行备份系统现状4黑山扈开放平台备份系统现状4二、备份系统改造目标6三、第一阶段 磁带库扩容改造,备份系统过渡方案7四、第一阶段 磁带库改造实施计划10五、第一阶段备份系统改造风险分析12六、 第二阶段NBU备份软件升级和调优计划14七、第三阶段 同城数据容灾建议17八、第四阶段 异地数据容灾建议(实现“两地,三中心”架构)19一、 中国银行备份系统现状目前中行共有三个备份域,黑山扈开放平台备份域、黑山扈审计署备份域以及海鹰备份域。中行三个备份域因其设计目的不同,决定了三个备份域在中行处于不同的重要级别。首先开放平台备份域是其最重要的备份系统;同时审计署备份系统是刚建立不久,数据量不大;而海鹰备份系统因为运行的业务系统逐渐减少,在中行的未来规划定位是同城数据灾备中心。中行备份系统在运行了多年之后,目前遇到了一些问题。这些问题主要出现在开放平台备份系统中。首先随着中行业务系统的不断上线,开放平台备份系统最初设计的备份架构已不能适应目前的备份现状,其次随着备份系统的逐渐庞大带来的备份系统性能方面的问题。并且中行针对目前的数据中心现状,也计划利用现有条件,实现让海鹰数据中心实现数据级别的灾备中心。黑山扈开放平台备份系统现状u 黑山扈开放平台备份域:备份软件:Symantec NetBackup 6.0+MP5存储设备:SUN VTL3540 + SUN STK 8500 (12个LTO3 Tape Drives) 根据中国银行的规划发展布局,目前黑山扈数据中心已经是中行最主要的数据中心。而开放平台的备份域同样是目前中行最大最复杂的备份环境。目前的备份架构实际是采用两步来实现的:1. 先通过NBU将数据备份到VTL内2. 再通过VTL的tape caching功能将VTL的数据迁移到物理带库内(STK L8500)所遇到的问题是:1) NBU备份时间窗口和VTL tape caching的时间窗口不能很好的协调,导致在一些特殊的时间点,NBU得不到资源来顺利的进行备份。2) 恢复远期数据时,需要分两步骤来进行,即先将数据通过VTL软件恢复到VTL内,然后再由NBU进行到客户端的恢复。使得恢复方案缺乏整体连续性。二、 备份系统改造目标 根据中行目前的情况,我们建议备份系统改造分四个阶段:1, 磁带库的扩容改造;2, NBU备份系统升级,调优;3, 黑山扈与海鹰点的同城灾备;4, 黑山扈与上海张江异地容灾,实现“两地,三中心”容灾模式。目前,首先要进行磁带库的扩容改造。待系统改造完成后,再进行NBU的升级和调整。完成调整后,稳定运行一段时间,再进行黑山扈和海鹰点的同城灾备实施,以及黑山扈和张江的异地容灾实施。第一阶段 磁带库的扩容改造 我们建议中行取消目前的备份方式,采用增加VTL数量,然后让NBU直接管理所有的VTL和SUN 8500物理带库。对于那些在一段时间内需要恢复的数据可以先写到VTL,在一定的时间周期后,再通过Vault方式写到物理带库;也可以针对不同的业务系统让部分数据直接写到物理带库。不论是哪种方式都可以保证NBU服务器直接管理备份数据,在需要的时候可以从任意位置恢复。实现Vault最终替代VTL的tape caching功能。 由于原备份系统环境复杂,涉及到的设备众多,为了减少改造过程带来的风险,建议采取过渡方案,逐步将Vault完全替代Tape caching功能。(2009年赛门铁克在工商银行实施了NBU备份系统,为了减少维护的复杂度,在工行南北数据中心,用NBU的vault 代替了tape caching 功能,大大简化了用户的维护难度。)第二阶段 备份软件的升级和调优这一阶段建议对备份域进行详细调研,综合考虑进行优化。对所有老的nbu版本进行分步升级,以保证备份系统处于比较新的版本,能得到更好的技术支持,保持在健康的状态。第三阶段 利用同城的海鹰点,进行数据容灾这部分详细需求有待和用户进一步讨论。可以利用海鹰点现有资源,按照需要进行一些带库的扩容,以及老的AIX系统的升级,将海鹰点配制成黑山扈点的数据容灾点。第四阶段 完成黑山扈到张江数据容灾,实现“两地,三中心”容灾架构此阶段可最终实现“两地,三中心”容灾架构。三、 第一阶段 磁带库扩容改造,备份系统过渡方案中国银行计划将新购一台VTL,并对STK SL8500进行扩容,可以利用这次扩容的机会对原有架构进行过渡改造 。1. 原有的STK L8500有两个分区,由于扩容,我们可以将扩容部分扩展成第三个分区,两个分区继续由原有的SUN VTL 6540用来进行tape caching。STK SL8500的新增分区将由NBU进行管理,由于服务器之间存在防火墙,管理SL8500的软件ACSLS只能工作在防火墙模式或者非防火墙模式,虽然NBU支持ACSLS server的防火墙模式,但VTL server不支持(tape caching功能需要VTL机头与ACSLS server通信), 因此要解决这个问题,要求ACSLS server工作在非防火墙的模式下,将NBU的一台或是多台media server与ACSLS server放在防火墙的一端。 以下是SUN所涉及到的工作:1) ACSLS软件通过划分pool的方式将SL8500磁带进行逻辑分区是否可用Pool方式?这里提到的分区便是指得pool方式2) SAN的连接拓扑的更改3) ACSLS服务器非防火墙工作方式的配置2. 新增的VTL被NBU主服务器管理。实现数据本地vault 和将来异地的数据vault功能。3. 由于目前NBU备份主服务器已经达到性能极限,建议新增一台介质服务器实现新VTL到PTL的vault功能以及将来实现数据灾备的数据vault功能。(media server硬件配置要求请参考后面单独段落)4. 在NBU主服务器上进行配置更改,将一部分客户端的备份目的地迁移到新增的VTL上。5. 新的VTL到STK L8500新分区的数据迁移采用NBU的vault或duplicate功能进行。对近期数据采用直接备份的方式。对于需要长期保护的数据,先备份到VTL上,然后利用NBU的vault功能迁移到STK L8500物理带库上。这部分工作有新增的介质服务器来进行。这样从架构上,可以隔离由于本地迁移数据、往灾备(海鹰)迁移数据导致的对开放平台备份系统的错误影响。利于将来的维护和管理。6. 完成过渡方案的实施,并稳定运行后,将8500磁带库重新规划成两部分,由vault使用和部分media server使用,将数据直接备份到8500带库。磁带库扩容改造期间数据备份方式1. 目前在STK L8500扩容及VTL升级之前,加入一台IBM TS7650G VTL进行改造扩容期间的数据备份接管;2. 根据改造期间数据备份量的统计,IBM TS7650G容量不足以支持改造期间的备份数据量,由于目前海鹰机房不具备进行vault的条件,所以在IBM VTL空间不足的情况下,建议将IBM VTL上的数据vault到审计署Quantum i2000一个分区上;3. 调整备份开始使用IBM VTL备份,并定时Vault到Quantum i2000;4. 停止备份,停用Tape Caching,开始导出SUN VTL数据至SL8500;进行扩容升级;新增NBU Media Server配置要求专用的网络通路:建议在Media Server和备份客户端之间采用专门的网络,从而提高备份效率;主机配置要求:media server的配置对内存及CPU的要求相对较高; 1)配置建议: media server建议配置内存8G以上,CPU数量建议4颗或更多;配置双4G HBA卡;2)建议采用AIX小型机, 为了提高高可用性,建议采用双机架构提升稳定性;四、 第一阶段 磁带库改造实施计划序号工作内容责任方预计时间1修改备份系统改造方案,并对方案进行评审。Symantec5天2分析备份状态,搜集配置信息以及数据量Symantec5天3Quantum i2000带库扩容+Partition+配置用户 QuantumQuantum厂商评估4Master Server与新Media Server识别到新i2000 Partition用户 Quantum5NBU配置Quantum带库设备,测试VaultSymantec1天6IBM TS7650G+DS5100安装配置IBMIBM厂商评估7所有Media Server识别IBM VTL用户 IBM8NBU配置所有服务器的新VTL设备,创建新的storage unit,正确识别到虚拟磁带,对磁带进行划分pool,为将备份策略迁移到新VTL上来做好充分准备。(包含新增加的media server)。Symantec6天为了识别设备,有些情况下,有可能需要重启主机。9调整备份开始使用IBM VTL备份,并定时Vault到Quantum i2000Symantec2天10停止备份,停用Tape Caching,开始导出SUN VTL数据至SL8500SUN3天11SUN VTL 升级SUN12接续9,导出完成后。SUN 3540 VTL已经可以使用。可以分担IBM VTL的工作。将一些Media SAN 迁回 SUN 3540备份。Symantec2天13新购VTL安装上线,以及Master server及所有media server san media server操作系统正确识别到VTL设备(包含新增加的media server) 用户 品牌未定厂商进行评估14NBU配置所有服务器的新VTL设备,创建新的storage unit,正确识别到虚拟磁带,对磁带进行划分pool,为将备份策略迁移到新VTL上来做好充分准备。(包含新增加的media server)。Symantec5天为了识别设备,有些情况下,有可能需要重启主机。15与用户沟通在media server中找出一台或多台media server 进行简单备份测试,以验证新VTL的可读写性,为步骤6做好充分准备。用户 Symantec1天16在新VTL接管并能支撑SL8500扩容期间的备份数据量,且运行稳定后,Sun STK SL8500开始扩容,与此同时开始NBU修改备份策略迁移到新VTL的 storage unit上。Symantec SunSymantec需要1天Sun 需要10天(已知)17Sun STK SL8500上线,通过ACSLS软件对8500划分第三个分区给新的media server,其它两个分区恢复原来工作模式,将NBU备份策略按照需要恢复原来的storage unitSymantec SunSun 厂商进行评估(5天?)Symantec 需要2天18NBU 在新media server上配置8500新的分区,并同时配置vaultSymantec4天19按照用户的需求逐步对其它服务器环境进行改造Symantec根据用户生产环境情况,目前无法评估时间;每种系统都需要和应用管理员协调。5-10 天20将8500分区,并分给vault和部分media serverSun +symantecSymantec 3天21各种文档交付Symantec 10天22实施总结用户 Symantec Sun1天五、第一阶段备份系统改造风险分析1. 在Sun STK SL8500扩容期间,可能会是10天,新购入的VTL是否可以完全提供此期间的备份容量,一周大概有30TB的备份数据量,10天大概会需要40TB,新购入VTL最好提供60TB以上容量,以供8500扩容期间所需要的备份容量。2.Sun STK SL8500扩容期间可能会有历史数据的恢复发生,也就是用户可能会有数据恢复要求,而数据是在物理带库上。2.1 Sun STK SL8500扩容期间(10天), 此期间PTL是宕机状态,如果此期间需要恢复SL8500上的数据,需要将数据磁带拿到用户另外一个备份域的Quantum i2000磁带库上去恢复,此过程大量复杂的工作和大量时间。过程如下: A)通过NBU(6.0 MP5版本)软件管理界面搜索到需要恢复数据的磁带标签(barcode),然后在STK SL8500磁带库里找到对应磁带标签的磁带,将磁带放入另外一个备份域的Quantum i2000磁带库中。在放入磁带之前首先要确认磁带标签与Quantum i2000内的所有磁带无重复标签,否则NBU软件识别会出现问题。B)在新的备份域里,同样是NBU(6.5版本)环境,首先inventory新放入Quantum i2000的磁带,使NBU能识别新加入磁带的标签。然后NBU软件import功能将8500磁带的备份image import到新备份域master server的catalog里面,也就是常说的磁带编录索引的过程,此过程目的是使NBU master server识别不同备份域的磁带。但此过程有一个问题就是需要的时间基本上与恢复数据的时间差不多,需要花费的时间漫长而且无法估计,而且由于备份数据的分布结果,可能会编录多盘磁带。C)当步骤2正确完成后,就可准备恢复历史数据了。根据用户网络环境的不同,有两种恢复方法。a) 需要恢复的主机可以与新备份域的master server网络通信。这种情况可以把此主机配置成新备份域的master server一个客户端,然后直接通过网络恢复。由于是网络恢复,不像在原环境下是Lan-free的环境,在恢复性能上会受到影响。b) 需要恢复的主机无法与新备份域的master server网络通信。这种情况只能将数据暂时恢复到新备份域里的某一台主机,然后再用其它的办法将数据迁移到原主机。2.2改造完成后, 因为只有部分media server(可能会是一台)通过ACSLS 控制SL8500,之前通过SAN以Lan-free方式备份到新扩容的VTL上的数据通过Vault复制到SL8500上, 但由于VTL与PTL上的数据保存期限不同(PTL保存期限会多于VTL),可能会出现VTL上的数据已经过期,NBU需要从PTL上恢复数据,这时只能通过Lan的方式恢复数据,性能会差于从VTL上直接恢复数据。原理如下:此图架构详细说明请参阅过渡方案A)由于黑山扈开放平台备份域存在防火墙,图中黄色隔断表示防火墙,由于VTL不支持防火墙模式,ACSLS server只能工作在非防火墙模式下,因此需要一台media server(为了便于说明简称叫ms-v)与ACSLS server在防火墙的一端,用来与ACSLS server 通信来控制STK SL8500 新扩容的逻辑分区(pool 3),以实现vault功能。在防火墙另一端的media server和san media server就无法与ACSLS server进行通信了,也就是说无法控制8500新扩容的逻辑分区(pool3)。B)所有的media server 和 san media server都可通过SAN-FC可将数据备份到新的VTL上, 然后通过ms-v 将VTL上的备份数据vault到SL8500新扩容的pool3上。C)当需要恢复数据时,如果数据还保存在VTL上,数据会直接通过SAN-FC直接恢复到media server或是san media server上,但如果数据已经在VTL上过期,vault到8500 pool3上的数据只能由ms-v 通过lan恢复到某一台server上,由于其它主机无法控制8500,所以数据流不能通过SAN-FC恢复到其它主机上。六、 第二阶段NBU备份软件升级和调优计划由于目前得到的调研数据有限,只能对开放平台备份域的升级做个粗略的预计。黑山扈开放平台备份域的升级调优计划:序号工作内容责任方预计时间1制订备份系统升级调优方案,并对方案进行评审。用户Symantec3天2检查基本环境,os补丁/硬件兼容性/磁盘空间,防火墙要求6.0和6.5应该是一样的。如果有在线日志备份,估算影响层面,nbu升级期间会停止备份服务 用户 Symantec1天3收集nbu信息,Policy/Device等 Symantec1天4检查是否需要修改脚本,比如oracle脚本是否没有绑定NB_ORA_POLICY Symantec约2天根据牵涉多少主机来定 5master server升级过程:a) 停用相关策略b) 如果有disk-staging,进行reallocate并且删除start windowc) 确认相关作业完成d) tar备份openv目录,包含额外的数据库备份脚本等e) 安装nbu6.5,安装db agentf) 安装nbu6.5.5补丁g) 启动nbu检查进程等 h) 启动测试备份策略i) 启用所有相关策略j) 添加disk-staging start window Symantec2天cluster_config模式的双机6media server升级过程: 分批升级,当前85台media server, a) 停用相关策略b) 如果有disk-staging,进行reallocate并且删除start windowc) 确认相关作业完成d) tar备份openv目录,包含额外的数据库备份脚本等e) 安装nbu6.5,安装db agentf) 安装nbu6.5.5补丁g) 启动nbu检查进程等 h) 启动测试备份策略i) 启用所有相关策略j) 添加disk-staging start window Symantec按610台/天根据用户协调应用系统的情况定7client升级 当前93台(总共约189套)Symantec10-20台/天,根据用户协调安排情况定8各种文档交付Symantec 10天9实施总结用户 Symantec1天如果调整出新的备份域,以优化备份性能,还需要:1新增2台master server的安装,新的备份域客户端的调整;symantec2天22个备份域备份策略的调整;symantec3天备份策略较多(约500+条策略)3备份系统整体调整,优化;symantec2天七、第三阶段 同城数据容灾建议这部分基于精业/精全对用户的了解,对于中行希望实现数据级别灾备的想法,我们综合目前中行现状提出如下解决方案:对海鹰点的L700带库进行扩容,或是新购一台带库,用来对黑山扈的数据进行灾备。以下方案以新购带库为例:实现过程:5.1基于海鹰数据NBU备份域的发展定位,我们建议在海鹰备份域增加一台物理磁带库,新增物理磁带库物理位置架设在海鹰平台,但由黑山扈开放平台新增media server以及黑山扈审计署备份域master server去管理。Vault过程与海鹰备份域没有关系。5.2通过磁带库的分区功能,将该物理带库的分成两部分。一部分通过链路与开放平台备份域连接,让该部分物理带库归开放平台新增的NBU Media Server管理。另一部分由审计署备份域使用,用于vault数据,已达到灾备的目的。5.3日常开放平台备份产生的数据在设定的迁移时段,由开放平台的NBU Media Server负责将数据Vault到海鹰磁带库。同时我们定时将开放平台的备份Catalog数据Vault到海鹰磁带库,在需要的时候可以让海鹰的NBU备份服务器将Catalog恢复,直接使用迁移过来的数据磁带,实现灾备数据在异地的可用性。5.4由于Vault需要在8500本地物理带库有专门驱动器来实现,不可共用;为保证vault独立正常的使用,建议专门驱动器来实现,因如果在备份期间如驱动器被备份全部占用,vault就无法正常实现。,这种情况下我们必须增加SUN 8500的驱动器,以便能够在规定的时间窗口完成数据的Vault,同样设计也适用于针对审计署的数据容灾。针对中行目前的数据量,以及中行未来的发展需求,我们推荐增加12个LTO驱动器,以满足不断增长的数据备份需求和Vault需求。 序号工作内容责任方预计时间1环境调研、方案设计:制订本地灾备系统方案,并对方案进行评审。用户Symantec3天2安装配置IBM TS3500带库用户 IBM厂商进行评估3本地灾备实施用户 Symantec10天4文档交付,实施总结,现场培训,验收 Symantec2天具体方案还需要对海鹰点与黑山扈之间的光纤网络环境进行调研,了解用户黑山扈备份域的应用数据容量以及备份需求,才能最后确定。八、第四阶段 异地数据容灾建议(实现“两地,三中心”架构)具体方案还需要对张江与黑山扈之间的网络环境进行调研,了解用户黑山扈备份域的应用数据容量以及备份需求,才能最后确定序号工作内容责任方预计时间1环境调研、方案设计:制订本地灾备系统方案,并对方案进行评审。用户Symantec3天2安装配置新购带库用户 产品未定厂商进行评估3本地灾备实施用户 Symantec14天4文档交付,实施总结,验收 Symantec3天2010年5月28日