劳动与社会保障数据交换平台建议方案.doc
《劳动与社会保障数据交换平台建议方案.doc》由会员分享,可在线阅读,更多相关《劳动与社会保障数据交换平台建议方案.doc(30页珍藏版)》请在三一办公上搜索。
1、 利用信息集成技术构建劳动与社会保障数据交换平台IBM技术建议方案一、 概述以现有信息网络为依托,以现有业务信息为枢纽,为劳动与社保客户建立统一的数据交换平台。在建立集中统一的数据交换平台,实现提取生产区的实际业务数据,并进行数据的过滤、检测。统一数据标准。形成统一的交换资源数据库,为统计分析提供基础数据。完成全国联网数据上报工作。同时实现业务资源数据库的远程备份。1. 现状现在的劳动与社保数据库有近十个,其中数据库容量平均是50G,而且数据源为异构数据源,包括Oracle、DB2、Sqlserver等数据库;2. 系统主要建设目标:l 建立数据中心业务资源库的数据采集平台,用以实现对垂直的下
2、级业务系统数据向上级中心业务资源库的及时更新以及数据转换。数据中心资源库数据采集平台包括数据采集和数据转换两个主要部分。数据采集平台起到隔离基层业务系统和相关资源库应用的作用,使得未来任何的业务系统的变化(系统更新、升级、数据格式改变甚至数据库系统变更等)都不会影响整个资源库系统的运行。数据转换平台起到数据质量管理的作用,对数据的属性、逻辑正确性、完整性、一致性等进行验证查核工作。保障信息资源库取得的数据是真实、一致和完整的。数据采集和数据转换相结合,将形成一个长期稳定的数据采集平台。l 支持数据分析和综合决策。在资源库基础上,进行数据信息的综合利用,实现信息分析、数据挖掘和决策支持。同时资源
3、库的建设将为数据仓库及应用的建设打下基础。l 建立对外的统一数据交换区,实现业务资源数据与交换资源数据的数据交换、上报的功能,将数据及时地通过统一的数据交换平台,实现向部里及横向与其它平级单位间的数据交换。实现业务资源数据库到交换资源库的数据交换,实现向部上报数据的功能。建立统一的交换数据区。l 基于交换平台,实现对业务数据的检测、过滤、筛选、抽取等功能。实现业务资源数据的数据检测、过滤、筛选、抽取。 数据交换平台是建设劳动与社保数据分析区及数据交换区的核心系统,其主要的作用为: 为地市级社保信息向上级提供安全、高效的信息传递、采集通道; 保证社保分析数据信息交互的数据实时性和数据一致性; 在
4、社保内部形成统一的数据视图,方便管理; 提供向部里进行数据交换的统一平台; 屏蔽当前劳动与社保内的I T环境的复杂性,方便应用开发和管理; 屏蔽当前劳动与社保管理机构内的I T环境的分布式特性(省级、地市级管理),方便应用开发和管理;在此,我们建议利用IBM最新的信息整合的技术和解决方案构建一个统一的公共数据交换平台方案。下面我们对这样的一个解决方案进行详细说明。二、 劳动与社会保障行业数据交换平台方案1. 本解决方案的设计出发点: 快速实现对多种异构数据源的集成 保证劳动与社保分析区数据采集、交换区数据的实时性、一致性; 建立一套安全可靠的信息交换通道,实现数据在上、下级管理系统之间的数据交
5、换、数据同步; 建立统一数据视图,支持真正意义上的劳动与社保信息分析区及交换区的建立,提供复杂、分布式环境下的可读写操作环境,并支持今后建立跨业务系统条块的新的业务流程; 简化应用编程的难度,缩短开发和实施的周期,降低日常维护难度; 能够很好地将当前业务系统与新的综合业务系统的用户管理、认证及授权机制结合,建立方便、清晰、易管理的用户安全认证管理机制; 在分布式的环境下实现全局优化,保证分析应用及数据交换的整体性能表现; 适应未来扩展性要求,方便应用范畴的扩展;2. 建议通过IBM信息集成(II)技术方式实现公共数据交换平台信息整合方式也称为数据整合方式。信息整合就是将业务系统的数据进行有机的
6、整合集成,从而实现对信息数据共享、交换的过程。IBM信息集成II的核心在于业务数据的采集,并不关心原有业务数据的流程。因此,II的核心是数据的集成。它采用数据包装器作为连接件,将现有客户的异种数据库(Oracle、DB2、Sqlserver)等连接在一起。II可以采用XML格式或者关系型格式对数据进行标准定义,平台工具内嵌数据采集监测功能。应用的开发支持SQL99、XML和Web Service标准,保障了数据使用的通用性。并且可以保证系统的有效性、性能和易开发性。在有效性方面,II的数据采集机制,对源数据增量识别的问题采用了侦听同步或者数据复制的方式,可以有效地解决数据采集同步的问题。而II
7、的数据包装器运行在资源库系统中心,无需异地开发。II能跨本地和异地网提取数据,也能在源业务系统屏蔽访问时,由源业务系统传递XML数据包,对XML数据文件进行信息分解和提取,能够满足不同的源业务系统的特点。在性能方面,实际的测试表明,II的数据复制能够达到1.26GB/小时的数据提取量,而II的快速数据导入功能更能达到30GB/小时,而该测试结果还是在一台资源紧张的服务器运行出来的。由于II的平台设计的目的就是为了解决数据整合的问题,因此能够得到这样比较理想的测试结果,而无需依赖于特殊的开发和编程手段。基于上述理由,我们推荐使用信息集成平台来完成资源库的数据采集功能,以建立长期稳定的综合资源数据
8、库平台,满足中心业务数据库交换和数据复用的需求。通过IBM数据整合平台,建立劳动与社会保障业务数据中心及数据分析区和交换区我们利用IBM数据整合平台建立一个信息集成访问接口,建立起社保信息数据交换平台,同时在分级上下系统间业务数据的数据采集平台,并在分析数据区、交换数据区间建立一个可读写的双向访问接口,实现不同数据分区间的数据交换。在所提供的统一访问接口的支持下,就可以在一个整体数据库的逻辑视图下(这一视图跨越地市级劳动与社保信息管理系统),经过相应的数据转换,来实现中心业务数据,和面向劳动与社保信息分析及交换的数据流程和业务流程,实现整个劳动与社保分析系统和数据交换系统快速开发和部署。在分级
9、纵向信息整合建立起数据中心的过程中,建议分阶段实现,第一阶段旨在利用数据映射层,实现统一查询访问,使全省数据可共享。第二阶段,结合数据整合层的各项功能,进行分极系统的数据标准的规范化,提高共享的质量和数据复用,并为数据交换做准备。这两个阶段是信息整合所不可或缺的必要环节。第三阶段,将部分被频繁访问、且实时性要求有限的数据物理集中,提高数据查询的质量,便于决策分析等业务应用。第四阶段,在第二阶段数据标准规范化的基础上,实现统一的数据交换。这两个阶段可根据实际业务需求取舍,也可更换先后次序。数据交换平台的架构图如下:数据整合平台负责从市级业务数据库及外部数据源中获取资源库所需的数据,实现中心不同数
10、据分区间的交换。数据整合平台位于业务数据库和数据转换平台之间,屏蔽了后续数据处理与数据来源间的直接关系。整合平台主要实现两个方面的功能: 业务数据中心的数据采集和转换 不同数据分区(业务数据区、分析区、交换区)间的数据交换为保证对数据整合平台的统一控制和管理,我们采用集中式的数据整合平台设计思路,即在中心部署一个大的平台上完成对主要业务数据的采集,及不同数据分区间的数据交换。数据整合平台设计的基本原则是在业务系统部署软件,和编写专用接口,所有的软件部署也都在此平台上实施。2.1实现数据交换在本方案中,根据与已有系统连接的要求,需要支持实现与Oracle,SQL Server,DB2等异构、多个
11、数据库系统之间的数据复制,这就面临着一个异构数据库之间双向复制的技术要求,这在数据库领域一直是一个很难解决的问题。而IBM WebSphere Information Integrator 恰恰在解决一个企业级异构数据集成同时,很好地解决了这一棘手的问题。IBM WebSphere Information Integrator 能够支持用户在一个广泛的异构数据环境内,定义各个异构数据源之间的复制关系和复制机制,IBM WebSphere Information Integrator可以支持表级的、双向的、指定时间点的复制,能够提供接近实时的,事务一致的数据复制机制的定义和实现。使用IBM We
12、bSphere Information Inetgrator 后,IBM DB2,IBM Informix,Microsoft,Oracle,和Sybase都可以作为复制源或复制目标; 用户可以配置一个多样性的拓扑环境l 复制服务器支持分布式(从一个数据库到多个数据库的数据迁移)和集中式(从多个数据库到一个数据库的数据迁移)l 数据迁移可以同时使用标准的SQL表达式或存储过程l 数据迁移可以定时的自动执行,或在一定的时间间隔执行,或连续执行,或者由事件触发执行数据复制定义关系如下图所示:数据运输表OracleSQL ServerANY source地市级管理系统统县级管理系统数据复制引擎外部应
13、用管理系统数据库系统Oracle从上图可以看出,使用IBM WebSphere Information Integrator后,可以非常方便地实现跨业务平台、跨数据平台、跨地域的业务数据汇总、统计分析等工作的开展。而从前,我们要实现这样一个应用,就需要花费大量的精力,进行数据采集汇总的工作,从各个地域、各个业务系统、各个数据库平台上进行数据迁移,工作量大,而且准确率和实时性都很差。而在本方案中,这一切难题都会迎刃而解。2.2实现数据采集通过数据整合平台,实现中心对垂直业务数据的采集,我们可以提供三种数据采集的途径,分别说明如下:批量数据抽取 对于比较规范的业务系统,如果通过理解其数据库表结构能
14、够识别增量数据,则建议采用批量数据抽取的方式。批量数据抽取的方式一般为非实时模式,在业务系统空闲时进行运行。对于网络条件较好的数据源,该方式可直接通过信息采集平台向业务数据库发送数据抽取的SQL 语句,增量信息通过Where 条件传入,采集的数据直接保存在信息整合平台。对于网络状况不理想的业务系统,该方式可分两步进行。首先在业务系统数据源将增量信息卸载为文件,然后再将文件传送到信息采集平台。这种模式要求在数据源部署卸载及数据传输程序,管理维护成本较大,建议尽量采用第一种方式。数据复制数据采集平台提供对各类主流数据库的各主要版本数据复制的能力。在复制的过程中,系统自动抽取数据的变化,通过中间的传
15、输,最后加载到目的地。在大多数情况下,复制应该不干预现有的应用,对系统的影响应该降到最低,复制过程有必要进行管理和监控。复制可分为两个步骤Capture用于获取数据源数据的增量。对Oracle数据源,通过Trigger机制实现。Apply负责将变更的数据送到数据目标。WII提供对纯增量的复制能力,在目标端自动附加操作类型、时间戳等信息,以用于后续数据转换的处理。WII所提供的数据复制方式提供多种调度手段,支持分钟级数据的同步。对大多数据业务系统而言,数据复制对系统有一定影响,但影响有限。建议应用在难以提供增量信息,而业务负荷又有一定扩展性的系统。数据侦听同步数据侦听同步的模式与数据复制有一定类
16、似,但可大大降低对业务系统正常工作时间的影响。对于部分不能提供增量信息,而当前业务系统负荷又较重的系统,可采用数据侦听的模式。数据侦听与数据复制最大的不同是在变更数据捕获方面。数据侦听只捕获变更数据的主键信息,占整个记录的信息量很小。因而对业务系统的工作时间的影响很小。数据侦听同步分两个步骤完成数据的采集。首先通过数据侦听获取变更数据的主键及操作类型信息,并同步到数据采集平台。然后在业务系统的空闲时间,通过侦听得到的变更信息,重新通过数据采集平台访问数据源,批量将其他数据内容信息抽取到数据采集平台。数据同步中可能的意外情况由系统自动管理。数据采集平台通过提供批量数据抽取、数据复制和数据侦听同步
17、的方式,针对省厅的多种不同情况的源业务系统,均提出了有效的采集方案,对建立系统打下了坚实的基础。3. IBM数据整合平台的功能我们建议选用IBM数据整合平台WebSphere Information Integrator作为数据交换平台的核心技术。将市社保的各类数据源通过联邦的方式映射到一个数据采集平台的逻辑数据库中。对所有业务数据的访问都通过WebSphere II完成,数据存储的异构性和不同数据库操作的异构性由WebSphere II屏蔽。信息整合平台基础架构如下所示:基于联邦数据映射能力,在数据整合平台可直接获取业务数据库的数据。在此基础上,WII还提供异构数据复制技术及数据侦听技术,实
18、现对增量信息的识别和同步。其实现原理如下图所示:图中:联邦服务器(Federated Database Server)通过称为包装器(Wrapper)的软件模块与数据源进行通信。对于上述各类数据源,WebSphere II 提供专用的wrapper,每个wrapper实现异构数据源的SQL处理,支持异构数据库间数据类型的转换和函数的转换。对关系型数据库数据源而言,包装器通过安装在信息整合平台的该数据库的客户端与其进行交互。对非关系型数据源,包装器直接进行数据访问。包装器从信息整合服务器接受数据访问指令,进行转换为数据源所支持的SQL,通过数据源的客户端提交执行。然后将结果返回给信息整合服务器处
19、理。除包装器外,信息整合服务器还有三个核心的部分。信息整合服务器维护一个全局的数据字典,其中保存需在信息整合平台被访问的数据的相关描述,包括数据源的配置信息,数据源表的结构,字段数据类型,相应的索引及数据量数据分布的统计信息。(注:该类信息无需用户自行输入,在定义过程中,系统可从源数据库系统的数据字典中自动获取)。另外全局数据字典还记录数据源的CPU,网络,I/O等系统资源情况。现对IBM信息集成关键技术进行说明1)联邦技术采用联邦技术,可通过简单的配置,快速实现数据共享。其主要特点为:l 透明性。所有信息源看起来就像是一个信息源。l 异构性。从不同数据源整合数据。l 双向SQL访问。基于标准
20、的通用访问方式,且双向可读写。l 可扩展性和工具化。可以访问任何数据源,配置方便。l 避免对现有数据源和应用程序进行更改。l 其性能可以满足实际应用程序和可能应用程序的需要,包括高级查询优化技术、本地数据访问以及透明缓存支持。l 可以充分利用标准的分析、报告和开发工具等高级功能。WebSphere II查询接口提供了基于标准的完整功能包括对后端数据源中缺失能力的补偿。 2)SQL复制在多种数据源的环境中,主要采用SQL复制技术。SQL复制技术能够支持网络上同构或异构数据库之间的数据的有效传输和冗余性复制,能够实现多种复制模式(如:准实时复制、定时复制、双向复制、复制转发等,复制范围可整表复制或
21、表中部分行复制或修改单元复制)。复制运行时包括三个组成部分:Capture、Monitor和Apply。其中Capture提取复制数据源的变化增量;Apply获取Capture的结果,并根据复制映射关系进行转换,按照一定的时间规划,作用于目标数据;Monitor监控复制过程,并给出监控信息。SQL复制实现机制能够解决以下三个主要问题:增量复制支持对数据的变化增量识别、提取和复制,与全量数据复制相比,可避免全量数据传输的巨大负载对各个系统的影响。对DB2家族的复制数据源而言,通过读取数据库日志信息获取数据增量,可避免对数据库运行性能的影响。对于复制数据源为非DB2的数据库,其获取数据增量的Cap
22、ture方式由数据源的Trigger机制实现(注:这些Trigger由DB2的复制机制自动维护)。图3.1 SQL复制机制源数据与目标数据间的复制转换源数据与目标数据之间,往往存在着数据类型、格式、逻辑等不一致。为了使目标数据源能够读懂、接受复制数据源的数据,就必须进行复制转换。在复制过程中的常用转换方法有如下两种:复制映射和添加计算列:复制映射主要指复制源和目标之间的列映射,可以用如下图所示的配置工具实现。鼠标拖拽产生的箭头指示源与目标列的对应关系。“添加计算列”可以使用SQL对复制源的某列进行运算,产生一个计算列,该列的定义记录在复制控制表中,不影响源表。如下图紫色方框标注的两列:右侧的是
23、目标列,其定义长度为30个字符;左侧的是对源表某列作SUBSTR字符串截取生成的计算列,截取前30个字符。此外常用的SQL还有DATE函数、CASE语句等等。图:复制映射和添加计算列两阶段复制:一致更改数据CCD表作中间表两阶段复制的优势在于能够获取数据增量及其类别,并结合多种数据转换方法。两阶段复制中,首先由源表复制到一致更改数据CCD表,后者能够记录在源表上所有的更改操作的类型(插入、更新及删除)和结果,从而捕获源表中所有的增量信息。第二阶段,开发者可以编写存储过程、或应用程序处理CCD表中的数据,再采用复制方法使数据作用到最终目标表。可配置、可管理的数据分发数据分发主要指Apply的过程
24、,即将复制数据源的增量应用到复制目标。数据分发过程中的配置和管理,对复制的可靠性和可管理十分重要。数据分发提供的配置选择包括:启动/停止数据应用到目标表;选择连续复制方式或设置复制时间间隔等;提供自动数据分组、出错自动回滚等功能,处理传输过程中的异常处理,用户可配置发生网络或系统故障时的传输重试间隔。3)双层认证授权机制WebSphere II的双层认证授权机制,充分保证异地数据访问下的数据安全。Information Integrator用户对数据的操作权限,取决于各个应用系统数据库向它开放的用户的授权,是且仅可能是后者的子集。通过开放不同权限的用户给Information Integrat
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 劳动 社会保障 数据 交换 平台 建议 方案
链接地址:https://www.31ppt.com/p-3680932.html