3《金税三期工程数据架构蓝图设计方案》V1.0.ppt
1,金税三期工程,数据架构蓝图设计方案V1.0,汇报人:总体规划设计项目组,2,目 录,1、概述2、数据分布3、数据交换与共享4、元数据5、数据治理6、通用数据标准,3,数据架构的目标,以科学的信息资源观和规划理念,基于合理设计的应用系统的体系结构,并以信息利用能力为目标,构建全局化、规范、统一的数据架构,提高应用系统运行性能,提升税收数据的分析利用价值,信息资源(Information Resources)与人、财、物资源一样,都是企业的重要资源,,4,功能性:满足当前应用的需要。灵活性:适应应用功能在一定范围内的调整和扩展。长期性:业务数据一旦形成,保证在后续任意时段的可利用。前瞻性:为后续新业务提供支持。增值性:服务社会,服务国民经济。,数据架构规划原则,5,数据架构定位,6,架构规划内容,数据架构规划的关键内容包括数据分类、数据逻辑分布、数据物理分布、数据共享交换、数据治理、数据标准,数据架构规划内容,数据分类从多个角度包括业务、数据生命周期和数据本身特点对税收产生的数据进行分类,从而分数据的分布夯实基础;数据逻辑分布从逻辑的角度对业务环节产生的数据进行合理的规划;数据物理分布基于逻辑分布和应用架构的划分,从技术的角度对数据的落地进行详细的规划、分析和合理布局,支撑应用落地和解决全国大集中性能问题;数据交换共享从总局与外部,总局与省局,总局内部各部门间出发,规划数据交换共享的机制和内容数据治理从数据的生命周期管理、数据质量管理和数据安全三面进行规划;数据标准简单规划数据标准内容体系;,7,工作思路,8,现状分析,缺乏统一的规划,多以迅速实现功能为主要目的,缺乏从全局的考虑,造成了数据孤岛、多头采集、业务数据分散、标准不一等问题。数据达不到全面性、规范性、一致性的要求,降低了内部管理的效率,不能为决策分析提供严谨、全面、细致的数据基础;数据的实时监控能力不强,缺乏掌握全面、及时信息的渠道,无法满足“信息管税”的业务发展趋势,缺少对全国数据的高效利用、业务集成度要求不断提高的支持。,9,数据架构的需求,全国国地税税收生产数据在总局集中存储和处理,生产数据的第一次落地点在总局。满足应用系统间的松耦合性,实现应用系统间的故障隔离。建立数据共享、交换的机制,明确数据内容,保障数据的时效性。建立数据全生命周期管理机制,保证系统持续稳定高效地运行。建立完备的数据仓库体系,为面向管理决策的应用奠定基础。,10,目 录,1、概述2、数据分布3、数据交换与共享4、元数据5、数据治理6、通用数据标准,11,目 录,数据分布数据分类数据分布内容典型场景,12,按业务环节进行分类,数据分类方式,数据分类,税务数据分类就是满足各种数据对数据组织的要求,并独立于具体的数据模型和数据分布,按生命周期进行分类,按数据结构进行分类,13,举例:按业务环节进行分类,14,举例:按生命周期进行分类,15,举例:按数据结构进行分类,16,目 录,数据分布数据分类数据分布内容典型场景,17,分析应用系统划分、各个应用系统的特性分析应用系统之间的数据关系结合数据分类,将数据划为不同的数据存储集合,形成数据的合理分布架构,数据分布,数据分布,数据的物理分布,数据的逻辑分布,18,数据逻辑分布原则,当期数据与历史数据分离操作数据与查询数据分离,减少生产系统压力生产数据与分析数据按不同的数据组织方式分离体现数据的生命周期管理需求:数据的产生、数据的采集、数据的加工,数据的利用和数据的归档几个阶段,19,数据逻辑分布框架图,20,数据逻辑分布框架图,记录当期业务活动发生过程和结果的数据,包括与当期操作数据的同构但保留更长时间的数据、实时查询统计和报表所需辅助数据、税源管理数据、按各省清分后的数据,通过影像设备采集的各类文书凭证的影像信息和在业务环节中采集或生成的原始业务凭证资料电子明细信息,具有高业务价值、跨各业务域被共享使用的核心数据,面向业务主题、集成的、历史的细粒度数据,面向管理决策分析主题、集成的、历史的、按多个维度深度加工的数据,包括在线操作历史数据、脱机存放的历史数据,描述流程、信息和对象的数据,涉及数据的技术属性、业务定义以及操作特征,21,术语说明,生产数据:当期操作数据:记录当期业务活动发生过程和结果的数据;近期操作数据:包括与当期操作数据同构但保留更长时间的数据、实时查询统计和报表所需辅助数据、税源管理数据、按各省清分后的数据;主数据:具有高业务价值、跨各业务域被共享使用的核心数据;凭证数据:在业务环节中采集或生成的原始业务凭证资料电子明细信息;影像数据:通过影像设备采集的各类文书凭证的影像信息;分析型数据:统一视图:面向业务主题、集成的、历史的细粒度数据;管理决策分析数据:面向管理决策分析主题、集成的、历史的、按多个维度深度加工的数据;历史数据:包括在线操作历史数据、脱机存放的历史数据;元数据:描述数据的数据,即描述流程、信息和对象的数据。涉及数据的技术属性、业务定义以及操作特征,22,数据逻辑分布图,23,逻辑分布数据内容描述,24,数据物理分布原则,生产数据和分析数据分离 结构化数据和非结构化数据分离 不同生命周期的数据分别存放 数据大集中的性能分担降低当期交易数据库的数据量根据业务内聚性,同一业务域的数据尽量放在同一库中满足业务操作的同时,平衡数据查询的代价在分的同时,平衡数据交换和共享的代价在合的同时,平衡应用分包管理的复杂度,25,物理分布设计的关注点,数据的生命周期,与各层的对应如何保障申报征收/发票业务的效率,满足高并发性查询效率如何解决在数据共享和交换时,如何保证业务的连续性,解决应用系统间的故障隔离问题如何解决省局决策分析和其他增值业务的数据获取、使用的问题。与数据模型、数据标准的关系,支持度如何关键点的技术考虑,产品选型的风险,26,数据物理分布总图,ETL,27,数据物理分布总图,28,数据物理分布总图,29,数据物理分布总图,30,数据物理分布总图,主数据管理,31,主数据管理内容,税务主数据是指纳税人基本信息、纳税人公共状态信息等税务核心业务实体的数据,这些信息一般被多个应用系统共享使用。借鉴应用划分的U/C矩阵方法,以征管业务操作平台为例,如下表所示:,通过上面的分析我们得出,金税三期主数据为:纳税人基本信息:纳税人识别号、纳税人名称、登记注册类型等;纳税人基础状态信息:纳税人登记状态、增值税一般纳税人资格、纳税人信用等级、防伪税控纳税人资格、出口退税纳税人资格、是否具有其它资格、定期定额征收、减免优惠标志、稽查案件未结、违法违章未处理等;代码,32,主数据管理方案,33,数据物理分布-核心生产库说明,34,数据物理分布-核心生产库说明,35,数据物理分布-核心生产库说明,36,数据物理分布-核心生产库说明,37,数据物理分布-核心生产库说明,38,征管生产数据库群(一),属前台生产数据,通过各种渠道从纳税人处采集,包括相关流程数据,覆盖税务登记、认定、优惠、申报、征收、发票内外部管理、个税等业务环节;业务环节中产生的各类凭证,独立存储在凭证库中;面向增、删、改类型操作,特点为数据量大,增长快,交易并发量高,访问更新频繁,事务小,需要实时响应;支持纳税人管理、申报征收、发票管理应用;申报征收库当前设计是一个库,后续将根据大集中试运行后的性能状况决定是否按区域分库,最小单位为省。,39,征管生产数据库群(二),后台生产数据,主要由税务人员在处理风险类业务时采集,以流程类数据为 主,覆盖评估审计、纳税人信用等级、稽查、法制等业务环节;业务环节中产生的各类凭证,独立存储在凭证库中;面向增、删、改类型操作,特点为数据量小,增长缓慢,访问更新频度低;支持纳税评估、稽查、法制应用;,40,征管应用数据库群(三),以会计账务数据为主,数据量很大,增长快,访问更新频度低;业务环节中产生的各类凭证,独立存储在凭证库中;支持税收会计核算应用;,41,存储的数据包括:同征管操作数据保持同结构、保留时间较长的数据,征管操作数据实时复制而得 税源管理数据 实时查询辅助数据,如报表基础数据、统计基础数据等 按省局清分的数据 分担操作数据库的查询、统计业务,减少操作型数据库压力 实时性要求不高的定制报表 实时跨系统查询统计 应用系统和跨系统大数据量的批量计算,近期征管操作数据库,42,征管操作-凭证处理,凭证是进行税务活动时需要使用或产生的各类单证信息 凭证信息分为后续税务活动需要频繁访问的关键业务数据和使用频度低的其它数据 关键业务数据以结构化进行存储,同时全部凭证信息以XML格式存储在凭证库 凭证库中的信息需要定时抽取到近期操作数据库中,并解析为结构化数据 近期操作数据库中的结构化凭证数据定时抽取到统一视图,43,数据物理分布总图-分析型数据说明,44,分析主题,纳税人分布主题,申报征收主题,企业经营主题,案件稽查主题,公共维度,主题私有维度,N+X+Y个月的统一视图,星型模型,外部信息交换数据,管理决策数据仓库,生产数据,X+Y个月征管应用数据库,影像凭证资料库,网络发票数据库,各渠道应用数据库,省级遗留系统系统数据库,法人数据,管理认定数据,发票业务数据,违法违章数据,信用评定数据,申报缴款数据,风险评估数据,自然人数据,基本信息数据,家庭关系数据,财产数据,信用评定数据,收入数据,风险评估数据,经营信息,税务机关,纳税人分布,税收收入分布,出口退税,重点税源,一般纳税人情况,比对信息,数据字典,业务指标字典,分析维度字典,ETL流程数据,数据生命周期数据,指标/维度映射数据,元数据,政策数据,法规数据,业务经验数据,业务指标数据,分析算法数据,标准数据,挖掘算法数据,财产,财产内容,财产分布,财产流动,发票,系统管理,外部信息,发票生命周期,发票票面信息,发票加密信息,知识库,总局分析型数据,查询统计,管理决策数据集市(共享数据逻辑汇总应用个性数据),征管状况分析,报表管理,绩效管理,风险管理,政策管理,知识管理,45,管理决策数据与应用架构关系,整体设计思想基础数据共享,一数多用,以数据规划视角,物理集中存储在统一视图和数据仓库中;应用的个性化数据,物理单独存放在数据集市中,并且用逻辑视图汇总应用所需基础共享数据;,46,查询统计逻辑视图,自然人视图,法人视图,税务机关视图,决策应用与决策数据的对应,征管状况分析逻辑视图,税务机关视图,数据仓库分析主题,报表管理逻辑视图,税务机关视图,绩效管理逻辑视图,系统管理视图,数据仓库绩效模型,风险管理逻辑视图,数据仓库风险模型,法人视图,税务机关视图,税务机关视图,逻辑视图,自然视图,逻辑视图,系统产生数据,数据仓库风险模型,知识库视图,业务规则模型,政策管理逻辑视图,逻辑视图,知识库视图,知识管理逻辑视图,视图深加工产生数据,系统产生数据,视图深加工产生数据,系统产生数据,视图深加工产生数据,系统产生数据,视图深加工产生数据,数据仓库标准数据,数据仓库其他业务模型,数据集市的数据内容,47,关注焦点问题-查询,48,应用逻辑架构,49,数据物理分布与应用的对应,50,数据物理分布与应用的对应,行政办公平台,征管业务处理平台纳税人管理、个人明细管理、申报征收发票管理、核算、评估审计、稽查、法制,外部统一交换,纳税服务平台、统一门户,管理决策平台,51,渠道数据库与子系统对应关系,数据库,子系统,52,生产数据库与子系统对应关系,数据库,子系统,53,目 录,数据分布数据分类数据分布内容关键流程,54,关键流程-税务登记,55,关键流程-涉税审批,56,关键流程-记帐,57,关键流程,58,关键流程,59,关键流程,60,关键流程-凭证,61,目 录,1、概述2、数据分布3、数据交换与共享4、元数据5、数据治理6、通用数据标准,62,数据交换与共享策略,主数据共享采取推送(订阅)方式,保持数据的实时性、一致性;征管核心数据库间共享采取推送(订阅)或服务调用方式,对于交互频繁、数据量大的采取推送方式(采用数据库复制技术),对于数据量较小的采取服务方式。从生产数据采取ETL方式抽取到统一视图中 总局到省局数据下发(主数据除外)建议采取ETL方式,63,数据交换与共享示意图,64,数据物理分布总图-核心库间数据关系,核心交易库的数据共享,65,数据物理分布总图-核心库间数据关系,核心交易库的数据共享,66,数据物理分布总图-核心库间数据关系,核心交易库的数据共享,67,总局数据交换与共享概览,68,外部门统一交换,外部门统一交换实现税务机关和其他政府部门之间实现数据共享和数据交换。主要包括财政、银行、国库、工商、技监、海关、外汇管理、公安、统计、劳动和社会保障、邮政、民政、国土管理、房产、法院等政府部门。两级交换:总局一级和省局一级。系统包括:外部信息交换系统和税库银系统。,69,外部门统一交换,基于消息中间件的数据传输,70,税库银(税银),71,外部信息交换,72,总局与省局,数据下发(总局到各省)总局下发支撑生产数据总局下发支撑决策数据数据集中(各省到总局)省局遗留系统数据和自有系统数据(如果总局需要)省局交换的第三方数据(如果总局需要),73,征管数据清分下发,74,主数据清分下发,主数据:代码、纳税人基本信息、纳税人基本状态,75,总局与省局,76,总局与省局,77,总局一级,征管数据库群之间:征管操作数据库群之间;操作数据库与镜像库之间操作型与分析型之间:当期操作数据库、近期操作数据库、统一视图、数据仓库、数据集市之间内部系统与渠道之间:内部系统与内外部渠道系统(网上办税厅、网站)之间,78,征管数据库群之间,79,内部系统与渠道之间,80,总局操作型与分析型之间,81,交换实现手段总结,82,目 录,1、概述2、数据分布3、数据交换与共享4、元数据5、数据治理6、通用数据标准,83,元数据管理,84,元数据管理方案,85,元数据管理实施策略,金税三期项目实施中,元数据管理涉及从数据抽取到数据展示的整个过程,是金税三期方案实施过程中十分重要的一环。本方案将在源系统、ETL、数据仓库、前端展现几个方面进行元数据管理,建议实现策略是:从分散管理向集中管理逐步过渡。在分散管理阶段,ETL过程主要通过ETL工具进行元数据管理。在数据仓库环境中,通过数据字典、仓库建模工具(可以提供更高层的与特定业务相关的语义)和ETL工具进行元数据管理。在前端展现部分,通过前端展现工具进行元数据管理。在集中管理阶段,通过建立标准的元数据交换格式,采用专门的元数据管理工具,实现元数据的集成管理。,根据金税三期大集中的战略,金税三期元数据管理最终实现集中式管理。,根据金税三期大集中的战略,金税三期元数据管理最终实现集中式管理。,86,目 录,1、概述2、数据分布3、数据交换与共享4、元数据5、数据治理6、通用数据标准,87,数据生命周期管理实施方法,88,数据生命周期管理分类与分层管理,89,数据生命周期管理分类与分层管理,90,数据生命周期管理分类与分层管理,91,数据质量管理规划与框架,数据质量管理是一个没有终点的过程,它是一个持续的,不断改善的从数据质量管理规划阶段到数据质量审计及改进形成的数据质量管理的闭环过程。,针对数据质量现状,在数据质量管理上,规划事前预防、事中监测和控制、事后补救和改进的管理策略,规划数据质量管理框架,92,数据质量管理过程(模型),93,数据质量管理方案设计原则,94,数据质量管理方案,1、分析源数据,从业务和数据本身的角度剖析,包括对数据源中存储的逻辑定义,表、视图结构定义,约束,触发器,唯一性等等,得出相关的定义。由定义以及定义的关联产生相应的检验规则2、检验对象管理利用这些产出的规则,对源数据和目标数据进行校验,并对应校验规则保存校验结果;3、在数据质量管理中,需要对数据检验结果和修正结果进行分析,利用校验结果发现数据源和数据流程中存在的问题,同时可以参考修正记录,对数据的质量提出适当的改进策略,并采取适当的行为。,95,数据质量管理方案关键指标设计,96,数据安全,97,目 录,1、概述2、数据分布3、数据交换与共享4、元数据5、数据治理6、通用数据标准,98,通用数据标准,99,99,