保险仓库数据模型设计.ppt
《保险仓库数据模型设计.ppt》由会员分享,可在线阅读,更多相关《保险仓库数据模型设计.ppt(47页珍藏版)》请在三一办公上搜索。
1、安邦BI系统数据模型介绍,主 题,维度建模的基本概念模型概述模型介绍模型运用方法与技巧相关技术问题,如何建立分析集市模型,行业经验,BI.Insurance DWM,工作组和建模,持续发展,业务需求,安邦分析集市模型,业务驱动根据固定报表和KPI、持续率、承保理赔、执行力、再保五个数据集市的业务需求,结合BI.Insurance DWM的建模方法,建立Taiping EDW 分析集市模型,分析集市模型概念,维度建模一种非规范化的关系模型由一组属性构成的表所组成表跟表之间的关系通过关键字和外键来定义以良好的可理解性和方便的产生报表来进行数据组织,很少考虑修改的性能通过SQL或者相关的工具实现数据
2、的查询和维护,分析集市模型概念,事实表(一)每一个事实表通常包含了业务需求所关心的一系列的指标值每一个事实表的行包括具有可加性的数值型的指标值文本事实通常具有不可预见的内容,很难进行分析与维表相连接的外键通常具有两个和两个以上的外键外键之间表示维表之间多对多的关系,分析集市模型概念,事实表(二)事实表的特征非常的大 包含几万、几十万甚至几百几千条的记录内容相对的窄 列数较少经常发生变化 现实世界中新事件的发生事实表中增加一条记录 典型情况下,仅仅是数据的追加事实表的使用 各类指标值的聚集计算,分析集市模型概念,维表(一)每一张维表对应现实世界中的一个对象或者概念 例如:客户、产品、保单、标的、
3、案件维表的特征包含了众多描述性的属性列 如保单维表里的销售渠道、保费区间、风险等级等通常情况下,跟事实表相比,行数相对较小 通常 10万条内容相对固定 几乎就是一类查找表,分析集市模型概念,维表(二)维表的应用基于维属性的过滤(切片、切块等)基于维属性的各种聚集操作报表中各类标签的主要来源事实表通过维表进行引用,分析集市模型概念,Facts属性个数少(窄)记录行数多(大)数值型指标随着时间的推移,数据增长,Dimensions 属性个数多(宽)记录行数少(小)描述性属性静态的,很少发生变化,事实表与维表的比较,分析主题域数据(Analytical Subject Areas),通过事实(Fac
4、ts)和维度(Dimensions)模型方式表达,为典型保险分析应用提供分析型数据架构,为数据集市提供统一的指标和维度,为数据应用提供统一的数据信息。分析主题域数据,将业务需求阶段定义的分析主题域,按照维度建模方法,格式化成符合维度事实表的星型模型或雪花模型。其中维度信息由核心原子数据按照定义的层次形成相关的维度视图,事实表数据通过核心原子数据相关主题域数据经过汇总计算得到。核心原子数据和分析数据分别映射到不同的数据集市中。其中,典型的分析主题域如通用承保分析(Universal underwriting analysis)如下图:,分析集市模型设计步骤,需求,整理指标维度矩阵,设计集市层模型
5、,设计分析层模型,维度指标矩阵,维度指标矩阵是把需求转化为多维模型的重要工具,业务分析需求举例,与上一年相比,各险种所占的份额有何差异?每个机构在各险种所占份额是多少?,机构,险种,时间,2006和2007年度各险种份额对比,2006,2007,Thousands,2006年度各机构在各险种上的份额,维度建模举例,时间,机构,险种,客户,主 题,维度建模的基本概念模型概述模型介绍模型运用方法与技巧相关技术问题,元数据,模型在整个系统架构中的定位,面向业务应用,基本上与业务数据同构保留详细交易数据,数据仓库,分析层,分析层模型主题域,分析层模型每个主题域为同类的业务处理,共享相同的维度承保理赔分
6、析 记录安邦保险所关注的主要承保理赔业务指标。收付费分析 记录财务收付中应收保费、实收保费、应收率、应付赔款、实付赔款等收付类信息。核赔效率分析 记录理赔环节中查勘、定损、核损、缮制过程的相关指标。,主 题,维度建模的基本概念模型概述模型介绍模型运用方法与技巧相关技术问题,分析层模型结构,收付费分析的星型结构,分析层模型介绍,“承保理赔分析事实表”、“收付费分析事实表”、“核赔效率分析事实表”都是经轻度汇总生成的表,它们全部都是事务型事实表中间事实表都是经过版本化的历史表,保存最细粒度的数据中间事实表主要用于生成轻度汇总表的过渡,除此之外,通过冗余相关属性,中间事实表的设计也考虑了其它无法从直
7、接从分析层计算的指标的计算,事务型事实和快照型事实,事务型,快照型,快照型事实表的指标通常包含时点值,随着时间积累,维度组合会越来越细,此类型的事实表通常用于粒度较粗的数据集市或Cube;而事务型事实表的度量都是可累加的,其对于维度较多的轻度汇总表是有利。如果OLAP server支持在事务型事实表上计算时点值,建议在维度较细的Cube上使用事务型事实。,中间层历史数据的版本化,数据仓库中的历史数据决不会被删除或覆盖,因此需要加入数据版本特性来区分随时间变化的业务信息,使得在任一给定时间点上都能检索到正确的数据。数据是否需要版本化,首先依赖于实体是否有时变特性,比如“报案信息”通常是在某个时间
8、点上发生,它就没有时变特性,因此就不需要版本化。在实体中加入时间戳属性可以实现数据版本化,这个时间戳可以基于业务涵义,如对保单的某次批改的生效日期;也可以仅仅是技术上的,比如员工某项登记信息被修改,则生成新的员工记录,并指定该记录的有效(Valid)期间,ETL处理需要实现数据相邻版本时间戳的链接。需要为版本化的实体找出一个锚ID来唯一标识每个数据实例,比如保单实体的锚ID可以是保单号,表明该实体中最原子的粒度是保单。,时间戳与数据版本,业务信息的不同版本的时间链,时间戳(start_date/end_date),以上start_date为红色的是该数据实例被创建时的版本,该值从逻辑上看应该为
9、数据的业务创建日期,比如入职日期,但为了避免受到数据质量的影响,我们通常把每个数据实例的第一个版本的start_date置为1900-01-01,承保中间表场景示例,收付费中间表场景示例,理赔中间事实表场景示例,中间层的构建算法,请安邦项目组自行用Visio画出算法流程图,分页贴在此处,分析层模型未涵盖的特殊分析应用,需求中有部分的指标在计算上比较独特,且与其它指标没有太多的共享价值,因此未纳入分析层模型的考查范畴,这些指标主要有:核保效率分析用mid_policy_fact与核保信息表关联,再经过聚合计算可得到相应的分析指标理财险网点活动率该指标为非累计指标,不考虑安置在分析层,可在构建CU
10、BE时按原始算法计算,但日、月、季、年的汇总值要分别计算车贷险指标该类指标的数据源比较特殊,不考虑建立分析层,可在构建CUBE时按原始算法计算,从中间层到分析层承保理赔,签单类只计算保单,口径为:核保日期在当期 and start_date=1900-1-1主要指标有:保险金额、保单保费、保单笔数、累计储金、已验车数量、应验车数量需要减去退保和注销会计年度类不考虑版本,所有记录一起计算,口径为:核保日期在当期保额和保费只累计变化值主要指标有:保费收入、批增批减保费(件数)、退保(注销)保费(件数)等理赔类口径:结案日期在当期或估损修改日期在当期部分指标只考虑起始两个版本,即立案和结案,比如立案
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 保险 仓库 数据模型 设计

链接地址:https://www.31ppt.com/p-6084376.html