电信数据仓库设计.ppt
陕西电信综合数据仓库平台总体设计方案,议程,概述功能架构数据架构ETL架构集成架构安全架构平台架构实施方法论,总体架构,EDW,ODS,数据总线,A,D,B,使用人员,CIF,语义层,综合统计分析平台,EDA,CIF,CRM,计费,业务及管理系统,。,数据总线,业务操作数据,客户资料,业务运营数据,业务运营数据,统一经营数据共享,统一经营数据共享,业务分析结果,统计分析数据源,统计分析数据源,统计分析数据源,统计分析数据源,决策信息,业务查询结果,业务分析结果,业务操作数据,客户资料,业务运营数据,业务运营数据,业务运营数据,业务分析结果,业务分析结果,整体目标,打破信息孤岛,实现数据共享,构建企业数据全集综合统计分析平台的数据支撑,建立从数据转换为价值的体系,让数据发挥出企业核心资源的效用,实现数据的增值,彻底改善IT对于业务的支撑能力,尤其是对分析决策的支持能力提供统一的数据支撑和标准规范的对外接口统一数据管理,保证数据准确和可追踪管理,支持内控,构建企业统一的数据管理平台,系统定位,按照陕西电信规划模型,整合各业务系统的数据,实现企业范围的数据统一视图,通过技术和管理手段,实现面向经营分析决策的企业级统一共享的数据管理平台,通过对数据的组织加工,实现从数据到信息的转变;提供对综合统计分析平台和其它系统的数据支撑,综合数据仓库平台(EDW)定位:打破信息孤岛,实现数据共享。数据支撑与价值提升。构建企业级数据管理平台。,EDA,EDW,建设范围,数据范围:企业级数据整合和组织,以支撑综合统计分析平台中各主题分析、分析查询、报表统计等和其它系统的数据需求。功能范围:数据组织管理、ETL管理、元数据管理、数据质量管理、数据整合等。,与综合统计分析平台-分工界面,议程,概述功能架构数据架构ETL架构集成架构安全架构平台架构实施方法论,功能架构,数据处理,数据管理,数据获取,数据提供,数据整合,文件完整性检验,接口文件管理,接口文件异常处理,数据 获取,清洗转换合并,细节数据生成,汇总数据生成,数据异常处理,集市数据生成,ETL调度和监控,数据 备份,数据 检验,数据 提供,数据模型管理,元数据管理,数据质量管理,安全性管理,系统监控,系统备份和恢复,逻辑架构,外部数据,数据获取,细节数据层,CRM、计费帐务、结算、10000号、财务等系统,数据文件临时存放区,通知重传,读取,数据格式转换,数据获取,临时区,错误数据,ETL-1,细节数据层,汇总数据层,ETL-2,数据提供模块,数据仓库连接控制,数据整合,元数据,系统管理,ETL-1抽取规则,ETL-2抽取规则,ETL-1日志,ETL-2日志,数据仓库元数据,商业元数据,ETL-1/2/3规则管理,ETL-1/2/3日志管理,商业元数据管理,数据仓库元数据查看,ETL-1/2/3过程监控,数据仓库数据访问日志管理,数据仓库数据更新调度管理,数据整合,临时区,应用集市层,ETL-3,ETL-3抽取规则,ETL-3日志,ETL-3,抽取数据,元数据,系统管理,根据转换规则转换数据,确定数据格式,按既定方式提供数据,EDW,网络传送地址及安全数据,数据传送日志,数据抽取、转换规则,传送目录及格式,抽取、转换规则管理,传送格式管理,传送日志管理,传送目录及安全管理,提供的数据,数据提供,数据提供,议程,概述功能架构数据架构ETL架构集成架构安全架构平台架构实施方法论,数据分层设计,业务需求的满足从上到下是分析逐步深入、数据需求细化的过程数据处理的过程从下到上是粒度加粗、更加面向应用的过程数据分层是根据数据处理、需求满足过程的特点,并考虑系统效率、数据稳定性而设计的。,临时区,以表的形式存放生产系统传送过来的数据生产系统包括:统一客户资料、综合受理、计费帐务、综合结算、10000号、财务、IN等用于进行数据整合的过程处理和异常处理原则:采用同生产系统相同的表结构去掉与分析无关的属性字段增加时间属性字段,细节数据层的主题域,ER概念模型总图,资源,市场营销,产品,事件,服务,帐务,客户,企业,供应商/合作伙伴,企业发起市场营销,客户接受市场营销,企业提供产品,客户购买产品,客户发起/经历事件,营销类事件,产品付费关系,客户指定帐务关系,为产品付费,产品提供相应服务,客户使用服务,产品类事件,帐务类事件,服务类事件,服务使用产生帐务,企业提供服务,服务使用资源,产品使用资源,企业拥有资源,供应商提供资源,企业与供应商合作,供应商帐务,企业帐务,通用实体,细节数据层建模,陕西规划数据模型,源系统模型 源系统数据分析,陕西电信规划数据模型,适合数据仓库的 主题域 层面 实体 属性 关系,建模原则:去掉与分析无关的实体、属性 将影响效率的竖表(如属性表等)变为横表 增加时间属性 记录变更历史 增加映射字段或映射表 反正则化处理,增加冗余信息,第三范式(ER图),第三范式要求1、每个属性的值唯一,不具有多义性;2、每个非主属性必须完全依赖于整个主键,而非主键的一部分;3、每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去。不满足第三范式的举例class(class_id,class_name,teacher_id,teacher_name)规范化后class(class_id,class_name,teacher_id)teacher(teacher_id,teacher_name)总结确定主键和非主键属性的关系关注逻辑层面上的实体和关系,不考虑可用性问题需物化为表后,方可在DW创建、使用,反正则化处理,处理方法增加冗余列避免查询时进行表连接操作增加派生列避免查询时连接和使用聚合函数重新组表提高性能和效率处理策略对订单,增加“市场活动ID”对产品实例,增加“订单ID”对话单、帐单,除原有的“产品实例ID”,增加“客户ID”对话单,增加“帐务周期ID、时段ID、开始时间”等对客户/用户/帐户,分为当前信息表和历史信息表对话单、帐单,采用按“业务本地网”分表的方式对客户,分为“社会属性ID、自然属性ID、消费属性ID”其它,汇总数据层,存放数据资料汇总、清单汇总、关联汇总、宽表等用途提高性能,防止大量的细节数据访问数据沉淀,粒度较粗的数据可以保存更长时间承上启下,连接数据驱动的3NF细节数据和需求驱动的Star-Schema数据原则将客户基础资料变更的时间粒度增粗对清单/帐单类数据在客户/用户/帐户级别上汇总对经常使用的关联操作,提前进行关联汇总,以表的形式存放单条记录包括用户基本信息、产品选择和使用量、费用信息,方便业务人员使用,应用集市层,以多维模型、宽表、3NF等方式存放高度汇总数据直接支持前端分析应用应用集市设立的原则:按相同处理功能:如KPI集市、报表集市等按业务分析主题:如市场竞争集市、市场营销集市等按特定分析目的:如数据挖掘集市、收入保障集市等其它,雪花模式,是对星型模式的扩展(维度)日期、地区等多层次的维度均可类似扩展,优点:在每个维中最小的数据冗余;增加建模的灵活性(维层次结构可以增加,无需改变事实表);对复杂的维是非常有用的缺点:复杂的查询,包含很多连接;性能可能会较差,星型模式,优点:强调容易使用和性能;消除或降低雪花模型的缺点不足:数据准备慢,随业务变化的能力差,一种多维的数据关系,由一个事实表和一组维表组成。每个维表表达一个维度,所有维度字段组成事实表的复合主键。事实表的非主属性称为事实,都是汇总出来的数值型数据。维大都是文字、时间等类型的数据,平衡星型和雪花的方法,对仅牵涉到简单的单层维度的事实表,采用星型模式对牵涉到多层维度但纬度深度仅在一个方向增加的事实表,采用星型模式;在纬度深度超过3层的情况下,采用雪花模式对牵涉到多层维度且纬度深度在多个方向增加的事实表,采用星型和雪花混合模式,应用集市层建模,多维模型,议程,概述功能架构数据架构ETL架构集成架构安全架构平台架构实施方法论,ETL架构与流程,根据业务和数据情况,采用不同的数据整合路线,细节数据层,汇总数据层,应用集市层,临时区,T1,F1,S1,T2,D1,F2,S2,业务,数据,D2,“急用先行”ETL,DW正常ETL,数据建模,DFD顶层图,数据抽取策略,数据清理过程,数据分析和业务逻辑理解,通过ETL过程进行数据整合,错误数据反馈回业务系统,业务系统数据问题整改,分析数据源理解业务规则,格式处理、统一编码字段取舍和上下文处理数据校验和稽核,对问题数据导出:a、数据重复 b、属性值错误 c、数据不一致,数据质量的管控,数据整合原则,“基础资料(三户、产品实例等)”的统一确定主系统、数据流向和逻辑关系以统一客户资料为准对计费帐务、综合结算、10000号、IN等系统的基础资料进行整合系统冗余数据的处理:以主系统为主,其它系统做为补充,按照数据流向和逻辑关系进行整合,确保数据的一致性和完整性“产品、商品”等关键业务编码的统一以综合受理为准对各系统的业务编码域标准编码之间进行映射“产品实例到达数、计费时长”等统计指标的统一统一统计指标的含义、单位、周期、统计方法等建立不同主题域之间的关联关系建立不同域之间的关联关系,如客户域与产品域、事件域、帐务域、资源域、市场营销域等之间的关联关系业务系统的中间汇总结果会纳入综合数据仓库平台,用于快速支持分析应用的开发和进行数据稽核。,ETL开发,创建Repository创建Project创建Data Store创建Job创建Data Flow创建Work FlowJob部署Job执行运行监控,示例:,ETL开发考虑的几个方面,文件接口格式的统一制订与正确性校验采用增量、全量等灵活的抽取时机与策略,减少对业务系统的影响分段并行处理,提高系统性能负载均衡,提高可靠性和系统性能合理ETL在专业工具和数据库之间的分配,大数据量汇总利用数据库性能合理设计ETL时机和策略,确保数据产生的准时性和可用性统一的ETL流程调度、监控和维护,实现ETL的集中管理,数据质量原则,完整性:对一个业务,一个客户,一个产品,一个营销活动,一个客户的性质等进行缺失考察。有效性:数据包含了一个有效的数据格式或值 一致性:数据仓库系统内数据定义的统一、口径的一致性唯一性:经营分析系统数据定义的唯一性 正确性:ETL过程正确性/加工过程正确性/数据整合正确性/模型正确性/展现正确性/查询正确性/核对过程是否充分准确性:在准确性基础上的精度和近似规则 可用性:主要体现在使用的效率上 时效性:能够按照业务需求集市产生所需的数据清晰性:清晰定义每一个数据的来龙去脉,没有歧义。充足性:在保证数据正确性和准确性基础上是否能对主要业务专题提供足够的数据进行足够精度的分析需求,数据质量保障,议程,概述功能架构数据架构ETL架构集成架构安全架构平台架构实施方法论,集成架构,议程,概述功能架构数据架构ETL架构集成架构安全架构平台架构实施方法论,数据仓库的安全控制类型,用户分组授权,访问角色与安全模型,议程,概述功能架构数据架构ETL架构集成架构安全架构平台架构实施方法论,物理拓扑图,DI软件架构,在综合数据仓库平台开辟单独的数据库空间,用于资料库的存放。,DI软件部署,Repository DB,DI的统一管理及开发,本地资料库,测试资料库,中央资料库,生产资料库,统一调度、统一管理,BOE+EPM软件架构,BOE+EPM软件部署,在综合数据仓库平台开辟单独的数据库空间,用于资料库的存放。,BOE部署架构,在综合数据仓库平台开辟单独的数据库空间,用于资料库的存放。,BOE+EPM的统一管理及开发,统一管理、协调开发,综合统计分析平台的工作目录,XX平台的工作目录,XX平台的工作目录,综合数据仓库平台涉及的规范,命名规范 与源系统的接口规范 ETL开发规范 数据质量规范 数据提供规范 系统测试规范 数据仓库管理规范,主机配置,存储与备份,备份容量=存储容量*4=12T*4=48T能够确保:两次综合数据仓库平台全备份 最少四次综合数据仓库平台增量备份 最少二次数据集市、多维数据库(OLAP)全备份,议程,概述功能架构数据架构ETL架构集成架构安全架构平台架构实施方法论,MPDS在本项目中的应用:从管控、业务、数据和系统四个维度,考虑如何促进IT系统由产品为中心向客户为中心的转变,分析操作互动全面精确管理,整合关键视图展现整合信息,完善分析应用完整企业视图,分解,P应用,S系统,1.构建陕西EDA统一模型 2.整合经营分析数据,构建企业级数据仓库3.初步建立数据仓库平台管理机制及相应应用,1.构建数据组织管理平台2.ETL应用及调度应用3.信息整合应用4.业务应用:全力配合综合统计分析平台,实现综合统计分析平台的主题分析、统计报表、查询等;,1.公用数据管理平台搭建 2.系统架构 3.ETL规则、流程与调度,1.增加元数据管理2.提供数据挖掘的支撑功能3.完善数据管理监控平台功能4.完善ETL、OLAP应用,1.系统、存储评估与升级 2.和操作性系统交互,1.结合陕西EDA统一数据模型完善数据源,逐步纳入其它域,如资源域、服务域等的数据2.支撑数据挖掘的数据需求3.初步构建企业数据仓库4.完善数据仓库平台管理及相关应用,1.支撑数据挖掘专题的深化、支撑全部跨 部门、跨专业的综合分析2.建立完备的元数据管理、数据质量管理、ETL调度管理等一系列数据仓库平台的应用,并建立完备的数据管理办法,1.交互接口实现 2.数据仓库上的应用模块构建 3.管控流程的任务流机制实现,1.有效降低营销成本,通过专题分析减少客户流失、寻找商机、提升企业价值2.完善数据仓库平台所有数据源,构建企业级数据仓库3.建立完备的元数据管理、数据质量管理、ETL调度管理等一系列数据仓库平台的应用,并建立完备的数据管理办法,M管控,1.陕西电信企业数据模型在EDW的落实 2.ETL业务规则 3.数据准备和质量管控,1.数据质量日常管控2.定期经营分析报告制度3.专业分析队伍建立4.分析应用流程评估和固化,1.评估管控分析操作互动应用2.企业绩效指标体系管控3.定制化运营的管控,D数据,1.数据主要是客户类、产品类、帐务类、财务类、营销收益等相关数据2.客户、产品、帐务、财务、营销收益等相关数据清理,保证基本准确度3.初步完善指标口径,1.客户、产品、帐务相关数据清理,提高准确度2.完善财务类、市场营销类、收入类数据3.增加事件类、投资与资源、服务类等相关数据4.完善指标口径,1.客户、产品、帐务相关数据清理,完全保证数据准确度2.继续完善的数据主要是与财务、资源类相关数据3.增加运维类、人力资源类数据,目标,建设目标,业务驱动和数据驱动相结合的建设方式,采用“统一规划、分布实施”的建设模式。,1.项目启动2.需求分析3.源系统数据调研4.逻辑设计5.系统总体设计6.物理数据库设计7.数据转换加载ETL8.元数据管理9.数据仓库管理10.系统部署上线,项目具体实施步骤,主要任务:项目启动会议 确认项目主要目标 确认项目实施计划 成立项目组 确定各项目小组的成员及各自的工作职责 确定各项目小组的阶段性工作目标交付项目:项目进度计划,项目启动,需求分析,源系统数据调研,逻辑设计,1 项目启动,主要任务:确定重点用户与数据源 用户需求调研与确认 数据源确认 用户需求和数据源的分析 交付项目:需求规格说明书,项目启动,需求分析,源系统数据调研,逻辑设计,2 需求分析,主要任务:数据源分析 数据量分析 数据结构分析 数据质量分析 数据更新分析交付项目:源系统数据调研说明书,项目启动,需求分析,源系统数据调研,逻辑设计,3 源系统数据调研,主要任务:对业务、技术环境及企业文化的充分了解,从技术、组织、教育和支持等方面对系统进行全面评估定义业务驱动力定义数据仓库成功的关键因素定义数据仓库的实施原则对系统体系结构各个组件进行详细设计建立系统测试方案交付项目:系统总体设计说明书系统测试方案,数据仓库管理,物理数据模型,数据转换,系统总体设计,元数据管理,系统部署上线,4 系统总体设计,主要任务:进行原始数据分析 建立实体模型 建立实体间依赖关系 完善并填入所有属性 建立数据库逻辑模型 DFD利用工具:Oracle Designer交付项目:数据仓库逻辑数据模型LDM,即ER图逻辑数据模型说明书DFD,项目前期准备,需求分析,源系统数据调研,逻辑设计,5 逻辑设计,主要任务:转换逻辑数据模型(LDM)为物理数据模型定义索引反正则化处理(Denormalizations)数据库建立设计优化备份和恢复设计使用工具:Oracle Designer交付项目:物理数据模型(PDM)物理数据模型说明书数据库描述语言DDL备份和恢复方案,建模方法:第三范式 3NF 星型结构 雪花状结构,6 物理数据库设计,数据仓库管理,物理数据模型,数据转换,系统总体设计,元数据管理,系统部署上线,主要任务:数据源及其特性定义源系统数据接口定义和协调数据析取、转换和加载策略设计构建和测试初始加载的程序和处理流程构建和测试日常加载的程序和处理流程交付项目:源系统数据接口方案数据转换加载设计说明书 数据转换加载脚本(ETL Scripts)流程控制(Process Control),7 数据抽取转换与加载(ETL),数据仓库管理,物理数据模型,数据转换,系统总体设计,元数据管理,系统部署上线,源系统,ETL服务器,数据仓库,SQL,C,Perl,DI,SQL,处理时机在源系统上进行处理(数据抽取前)在加载服务器上进行处理(数据抽取后、加载前)在数据仓库里进行处理(数据加载后)判断标准依服务器及数据库物理特性决定检查要点BUSINESS RULESPRIMARY KEYSREFERENTIAL INTEGRITYDOMAIN VALUESCROSS TABLES,7 数据质量处理,主要任务:定义元数据使用功能确定元数据管理的处理范围能够进行元数据录入和浏览交付项目:元数据管理说明书,8 元数据管理,数据仓库管理,物理数据模型,数据转换,系统总体设计,元数据管理,系统部署上线,主要任务:开发和测试数据仓库日常运作流程开发和测试性能监视程序开发和测试安全系统提供数据仓库运行维护方案设计和开发操作人员/用户培训计划、教材提供技术支持使用工具:系统监控工具和管理工具交付项目:数据仓库管理过程说明书安全管理说明书用户培训计划用户使用手册,9 数据仓库管理,数据仓库管理,物理数据模型,数据转换,系统总体设计,元数据管理,系统部署上线,主要任务:系统部署建立并执行集成测试计划建立并执行数据仓库平台测试计划与综合统计分析平台的联合测试建立并执行系统验收测试计划执行用户培训计划实施数据仓库运行维护方案项目回顾交付项目:数据转换管理系统测试报告数据仓库平台测试报告数据仓库管理过程测试报告系统上线运行报告,10 系统部署上线,数据仓库管理,物理数据模型,数据转换,系统总体设计,元数据管理,系统部署上线,综合数据仓库平台-项目组织,综合数据仓库平台-项目控制,计划管理总体计划、阶段计划、变更管理汇报机制进度汇报、项目例会、阶段汇报、重大事件沟通质量管理设计评审、外部监理、流程与规范、全面测试、培训配置管理文档控制、版本管理、发布管理配合与沟通外部配合:生产系统、综合统计分析平台、PMO、专家组等内部沟通:工作汇报、项目例会、日常沟通,综合数据仓库平台-里程碑计划,综合数据仓库平台实施计划,工作阶段时间(月),