数据仓库建模与ETL的实践技巧.ppt
《数据仓库建模与ETL的实践技巧.ppt》由会员分享,可在线阅读,更多相关《数据仓库建模与ETL的实践技巧.ppt(57页珍藏版)》请在三一办公上搜索。
1、BI,数据仓库(DW)建模与ETL的实践技巧,作者:MALONE日期:2009-02-20,主要内容(一),一、什么是BI(Business Intelligence)(一)、什么是BI的定义?(二)、BI的诞生?(三)、基本技术(四)、数据处理(五)、数据展现(六)、常用的BI 厂商和产品,主要内容(二),二、数据仓库的架构(一)、什么是数据仓库?(二)、数据仓库和OLTP数据库的区别?(三)、数据仓库的架构模型有哪些?三、构建企业级数据仓库五步法(一)、确定主题(二)、确定量度(三)、确定事实数据粒度(四)、确定维度如何理解维度?及维度的层次和级别?什么是缓慢变化维度?缓慢变化维度 几种基
2、本情况?几种情况的利弊?(五)、创建事实表,主要内容(三),四、什么是ETL(ETL中的关键技术)(一)、数据抽取(1)全量抽取(2)增量抽取 增量数据抽取中常用的捕获变化数据的方法:a.触发器b.时间戳c.全表比对d.日志对比(二)、数据转换和加工(1)ETL引擎中的数据转换和加工(2)在数据库中进行数据加工(三)、数据装载(1)直接SQL语句进行insert、update、delete操作(2)采用批量装载方法,如bcp、bulk、关系数据库特有的批量装载工具或api(四)、主流ETL工具介绍,主要内容(一),一、什么是BI(Business Intelligence)(一)、什么是BI的
3、定义?(二)、BI的诞生?(三)、基本技术(四)、数据处理(五)、数据展现(六)、常用的BI 厂商和产品,一、什么是BI(Business Intelligence),(一)、什么是BI(Business Intelligence)a、什么是BI的定义?BI是Business Intelligence的英文缩写,中文解释为商务智能,用来帮助企业更好地利用数据提高决策质量的技术集合,是从大量的数据中钻取信息与知识的过程。简单讲就是业务、数据、数据价值应用的过程。用图解的方式可以理解为下图:,这样不难看出,传统的交易系统完成的是Business到Data的过程,而BI要做的事情是在Data的基础上
4、,让Data产生价值,这个产生价值的过程就是Business Intelligence analyse的过程。,一、什么是BI(Business Intelligence),b、如何实现Business Intelligence analyse的过程 从技术角度来说,是一个复杂的技术集合,它包含ETL、DW、OLAP、DM等多环节,基本过程可用下图描述。,上图流程,简单的说就是把交易系统已经发生过的数据,通过ETL工具抽取到主题明确的数据仓库中,OLAP后生成Cube或报表,透过Portal展现给用户,用户利用这些经过分类(Classification)、聚集(Clustering)、描述和可
5、视化(Description and Visualization)的数据,支持业务决策。,一、什么是BI(Business Intelligence),说明:BI不能产生决策,而是利用BI过程处理后的数据来支持决策。哪么BI所谓的智能到底是什么呢?(理清这个概念,有助于对BI的应用。)BI最终展现给用户的信息就是报表或图视,但它不同于传统的静态报表或图视,它颠覆了传统报表或图视的提供与阅读的方式,产生的数据集合就象玩具“魔方”一样,可以任意快速的旋转组合报表或图视,有力的保障了用户分析数据时操作的简单性、报表或图视直观性及思维的连惯性。,实例:c、商业智能(BI)在电信行业所处的商业作用和价值
6、?(什么是电信BI)BI应用在电信行业又称作电信经营分析系统。随着竞争的加剧和数据业务的发展,电信业BI市场将进入一个高速发展的时期。在电信市场竞争愈演愈烈的背景下,各个运营商已经从业务为中心向以服务为中心转变,原来赖以竞争的手段如价格战、行业垄断优势、促销策略等以无法适应新形势的需要。为了保住客户资源,运营商需要一套业务分析支持系统,以从自身市场数据中获得能够真正反映企业运营状况的有效信息,从而为市场经营决策提供科学支持,商业智能(BI)所处的商业作用和价值显而易见。,主要内容(一),一、什么是BI(Business Intelligence)(一)、什么是BI的定义?(二)、BI的诞生?(
7、三)、基本技术(四)、数据处理(五)、数据展现(六)、常用的BI 厂商和产品,一、什么是BI(Business Intelligence),(二)、BI的诞生?典型的案例有超市,便利店“尿片和啤酒”的故事,(三)、基本技术 a、BI(Business Intelligence)是一种运用了数据仓库、在线分析和数据挖掘等技术来处理和分析数据的崭新技术,目的:是为企业决策者提供决策支持。b、哪么BI技术涉及了哪些方面呢?其核心技术中ETL、DW及OLAP。或者说是“数据处理技术”与“数据展现技术”更加容易理解。c、为什么要在操作型数据库和 OLAP 之间加一层“数据仓库”呢?花空间买时间(资源与效
8、能的问题)说一千道一万都计算机资源与效能惹的祸,操作型数据库以快速响应业务为主要目标,而OLAP的时候要占用大量的硬件资源,在OLAP的时候,业务操作很难快速响应,无法保证业务的顺利进行,从业务、数据、数据的价值的逻辑来看,没有业务就谈不上OLAP;零星分散的数据一般存在有多个应用,对应多个业务操作型数据库,访问效能极其低下。最高效的方法:就是将数据先整合到数据仓库中,而 由OLAP应用统一从数据仓库里取数,以解决快速响应业务与OLAP的矛盾。,主要内容(一),一、什么是BI(Business Intelligence)(一)、什么是BI的定义?(二)、BI的诞生?(三)、基本技术(四)、数据
9、处理(五)、数据展现(六)、常用的BI 厂商和产品,一、什么是BI(Business Intelligence),上图流程,简单的说就是把交易系统已经发生过的数据,通过ETL工具抽取到主题明确的数据仓库中,OLAP后生成Cube或报表,透过Portal展现给用户,用户利用这些经过分类(Classification)、聚集(Clustering)、描述和可视化(Description and Visualization)的数据,支持业务决策。,DB2、Informix,Oracle,Sysbase,其他数据结构类型,一、什么是BI(Business Intelligence),(四)、数据处理(
10、1)、ODS 层的作用?1)、在业务系统和数据仓库之间的数据过渡离层。如果业务数据来源比较复杂,一般采用构造ODS的方法来实现收集当前需要处理的数据。如下述数据来源:a、业务数据库种类繁多。业务交易系统使用了不同种的数据库,如DB2、Informix、Oracle、SQL server、文本等。b、不同的应用系统、不同的地理位置。c、订阅数据源。d、批量还原非传统数据库数据。.等等。用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致。2)、保存当前或接近当前的细节数据,以供查询或ETL检错使用。3)、数据存储周期性。ODS中存储的数据都是临时
11、的,每次ETL之前都要清空ODS中存储的数据。(2)、ETL(Extract Transform Load)操作型业务数据库(DB)到数据仓库(DW)的过程称之为ETL,它实现数据的抽取,转换及装载工作。抽取:将数据从各种原始的业务系统中读取出来。转换:按照预先设计好的规则将抽取得数据进行转换、清洗,以及处理一些冗余、歧义的数据,使本来异构的数据格式能统一起来。装载:将转换完的数据按计划增量或全部的导入到数据仓库中。在技术上主要涉及增量、转换、调度和监控等几个方面的处理。(3)、DW,(Data Warehouse)数据仓库的官方定义是一个面向主题的(Subject Oriented)、集成的
12、(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。(4)、OLAP(On-Line Analytical Processing)即联机分析处理,是BI的一种全新的数据封装方式,直接产物是报表或Cube,是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。,主要内容(一),一、什么是BI(Business Intelligence)(一)、什么是BI的定义?(二)、BI的诞生?(三)、基本技术(四)、数据处理(五)、数据展现(六)、常用的BI 厂
13、商和产品,一、什么是BI(Business Intelligence),上图流程,简单的说就是把交易系统已经发生过的数据,通过ETL工具抽取到主题明确的数据仓库中,OLAP后生成Cube或报表,透过Portal展现给用户,用户利用这些经过分类(Classification)、聚集(Clustering)、描述和可视化(Description and Visualization)的数据,支持业务决策。,DB2、Informix,Oracle,Sysbase,其他数据结构类型,一、什么是BI(Business Intelligence),(五)、数据展现 数据查询是最简单的 BI 应用,输出报表是
14、BI最直接的产物,根据数据连接,加工过程及用途,应用模式大致可以分为四种:格式报表;在线分析;数据可视化;数据挖掘。1、格式报表:带格式的数据集合,如:交叉表等。2、在线分析:多维数据集合,如:Cube等。3、数据可视化:信息以尽可能多的形式展现出来,目的是使决策者通过图形这种直观的表现方式迅速获得信息中蕴藏的知识,如柱图,仪表盘等。4、数据挖掘:从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。(六)、常用的BI 厂商和产品ETL:Informatica,SQL Server Analysis ServerDW:IBM DB2,Oracle,NCR Teradata,Sybas
15、e IQ等等;OLAP:Business Objects,Hyperion,Cognos,MicroStrategy,IBM Data Mining:IBM,SAS,SPSS 现在很多的数据库提供商都开始绑定BI的开发组件到自己的数据库产品中,他们都瞄准了这其中的肥肉,磨拳檫掌,各论长短。,一、什么是BI(Business Intelligence),上图流程,简单的说就是把交易系统已经发生过的数据,通过ETL工具抽取到主题明确的数据仓库中,OLAP后生成Cube或报表,透过Portal展现给用户,用户利用这些经过分类(Classification)、聚集(Clustering)、描述和可视化
16、(Description and Visualization)的数据,支持业务决策。,DB2、Informix,Oracle,Sysbase,其他数据结构类型,Informatica,SQL Server Analysis Server,IBM DB2,Oracle,NCR Teradata,Business Objects,Hyperion,Cognos,MicroStrategy,主要内容(一)总结,一、什么是BI(Business Intelligence)(一)、什么是BI的定义?(二)、BI的诞生?(三)、基本技术(四)、数据处理(五)、数据展现(六)、常用的BI 厂商和产品,主要内
17、容(二),二、数据仓库的架构(一)、什么是数据仓库?(二)、数据仓库OLAP和OLTP数据库的区别?(三)、数据仓库的架构模型有哪些?三、构建企业级数据仓库五步法(一)、确定主题(二)、确定量度(三)、确定事实数据粒度(四)、确定维度如何理解维度?及维度的层次和级别?什么是缓慢变化维度?缓慢变化维度 几种基本情况?几种情况的利弊?(五)、创建事实表,一、数据仓库的架构,(一)、什么是数据仓库?数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的,
18、以OLAP系统的分析需求为目的。四个基本特征:DW的数据是面向主题的DW的数据是集成的DW的数据是非易失的(相对稳定的)DW的数据是随时间不断变化的(反映历史变化(Time Variant),主要内容(二),二、数据仓库的架构(一)、什么是数据仓库?(二)、数据仓库OLAP和OLTP数据库的区别?(三)、数据仓库的架构模型有哪些?三、构建企业级数据仓库五步法(一)、确定主题(二)、确定量度(三)、确定事实数据粒度(四)、确定维度如何理解维度?及维度的层次和级别?什么是缓慢变化维度?缓慢变化维度 几种基本情况?几种情况的利弊?(五)、创建事实表,(二)、数据仓库OLAP和OLTP数据库的区别?,
19、主要内容(二),二、数据仓库的架构(一)、什么是数据仓库?(二)、数据仓库OLAP和OLTP数据库的区别?(三)、数据仓库的架构模型有哪些?三、构建企业级数据仓库五步法(一)、确定主题(二)、确定量度(三)、确定事实数据粒度(四)、确定维度如何理解维度?及维度的层次和级别?什么是缓慢变化维度?缓慢变化维度 几种基本情况?几种情况的利弊?(五)、创建事实表,(三)、数据仓库的架构模型有哪些?,1、星型架构图1.1(某零售分析系统)星型架构的中间为事实表,四周为维度表,类似星星2、雪花型架构图1.2(某分析系统)雪花型架构的中间为事实表,两边的维度表可以再有其关联子表,从而表达了清晰的维度层次关系
20、。,3、两者比较?从OLAP系统的分析需求和ETL的处理效率两方面来考虑:星型结构聚合快,分析效率高;而雪花型结构明确,便于与OLTP系统交互。因此,在实际项目中,我们将综合运用星型架构与雪花型架构来设计数据仓库。,(三)、数据仓库的架构模型有哪些?,主要内容(二),二、数据仓库的架构(一)、什么是数据仓库?(二)、数据仓库OLAP和OLTP数据库的区别?(三)、数据仓库的架构模型有哪些?三、构建企业级数据仓库五步法(一)、确定主题(二)、确定量度(三)、确定事实数据粒度(四)、确定维度如何理解维度?及维度的层次和级别?什么是缓慢变化维度?缓慢变化维度 几种基本情况?几种情况的利弊?(五)、创
21、建事实表,三、构建企业级数据仓库五步法,(一)、确定主题 即确定数据分析或前端展现的主题。(以上海烟草集团零售分析系统为例,23家有限公司进销存情况)例如:我们希望分析某月某有限公司某卷烟销售情况,这就是一个主题。主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑。统计数值型数据(量度)存在于中间的事实表;分析角度是各个维度;我们将通过维度的组合,来考察量度。那么,“某年某月某一地区的卷烟销售情况”这样一个主题,就要求我们通过时间,地区和卷烟三个维度的组合,来考察销售情况这个量度。从而,不同的主题来源于数据仓库中的不同子集,我们可以称之为数据集市。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 建模 ETL 实践 技巧
链接地址:https://www.31ppt.com/p-6166746.html