数据仓库的基本概念.ppt
《数据仓库的基本概念.ppt》由会员分享,可在线阅读,更多相关《数据仓库的基本概念.ppt(129页珍藏版)》请在三一办公上搜索。
1、课程安排数据仓库:18学时数据挖掘:18学时考 试:撰写论文,第一章 数据仓库的基本概念,案例讨论:下图展示了某电信公司的市场部和计划部对业务A是否具有市场前景的分析过程和结果。试讨论为什么两部门分析结果不同。,企业级数据库,市场部,分析程序1,分析结果1:前景很好,计划部,分析程序2,分析结果2:前景不好,第一章:数据仓库的基本概念,1-1 数据仓库的产生与发展 传统的数据库技术作为数据管理手段,主要用于联机事务处理(OLTP,On-Line Transaction Process),数据库中保存的是大量的日常业务数据。在数据共享、数据与应用程序的独立性、维护数据的一致性与完整性、数据的安全
2、保密性等方面提供了有效的手段。,第一章 数据仓库的基本概念,与分析型应用结合时存在的问题:决策支持系统为掌握充分的信息,需要访问大量的企业内部数据和外部数据。企业中存在不同的操作型MIS即不同的数据源;不同的数据管理平台信息提取不方便。如:Oracle SQL Server传统数据库中的大量数据是事务型数据,即该数据是对每一项工作、管理对象的具体的、细节性的描述。如:一份合同;DSS需要的是综合的、总结性数据。其特点:数据量大。基与传统的操作型DB不适合建立分析型应用系统。,第一章 数据仓库的基本概念,与分析型应用结合时存在的问题(续):,事务处理型应用与分析决策型应用对数据库系统的性能要求不
3、同。事务处理型应用特点:数据存取频率高、处理时间短;分析决策型应用特点:数据存取频率低、处理时间长。将分析决策型应用与事务处理型应用共同放在同一DBS环境中系统资源紧张事务处理型应用瘫痪。传统数据库中保存和管理的一般是当前数据,而决策支持系统不仅需要当前的数据,而且还要求有大量的历史数据进行分析和比较找出企业发展变化趋势。传统的数据库系统不能满足分析决策型应用的需要。,结论:()在事务处理型应用环境中直接构建分析决策型应用不可行的。()面向分析决策型应用的数据及数据处理与事务处理型应用的数据及数据处理分离。即必须把分析决策型数据从事务处理系统应用环境中分离开来,建立单独的分析性应用环境。于是:
4、面向分析决策型应用而组织和存储数据的数据仓库技术应运而生。,第一章 数据仓库的基本概念,时间:20世纪80年代初 人物:定义:数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程。A data warehouse is a subject-oriented,integrated,time-variant,and nonvolatile collection of data in support of managements decision making process.,第一章 数据仓库的基本概念,数据仓库的四大特征:数据是面向主题的 数据是集成的
5、数据是具有时间特征的 数据是相对稳定的 数据仓库的其它特点:数据量非常大(10GB-1000GB)是数据库技术的一种新的应用 使用人员较少,第一章 数据仓库的基本概念,1-2 数据仓库与数据库 操作型数据库 分析型数据仓库系统目的 支持日常操作 支持管理需求,获取信息使用人员 办事员、DBA、数据库专家 经理、管理人员、分析专家数据内容 当前数据 历史数据、派生数据数据特点 细节的 综合的或提炼的数据组织 面向应用 面向主题存取类型 添加、修改、查询、删除 查询、聚集数据稳定性 动态的 相对稳定,第一章 数据仓库的基本概念,续上表:,操作型数据库 分析型数据仓库需求特点 需求事先可知道 需求事
6、先不知道 操作特点 一个时刻操作一单元 一个时刻操作一集合 数据库设计 基于E-R图 基于星型模式、雪花模式一次操作数据量 一次操作数据量小 一次操作数据量大存取频率 较高 较低响应时间 小于3秒 几秒几十分钟,第一章 数据仓库的基本概念,1-3 数据仓库的基本结构,操作型事物处理系统设计目的:简单检索(少量记录的日常操作)复杂的分析型数据仓库设计目的:复杂查询(大量数据汇总和分类)技术人人使用角度分:体系结构用户使用角度分:数据仓库的基本结构由四部分组成:,数据仓库的基本结构(续),数据源(Data Source)提供原始数据:内部数据源(MIS-遗传系统)、外部数据源(调查或统计数据)、历
7、史数据 例:营销分析(发票、合同、客户、计划、产品结构、地区、市场数据等)数据仓库的数据存储(Data Storage)数据源接收、分析、抽取、净化、汇总、变换、存储、清理、转换确定分析主题抽取面向主题的集成数据确定数据模型DW,数据仓库的基本结构(续),应用工具(Application Tools)OLAP(On-Line Analytical Processing)工具:支持复杂但目的明确的分析操作。如:2011与2010比,产品P在地区R的销售增长是多少?其特点:a).应分析人员的要求可快速灵活进行大量数据的复杂的查询处理;b).通过可视化前端服务以一种直观易懂的方式将分析结果-分析人员
8、。数据挖掘DM(Dat Mining)工具:从大量的数据中寻找尚未发现的的知识支持企业的战略决策 如:我们拥有的客户有怎样的特点。,数据仓库的基本结构(续),可视化用户界面(Visualization)可视化前端服务:需求的分析结果显示给用户。前端服务的主要内容:用户指定分析主题,确定分析粒度与维度,对DW中的主题数据进一步汇总集成,以同步数据表、分析报告、折线图、直方图、雷达图、圆饼图等方式将分析结果用户。总结:未体现建设DW技术内容和实现过程。,1-4 数据仓库技术的术语 主题:(Subject)主题是一个在较高层次上将数据归类的标准,每一个主题基本对应一个宏观的分析领域。例:面向主题:产
9、品订货分析,货物发运分析,新产品开发分析;面向应用:财务,销售,供应,人力资源,生产调度.主题域的特征:独立性,完备性,第一章 数据仓库的基本概念,1.主题是抽象的。即在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式:是在较高层次上对分析对象数据的一个完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。2.DM中的数据是面向主题进行组织的。传统DB数据是面向应用进行组织的。如:一个生产企业的DB-财务、销售、供应、人力资源、生产调度子系统;一个生产企业的DW-产品订货分析
10、货物发运分析等。主题是根据分析的要求来确定的,而不是按照数据处理或应用的要求来组织数据的。如:生产企业中的材料供应 操作型DBS-关系材料供应业务处理;分析型DBS-关心材料的不同采购渠道、材料供应是否及时及材料质量情况等。,3.数据组织的步骤:()确定分析的主题。()确定每个主题所应包含的数据内容。一个主题:多个表(增加一个公共码:作为其主码的一部分,该公共码将各个表统一联系起来,表明它们属于同一主题的)4.主题域主题域-面向主题的数据组织方式是根据分析要求将数据组织成一个完备的分析领域。特征:()独立性。主题域可以和其他的主题域有交叉部分,但它必须具有独立的内涵,即要求有明确的界限,规定某
11、项数据是否属于该主题。()完备性。要求任何一个与某主题相关的分析要求,都应该能在这一主题中找到该分析处理所要求的一切内容。如:产品,根据分析处理要求,将产品之外的数据增加到“产品”主题中来。,粒度:(Granularity)粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,级别越低,回答查询的种类就越多。(数据堆积,回答综合问题效率低)数据越综合,粒度越大,级别越高,回答查询的种类就越少。,第一章 数据仓库的基本概念,维度:(Dimension)维的概念 维度是指人们观察事物的角度,类似于关系表的属性。例如:当人们关注产品销售情况时,有如下维度:时间维:随时间变化的销售数据;地
12、区维:不同地区的销售数据;客户维:不同客户的销售;在DW中常用的维主要有:时间维、客户维、产品维、地区维。维层次 人们从某个维的角度观察数据,还可以根据细节程度的不同形 成多个描述层次,该多个描述层次称为维层次。渠道维:不同销售渠道的销售数据;产品维:不同产品的销售数据,第一章 数据仓库的基本概念,一个维具有多个层次,例:时间维:日期、周、月份、季度、年等;地区维:城市、地区、国家等。3.维层次的表示(1)维的层次关系用层次图来表示。如:地区维 维层次的信息放在元数据 查询时:通过元数据的信息-区分不同的维层次-查询(2)维层次级别的确定 如:地区维的级别关系是国家地区省城市四个层次。注意:数
13、据综合时,要在同一维层次上进行求和操作。,第一章 数据仓库的基本概念,数据立方体:数据立方体是指由两个或更多个属性即两个或更多个维来描述或者分类的数据。在三维的情况下可以用图形来表示,一般称为数据立方体。实际的数据仓库的应用中,数据是多维的。,第一章 数据仓库的基本概念,例企业销售数据表单位(万元)半年 季度 月份 地区大类 具体地区吗 CAMC VCR TR-75 Ux-11 TR-78 EC-1 XVG 上 1 1 东北 531 745 790 70 600 40 上 1 2 东北 539 745 790 58 600 40 上 1 3 西北 652 745 790 45 600 40 上
14、 2 4 西北 683 745 790 50 600 40产品、时间、地区存在维层次 数据立方体是决策需要的一类特殊数据,可以针对不同的的查询请求 形成不同维层次上的数据汇总。如:商业应用数据具有多维性质。“产品的销售收入是多少?”简单“某产品在某个月份在某个地区的销售收入是多少?”考虑:销售事实销售收入是多少维度产品、时间、地区。产品、时间、地区三个维度数据立方体查询每种产品在某个时间、在某个地区的销售情况。DW的主要操作对象是多维数据多维建模技术 用户从多个角度对数据进行分析。,第一章 数据仓库的基本概念,联机分析处理:(OLAP)联机事务处理(OLTP-On-Line Transacti
15、on Processing):不能满足复杂的查询分析。联机分析处理(OLAP-On-Line Analytical Processing):是快速、灵活的多维数据分析工具。OLAP的目的是支持分析决策,满足多维环境的查询和报表需求。即从不同的维度以不同的粒度对多维数据进行快速、交互性访问,使管理决策人员掌握企业数据信息。数据仓库的多维数据存储结构为OLAP的实施提供了理想的多维数据环境。,第一章 数据仓库的基本概念,OLAP访问和分析的数据对象:多维数据信息抽取、清理、转换原始 数据多维数据信息:反映用户理解企业业务事实和观察这些事实的各维。数据仓库目的:分析企业信息、制定决策.2.OLAP与
16、OLTP的区别 OLTP OLAP处理的数据对象 底层的业务数据库 多维数据库(抽取、清理、转化)面向的用户 日常业务操作人员 决策人员和高层管理人员分析的数据对象 DB DW3.OLAP如何进行多维数据分析选择不同的维度及不同的粒度,即对多维数据进行不同的分析。(1)多维数据视图 以三维为例给出多维数据视图的四种情况:观察在某一时间点或时间段上各个产品在各个地区销售情况;观察某地区各个产品在各个时期的销售情况;观察某种产品在各个时期和各个地区中的销售情况;观察某种产品在某时间点或时间段上在某地区的销售情况;,第一章 数据仓库的基本概念,(2)多维数据报表 如:月 具体 销售量/台 销售额/万
17、元 份 地区码 CAMC VCR CAMC VCR TR-75 Ux-11 TR-78 EC-1 XVG TR-75 Ux-11 TR-78 EC-1 XVG 1 531 745 790 70 600 40 1 539 745 790 58 600 40 1 652 745 790 45 600 40 2 683 745 790 50 600 40OLAP功能:多维分析 快速的反应能力,第一章 数据仓库的基本概念,数据集市:(Data Mart)1.数据集市的概念 数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而成的。且各数据集市间应协调一致,满足整个企业分析
18、决策的需要。一般在某个业务部门建立数据集市,满足其分析决策的需要,称为部门级数据仓库。建立数据集市与数据仓库,一般是采用“自顶向下”和“自下而上”相结合的设计思想。,第一章 数据仓库的基本概念,2.数据集市的设计原则在DW中,所有的数据集市必须具有统一一致的维定义和统一一致的业务事实。采用自顶向下和自底向上相结合设计思想进行设计。(1)自顶向下全局的数据仓库 部门级的数据仓库保证一致性,但设计周期长且费用高(2)自底向上部门需求 逐步建立各部门级的数据仓库装配全局数据仓库设计周期短且费用低,但组装困难且不能保证一致性方法:采用总线型结构设计实施部门级DW,使所有的数据集市具有具有统一一致的维定
19、义和统一一致的业务事实。3.数据集市的组织方法(1)按业务分析领域进行数据组织如:销售数据集市、人力资源数据集市、财务数据集市。(2)按主题进行数据组织如:销售数据集市、订货数据集市、客户分析数据集市。,第一章 数据仓库的基本概念,第一章 数据仓库的基本概念,讨论题:1、结合XXX大学学生学籍管理系统进行数据仓库的主题划分,列举有哪些主题。,1-4 多维数据模型 多维数据模型是进行决策支持数据建模的最好方式,数据仓库采用多维数据模型不仅能使其使用方便,而且能提高系统的性能。1-4-1 实体关系模型与多维模型 实体关系模型应用于操作型数据库系统,多维模型应用于分析型数据仓库系统。操作型业务处理系
20、统 数据仓库数据建模方法 E-R模型 多维数据模型 实体关系模型不适用于以查询为主的分析型应用,具体表现在:使用者、界面、检索手段。,第一章 数据仓库的基本概念,1、E-R模型(Entity-Relationship Model)实体关系模型 定义数据间的关系,去除了数据中的冗余。E-R模型不适用于以查询为主的分析型应用,具体表现在:分析人员、决策人员(1)所分析的操作不能是实体属性,而必须是基于集成或按某种主题组织的数据,所以在E-R模型中不能进行主动的数据检索。(2)没有图形界面支持最终用户使用实体-关系数据模型。2、多维数据模型(Dimensional Data Model)多维数据模型
21、以直观的方式组织数据,并支持高性能的数据访问。1.多维数据模型的组成多维数据模型由多个多维数据模式表示。多维数据模式:由一个事实表和一组维表组成。,第一章 数据仓库的基本概念,事实表:主码是组合码,惟一标识一些事实(一项或多项事实);事实表中的事实具有数值特征和可加性,是按不同维度不同粒度汇总的、综合性的数据。维表:主码是简单码,每一张维表中的简单码与事实表组合码中的一个组成部分相对应。它所包含的是描述性的文本信息,这些信息成为事实表的检索条件。例:一个企业销售数据的多维数据模式图。实体-关系模型和多维模型的区别:E-R模型 多维数据模型建模方式 数据的结构 数据的含义应用需求 操作型数据库系
22、统 分析型数据库系统企业级多维数据模型设计包含几十个简单的“星形连接”形式的多维数据模式;整个多维数据模型中包含4-15个维,各维之间相互独立,每个多维数据模式之间相互独立。,第一章 数据仓库的基本概念,企业销售数据的多维数据模式图,第一章 数据仓库的基本概念,时间码,日期月份季度年度,时间码产品码地区码,销 售 量销 售 额销售成本,产品码,产品大类产品细类产品名称,地区码,国 家地 区城 市,时间维表,事 实 表,产品维表,地区维表,多维数据模型的优势:1.多维数据模型是已知标准化的结构。包含多个多维数据模式,每一个多维数据模式都对应一张事实表和多张维表;使得查询的约束条件一定来自维表。如
23、:时间 地区 产品某种组合.2.多维数据模型具有已知的多维结构,能支持最终用户不可预知的操作。在进行多维数据模型的查询设计时,不必预先知道用户所要进行的具体操作是什么。因为多维数据模型的各个维是逻辑等价的,无论以哪个维或哪几个维作为约束条件查询事实表,逻辑上都是一样的,查询设计不受影响。如:查询设计以维作为切入点.3.对决策分析有好的扩展性。决策需求发生变化修改不影响系统运行,不重新编写前端分析工具设DW已完成,并在运行。,第一章 数据仓库的基本概念,下面举例说明几种数据或决策需求扩展情况:()在事实表中增加新的事实记录或(注意粒度的匹配)或增加新的数据项,不影响原有系统的运行,不必修改查询工
24、具、报表生成器及分析工具等。(2)在维表中可以增加新的维属性,不影响原有系统的运行结果和前端工具(多维数据模型的查询设计不依赖于某个维,支持预先未知的操作)。如:国家,地区,省,城市.(3)可以增加全新的维,不影响原有系统的运行结果和前端工具。新维表的主码 事实表中组合码的某一部分.汇总数据带来的巨大价值。事实表中存放的是不同粒度的数据,这些不同粒度的数据是根据不同的维层次组合计算后存放在事实表中的。粒度越小详细程度越高综合程度越低回答问题越具体;粒度越大详细程度越低综合程度越高回答问题越概括。结论:多维数据模型适用于DW的分析型系统的设计和应用,且直观,易于理解,支持最终用户不可预知的操作,
25、具有良好的扩展性能和快速查询能力。,第一章 数据仓库的基本概念,1-4-2 星型模式星型模式是事实表与维表通过星型方式连接而成.事实表(主表)包含的是业务数据信息,这些信息用于分析型查询,数据取值通常是可度量的、连续型的,且具有可加性,数据量可达到几百万甚至上亿条记录;业务数据信息可以从多个维度查看。维表(辅表,即维度)包含的是相应维度的描述型信息,这些信息用作查询的约束条件,一般是离散的、描述性的,不具有可加性。,第一章 数据仓库的基本概念,产品码(PK),产品大类产品细类产品名称,地区码(PK),国 家地 区城 市,产品维表,地区维表,时间码(FK)产品码(FK)(PK)地区码(FK),销
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 基本概念
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6296240.html