数据仓库的数据模型与数据组织(40P).ppt
2023年2月3日星期五,Data Mining:Concepts and Techniques,1,第二章数据仓库的数据模型与数据组织,本章要点数据仓库的数据模型概念模型逻辑模型物理模型数据仓库数据组织的基本概念粒度维度元数据数据分割数据仓库的数据组织数据仓库的数据组织方式数据仓库的数据存储组织,2023年2月3日星期五,Data Mining:Concepts and Techniques,2,数据仓库中的数据组织,高度综合级,轻度综合级,当前综合级,早期细节级,多级数据,2023年2月3日星期五,Data Mining:Concepts and Techniques,3,Cube:A Lattice of Cuboids,all,time,item,location,supplier,time,item,time,location,time,supplier,item,location,item,supplier,location,supplier,time,item,location,time,item,supplier,time,location,supplier,item,location,supplier,time,item,location,supplier,0-D(apex)cuboid,1-D cuboids,2-D cuboids,3-D cuboids,4-D(base)cuboid,2023年2月3日星期五,Data Mining:Concepts and Techniques,4,数据仓库的数据模型与数据库系统数据模型的区别,数据仓库的数据模型中不包含纯操作型数据。数据仓库的数据模型扩充了码结构,增加了时间属性作为码的一部分。数据仓库的数据模型中增加了一些面向主题的导出数据。,2023年2月3日星期五,Data Mining:Concepts and Techniques,5,星型图模型 物理数据模型,概念模型,逻辑模型,物理模型,面向用户的需求,细 化层次,更详细的技术细节,数据仓库的数据模型,信息包图,2023年2月3日星期五,Data Mining:Concepts and Techniques,6,信息包图(概念模型),信息包图:是数据仓库的数据模型的第一层或最高层。由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。而信息包图简化了这一过程并且允许用户设计多维信息包并与开发者和其他用户建立联系。这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。工作:确定系统边界:决策类型、需要的信息、原始信息确定主题域及其内容:主题域的公共键码、联系、属性组确定维度:如时间维、销售位置维、产品维、组别维等确定类别:相应维的详细类别确定指标和事实:用于进行分析的数值化信息,2023年2月3日星期五,Data Mining:Concepts and Techniques,7,信息包图,信息包:维度类别空白信息包图样式,2023年2月3日星期五,Data Mining:Concepts and Techniques,8,信息包图,例试画出销售分析的信息包图。解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实:(1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。(2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、商店(2000)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。(3)指标和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。,2023年2月3日星期五,Data Mining:Concepts and Techniques,9,销售分析的信息包图,信息包:销售分析维度,类别,2023年2月3日星期五,Data Mining:Concepts and Techniques,10,A Concept Hierarchy:Dimension(location),all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M.Wind,L.Chan,.,.,.,.,.,.,all,region,office,country,Toronto,Frankfurt,city,2023年2月3日星期五,Data Mining:Concepts and Techniques,11,星型图模型(逻辑模型),星型图:数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。星形图包括了三种逻辑实体:指标维度详细类别,2023年2月3日星期五,Data Mining:Concepts and Techniques,12,星型图模型(逻辑模型)例销售分析的星型图模型。,时间维,产品维,地区维,组别维,其他维,销售分析:实际销售 预测销售 预测偏差,2023年2月3日星期五,Data Mining:Concepts and Techniques,13,Example of Star Schema,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,2023年2月3日星期五,Data Mining:Concepts and Techniques,14,Defining a Star Schema in DMQL,define cube sales_star time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(time_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier_type)define dimension branch as(branch_key,branch_name,branch_type)define dimension location as(location_key,street,city,province_or_state,country),2023年2月3日星期五,Data Mining:Concepts and Techniques,15,Example of Snowflake Schema,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,2023年2月3日星期五,Data Mining:Concepts and Techniques,16,Defining a Snowflake Schema in DMQL,define cube sales_snowflake time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(time_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier(supplier_key,supplier_type)define dimension branch as(branch_key,branch_name,branch_type)define dimension location as(location_key,street,city(city_key,province_or_state,country),2023年2月3日星期五,Data Mining:Concepts and Techniques,17,Example of Fact Constellation,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,Shipping Fact Table,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,2023年2月3日星期五,Data Mining:Concepts and Techniques,18,Defining a Fact Constellation in DMQL,define cube sales time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(time_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier_type)define dimension branch as(branch_key,branch_name,branch_type)define dimension location as(location_key,street,city,province_or_state,country)define cube shipping time,item,shipper,from_location,to_location:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)define dimension time as time in cube salesdefine dimension item as item in cube salesdefine dimension shipper as(shipper_key,shipper_name,location as location in cube sales,shipper_type)define dimension from_location as location in cube salesdefine dimension to_location as location in cube sales,2023年2月3日星期五,Data Mining:Concepts and Techniques,19,View of Warehouses and Hierarchies,Specification of hierarchiesSchema hierarchyday month quarter;week yearSet_grouping hierarchy1.10 inexpensive,2023年2月3日星期五,Data Mining:Concepts and Techniques,20,物理数据模型,物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据存储结构等。在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。,2023年2月3日星期五,Data Mining:Concepts and Techniques,21,粒度第一种形式,粒度:对数据仓库中的数据综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。粒度越小,综合程度越低,回答查询的种类越多;粒度越高,综合程度越高,查询的效率也越高。在数据仓库中可将小粒度的数据存储在低速存储器上;大粒度的数据存储在高速存储器上。,2023年2月3日星期五,Data Mining:Concepts and Techniques,22,Multidimensional Data,Sales volume as a function of product,month,and region,Product,Region,Month,Dimensions:Product,Location,TimeHierarchical summarization paths,Industry Region YearCategory Country QuarterProduct City Month Week Office Day,2023年2月3日星期五,Data Mining:Concepts and Techniques,23,A Sample Data Cube,Total annual salesof TV in U.S.A.,2023年2月3日星期五,Data Mining:Concepts and Techniques,24,Cuboids Corresponding to the Cube,all,product,date,country,product,date,product,country,date,country,product,date,country,0-D(apex)cuboid,1-D cuboids,2-D cuboids,3-D(base)cuboid,2023年2月3日星期五,Data Mining:Concepts and Techniques,25,Browsing a Data Cube,VisualizationOLAP capabilitiesInteractive manipulation,2023年2月3日星期五,Data Mining:Concepts and Techniques,26,粒度第二种形式:样本数据库,样本数据库:在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。样本数据库的粒度:是根据采样率的高低来划分的,采样粒度不同的样本数据库可以具有相同的综合级别,它是按一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。,2023年2月3日星期五,Data Mining:Concepts and Techniques,27,维度,维度:是一个物理特性(如时间、地点、产品等),它是表达数据仓库中信息的一个基本途径,可作为标识数据的索引。通常的报表只包含有行和列两维,但在数据仓库中所存储的数据大多是用多维(三维或三维以上)视图表示的。例如:一个销售系统中的数据可分为时间维、产品维和地理位置维等;一个财务系统中的数据可分为时间维、支出维和收入维等;一个企业决策支持系统中的数据可分为成本开支维、销售收入维、利润维、股票价值维等。,2023年2月3日星期五,Data Mining:Concepts and Techniques,28,聚合,在数据仓库技术中,每一维可包括多个层次,这些层次反过来可以向用户提供某一层次的数据。例如,在地理位置维中,由所有的街区组成了地区,由所有的地区组成了城市等。聚合就是指在维的不同层次内移动数据,从而构成维内不同层次的数据集,使用户不仅能够在一个维度内观察数据,而且能够在维度内的不同层次上观察数据。,2023年2月3日星期五,Data Mining:Concepts and Techniques,29,分解与合成,分解与合成是在一个维度内进一步细分数据或将数据按照另一标准组合的过程。例如,当以地理位置维观察数据时,用户可以首先以国家(如中国)为单位观察数据,然后可以选择观察某一个地区(如华东地区)的数据,接下来可以选择观察某一个省或城市(如上海)的数据,这就是数据分解的过程。而合成则是分解的逆过程,例如用户开始以省市为观察对象,接着再以地区、国家等为观察对象,就是一个数据合成的过程。,2023年2月3日星期五,Data Mining:Concepts and Techniques,30,分割及其标准,分割:将数据分散到各自的物理单元中去以便能分别处理,提高数据处理效率,数据分割后的数据单元称为分片。数据分割的标准:可按日期、地域、业务领域或按多个分割标准的组合。数据分割的目的:便于进行数据的重构、索引、重组、恢复、监控、扫描,2023年2月3日星期五,Data Mining:Concepts and Techniques,31,数据分割的方法,垂直分割:垂直分割就是把一个表垂直分成两部分。这种类型的分割有助于把一大堆列分成两个独立的表,这两个表之间通过一个关键字段相关联。水平分割:水平分割就是把表按行分成两部分。这种类型的分割被用来存储与用户联系紧密的本地重要数据,从而减少网络查询。图解分割:经由多个分布系统把一个图分解成两部分。可以从指定的服务器或在多个服务器之间建立连接而得到一个表所需要的全部数据。这种类型的分割被用来把小的、静止的表从不稳定的、越变越大的表中分割出来。,2023年2月3日星期五,Data Mining:Concepts and Techniques,32,元数据,元数据:是用来描述数据的数据。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。元数据可用文件存在元数据库中。要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。,2023年2月3日星期五,Data Mining:Concepts and Techniques,33,元数据的种类,转换元数据:为了从事务处理型环境向数据仓库中转换而建立的元数据,它包含了所有源数据的信息、事务描述、数据结构的定义、提取数据和传送数据的算法、综合数据和净化数据的规则、数据访问和传送的记录等。DSS元数据:在数据仓库中用来与终端用户的多维商业模型/前端工具之间建立映射,这种元数据常称为DSS元数据,常用来开发更先进的决策支持工具。,2023年2月3日星期五,Data Mining:Concepts and Techniques,34,数据仓库中的元数据的内容,关于源数据的元数据:数据源中所有物理数据结构;所有数据项的业务定义;每个数据项更新的频率,以及由谁或哪个过程更新的说明;每个数据项的有效值;其它系统中具有相同业务含义的数据项的清单。关于数据仓库映射的元数据。关于系统安全的元数据。,2023年2月3日星期五,Data Mining:Concepts and Techniques,35,元数据管理涉及到数据仓库构造、运行、维护的整个生命周期,是企业级数据仓库构建过程中十分重要的一环。所谓元数据即数据的数据,好象在一座图书馆中,如果认为每一本书的内容都是数据,用来查找每一本书的索引就是元数据。在数据仓库的构建过程中,会产生三种元数据即业务元数据、技术元数据、操作元数据,分别决定企业的业务模型、数据仓库的规划及物理设计、数据仓库的维护及数据更新策略等。庞大的企业级数据仓库涉及企业运行的众多业务处理系统和整个企业运行的各个环节,只有有效的元数据管理才能保证数据仓库与企业业务的运作保持同步并且根据市场和业务需求的变化随时作出调整,一旦业务需求发生改变,用户可以通过对元数据的维护使数据仓库的运行作出快速的响应。,2023年2月3日星期五,Data Mining:Concepts and Techniques,36,与传统数据库系统的数据字典中相似的内容。数据仓库的主题描述。外部数据和非结构化数据的描述。记录系统定义。逻辑模型的定义。数据进入数据仓库的转换规则。数据的提取历史。粒度的定义。数据分割的定义。广义索引。有关存储路径和结构的描述。,2023年2月3日星期五,Data Mining:Concepts and Techniques,37,数据仓库的数据组织,数据仓库是构建这种新的分析处理环境而出现的一种数据存储和组织技术。数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别。在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。,2023年2月3日星期五,Data Mining:Concepts and Techniques,38,数据仓库的数据组织方式,基于关系表的存储方式:这种方式的主要问题是在多维数据模型定义好后,从数据库中提取数据往往需要编制独立、复杂的程序,因此,通用性较差,且很难维护。多维数据库存储方式:多维数据库的组织方式是直接面向OLAP分析操作的数据组织形式。这种数据库产品也比较多,实现方法也不尽相同。其数据组织采用多维数据结构文件进行存储,并有维索引及相应的元数据与其对应。,2023年2月3日星期五,Data Mining:Concepts and Techniques,39,数据仓库中文件的存储方式,简单堆积文件:轮转综合文件:,2023年2月3日星期五,Data Mining:Concepts and Techniques,40,数据仓库的数据组织形式,简化直接文件:简单直接文件是按一定时间操作型数据库的一个快照,即按一定所时间间隔对数据库的采样。连续文件:它是通过比较两个连续的简单直接文件的不同而生成的另一种连续文件,生成的连续文件又可以和新的简单直接文件一起生成新的连续文件。,