数据挖掘概念与技术CHAPTER3-数据仓库与OLAP技术.ppt
《数据挖掘概念与技术CHAPTER3-数据仓库与OLAP技术.ppt》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术CHAPTER3-数据仓库与OLAP技术.ppt(59页珍藏版)》请在三一办公上搜索。
1、第3章 数据挖掘的数据仓库与OLAP技术,2,第3章:数据挖掘的数据仓库与OLAP技术,什么是数据仓库?多维数据模型数据仓库结构数据仓库实现数据立方体的进一步发展从数据仓库到数据挖掘,3,什么是数据仓库?,有不同的方法定义,但不是严格的.是一个决策支持数据库,它与组织机构的操作数据库分别维护数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,支持信息处理.W.H.Inmon的定义:数据仓库是 面向主题的(subject-oriented),集成的(integrated),时变的(time-variant),和非易失的(nonvolatile)数据集合,支持管理决策过程
2、建立数据仓库(Data warehousing):构造和使用数据仓库的过程,4,数据仓库面向主题的,围绕重要的主题(如顾客、产品、销售等)组织.关注决策制定者的数据建模与分析,而不是日常的操作和事务处理.数据仓库排除对于决策过程无用的数据,提供特定主题的简明视图.,5,数据仓库 集成的,通过将多个异种的数据源集成在一起,而构造比如,关系数据库,一般文件,联机事务记录使用数据清理和数据集成技术.确保命名约定,编码结构,属性度量等的一致性例如,饭店价格:货币种类,税,是否含早餐,等.当数据装入数据仓库时,数据将被转换.,6,数据仓库 时变的,数据仓库的时间跨度显著地比操作数据库长.操作数据库数据:
3、当前值数据.数据仓库数据:从历史的角度提供数据(例如,过去 5-10 年)数据仓库中的每个键结构显式或隐式地包含时间元素,但是,操作数据的键可能包含,也可能不包含“时间元素”.,7,数据仓库 非易失的,从操作环境转换过来的数据物理地分离存放.数据的更新不在数据仓库环境中出现.不需要事务处理,恢复,和并发控制机制只需要两种数据存取操作:数据的初始化装入 和 数据访问.,8,数据仓库和异种DBMS,传统的异种数据库集成:在异种数据库上建立一个包装程序(wrappers)或中介程序(/mediators)查询驱动的方法当查询提交给一个站点时,使用元数据词典将查询转换成所涉及的异构站点上的相应查询,查
4、询的结果被集成为一个全局回答的集合 需要:复杂的信息过滤,对资源的竞争数据仓库:更新驱动的,高性能来自异种信息源的数据被预先集成并存储在数据仓库中,直接用于查询和分析,9,数据仓库VS.操作数据库,OLTP(on-line transaction processing,联机事务处理)传统关系 DBMS的主要任务涵盖日常操作:购买,库存,银行,制造,工资单,注册,记帐,等.OLAP(on-line analytical processing,联机分析处理)数据仓库系统的主要任务数据分析和决策制定上提供服务不同的特点(OLTP vs.OLAP):用户和系统的面向性:顾客 vs.市场数据内容:当前的
5、,细节的 vs.历史的,合并的数据库设计:ER+应用 vs.星型+主题视图:当前的,局部的 vs.进化的,集成的访问模式:更新 vs.只读的,但是复杂的查询,10,OLTP vs.OLAP,11,为什么建立分离的数据仓库?,为了两个系统的高性能DBMS 目的是 OLTP:存取方法,索引,并发控制,恢复数据仓库目的是 OLAP:复杂的 OLAP 查询,多维视图,统一.不同的功能和不同的数据:缺少数据:决策支持需要历史数据,通常操作数据库并不维护这些数据数据统一:决策支持需要将来自异种数据源的数据统一(聚集,汇总)数据质量:不同的数据源通常使用不同的数据表示,编码,和应当遵循的格式,12,第2章:
6、数据挖掘的数据仓库与OLAP技术,什么是数据仓库?多维数据模型数据仓库结构数据仓库实现从数据仓库到数据挖掘数据立方体的进一步发展,13,由表和电子数据表到数据方,数据仓库基于 多维数据模型,多维数据模型将数据视为数据方(data cube)形式数据方(如sales)可以将数据建模,并允许由多个维进行观察维表,如 item(item_name,brand,type),或 time(day,week,month,quarter,year)事实表包含度量(如 dollars_sold)和每个相关维表的键在数据仓库的文献中,一个 n-D 基本立方体 称作基本方体(base cuboid).最顶部的 0
7、-D方体存放最高层的汇总,称作顶点方体(apex cuboid).方体的格形成数据方.,14,立方体:方体的格,all,time,item,location,supplier,time,item,time,location,time,supplier,item,location,item,supplier,location,supplier,time,item,location,time,item,supplier,time,location,supplier,item,location,supplier,time,item,location,supplier,0-D(顶点)方体,1-D 方体
8、,2-D方体,3-D方体,4-D(基本)方体,15,数据仓库的概念建模,数据仓库建模:多维模型,涉及维和度量星型模式:事实表在中央,连接一组维表雪花模式:星型模式的精炼,其中一些维分层结构被规范化成一组较小的维表,形成类似于雪花的形状,减少冗余事实星座:多个事实表共享维表,可以看作星星的集合,因此称作星系模式,或事实星座,16,星型模式的例子,事实表,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,17,雪花模式的例子,Sales Fact Table,time_key,i
9、tem_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,18,事实星座的例子,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,Shipping Fact Table,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,19,数据挖掘查询
10、语言 DMQL:语言原语,立方体定义(事实表)define cube:维定义(维表)define dimension as()特殊情况(共享维表)第一次,如“cube definition”define dimension as in cube,20,用DMQL定义星型模式,define cube sales_star time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(ti
11、me_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier_type)define dimension branch as(branch_key,branch_name,branch_type)define dimension location as(location_key,street,city,province_or_state,country),21,用DMQL定义雪花模式,define cube sales_snowflake tim
12、e,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(time_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier(supplier_key,supplier_type)define dimension branch as(bran
13、ch_key,branch_name,branch_type)define dimension location as(location_key,street,city(city_key,province_or_state,country),22,用DMQL定义事实星座,define cube sales time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(time_key,
14、day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier_type)define dimension branch as(branch_key,branch_name,branch_type)define dimension location as(location_key,street,city,province_or_state,country)define cube shipping time,item,shipper,from_location,t
15、o_location:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)define dimension time as time in cube salesdefine dimension item as item in cube salesdefine dimension shipper as(shipper_key,shipper_name,location as location in cube sales,shipper_type)define dimension from_location as location in cu
16、be salesdefine dimension to_location as location in cube sales,23,三类度量(数值函数),分布的(distributive):将数据划分为n个集合,函数在每一部分上的计算得到一个聚集值.如果将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的结果一样,则该函数可以用分布方式计算.例,count(),sum(),min(),max().代数的(algebraic):如果它能够由一个具有M(其中,M是一个整数界)个参数的代数函数计算,而每个参数都可以用一个分布聚集函数求得.例,avg(),min_N(),standard_dev
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 技术 CHAPTER3 数据仓库 OLAP
链接地址:https://www.31ppt.com/p-6296669.html