数据仓库和数据挖掘.ppt
《数据仓库和数据挖掘.ppt》由会员分享,可在线阅读,更多相关《数据仓库和数据挖掘.ppt(64页珍藏版)》请在三一办公上搜索。
1、第7章 数据仓库和数据挖掘,本章学习目标了解数据仓库的概念及特点了解数据挖掘的应用和功能熟悉数据挖掘的几种主要技术,第7章 数据仓库和数据挖掘,7.1 数据仓库概述,7.2 数据挖掘概述,7.3 数据挖掘的主要技术,7.4 数据仓库和挖掘对CRM的影响,第7章 数据仓库和数据挖掘,7.1 数据仓库概述,7.2 数据挖掘概述,7.3 数据挖掘的主要技术,7.4 数据仓库和挖掘对CRM的影响,什么是数据仓库?,7.1.1 数据仓库概念与特点,始于20世纪80年代初,“数据仓库之父”William H.Inmon。“数据仓库是在企业管理和决策中面向主题的、集成的、相对稳定的、与时间相关的数据集合,以
2、支持经营管理中的决策。数据仓库用于支持决策,面向分析型数据处理,不同于企业现有的操作型数据库;数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据。,7.1.1 数据仓库概念与特点,1、面向主题,2、集成的数据,3、数据相对稳定,4、数据仓库的时间相关性,特点,7.1.1 数据仓库概念与特点,(1)面向主题 数据库:面向事务处理任务,各系统分离 数据仓库:按照一定的主题域组织在一起 主题:用户使用数据仓库进行决策时所关心的重点方面。针对决策者的数据分析,而不是日常事务的处理,因而排除了对决策无用的数据,提供了特定主题的简明视图。是对应企业中某一宏观分析领域所涉及的分析
3、对象,是针对某一决策问题而设置的。,财务子系统,销售商分析,产品分析,销售子系统,供应子系统,人力资源子系统,消费者分析,数据仓库,生产调度子系统,数据库,面向主题,面向事务,例如:一个保险公司的数据仓库所组织的主题可能是:客户、政策、保险金、索赔等,而按应用来组织则可能是:汽车保险、生命保险、伤亡保险等。,7.1.1 数据仓库概念与特点,(2)集成的数据 从原来分散的多个异种数据源(关系数据库、文本数据库、Web数据库、一般文件等)构成的子系统中提取数据。原有数据库系统记录的是每一项业务处理的流水账,不适合分析处理,在进入数据仓库之前必须进行综合、计算,抛弃分析处理不需要的数据项,必要时增加
4、一定的外部数据。原分散数据库中有很多重复或不一致的地方,必须消除不一致和错误,全局统一。,为何进行数据集成?,7.1.1 数据仓库概念与特点,(3)数据相对稳定 数据库:通常定时更新,根据需要变化 数据仓库:主要供查询,只读。从内容上看,存储当前和历史的数据,不是日常事务产生的数据,并且当前数据在一定时间间隔后要转换成历史数据转存慢速设备,不需要的则删除,因此极少修改。,火车票销售,7.1.1 数据仓库概念与特点,(4)数据仓库的时间相关性 数据仓库中的数据都要表明时间属性。通常包含历史信息,记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的
5、发展历程和未来趋势做出定量分析和预测。为了满足决策分析的需要,数据仓库的数据存储期限一般为510年,当超过数据仓库的存储期限,或对分析不再有用时,这些数据将从数据仓库中删去。,学籍管理系统&成绩管理系统,财务系统,传统数据库与数据仓库,日常业务的自动化处理属于联机事务处理只涉及当前数据,系统积累下的历史业务数据往往被转存到脱机的环境中,用于支持高层决策分析属于联机分析处理对自身业务的运作及整个市场相关行业的态势进行分析,做出有利的决策,通存通兑,增设自助网点,7.1.2 传统数据库与数据仓库,联机的事务处理系统,异构的外部数据源,脱机的历史业务数据,数据中心(仓库),data,data,dat
6、a,为分析统计和决策支持应用服务,联机事务处理和联机分析处理,联机事务处理(OLTP)传统的关系型数据库的核心应用。OLTP:执行基本的增加、删除等联机事务和查询处理,及时、安全地将当前事务所产生的记录保存下来。几乎涵盖了组织的大部分日常操作。SQL语言例如:银行交易管理系统中,每天的大量操作都限于增加新账号、删除旧账号、更改账号中的金额数据、查询客户账号余额等。,联机分析处理(OLAP)数据仓库的核心应用。OLAP:针对同一个主题对数据进行分析、查询和生成报表,从而快速、交互地得出决策支持的分析结论。基本功能是对用户当前及历史数据进行分析以辅导领导决策,侧重决策支持,并提供直观易懂的查询结果
7、。,OLTP&OLAP,7.1.3 CRM中数据仓库的结构,体系结构斯坦福大学的数据仓库体系结构,客户应用,数据仓库,集成器,监视器/包装器,监视器/包装器,监视器/包装,信息,信息,信息,7.1.3 CRM中数据仓库的结构,体系结构综合的数据仓库的体系结构,数据源,抽取 清理装载 刷新,数据仓库,服务,前端工具,查询工具,报表工具,分析工具,数据挖掘工具,数据集市,OLAP,OLAP,主题,主题,主题,7.1.3 CRM中数据仓库的结构,组织结构四个级别,当前细节级,集成,轻度综合级,提取综合,高度综合级,精炼综合,早期细节级,老化的数据,最近时期的业务数据,被转储于磁带等转换介质,四个级别
8、,7.1.3 CRM中数据仓库的结构,关于数据的数据组织仓库内的数据存储,描述何种信息存于何处,怎样编码,怎样与其他信息相关,来自哪里,怎样与业务相关。元数据对于管理、组织、探索数据非常重要,它能够让用户知道数据仓库有什么,以及如何使用。例如:数据仓库表的结构、数据仓库表的属性、数据仓库的元数据、抽取日志。,组织结构元数据,7.1.3 CRM中数据仓库的结构,组织结构图,高度综合级,面向决策人员,生产线每月销售,轻度综合级,面向管理人员,中心数据库,当前细节级,销售细节级,操作型转换,早期细节级,销售细节级,子生产线每周销售,元数据,7.1.4 数据仓库几个重要概念,对数据仓库中数据综合程度的
9、一个度量粒度越高,综合程度越高,细节程度越低粒度越低,综合程度越低,细节程度越高将近期的、综合的、查询频率高的高粒度数据存放于磁盘、光盘等快速设备将久远的、细节的、查询频率低的低粒度数据存放于磁带等低速设备,(1)粒度,7.1.4 数据仓库几个重要概念,将数据分散到各自的物理单元中,以便能分别地、独立地处理,提高效率。数据分割时可以依据不同的标准,如日期、地域或业务领域等,也可以是它们的组合,一般按日期分割不可或缺。数据分割后的数据单元称为分片,各个分片内的数据独立,处理和重构、监控等操作更容易。,(2)分割,7.1.4 数据仓库几个重要概念,是数据仓库的一个子集,只包含公司业务某一方面的数据
10、子集。数据集市的目标是把不同的数据提供给不同的用户。数据集市在物理上独立,被布局在局域网的一个单独的数据服务器上,专门为某一类特定用户服务,以满足只对数据仓库中一部分数据感兴趣的用户的分析需求。,(3)数据集市DM(Data Marts),7.1.5 数据仓库的主要技术,1.联机分析处理(OLAP)(1)MOLAP 多维联机分析处理。以多维数据仓库为核心,以多维方式存储和显示数据。在多维数据存储“超立方块”的结构技术上使用各种报表技术。当用户发出请求时,从多维立方体中而不是数据仓库中取得数据,多维数据的处理速度快。综合数据多,不能存储大量细节数据,粒度不会太细。技术较新,处理大规模数据能力较弱
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘
链接地址:https://www.31ppt.com/p-5270306.html