决策支持系统第四讲数据挖掘概述OLA.ppt
第四讲决策支持的新技术,第一节 数据仓库技术,4.1.1 数据仓库的基本知识 数据仓库系统的结构 4.1.3 数据仓库的运行结构 4.1.4 数据集市的结构,第二节 数据挖掘技术,4.2.1 数据挖掘概述 4.2.2 数据挖掘基本过程与步骤4.2.3 数据挖掘的任务与挖掘方法4.2.4 数据挖掘与数据仓库的关系,第三节 联机分析处理技术,4.3.1 基本概念 4.3.2 OLAP的数据组织 4.3.3 OLAP的多维数据分析方法 OLAP的发展,4.1.1 数据仓库的基本知识,一.从数据库到数据仓库,事务处理环境不适宜决策应用的主要原因:1.事务处理环境和分析处理的性能、特性不同2.数据集成问题3.数据动态集成问题4.历史数据问题5.数据的综合问题6.不同的使用对象,4.1.1 数据仓库的基本知识,二.数据仓库的概念,是面向主题的、集成的、稳定的、随时间变化的数据集合,用于支持经营管理中的决策制定过程。面向主题集成稳定随时间变化,2.SAS软件研究所的观点,3.DW是作为DSS的基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。4.DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的,即与企业定义的时间段相关的、面向主题且不可更新的数据集合。5.,三.数据仓库的特点,1.数据仓库是面向主题的。,2.数据仓库是集成的。,3.数据仓库是稳定的。,4.数据仓库是随时间变化的。,5.数据仓库中的数据量很大。,6.数据仓库软硬件要求较高。,四.数据库与数据仓库的区别,1.数据库是面向业务的,使用者是企业的一般业务人员,进行企业日常数据处理和维护工作。2.数据仓库是面向决策的,使用者是企业的高层管理人员,它也是使用关系数据库,当数据仓库不负责处理业务。3.数据库注重的是企业运行的当前数据,任务是收集和记录企业的原始业务数据,而DW面对的是非即时性的历史数据,通过从业务数据中提取,加工处理后提供给决策人员。,4.1.2 数据仓库系统的结构,一.数据仓库管理系统 1.定义部件 2.数据获取部件 3.管理部件 4.目录部件(元数据)5.DBMS部件,二.数据仓库的结构构成 1.数据仓库的构成,二.数据仓库的结构构成 2.数据仓库的元数据,(1)关于数据源的元数据,数据源中所有的物理数据结构,包括所有的数据项和数据类型;所有数据项的业务定义;每个数据项更新频率,以及由谁或哪个过程更新的说明;每个数据项的有效值;其他系统中具有相同业务含义的数据项的清单。,2.数据仓库的元数据,(2)关于数据模型的元数据,I/O对象:支持数据仓库I/O操作的各种对象;关系:两个I/O对象之间的关联;关系成员:描述每个关系中两个I/O对象的具体角色、关系度以及约束条件;关系关键字:描述两个I/O对象如何建立关联。,2.数据仓库的元数据,(3)关于数据仓库映射的元数据,用该类元数据反映数据仓库中的数据项是从哪个特定数据源填充的,经过哪些转换、变换和加载过程。这类数据可以用来生成程序,以完成数据的转换工作,即实现操作型数据转换为面向主体的数据仓库的数据。,2.数据仓库的元数据,(4)关于数据仓库使用的元数据,元数据告诉数据仓库中有什么数据,它们是从哪儿来的,即如何按主题查看数据仓库的内容;元数据提供已有的可重复利用的查询语言信息。,2.数据仓库的元数据,(5)元数据的作用DW的核心,定位数据仓库的目录作用;数据从业务环境向数据仓库传送时数据的目录内容;指导从当前基本数据到轻度综合数据、轻度综合数据到高度综合数据的综合算法的选择。,三.数据仓库的工具集 1.分析工具(1)查询工具(2)可视化工具 2.挖掘工具,四.数据进入DW的过程与建立DW的步骤 1.数据进入DW的基本过程(教材p221),提取:从操作型数据库中选择并提取所需要的字段;变换:为来自数据源的数据指定常用的格式和名称;净化:更正错误的数据;加载:把净化过的数据载入到DW数据里;汇总:提前计算出任何期待的DW数据的汇总供以后使用。,2.建立DW的步骤,收集和分析业务需求建立数据模型和数据仓库的物理设计(包括划分粒度和数据分割两部分内容)定义数据源选择DW技术和平台从操作型DB中提取、转换、净化并加载到DW中选择访问和报表工具选择DB连接软件选择数据分析和数据展示软件更新DW,4.1.3 数据仓库的运行结构,两层C/S结构:,三层C/S结构:,4.1.4 数据集市的结构,一.数据集市的概念,数据集市是指具有特定应用的数据仓库,主要针对某个具体战略意义的应用或具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或找到进入新市场的具体解决方案。,二.数据集市的特点,1.规模是小的;2.特定的应用;3.面向部门;4.由业务部门定义、设计、开发、管理和维护;5.快速实现;6.购买较便宜;7.投资快速回收;8.工具集的紧密集成;9.更详细的、预先存在的数据仓库的摘要子集;10.可升级到完整的数据仓库。,三.数据集市与数据仓库的关系 1.数据集市不等于数据仓库,多个数据集市合并起来不能成为数据仓库。,各个数据集市之间对详细数据和历史数据的存储存在大量冗余;同一个问题在不同的数据集市的查询结果可能不一致,甚至相互矛盾;各数据集市之间以及与源数据库系统之间难以管理。,2.数据仓库与数据集市的区别,(1)DW是基于整个企业的数据模型建立的,它面向企业范围内的主题,而数据集市是按照某一特定部门的数据模型建立的,也称为部门级别DW。(2)数据仓库中存储整个企业内的详细数据,而数据集市中的数据的详细程度要低一些,包含的概要和累加数据要多一些。(3)数据集市的数据组织一般采用星形模型,而大型数据仓库的数据组织采用第三范式。,四.数据集市的两种结构,从属数据集市,从属数据集市:数据来源于中央DW,一般为那些访问DW频繁的关键业务部门建立。,独立数据集市,独立数据集市:数据直接来源与企业的业务功能系统,与企业DW在数据量和服务对象有所区别,逻辑结构无区别。,4.2.1 数据挖掘概述,一.案例NBA通过数据挖掘取得飞跃,二.数据挖掘的概念,DM也称为数据库中的知识发现(KDD),是从大量数据集中提取出隐含的、非平凡的、潜在有用的信息或模式的高级处理过程。数据挖掘是知识发现的核心步骤。DM的技术基础是AI、机器学习和统计学。被提取的知识的类型可以是总结性知识、关联性知识、分类模型知识、聚类模型知识,这些知识可表示为概念、规则、规律、模式等形式;知识的类型。,三.数据挖掘的优点与缺点 1.优点,(1)减少了用户的工作量。(2)使用户得到意外的信息。(3)对数据的迅速变化可作出快速响应,以提供决策支持信息。,三.数据挖掘的优点与缺点 2.缺点,(1)对计算机的性能要求高。(2)意外的信息不可靠。(3)即使发现一个潜在的可以利用的关系,其实际使用价值也可能不太明显。,4.2.2 数据挖掘基本过程与步骤,一.数据挖掘的基本过程 1.数据准备,(1)数据集成:从操作型环境中提取并集成数据,解决语义二义性问题。(2)数据选择:确定发现任务的操作对象;(3)数据预处理:消除噪音、推导计算缺值数据、完成数据类型的转换,削减数据维数或降维。,一.数据挖掘的基本过程 2.数据挖掘,(1)确定数据挖掘的任务或目的;(2)根据不同的数据的特点,用户和实际运行系统的要求决定要使用的数据挖掘的算法;(3)实施数据挖掘,获取有用的模式。,一.数据挖掘的基本过程 3.数据表述与评价,(1)将获取的信息以便于用户理解和观察的方式反映给用户;(2)用评价指标对获取的信息评价,发现不满足用户需求的模式,并返回到DM的前面阶段,重新实施DM。,二.进行数据挖掘的步骤 1.问题定义 2.发现信息 3.制定计划 4.采取行动 5.检测结果,4.2.3 数据挖掘的任务与挖掘方法,一.数据抽取:对数据进行浓缩,给出它的紧凑描述。1.多维数据分析方法:是一种数据仓库技术,它把汇集操作结果预先计算并存贮起来,供DSS使用。2.面向对象的归纳方法:对用户感兴趣的数据视图进行泛化,从较高层次上总结了在低层次上的原始关系。,二.分类发现,分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一个训练样本数据集作为输入。,三.聚类,聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。,四.关联规则发现,用于关联规则发现的主要对象是事务型数据库,其中针对的应用则是售货数据。事实上人们一般只对满足一定的支持度和可信度的关联规则感兴趣。为了发现出有意义的关联规则,需要给定两个阀值:最小支持度和最小可信度。,4.2.4 数据挖掘与数据仓库的关系,1.DM比DW的汇总型分析处理要详细和深入得多;2.DW的发展是促进DM发展的一个重要原因,DM经常被看成是DW的后期市场产品,DW中具有最丰富的资源可供挖掘;3.DW不是DM的必要条件,当DW可为DM的数据集成和数据准备提供一种好的方法;4.DM可能是DW的一个逻辑上的子集,而非一定得是物理上单独的数据库。,用户查询请求,信息发布、查询分类、解释,查询协同管理,业务系统及其他系统,异构数据源,DM技术,模型库管理,方法库管理,KM,DW,数据导入、转移与质量保障工具,其他信息分析工具,KB,知识共享平台,4.3.1 基本概念,一.OLAP的概念 1.OLAP理事会:,一种软件技术,它是分析人员能迅速、一致、交互地从各个方面(维)观察信息,以达到深入理解数据的目的。,一.OLAP的概念 2.OLAP的简单定义:,是共享多维信息的快速分析。(1)快速性(2)可分析性(3)多维性关键和核心属性(4)信息性,二.OLAP的其他基本概念,1.变量2.维:观察数据的特定角度。3.维的层次:从某个特定角度观察数据时的不同细节程度。4.维成员:维的取值。5.多维数组6.数据单元(单元格):多维数据的取值就是数据单元。,三.OLAP与OLTP的关系与比较,4.3.2 OLAP的数据组织,一.ROLAP(Relation OLAP),基于关系数据库存贮方式建立;将多维数据映像成平面型的关系表中的行。代表:星型模式。将基本信息存贮在一个单独的“事实表”中,有关维的支持信息放在其他表中。特征:由一个很强的SQL生成器,对应目标DB,能对SQL进行优化,通过元数据指导查询,有区分客户、服务器及中间件的能力。,二.MOLAP(Multi-dimension OLAP),基于多维数据库存贮方式建立;多维数据库由许多经压缩的、类似于数组的对象构成;每个对象由聚集成组的单元块组成,每个单元块按类似于多维数组的结构存贮,通过直接偏移计算进行存取。,三.两种组织方式的比较,4.3.3 OLAP的多维分析方法,一.切片,1.在多维数组的某一维上,选定一维成员的方法;2.选定多维数组(维1、维2、维n,变量)中的两个维,如维i和维j,在这两个维上取某一区间或任意维成员,将其余的维都取定一个维成员,则得到的就是多维数组在维i和维j上的一个二维子集,称这个二维子集为多维数组在维i和维j上的一个切片,表示为(维i,维j,变量)。,二.切块,选定多维数组(维1、维2、维n,变量)中的三维,如维i、维j和维r,在这三个维上取某一区间或任意的维成员,将其余的维都取定一个维成员,则得到的就是多维数组在维i、维j和维r上的一个三维子集,称这个三维子集为多维数组在维i、维j和维r上的一个切块,表示为(维i,维j,维r,变量)。,三.旋转/转轴四.钻取,改变一个报告或页面显示的维方向。,有向下钻取、向上钻取、跨越钻取、上卷等操作。,4.3.4 OLAP的发展与应用,一.OLAP和DM有机结合起来形成了新技术联系分析挖掘(OLAM)二.OLAP广泛的应用领域,