《数据仓库与数据挖掘》演示稿第7章.ppt
1,复旦大学 软件学院2004.04,数据仓库与数据挖掘(第7章),2,第7章数据挖掘中的数据预处理,主要内容数据预处理的基本功能数据预处理的主要方法数据清理数据采样数据集成与变换数据约简数据的概念分层,3,DM的过程(1)DW 的步骤:数据准备:数据集成数据选择预分析挖掘表述评价(2)DW 系统的结构:,用户界面,结果输出,数据挖掘核心,知识库,数据仓库,数据库,文件系统,其他数据源,ODBC或其他专用数据库接口,4,数据准备阶段:数据的选择(选择相关的数据)净化(消除噪音、冗余数据)推测(推算缺失数据)转化(离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等)数据缩减(减少数据量)经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。,数据挖掘的过程,5,数据挖掘的过程,挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。,6,数据挖掘的过程,评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。,7,数据预处理的必要性,数据挖掘要求的数据:干净、准确、简洁、完整。原始数据存在的问题:杂乱性:来自多种数据库和文件系统,缺乏统一标准和定义。冗余性:同一个事务在数据库中可能存在多个相同的物理描述。不完整性:设计缺陷或人为原因造成数据丢失、不确定、不完整。,8,数据预处理的基本功能,数据清洗数据集成数据变换数据约简,9,数据预处理的基本功能数据清洗,功能:去除源数据中的噪声数据和无关数据重复数据处理缺值数据处理数据类型转换方法:有监督方法:有领域专家指导无监督方法:样本数据训练算法,10,数据预处理的基本功能数据集成,功能:数据的选择:从多数据源中选择数据数据冲突处理:如字段同名异义、异名同义、长度不同。数据不一致处理:如单位、命名、结构、含义不一致。数据类型的选择,11,数据预处理的基本功能数据变换,功能:格式化:将元组集按照格式化条件合并,即对属性值量纲的归一化处理。归纳:处理元组属性值之间的“is-a”语义关系。多维数据组织:采用切片、旋转、投影等操作将原始数据按照多维立方体形式组织成为不同层次、不同粒度、不同维度的聚集。,12,数据预处理的基本功能数据简化,功能:在对数据挖掘任务和原始数据充分理解的基础上,发现依赖于目标的表达数据的有用特征,从而尽可能地精简数据量。方法:属性选择:属性剪枝、并枝、相关分析。数据抽样:随机抽样、等间隔抽样、分层抽样。,13,数据预处理的主要方法,基于约略集的属性约简方法:按等价关系对属性集进行划分,求出最小约简集。基于概念树的数据浓缩方法:将元组逐层归纳为概念树,并去除噪声数据。基于信息论的数据泛化方法:数据立方体法、面向属性的归纳方法、最大熵方法。基于统计分析的属性选取方法:主成分分析、回归分析、公共因素模型分析,找出特征属性。遗传算法:高效进行数据聚类预处理。,14,数据清理空缺值处理,忽略有空缺值的元组人工填写空缺值使用一个全局常量填充空缺值使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值填充空缺值使用最可能的值填充空缺值,15,数据清理噪声数据处理,噪声:测量变量中的随机错误或偏差。数据平滑技术:分箱方法:考察邻近数据(同一箱中)的值来平滑数据值。聚类方法:通过聚类发现孤立点。计算机与人工相结合方法:识别噪声数据。回归分析:建立回归方程,识别噪声数据。,16,数据清理不一致数据处理,数据不一致处理:单位命名结构含义方法:数据集成数据变换,17,数据采样,数据采样:使用样本集代替整个数据集。方法:随机采样:使用随机函数。分层采样:根据数据分布的不平衡性(密度)控制采样频率。窗口采样:使用窗口保存一批数据作为学习算法的训练样本集。静态采样与动态采样:静态或动态确定样本集与母数据库的相似度。,18,数据集成,基本任务:将多个数据源中的数据结合起来存放在一致的数据存储(如数据仓库)中。功能:数据的选择:从多数据源中选择数据数据冲突处理:如字段同名异义、异名同义、长度不同。数据不一致处理:如单位、命名、结构、含义不一致。数据类型的选择,19,数据集成,方法:实体识别方法:利用元数据识别同名异义、异名同义的实体冗余属性识别方法:利用相关分析方法,计算属性间的相关度重复元组识别方法:同一个数据存放在多个相同的元组中数据值不一致检测与处理方法:单位、命名、结构转换,20,数据变换,基本任务:将数据转换成为适合于挖掘的形式。方法:数据平滑:去除数据中的噪声,分箱、聚类、回归数据清理聚集:对数据进行汇总和聚集,为多粒度数据构造多维立方体数据归约数据概化:使用功能分层,用高层概念替换低层原始数据数据归约,21,数据变换,方法:规范化:将属性值按比例缩放使其落入一个小的特定区间加快分类规则挖掘、学习阶段的速度;最小/最大规范化、小数定标规范化等属性构造:构造新的属性添加到属性集中提高精度和对高维数据结构的理解,有利于挖掘过程,22,数据约简,基本任务:将海量的源数据进行约简,但仍保持或接近源数据的完整性,使数据挖掘产生相同或几乎相同的结果。数据约简的方法:数据立方体聚集维归约数据压缩数值压缩离散化和概念分层,23,数据约简数据立方体聚集,数据立方体存储多维数据,创建在最低层数据立方体的称为基本立方体,最高层抽象的数据立方体称为顶点立方体,较高层的数据立方体将减少结果数据。数据立方体聚集即将感兴趣的实体提高其抽象层次,以减少结果数据,便于分析使用。,24,数据约简维归约,基本任务:删除不相关的维或属性(数百个),以减少数据量。方法:属性子集选择法,即找出最小属性集,使得数据的概论分布尽可能接近使用所有属性的原分布。问题:n个属性有2n个子集,如何找到“好的”子集?,25,数据约简维归约,属性子集选择法:压缩搜索空间的启发式算法启发式方法的技术:逐步向前选择:从空属性集开始,选择最好的属性添加入属性集。逐步向后删除:从属性全集开始,删除其中最差的属性。向前选择和向后删除结合:每一步选择一个最好的属性,并在剩余的属性中删除一个最差的属性。判定树归纳:删除不出现在判定树中的属性,26,数据压缩,基本任务:对数据进行编码和变换,得到数据的压缩表示,使用时进行解压缩,重新构造原数据(无损)或原数据的近似值(有损)。方法:离散余弦变换(DCT)离散小波变换(DWT)主成分分析(PCA),27,数据的概念分层,基本任务:利用离散化技术将属性域划分为区间,用区间标号代替实际的数据值,以减少属性值的数量。方法:分箱直方图分析聚类分析基于熵的离散化基于自然划分的数据分段,