数据仓库与数据挖掘技术第6章数据预处理技术.ppt
《数据仓库与数据挖掘技术第6章数据预处理技术.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘技术第6章数据预处理技术.ppt(62页珍藏版)》请在三一办公上搜索。
1、数据仓库与数据挖掘技术,第6章 数据预处理技术,主讲人:孙水华 副教授信息科学与工程学院,目 录,数据预处理概述 数据清理 数据集成数据变换 数据归约 小 结,数据预处理(data preprocessing)是指在对数据进行数据挖掘主要的处理以前,先对原始数据进行必要的清洗、集成、转换、离散和归约等等一系列的处理工作,以达到挖掘算法进行知识获取研究所要求的最低规范和标准。现实世界的数据库往往易受噪声、丢失数据和不一致数据的侵扰,因为数据库太大(常常多达数千兆字节,甚至更多),并且多半来自多个异构数据源。低质量的数据将导致低质量的挖掘结果。这就需要进行数据预处理,从而提高数据质量,进而提高挖掘
2、结果的质量。现在人们已经积累了大量的数据预处理技术。如何恰当选择和应用这些技术得到更有效的数据,是一个值得探讨的问题。,数据仓库和数据挖掘的应用产生了大量的数据,这些数据不一定是规范化的,它以不同的形式存储在不同的地方。根据“垃圾进,垃圾出”原理,这些低质量的数据进入系统将会导致昂贵的操作费用和系统漫长的响应时间,并且对从数据集中抽取的模式的正确性和导出规则的准确性产生巨大的影响,更严重的是会使得决策支持系统产生错误的分析结果,误导决策。,6.1 数据预处理概述6.1.1 数据预处理的必要性,现实世界采集到的大量的各种各样的数据是不符合挖掘算法进行知识获取研究所要求的规范和标准的。主要具有以下
3、特征:(1)不完整性。指的是数据记录中可能会出现有些数据属性的值丢失或不确定的情况,还有可能缺失必需的数据。这是由于系统设计时存在的缺陷或者使用过程中一些人为因素所造成的,如有些数据缺失只是因为输入时认为是不重要的;相关数据没有记录可能是由于理解错误,或者因为设备故障;与其他记录不一致的数据可能已经删除;历史记录或修改的数据可能被忽略等等。,(2)含噪声。指的是数据具有不正确的属性值,包含错误或存在偏离期望的离群值。产生的原因很多。比如收集数据的设备可能出故障;人或计算机的错误可能在数据输入时出现;数据传输中也可能出现错误。不正确的数据也可能是由命名约定或所用的数据代码不一致,或输入字段(如时
4、间)的格式不一致而导致的。实际使用的系统中,还可能存在大量的模糊信息,有些数据其至还具有一定的随机性。(3)杂乱性(不一致性)。原始数据是从各个实际应用系统中获取的,由于各应用系统的数据缺乏统一标准的定义,数据结构也有较大的差异,因此各系统间的数据存在较大的不一致性,往往不能直接拿来使用。同时来自不同的应用系统中的数据由于合并而普遍存在数据的重复和信息的冗余现象。,常见的数据预处理方法有:数据清洗、数据集成、数据变换和数据归约。图6.1给出了数据预处理的典型形式。,6.1.2 数据预处理的基本方法,数据清理(data cleaning)处理例程通常包括:填补遗漏的数据值、平滑有噪声数据、识别或
5、除去异常值,以及解决不一致问题。数据集成(data integration)就是将来至多个数据源的数据合并到一起,形成一致的数据存储,如将不同数据库中的数据集成入一个数据仓库中存储。之后,有时还需要进行数据清理以便消除可能存在的数据冗余。数据变换(data transformation)主要是将数据转换成适合于挖掘的形式,如将属性数据按比例缩放,使之落入一个比较小的特定区间。这一点对那些基于距离的挖掘算法尤为重要。包括平滑处理、聚集处理、数据泛化处理、规格化、属性构造。数据归约(data reduction)在不影响挖掘结果的前提下,通过数值聚集、删除冗余特性的办法压缩数据,提高挖掘模式的质量
6、,降低时间复杂度。,目前,数据仓库和数据挖掘在理论和应用上都获得了极大的发展,数据预处理作为其重要的、必不可少的组成部分,技术也随之快速发展。现阶段数据预处理技术中研究最多的是数据清洗和数据归约技术。,6.1.3 数据预处理的研究现状,数据清洗研究内容主要涉及以下几方面:(1)对数据集进行检测。现阶段主要有以下方法:可以采用统计学的方法来对数据进行统计分析,计算属性值的各种数值,如考虑属性值之间差别大小,方差等。还有可以对与其他数据格式不一致的数据进行格式转换,使之格式符合数据挖掘的需要。(2)对数据集中重复的对象进行消除,也就是对重复记录的清理。对重复数据的处理在数据仓库环境下特别重要,因为
7、在具有多个数据源的时候可能会产生大量的重复记录。(3)对缺失数据的补齐,研究者大多采用可靠的算法将与缺失的值最相似的值替换缺失值的方法,包括贝叶斯网络、神经网络、k-最临近分类、粗糙集理论等,这些方法大都需要判断缺失记录与完整记录之间的记录相似度,这是其核心问题。,数据归约技术及其主要内容为:(1)降维处理。主要采用删除冗余属性的方法,若用手工方法去除冗余属性就需要用到专家知识。通常使用属性子集选择方法,包括逐步向前选择法、逐步向后删除法、判定树归纳法等。(2)从数据集中选择较小的数据表示形式来减少数据量,需要用到数值归约技术,主要采用直方图、聚类等技术。(3)对信息系统中与决策属性没有关联或
8、者关联度不大的属性进行约简。通过属性约简算法之后可以得到关键属性,减少冗余属性,从而减少得到决策结果所需要的时间。(4)离散化技术减少给定连续属性值的个数。这种方法可以通过简化运算量,但大多是递归的,需要花费大量的时间在每一步的数据排序上。,数据清洗可以分为有监督和无监督两类。有监督过程是在领域专家的指导下,分析收集的数据,去除明显错误的噪声数据和重复记录,填补缺值数据;无监督过程是用样本数据训练算法,使其获得一定的经验,并在以后的处理过程中自动采用这些经验完成数据清洗工作。,6.2 数据清理,6.2.1 填充缺失值,很多的数据都有缺失值。比如,银行房屋贷款信用风险评估中的客户数据,其中的一些
9、属性可能没有记录值,如客户的家庭月总收入。填充丢失的值,可以用下面的方法。(1)忽略元组。当缺少类标号时通常这样做(假定挖掘任务涉及分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺少值的百分比变化很大时,它的性能特别差。(2)人工填写缺失值。此方法很费时,特别是当数据集很大、缺少很多值时,该方法可能不具有实际的可操作性。,(3)使用一个全局常量填充缺失值。将缺失的属性值用同一个常数(如“Unknown”或-)替换。但这种方法因为大量的采用同一个属性值可能会误导挖掘程序得出有偏差甚至错误的结论,因此要小心使用。(4)用属性的均值填充缺失值。例如,已知重庆市某银行的贷款客户的平
10、均家庭月总收入为9000元,则使用该值替换客户收入中的缺失值。(5)用同类样本的属性均值填充缺失值。例如,将银行客户按信用度分类,就可以用具有信用度相同的贷款客户的家庭月总收入替换家庭月总收入中的缺失值。(6)使用最可能的值填充缺失值。可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。例如,利用数据集中其他客户顾客的属性,可以构造一棵决策树来预测家庭月总收入的缺失值。,(7)用最邻近方法填充缺失值。方法36使数据偏置,填入的值可能不正确。然而,方法6是流行的策略,与其他方法相比,它使用已有数据的大部分信息来预测缺失值。在估计家庭月总收入的缺失值时,通过考虑其他属性的值,有更大的机会
11、保持家庭月总收入和其他属性之间的联系。,6.2.2 光滑噪声数据,噪声(noise)是被测量的变量的随机误差或方差。给定一个数值属性,如price,我们怎样才能“光滑”数据,去掉噪声?我们看看下面的数据光滑技术。(1)分箱(binning)。分箱方法通过考察数据的“近邻”(即周围的值)来光滑有序数据的值。有序值分布到一些“桶”或箱中。由于分箱方法考察近邻的值,因此进行局部光滑。一般来说,宽度越大光滑效果越大。箱也可以是等宽的,每个箱值的区间范闱是个常量。(2)回归。可以用一个函数(如回归函数)拟合数据来光滑数据。线性回归涉及找出拟合两个属性(或变量)的“最佳”线,使得一个属性可以用来预测另一个
12、。多元线性回归是线性回归的扩展,其中涉及的属性多于两个,并且数据拟合到一个多维曲面。,(3)聚类。可以通过聚类检测离群点,将类似的值组织成群或“簇”。直观地,落在簇集合之外的值视为离群点。(4)人工检测。人工检测是由专业人员识别孤立点。通过人与计算机的结合,相比单纯手动检查整个数据库可以提高效率。,把数据清理作为一个过程,该过程包括下列两个步骤:第一步是偏差检测(discrepancy detection)。发现噪声、离群点和需要考察的不寻常的值时,可以使用已有的关于数据性质的知识。这种知识或“关于数据的数据”称作元数据。考察每个属性的定义域和数据类型、每个属性可接受的值、值的长度范围;考察是
13、否所有的值都落在期望的值域内、属性之间是否存在已知的依赖;把握数据趋势和识别异常,比如远离给定属性均值超过两个标准差的值可能标记为潜在的离群点。另一种错误是源编码使用的不一致问题和数据表示的不一致问题(如日期“20090925”和“25092009”)。而字段过载(field overloading)是另一类错误源。考察数据还要遵循唯一性规则、连续性规则和空值规则。可以使用其他外部材料人工地加以更正某些数据不一致。如数据输入时的错误可以使用纸上的记录加以更正。但大部分错误需要数据变换。,6.2.3 数据清理过程,第二步是纠正偏差。也就是说,一旦发现偏差,通常我们需要定义并使用(一系列)变换来纠
14、正它们。商业工具可以支持数据变换步骤。但这些工具只支持有限的变换,因此,我们常常可能选择为数据清理过程的这一步编写定制的程序。偏差检测和纠正偏差这两步过程迭代执行。随着我们对数据的了解增加,重要的是要不断更新元数据以反映这种知识。这有助于加快对相同数据存储的未来版本的数据清理速度。,6.3 数据集成,数据集成主要是将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义的模型性问题。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的处理问题。在数据集成时,首先需要考虑的是模式集成和对象匹配问题。来自多个信息源的现实世界的等价实体的匹配涉及实体识别问题。例如,判断一个数据库中的cust
15、omer_id与另一个数据库中的cust_number是否是相同的属性。每个属性的元数据可以用来帮助避免模式集成的错误,元数据还可以用来帮助变换数据。,冗余是在数据集成时另一个需要考虑的重要问题。一个属性可能是冗余的,如果它能由另一个或另一组属性“导出”。属性或维命名的不一致也可能导致结果数据集中的冗余。有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据度量(两个属性之间的相关系数)估计一个属性能在多大程度上蕴涵另一个属性。对于数值属性a和b,之间的相关系数rAB为,其中,n是数据集的样本个数,ai和bi分别是元组i中a和b的值,和分别是a和b的均值,A和B分别是a和b的标
16、准差,即,-1rab+l。如果rab大于0,则a和b是正相关的,该值越大,相关性越强(即每个属性蕴涵另一个的可能性越大)。因此,一个较高的rab值表明a(或b)可以作为冗余而被去掉。如果结果值等于0,则a和b是独立的,不存在相关。如果结果值小于0,则a和b是负相关的,一个值随另一个的减少而增加。这意味每一个属性都阻止另一个属性的出现。,数据集成的第三个重要问题是数据值冲突的检测与处理。例如,对于现实世界的同一实体,来自不同数据源的属性值可能不同。这可能是因为表示、比例或编码不同。例如,重量属性可能在一个系统中以公制单位存放,而在另一个系统中以英制单位存放。对于连锁旅馆,不同城市的房价不仅可能涉
17、及不同的货币,而且可能涉及不同的服务(如免费早餐)和税。,数据变换把数据转换成适应于挖掘的形式。通过对某些属性按比例进行缩放,使属性取值落在较小的区间,例如数值型属性可以规范化到0,1区间,这种变换对聚类、神经网络等算法都是必要的。连续属性离散化也是决策树等分类分析常用的预处理。属性规范化会减少挖掘过程所用的时间,而且规范化可以有效地避免较大取值的属性对数据挖掘的过度影响。数据变换主要涉及如下方法:光滑、聚集、数据泛化、规范化。,6.4 数据变换,(1)光滑,光滑:去掉数据中的噪声。这种技术包括分箱、回归和聚类等。回归和聚类技术在后面介始,这里简要介绍一下分箱技术。分箱是通过分析邻近的值平滑存
18、储数据的值,可处理连续型和分类型变量,以得到更少的变量取值种类以便于分析。数据被分布到箱中,分箱的方法是进行局部的平滑,也可以作为一种离散化技术使用。在图6.2中,学生的数学成绩(已排序)被划分存入到等深的深度为3的箱中,然后采用下面的方法之一平滑。1)按箱平均值平滑分箱:箱中每一个值都按箱中的平均值替换,例如箱1中的值61、65、69的平均值是65,该箱中的每一个值被箱中的平均值65替换。2)按箱中值平滑:箱中的每一个值,按箱中的中值替换。3)按箱边界平滑:箱中的最大和最小值被视为箱边界。箱中的每一个值被最近的边界替换。,(2)聚集,聚集:对数据进行汇总或聚集。例如,可以聚集日销售数据,计算
19、月和年销售量。通常,这一步用来为多粒度数据分析构造数据立方体。聚集产生较小的数据集,使得分析的数据更稳定,但也应注意可能会丢失有趣的细节。,(3)数据泛化,数据泛化:使用概念分层,用高层概念替换低层或“原始”数据。例如,分类的属性,如街道,可以泛化为较高层的概念,如城市或国家。类似地,数值属性如年龄,可以映射到较高层概念如青年、中年和老年。,(4)规范化,规范化:如果描述样本或记录的变量单位不统一,数值差别比较大,就需要把数据归一化、指数化或标准化,把不同的属性进行比例缩放,使它们的值落在大致相同的范围内,如-1.O1.0或O.O1.0。有许多数据规范化的方法,常用的有三种:最小-最大规范化、
20、z-score规范化和按小数定标规范化。,1)最小-最大规范化。假定mA和MA分别为属性A的最小值和最大值。最小-最大规范化通过计算,将A的值v映射到区间new_mA,new_MA中的v。最小-最大规范化对原始数据进行线性变换,保持原始数据值之间的联系。如果今后的输入落在A的原始数据值域之外,该方法将面临“越界”错误。,2)z-score规范化(零均值规范化)。把属性A的值v基于A的均值和标准差规范化为v,通过下列公式计算:,其中,和A分别为属性A的均值和标准差。当属性A的实际最大和最小值未知,或离群点左右了最大-最小规范化时,该方法是有用的。假定属性平均家庭月总收入的均值和标准差分别为900
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 技术 预处理
链接地址:https://www.31ppt.com/p-6296222.html