数据挖掘概念与技术.ppt
《数据挖掘概念与技术.ppt》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术.ppt(103页珍藏版)》请在三一办公上搜索。
1、数据挖掘,滕少华 广东工业大学协同计算与知识工程,第二章数据及数据预处理,滕少华 Tel:E-mail:,内容提要,数据及数据类型为什么要预处理数据?描述数据的汇总(为数据预处理提供分析的基础)数据清理数据集成和变换数据归约相似度计算,2023年8月15日星期二,3,协同计算与知识工程,数据及数据类型,相关概念数据狭义:数字。广义:数据对象及其属性的集合,其表现形式可以是数字、符号、文字、图像抑或是计算机代码等等。属性(也称为特征、维或字段),是指一个对象的某方面性质或特性。一个对象通过若干属性来刻画。数据集数据对象的集合,2023年8月15日星期二,4,协同计算与知识工程,5,属性,包含电信
2、客户信息的样本数据集,案例,对象,2023年8月15日星期二,协同计算与知识工程,不同的属性类型,2023年8月15日星期二,6,协同计算与知识工程,7,数据集的特性,维度指数据集中的对象具有的属性个数总和。因为在高维度数据集中经常会遇到维度灾难,因此数 据预处理的一个重要技术是维归约稀疏性指在某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0;非零项不到1%。文本数据集分辨率(粒度)不同分辨率或粒度下数据的性质不同,2023年8月15日星期二,协同计算与知识工程,8,数据集的类型,记录数据事务数据或购物篮数据数据矩阵文本数据基于图形的数据万维网化合物结构有序数据时序数据(时态数据
3、)序列数据时间序列数据空间数据流数据,2023年8月15日星期二,协同计算与知识工程,9,记录数据,事务数据(Transaction Data)是一种特殊类型的记录数据,其中每个记录涉及一个项的集合。,典型的事务数据如超市零售数据,顾客一次购物所购买的商品的集合就构成一个事务,而购买的商品就是项。这种类型的数据也称作购物篮数据,因为记录中的每一项都是一位顾客“购物篮”中购买的商品。,2023年8月15日星期二,协同计算与知识工程,10,数据矩阵,如果一个数据集簇中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间中的点,其中每个维代表描述对象的一个不同属性。数据集可以用一个mn的
4、矩阵表示,其中m行,一个对象一行;n列,一个属性一列。,2023年8月15日星期二,协同计算与知识工程,11,文本数据,文档用词向量表示每个词是向量的一个分量(属性)每个分量的值是对应词在文档中出现的次数,2023年8月15日星期二,协同计算与知识工程,12,图形数据,网页链接化合物结构,2023年8月15日星期二,协同计算与知识工程,有序数据,时序数据(时态数据如工资,职称等)序列数据(序列数据库S是元组的集合,其中SID是序列ID,s是一个序列)时间序列数据(由不同时间重复测量得到的值。).,2023年8月15日星期二,13,协同计算与知识工程,内容提要,数据及数据类型为什么要预处理数据?
5、描述数据的汇总(为数据预处理提供分析的基础)数据清理数据集成和变换数据归约相似度计算,2023年8月15日星期二,14,协同计算与知识工程,为什么进行数据预处理?,现实中的数据都是杂乱无章的不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据含噪声的:包含错误或孤立点值不一致的:在代码或名称上存在差异例1:过去的等级:“1,2,3”,现在的等级:“A,B,C”例2:Age=“48”Birthday=“03/07/1963,2023年8月15日星期二,15,协同计算与知识工程,不完整数据的成因数据收集的时候就缺乏合适的值数据收集时和数据分析时的不同考虑因素人为/硬件/软件 问题噪声数据(不正确
6、的值)的成因数据收集工具的问题数据输入时的人为/计算机 错误数据传输中产生的错误数据不一致性的成因不同的数据源违反了函数依赖性,数据为什么会变脏,2023年8月15日星期二,16,协同计算与知识工程,数据预处理为什么重要?,没有高质量的数据,就没有高质量的挖掘结果有质量的决定必须建立在有质量的数据上例:重复值或者空缺值将会产生不正确的或者令人误导的统计数据仓库需要对高质量的数据进行一致地集成数据预处理将是构建数据仓库或者进行数据挖掘的工作中占工作量最大的一个步骤,2023年8月15日星期二,17,协同计算与知识工程,数据质量的多方位度量,一个广为认可的数据质量多维度量观点:精确度完整度一致性合
7、乎时机可信度附加价值可解释性跟数据本身的含义相关的内在的、上下文的、表象的以及可访问性,2023年8月15日星期二,18,协同计算与知识工程,数据预处理的主要任务,数据清理填写空缺的值,平滑噪声数据,识别、删除孤立点,并解决不一致数据集成合并多个数据源中的数据,即将多数据库,数据立方体或文件的数据集成到一个数据仓库中数据变换规格化(将数据按比率映射到一个特定的区间)和聚集(如由季销售额聚集得到年销售额)数据归约得到数据集的压缩表示,它小的多,但能够产生相同或相似的分析结果数据离散化数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要,2023年8月15日星期二,19,协
8、同计算与知识工程,数据预处理的形式,数据集的压缩表示,它小的多,但能够产生相同或相似的分析结果,填写空缺的值,平滑噪声数据,识别、删除孤立点,并解决不一致,将多数据库,数据立方体或文件的数据集成到一个数据仓库中,将数据按比率映射到一个特定的区间,2023年8月15日星期二,20,协同计算与知识工程,内容提要,数据及数据类型为什么要预处理数据?描述数据的汇总(为数据预处理提供分析的基础)数据清理数据集成和变换数据归约相似度计算,2023年8月15日星期二,21,协同计算与知识工程,数据汇总(为数据预处理提供分析的基础),动机:为了更好的理解数据获得数据的总体印像识别数据的典型特征凸显噪声或离群点
9、对于数据挖掘任务,用户经常关心的数据特征包括数据的中心趋势和离散特征度量数据的中心趋势均值(mean)、中位数(median)、众数(模mode)、中列数(midrange)度量数据的离散程度极差、方差、四分位数极差等,2023年8月15日星期二,22,协同计算与知识工程,度量数据的中心趋势(1),算术平均值加权算术平均,2023年8月15日星期二,23,协同计算与知识工程,截断均值 尽管均值是描述数据集的最有用的单个量,但不总是度量数据中心的最好方法。均值的主要问题是对于极端值(如离群值)很敏感。即使少量极端值也可能影响均值。例如,公司的平均工资可能被少数高报酬的老总的工资显著抬高。类似地,
10、班级的考试平均成绩可能因为少数几个非常低的成绩而降低相当多。为了抵销少数极端值的影响,我们可以使用截断均值(trimmed mean)。,度量数据的中心趋势(2),2023年8月15日星期二,24,协同计算与知识工程,截断均值:是去掉高、低极端值得到的均值。指定0和100间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得的结果即是截断均值。例:计算1,2,3,4,5,90值集的均值,中位数和p=40%的截断均值.解:均值是17.5,中位数是3.5,p=40%时的截断均值也是3.5,度量数据的中心趋势(3),2023年8月15日星期二,25,协同计算与知识工程,度量数
11、据的中心趋势(4),中位数:对于倾斜的(非对称的)数据,数据中心的一个较好度量是中位数。设给定的N个不同值的数据集按数值序排序。如果N是奇数,则中位数是有序集的中间值;否则(即,如果N是偶数),中位数是中间两个值的平均值。,2023年8月15日星期二,26,协同计算与知识工程,度量数据的中心趋势(5),众数(Mode,也叫模):集合中出现频率最高的值单峰的(unimodal,也叫单模态)、双峰的(bimodal)、三峰的(trimodal);多峰的(multimodal)对于适度倾斜(非对称的)的单峰频率曲线,可以使用以下经验公式计算众数中列数(midrange):是数据集的最大和最小值的平均
12、值。,均值 众数 中位数,2023年8月15日星期二,27,协同计算与知识工程,对称与正倾斜、负倾斜数据的中位数、均值和众数,2023年8月15日星期二,28,协同计算与知识工程,对于倾斜的(非对称的)数据,数据中心的一个较好度量是中位数。对于完全对称的数据分布中,均值、中位数具有相同的值。,2023年8月15日星期二,29,协同计算与知识工程,度量数据的离散度-1,极差和方差是值集的散布度量,表明属性值是否散布很宽,或者是否相对集中在单个点(如均值)附近最简单的散布度量是极差,即最大值和最小值之差假设属性x具有m个值,其极差定义为:range(x)=max(x)-min(x)=x(m)-x(
13、1)方差(variance)定义如下:,2023年8月15日星期二,30,协同计算与知识工程,31,数据离散度度量-2,因为方差用到了均值,而均值容易被离群值扭曲,所以方差对离群值很敏感。更加稳健的值集散布估计方法:四分位数极差(IQR),2023年8月15日星期二,31,协同计算与知识工程,2023年8月15日星期二,32,协同计算与知识工程,盒图:数据分布的一种直观表示,在典型情况下,在盒图中:端点在四分位数上,使得盒图的长度是IQR中位数M 用盒内的线标记胡须延伸到最大最小观测值 当处理数量适中的观测值时,值得个别地绘出潜在的离群点。在盒图中这样做:仅当这些值超过四分位数不到1.5IQR
14、 时,胡须扩展到最高和最低观测值。否则,胡须出现在四分 位数的1.5IQR之内的最极端的观测值处终止。剩下的情况 个别地绘出。,盒图分析-1,2023年8月15日星期二,33,协同计算与知识工程,图中出在给定的时间段,AllElectronics的4个分店销售的商品单价数据的盒图。对于分店1,中位数是80美元,Q1是60美元,Q3是100美元。两个边远的观测值个别 地绘制,因为它们的 值175和202超过 IQR的1.5倍,这里1.5IQR=1.5*40=60。,盒图分析-2,2023年8月15日星期二,34,协同计算与知识工程,内容提要,数据及数据类型为什么要预处理数据?描述数据的汇总(为数
15、据预处理提供分析的基础)数据清理数据集成和变换数据归约相似度计算,2023年8月15日星期二,35,协同计算与知识工程,数据清理,数据清理的任务填写空缺值识别孤立点和平滑噪声数据纠正不一致数据,2023年8月15日星期二,36,协同计算与知识工程,空缺值,数据出现空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载,2023年8月15日星期二,37,协同计算与知识工程,怎样处理空缺数据?,忽略元组:当属性值缺少的元组数不多时可用这种方法,否则该方法不是很有效,因为如果这样的元组数很多的话,就会删除很多
16、的记录。人工填写空缺值:该方法很繁琐,可能行不通使用一个全局常量填写空缺值:例如:每个空缺值都用“unknown”替代!如果缺失值都用“unknown”替代,则挖掘程序可能误认为形成了一个有趣的概念,因此该方法不十分可靠。使用属性的平均值填写空缺值,如:假定顾客的平均收入为56000美元,则使用该平均值替换income的缺失值使用与给定元组属同一类的所有样本的平均值,例如:将顾客按credit_risk分类,则用具有相同信用度给定元组的平均收入替换income的缺失值使用最有可能的值填充空缺值:使用贝叶斯形式化方法和决策树等.,2023年8月15日星期二,38,协同计算与知识工程,噪声数据,噪
17、声:一个测量变量中的随机错误和偏差造成错误属性值的原因:错误的数据收集手段数据输入问题数据传输问题技术限制命名习惯的不一致,2023年8月15日星期二,39,协同计算与知识工程,怎样处理噪声数据?,分箱方法:首先把数据排序,把排序后数据分到等深的箱中接着,用按箱中值平滑、按箱平均值平滑、按箱边界平滑等平滑技术平滑数据聚类探测和删除孤立点计算机和人工检查结合计算机先探测到可疑值,然后进行人工检查回归通过让数据来适合一个回归函数,进行平滑数据,2023年8月15日星期二,40,协同计算与知识工程,分箱,分箱法包括等宽分箱,等深(等频)分箱,我们在这里主要介绍等深(等频)分箱。等深(等频)分箱法:它
18、把区域划分为N个间隔,每个间隔大约包含了等数量的样本,2023年8月15日星期二,41,协同计算与知识工程,数据平滑的分箱方法,如:price 的排序后数据(美元):4,8,9,15,21,21,24,25,26,28,29,34划分为(等深的)箱-箱1:4,8,9,15-箱2:21,21,24,25-箱3:26,28,29,34用箱平均值平滑:-箱1:9,9,9,9-箱2:23,23,23,23-箱3:29,29,29,29用箱边界值平滑:-Bin 1:4,4,4,15-Bin 2:21,21,25,25-Bin 3:26,26,26,34,2023年8月15日星期二,42,协同计算与知识工
19、程,聚类分析,通过聚类分析检测离群点,消除噪声聚类将类似的值聚成簇。直观的,落在簇集合之外的值被视为离群点,2023年8月15日星期二,43,协同计算与知识工程,计算机和人工检查结合,计算机检测可疑数据,然后对它们进行人工判断 例如:在针对银行信用欺诈行为的探测中,计算机将差异程度大于阈值的模式记录到一个表中,再通过人工审查表中的模式可以识别孤立点。,2023年8月15日星期二,44,协同计算与知识工程,回归,可以用一个函数(如回归函数)拟合数据来光滑数据。,2023年8月15日星期二,45,协同计算与知识工程,内容提要,数据及数据类型为什么要预处理数据?描述数据的汇总(为数据预处理提供分析的
20、基础)数据清理数据集成和变换数据归约相似度计算,2023年8月15日星期二,46,协同计算与知识工程,数据集成,将多个数据源中的数据结合起来存放在一个一致的数据存储(数据仓库)中。这些数据源可能包括多个数据库,数据立方体或一般文件,2023年8月15日星期二,47,协同计算与知识工程,在数据集成要考虑的问题,在数据集成时,有许多问题需要考虑,数据一致性和冗余是两个重要问题。数据一致性:不同表中可能使用不同名称来指示同一属性,正如一个人有多个不同的别名或不同的人拥有相同的名字,这样将导致数据的不一致或冲突。冗余:一个属性是冗余的,如果它能由表中其它属性列“导出”;如工资表中的应发工资、应扣部分、
21、实发工资都是由其它属性导出。由属性或维命名的不一致也可能导致数据集中的冗余。,2023年8月15日星期二,48,协同计算与知识工程,数据集成的举例,应用A 长度 cm应用B 长度 inches 应用C 长度 mcf应用D 长度 yds,cm,2023年8月15日星期二,49,协同计算与知识工程,数据值冲突的检测和处理:对同一现实世界的实体,来自于不同数据源的属性值可能是不同的,原因:不同的数据表示,不同的度量等等 如重量属性可能在一个系统中按公制单位存放,而在另一系统中按英制单位存放.数据在语义上的差异是数据集成经常遇见的问题.解决冲突的简单办法是指定某一系统在冲突中占主要地位.,在数据集成时
22、要考虑的问题(续),2023年8月15日星期二,50,协同计算与知识工程,数据变换,平滑:去掉数据中的噪声聚集:汇总,数据立方体的构建,例如:可以聚集日销售数据,计算月和年销售额。通常可用来为多粒度数据分析构建数据立方体。数据泛化:沿概念分层向上汇总规范化:将属性数据按比例缩放,使之落入一个小的特定区间(如0.0到1.0)最小最大规范化z-score(或零均值)规范化小数定标规范化属性构造由给定的属性构造新的属性离散化和概念分层,2023年8月15日星期二,51,协同计算与知识工程,minA和maxA为A的最小值和最大值,将A的值映射到区间new_maxA,new _maxA,meanA是A的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 技术

链接地址:https://www.31ppt.com/p-5738434.html