传统数据挖掘技术.ppt
第5章 传统数据挖掘技术,5.1传统的统计分析类数据挖掘技术 5.2统计分析类工具 5.3统计分析类工具的应用 5.4统计分析类工具应用的问题 练习,5.1 传统的统计分析类数据挖掘技术,5.1.1 统计与统计类数据挖掘技术1统计与数据挖掘 统计推断分析 2统计类数据挖掘技术,5.1 传统的统计分析类数据挖掘技术,5.1.2 数据的聚集与度量技术常用的聚集函数,例如,count()、sum()、avg()、max()、min()等 数据中心趋势度量,可以采用算术平均值加权算术平均值。,,,5.1.3 柱状图数据挖掘技术,,,5.1.3 柱状图数据挖掘技术,,,5.1.4 线性回归数据挖掘技术,,,线形回归是最简单的回归形式。双变量回归将一个随机变量Y(称作响应变量)看作为另一个随机变量x(称为预测变量)的线形函数,即Y=+x(5.1),=-,5.1.5 非线性回归数据挖掘技术,,,双曲线模型二次曲线模型对数模型三角函数模型指数模型幂函数模型修正指数增长曲线,5.1.6 聚类数据挖掘技术,,,1.聚类分析原理,5.1.6 聚类数据挖掘技术,,,1.聚类分析原理“孤立点”或“奇异点”“欧几里得距离”q=2“曼哈顿距离”q=1“明考斯基距离”,2.分层聚类,内蒙古 9 湖北 13 山东 2 辽宁 5 吉林 12 黑龙江 6 江西 7 上海 8 陕西 10 广西 11 广东 3 海南 4 浙江 15 新疆自治区 14 江苏 1 C A S E 0 5 10 15 20 25 Label Num+-+-+-+-+-+,BIRCH算法引入了聚类特征和聚类特征树(CF树)概念。一个聚类特征(CF)是一个三元组,给出对象子聚类的信息汇总描述。如果某个子聚类中有N个d维的点或对象,则该子聚类的CF定义为CF=(N,LS,SS)其中,N是子类中点的数目,LS是N个点的线性和,SS是数据点的平方和。如果某子聚类中有五个点(2,4)、(1,6)、(4,5)、(3,7)、(5,8),那么LS=(2+1+4+3+5,4+6+5+7+8)=(15,30),SS=(22+11+44+33+55,44+66+55+77+88)=(55,190),则可以得到CF=(5,(15,30),(55,190)。,CF树中所存储的是关于聚类的信息,这些信息是计算聚类和有效利用存储的关键度量。每个叶节点包含一个或多个子聚类,每个子聚类中包含一个或多个对象。一个CF树有两个参数,即分支因子B和阀值T,分支因子定义了每个非叶节点的后代最大数目,阀值参数给出了存储在叶节点中的子聚类的最大直径。,BIRCH算法主要分两个阶段进行:阶段一:扫描数据库,建立一个初始的CF树,看作一个数据的多层压缩,试图保留数据内在的聚类结构。当一个对象被插入到最近的叶节点(子聚类)中时,如果在插入对象后,存储在叶节点中子聚类的直径大于阀值,那么该叶节点被分裂,也可能有其他节点被分裂。新对象插入后,关于该对象的信息向根节点传递。通过修改阀值,CF树的大小可以改变。阶段二:采用某个聚类算法对CF树的叶节点进行聚类。BIRCH算法具有可伸缩性,通过对数据集的首次扫描产生一个基本聚类,二次扫描则进一步改进聚类质量并处理孤立点。BIRCH算法处理速度较快,只是对非球形簇处理效果不好。,CURE算法的主要步骤如下:从源数据集中抽取一个随机样本S。将样本S划分为一组划分。对每个划分进行局部的聚类。通过随机抽样剔除孤立点。如果一个簇增长太慢,就删除该簇。对局部的簇进行聚类。落在每个新形成的簇中的代表点根据用户定义的收缩因子收缩或向簇中心移动。这些点代表了簇的形状。用相应的簇标签来标记数据。,3.划分聚类k-平均算法最为简单。每个簇用该簇中对象的平均值来表示。首先将所有对象随机分配到k个非空的簇中。计算每个簇的平均值,并用该平均值代表相应的簇。根据每个对象与各个簇中心的距离,分配给最近的簇。然后转第二步,重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。k-中心点算法每个簇用接近聚类中心的一个对象来表示。首先为每个簇选择一个代表对象,剩余的对象根据其与代表对象的距离分配给最近的一个簇。然后反复用非代表对象代替代表对象,以提高聚类的质量。,4.密度聚类DBSCAN算法首先需要用户给定聚类对象的半径-邻域和-邻域中最少要包含的对象数MitPts。然后算法检查某个对象-邻域中的对象数,如果对象数大于MitPts,该对象就是核心对象,就构建以该对象为核心的新簇。然后反复寻找从这些核心对象出发在-邻域内的对象,这个寻找过程可能会合并一些簇,直到没有新的对象可以添加到任何簇中为止。,4.密度聚类OPTICS算法是对DBSCAN算法的改进,因为在DBSCAN算法中需要用户设定-邻域和MitPts,但是在实际应用中用户往往很难确定这些参数,而且这些参数设置的不同往往会导致聚类结果有很大差别。在OPTICS算法中认定对象应该以特定的顺序进行处理,这个顺序首先处理最小的值密度可达的对象,这样可以首先完成高密度的聚类。,4.密度聚类DENCLUE算法的依据是某个数据点在邻域内的影响可以用一个数学函数来形式化地模拟,这个函数为影响函数。所聚类数据空间的整体密度看成是所有数据点影响函数的总和。在聚类时就根据全局密度函数的局部最大,即密度吸引点来确定。,5.网格聚类STING算法将数据空间区域划分为矩形单元,并且对应于不同级别的分辨率,存在着不同级别的矩形单元,高层的每个单元被分为多个低一层的单元,每个网络单元的统计信息被预先计算和存储,供处理和查询使用。,5.网格聚类利用STING算法可以自顶向下回答查询:从层次中选定一层(含较少单元的层次)作为查询处理的开始。对当前层次的每个单元计算置信区间,用以反映该网格单元与给定查询的关联程度。当前层次处理完毕,转入下一层次,处理下一层次时只检查处理相关单元。重复以上过程,直到底层处理完毕。如果查询要求满足,就返回相关单元的区域,否则检索和进一步处理相关单元中的数据,直到满足查询要求为止。,5.网格聚类WaveCluster方法首先通过在数据空间上强加一个多维网格结构来汇总数据,每个网格单元汇总了一组映射到该单元中的点的信息,然后采用一种小波变换对原特征空间进行变换,汇总信息在进行小波变换时使用,接着在变换后的空间中找到聚类区域。小波变换的聚类是无监督聚类,不用事先假定聚类的形状,可以发现任意形状的聚类,边界弱信号不会被屏蔽,可以剔除孤立点,本身运算开销不大。,5.网格聚类基于网格和密度的聚类CLIQUE算法主要步骤是:将数据空间划分为互不相交的长方形单元,记录每个单元中的对象数。用先验性质识别包含簇的子空间。在符合兴趣度的子空间中先找出密集单元,再找出相连接的密集单元,以识别簇。为每个簇生成最小化的描述。,5.1.7 最近邻数据挖掘技术基本概念是:相互之间“接近”的对象具有相似的预测值。如果,你知道了其中一个对象的预测值后,就可以用它来预测其最近的邻居对象。,5.1.7 最近邻数据挖掘技术,5.2 统计分析类工具,5.2.1 统计类数据挖掘工具SAS和SPSS 许多数据挖掘工具中都使用了这样一些统计分析过程:决策树推断(C4.5、CART)、规则推断(AQ、CN2、RECON)、最近邻方法、聚类方法、关联规则、特征提取和可视化等。,5.2.2 统计类数据挖掘的商业分析,统计分析工具已经开始为商业分析人员所采纳和应用 处于知识发现工具和信息处理工具之间的数据挖掘工具 统计类数据挖掘工具可以完成信息的分析处理,并能进一步进行商业活动的统计分析,5.2.3 统计类数据挖掘工具的功能,1.可视化功能2.探索功能3.统计功能和操作4.数据管理功能5.显示功能6.挖掘结果描述功能7.开发工具8.可接受的响应时间,5.2.4 统计类数据挖掘工具SPSS,5.2.4 统计类数据挖掘工具SPSS,5.2.4 统计类数据挖掘工具SPSS,5.2.4 统计类数据挖掘工具SPSS,1.基本统计分析报告分析通过命令“Analyze”“Report”可以启动联机分析处理(OLAP Cubes)、观察值摘要分析(Cases Summary)、行式摘要报告(Report Summaries in Rows)和列式摘要报告(Report Summaries in Columns)等分析。描述性统计分析可以通过“Analyze”“Descriptive Statistics”启动频数分析(Frequencies)、描述形统计量分析(Descriptives)、探索分析(Explore)和多维频数分布列联表(Crosstabs)。,5.2.4 统计类数据挖掘工具SPSS,2.回归分析线性回归分析(Linear)、曲线回归分析(Curve Estimation)、二维logistic回归分析(Binary Logistic)、多维logistic回归分析(Multinomial Logistic)、Ordinal回归分析(Ordinal)、概率单位回归分析(Proibit)和非线性回归分析(Nonlinear)等统计分析。这些回归分析均在“Analyze”“Regression”菜单项中启动。3.相关分析相关分析(Bivariate)、偏相关分析(Partial)和距离分析(Distances)等数据分析功能。相关分析的启动需要使用命令“Analyze”“Correlate”。,5.2.4 统计类数据挖掘工具SPSS,4.分类分析快速样本聚类(K-Means Cluster)、层次聚类(Hierarchical Cluster)和判别分类(Discriminant)。这些分类方法均可在命令“Analyze”“Classify”下启动。5.因子分析用“Analyze”“Data Reduction”“Factor”命令可以进行因子分析。,5.3 统计分析类工具的应用,5.3.1 趋势分析,5.3.2 时序分析5.3.3 周期分析,5.4 统计分析类工具应用的问题,5.4.1 统计类数据挖掘的预处理问题1.空缺值处理(1)忽略元组(2)人工填写空缺值(3)使用一个全局变量填充空缺值(4)使用属性的平均值填充空缺值(5)使用最可能的值填充空缺值,5.4 统计分析类工具应用的问题,5.4.2 统计分析应遵循的基本原则 1.与定性分析相结合原则 2.连贯和类推原则 3.统计资料的可靠性和分析公式的适应性原则,5.4 统计分析类工具应用的问题,5.4.3 统计分析的步骤 1.确定分析目标 2.收集、审核及分析统计资料 3.确定分析模型、选择分析方法 4.进行分析5.分析误差分析,5.4 统计分析类工具应用的问题,5.4.4 统计类数据挖掘的性能问题 统计方法的优点是精确、易理解并且已经被广泛应用。许多人认为统计方法是数据挖掘最准确的形式,并且事实上,许多数据挖掘技术都利用存在已久的统计技术。一种很流行的决策树方法CHAID用卡方度量;关联算法使用了支持度和置信度;聚类技术使用了K均值算法之类的统计尺度;贝叶斯网使用1763年就存在的统计技术“贝叶斯概率理论”。,5.4 统计分析类工具应用的问题,统计学在数据挖掘领域受到的最大责难是很难有效使用,数据挖掘是从数据中抽取有价值的信息的过程,而统计学是一个完整的研究领域,包括从数据中抽取有价值信息。统计学家与想利用分析模型的其他商业人员间总是存在隔阂,许多商业人员经常无法搞清楚如何将商业问题与统计处理联系在一起。因此,有人认为数据挖掘与统计学不同,商业人员更加容易掌握数据挖掘。IBM、SPSS和SAS等软件公司一直在为打破这种观点而努力,它们将标准的统计模型和神经元、决策树以及其他与数据挖掘有关的技术结合在一起,并取得了较好的效果。,统计分析作为一种有力的数挖掘技术,可以了解客户、市场、产品和其他关键商业参数。但在使用中也存在一些问题,例如:它是劳动力密集的,需要相当一部分统计分析员和商业分析员的分析劳动。成功的可能性很大程度上依赖于商业分析员解决问题的能力,不能自行查找隐藏在数据背后的知识。在许多情况下,商业分析员并不知道要查找什么,或者无法选择离散的变量来启动分析处理。此时,统计分析工具就难以承担重任。在进行市场细分时,很难集成和分析非数字化数据(例如地理数据),一般情况下只适合数字化的数据处理。一般很难以合理的成本获得可接受的响应时间。即在使用统计类数据挖掘工具过程中往往需要较高的成本投入,但是却不能很快获得管理人员所需要的挖掘结果。,