聚类分析和因子分析.ppt
第十一讲 SPSS数据分析,聚类分析special for spss,层次聚类分析中的Q型聚类层次聚类分析中的R型聚类快速聚类分析判别分析,+,聚类分析-物以类聚。特点:探索性的分析。在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。它能够将一批一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。*不同于相关系数(变量之间的关系)聚类分析:样本间的相关,层次聚类分析中的Q型(样本间:哪几个样本很像)聚类,根据样本之间的距离进行计算。常用算法:欧式距离 各个变量相减 再求和 欧式距离的平方(X2+X1)2+.Chebychev距离 Block距离 Minkovsky距离 Customized距离,层次聚类分析中的Q型聚类打开聚类1分析-分类-层次聚类(系统聚类)-选择个案,层次聚类分析中的R型聚类,与Q型聚类不同的是,R型聚类计算的是变量之间的距离,而不是样本之间的距离。打开聚类2分析-分类-层次聚类(系统聚类)-选择变量,快速聚类分析,由于聚类分析对计算机要求很高,因此当出现大样本的情况下,层次聚类分析往往速度较慢,因此采用快速聚类分析。快速聚类分析要求用户根据经验指定聚类最终形成多少种类。,快速聚类分析打开聚类3分析-分类-K均值聚类,因子分析,降维,主成分分析与因子分析的概念,需要与可能:在各个领域的科学研究中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加了问题分析的复杂性,同时对分析带来不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。,因此需要找到一个合理的方法,减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。因子分析就是这样一种降维的方法。,因子分析,用较少因子反映原始资料多个变量的信息。特点:1。因子变量的数量远少于原有的指标变量的数量。2。因子变量不是对原有变量的取舍,而是对原有变量信息的重构。3。因子变量之间不存在线性相关关系。,因子分析要求(pm)F1-FM 是原有变量X1-XP 是新变量(因子变量)建立原有因子和新因子的联系,上式通过化简,可得:F=BX+aeX:因子变量B:载荷矩阵 其中ij称为因子载荷,是第i个原有变量在第j个因子变量上的负载,即i在第j个因子变量上的相对重要性。即ij绝对值越大,公共因子与原有变量关系越强。,由于实测的变量间存在一定的相关关系,因此有可能用较少数的综合指标分别综合存在于各变量中的各类信息,而综合指标之间彼此不相关,即各指标代表的信息不重叠。综合指标称为因子或主成分(提取几个因子),一般有两种方法:确定因子数量的因素(机器决定)特征值1累计贡献率0.8(新因子至少代表就因子80%以上的信息),几个基本概念:因子载荷:表示该因子对变量的影响程度,代表了因子和原先变量的相关系数。也称为变量在因子上的载荷。旋转矩阵:对因子载荷进行旋转,使系数向0和1两极分化。(运算复杂),想让因子载荷矩阵做两极分化,看清楚哪个因子系数作用程度更大因子得分系数:每一个变量在不同因子上的具体数据值。,成绩数据(student.sav),100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,重要结果分析,这里的Initial Eigenvalues就是特征值(数据相关阵的特征值)。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。,特征值的贡献还可以从SPSS的所谓碎石图看出,这里,第一个因子主要和语文、历史、英语三科有很强的正相关;而第二个因子主要和数学、物理、化学三科有很强的正相关。因此可以给第一个因子起名为“文科因子”,而给第二个因子起名为“理科因子”。,看绝对值:eg.数学:第二个因子作用大,归为文科因子,因子变量分析步骤:1。确定待分析的原有若干变量是否适合于因子分析。(检验方法:巴德迪特检验;kmo0.5-适合)2。构造因子变量。3。使用旋转使得因子变量更具有可解释性。4。计算因子变量的得分。,因子分析,打开因子分析分析-降维-因子分析,