spss学习第9章.ppt
第9章 SPSS的多元统计分析,9.1.1 因子分析的基本原理通常针对变量作因子分析,称为R型因子分析;另一种对样品作因子分析,称为Q型因子分析,这两种分析方法有许多相似之处。R型因子分析数学模型是:设原有p个变量 且每个变量(或经标准化处理后)的均值为0,标准差为1。现将每个原有变量用k()个因子 的线性组合来表示,即有:上式就是因子分析的的数学模型,也可以用矩阵的形式表示为,9.1 SPSS在因子分析中的应用,其中,X是可实测的随机向量。F称为因子,由于它们出现在每个原有变量的线性表达式中,因此又称为公共因子。A称为因子载荷矩阵,称为因子载荷。称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0 因子分析的基本思想是通过对变量的相关系数矩阵内部结构的分析,从中找出少数几个能控制原始变量的随机变量 选取公共因子的原则是使其尽可能多的包含原始变量中的信息,建立模型,忽略,以F代替X,用它再现原始变量X的信息,达到简化变量降低维数的目的。,9.1 SPSS在因子分析中的应用,具体步骤:将原始数据标准化,以消除变量间在数量级和量纲上的不同;求标准化数据的相关矩阵;求相关矩阵的特征值和特征向量;计算方差贡献率与累积方差贡献率;确定因子:设F1,F2,Fp为p个因子,其中前m个因子包含的 数据信息总量(即其累积贡献率)不低于85%时,可取前m个因子来反映原评价指标;因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义;用原指标的线性组合来求各因子得分;综合得分:通常以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。,9.1 SPSS在因子分析中的应用,9.1.2 因子分析的SPSS操作详解Step01:打开主菜单选择主菜单中的【分析】【降维】【因子】命令,弹出【因子分析】对话框,如图所示,这是因子分析的主操作窗口。,9.1 SPSS在因子分析中的应用,Step02:选择因子分析变量 在【因子分析】对话框左侧的候选变量中选择进行因子分析的变量将其添加至【变量】列表框中。如果要选择参与因子分析的样本,则需要将条件变量添加至【选择变量】框中,并单击变量值按钮输入变量值,只有满足条件的样本数据才能进行后续的因子分析。Step03:选择描述性统计量 单击【描述】按钮,弹出对话框图所示。这里可以选择输出描述性统计量及相关矩阵等内容。,9.1 SPSS在因子分析中的应用,Step04:选择因子提取方法 单击【抽取】按钮,弹出对话框图9-3所示。这里可以选择提取因子的方法及相关选项。具体选项含义如下:单击【方法】框中的箭头按钮,展开下拉列表,从中可以选择因子提取方法:主成份分析法:该方法假设变量是因子的纯线性组合。第一成分有最大的方差,后续的成分其可解释的方差逐个递减;不加权最小二乘法:加权最小二乘法;极大似然法:主轴因子提取法:因子提取法:映象因子提取法:,9.1 SPSS在因子分析中的应用,【分析】栏输出分析矩阵:相关系数矩阵,系统默认项:协方差矩阵:【输出】栏输出与因子提取有关的选项:输出未经旋转的因子提取结果。此项为系统默认的输出方式;输出因子的碎石图:它显示了按特征值大小排列的因子序号。它有助于确定保留多少个因子。典型的碎石图会有一个明显的拐点,在该点之前是与大因子连接的陡峭的折线,之后是与小因子相连的缓坡折线。,9.1 SPSS在因子分析中的应用,【抽取】栏输出与提取结果有关的选择项。由于理论上因子数目与原始变量数目相等,但因子分析的目的是用少量因子代替多个原始变量,选择提取多少个因子是由本栏来决定。指定提取公因子的数目:用鼠标单击选择此项后,将指定其数目。指定因子分析收敛的最大迭代次数 在对应的参数框中指定因子分析收敛的最大迭代次数:系统默认的最大迭代次数为25。,9.1 SPSS在因子分析中的应用,Step05:选择因子旋转方法 单击【旋转】按钮,弹出下图所示。这里可以选择因子旋转方法及相关选项。具体选项含义如下:,9.1 SPSS在因子分析中的应用,Step06:选择因子得分单击【得分】按钮,弹出对话框如下图所示。这里可以选择因子得分方法及相关选项。具体选项含义如下:,9.1 SPSS在因子分析中的应用,Step07:其他选择输出单击【选项】按钮,弹出对话框图9-6所示。这里可以选择一些附加输出项。具体选项含义如下:,9.1 SPSS在因子分析中的应用,9.1.3 实例分析:居民消费结构的变动1 实例内容 消费结构是指在消费过程中各项消费支出占居民总支出的比重。它是反映居民生活消费水平、生活质量变化状况以及内在过程合理化程度的重要标志。而消费结构的变动不仅是消费领域的重要问题,而且也关系到整个国民经济的发展。因为合理的消费结构及消费结构的升级和优化不仅反映了消费的层次和质量的提高,而且也为建立合理的产业结构和产品结构提供了重要的依据。表9-1是某市居民生活费支出费用,具体分为食品、衣着、家庭设备用品及服务、医疗保健、交通通讯、文教娱乐及服务、居住和杂项商品与服务等8个部分。请利用因子分析探讨该市居民消费结构,为产业政策的制定和宏观经济的调控提供参考。,9.1 SPSS在因子分析中的应用,2 实例操作 表9-1是某市居民在食品、衣着、医疗保健等八个方面的消费数据,这些指标之间存在着不同强弱的相关性。如果单独分析这些指标,无法能够分析居民消费结构的特点。因此,可以考虑采用因子分析,将这八个指标综合为少数几个因子,通过这些公共因子来反映居民消费结构的变动情况。,9.1 SPSS在因子分析中的应用,3 实例结果及分析(1)描述性统计表 表9-2显示了食品、衣着等这八个消费支出指标的描述统计量,例如均值、标准差等。这为后续的因子分析提供了一个直观的分析结果。可以看到,食品支出消费所占的比重最大,其均值等于39.4750%,其次是文化娱乐服务支出消费和交通通信支出消费。所有的消费支出中,医疗保健消费支出占的比重最低。,9.1 SPSS在因子分析中的应用,9.1 SPSS在因子分析中的应用,(2)因子分析共同度 表是因子分析的共同度,显示了所有变量的共同度数据。第一列是因子分析初始解下的变量共同度。它表明,对原有八个变量如果采用主成分分析法提取所有八个特征根,那么原有变量的所有方差都可被解释,变量的共同度均为1(原有变量标准化后的方差为1)。事实上,因子个数小于原有变量的个数才是因子分析的目的,所以不可能提取全部特征根。于是,第二列列出了按指定提取条件(这里为特征根大于1)提取特征根时的共同度。可以看到,所有变量的绝大部分信息(全部都大于83)可被因子解释,这些变量信息丢失较少。因此本次因子提取的总体效果理想。,9.1 SPSS在因子分析中的应用,9.1 SPSS在因子分析中的应用,(3)因子分析的总方差解释 接着Spss软件计算得到相关系数矩阵的特征值、方差贡献率及累计方差贡献率结果如表9-4所示。在表9-4中,第一列是因子编号,以后三列组成一组,组中数据项的含义依次是特征根、方差贡献率和累计贡献率。第一组数据项(第二至第四列)描述了初始因子解的情况。可以看到,第一个因子的特征根值为4.316,解释了原有8个变量总方差的53.947。前三个因子的累计方差贡献率为94.196,并且只有它们的取值大于1。说明前3个公因子基本包含了全部变量的主要信息,因此选前3个因子为主因子即可。同时,提取后的因子方差和旋转后的因子方差部分列出了因子提取后和旋转后的因子方差解释情况。从表中看到,它们都支持选择3个公共因子。,9.1 SPSS在因子分析中的应用,9.1 SPSS在因子分析中的应用,(4)因子碎石图 图9-15是因子分析的碎石图。横坐标为因子数目,纵坐标为特征根。可以看到,第一个因子的特征值很高,对解释原有变量的贡献最大;第三个以后的因子特征根都较小,取值都小于1,说明它们对解释原有变量的贡献很小,称为可被忽略的“高山脚下的碎石”,因此提取前三个因子是合适的。,9.1 SPSS在因子分析中的应用,(5)旋转前的因子载荷矩阵 表9-5显示了因子载荷矩阵,它是因子分析的核心内容。通过载荷系数大小可以分析不同公共因子所反映的主要指标的区别。从结果看,大部分因子解释性较好,但是仍有少部分指标解释能力较差,例如“食品”指标在三个因子的载荷系数区别不大。因此接着采用因子旋转方法使得因子载荷系数向0或1两极分化,使大的载荷更大,小的载荷更小。这样结果更具可解释性。,9.1 SPSS在因子分析中的应用,(6)旋转后的因子载荷矩阵 表9-6显示了实施因子旋转后的载荷矩阵。可以看到,第一主因子在“交通和通信”和“医疗保健”等五个指标上具有较大的载荷系数,第二主因子在“居住”和“衣着”指标上系数较大,而第三主因子在“杂项商品与服务”上的系数最大。此时,各个因子的含义更加突出。,9.1 SPSS在因子分析中的应用,可以看出第一个公因子主要反映了交通和通信、医疗保健、文化娱乐服务、家庭设备用品及服务和食品上有较大载荷,说明第一个公因子综合反映这几个方面的变动情况,可以将其命名为第一基本生活消费因子,即享受性消费因子。第二个公因子在居住、衣着上的载荷系数较大,代表了这两个方面的变动趋势,可以将其命名为第二基本生活消费因子,即发展性消费因子。第三个公因子在杂项商品与服务上的消费变动较大,因此可以将第三个公因子命名为第三基本生活消费因子,即其他类型消费因子。,9.1 SPSS在因子分析中的应用,(7)因子得分系数 表9-7列出了采用回归法估计的因子得分系数。根据表中内容可写出以下因子得分函数:因子F1=-0.198X1+0.058X2-0.226X3+0.212X4+0.221X5+0.211X6+0.079X7+0.015X8;因子F2=0.123X1+0.425X2+0.200X3+0.094X4+0.008X5+0.096X6-0.498X7+0.015X8;因子F3=0.365X1-0.059X2-0.174X3+0.069X4+0.119X5-0.077X6-0.088X7+0.779X8;,9.1 SPSS在因子分析中的应用,9.1 SPSS在因子分析中的应用,9.2.1 聚类分析的基本原理1、方法概述 聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。2、聚类分析的分类根据分类对象的不同可分为样品聚类和变量聚类。(1)样品聚类 样品聚类在统计学中又称为Q 型聚类。用SPSS 的术语来说就是对事件进行聚类,或是说对观测量进行聚类。它是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。,9.2 SPSS 在聚类分析中的应用,(2)变量聚类 变量聚类在统计学又称为R 型聚类。反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。由于人类对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。例如在回归分析中,由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。因此往往先要进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息。值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更好。,9.2 SPSS 在聚类分析中的应用,3、距离和相似系数 为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大。,9.2 SPSS 在聚类分析中的应用,K-均值聚类法又叫快速聚类法,可以用于大量数据进行聚类分析的情形。它是一种非分层的聚类方法。这种方法占用内存少、计算量、处理速度快,特别适合大样本的聚类分析。它的基本操作步骤如下:1、指定聚类数目k,应由用户指定需要聚成多少类,最终也只能输出关于它的唯一解。这点不同于层次聚类。2、确定k个初始类的中心。两种方式:一种是用户指定方式,二是根据数据本身结构的中心初步确定每个类别的原始中心点。3、根据距离最近原则进行分类。逐一计算每一记录到各个中心点的距离,把各个记录按照距离最近的原则归入各个类别,并计算新形成类别的中心点 4、按照新的中心位置,重新计算每一记录距离新的类别中心点的距离,并重新进行归类。5、重复步骤4,直到达到一定的收敛标准。这种方法也常称为逐步聚类分析,即先把被聚对象进行初始分类,然后逐步调整,得到最终分类。,9.2 SPSS 在聚类分析中的应用,9.2.2 快速聚类SPSS操作详解Step01:打开主菜单 选择主菜单中的【分析】【分类】【K均值聚类】命令,弹出【K均值聚类分析】对话框,如图所示,这是快速聚类分析的主操作窗口。,9.2 SPSS 在聚类分析中的应用,Step02:选择聚类分析变量 在【K均值聚类分析】对话框左侧的候选变量中选择进行聚类分析的变量将其添加至【变量】列表框中。同时可以选择一个标识变量移入【个案标记依据】框中。Step03:确定分类个数【聚类数】框中,可以输入确定的聚类分析数目,用户可以根据需要自行修改调整。系统默认的聚类数为2.Step04:选择聚类方法 主对话框中的【方法】栏中可以选择聚类方法。系统默认值是【迭代与分类】项。选择初始类中心:在迭代过程中不断更新聚类中心。把观测量分派到与之最近的以类中心为标志的类中去。只使用初始类中心对观测量进行分类,聚类中心始终不变。,9.2 SPSS 在聚类分析中的应用,Step05:聚类中心的输入与输出 在主对话框图中,【聚类中心】栏表示输入和输出聚类中心的对话框。用户可以指定外部文件或数据集作为初始聚类中心点,也可以将聚类分析的聚类中心结果输出到指定文件或数据集中。要求使用指定数据文件中的观测量或建立数据集作为初始类中心。要求把聚类结果中的各类中心数据保存到指定的文件或数据集中。,9.2 SPSS 在聚类分析中的应用,在主对话框中单击【迭代】按钮,打开设置迭代参数的对话框图,这里可以进一步选择迭代参数。,9.2 SPSS 在聚类分析中的应用,Step07:输出聚类结果在主对话框中单击【保存】按钮,弹出【保存新变量】对话框,它用于选择保存新变量,见图 聚类成员:在当前数据文件中建立一个名为“qcl_1”新变量。其值表示聚类结果,即各观测量被分配到哪一类。它的取值为1、2、3的序号。与聚类中心的距离:在当前数据文件中建立一个名为“qcl_2”新变量。其值为各观测量与所属类中心之间的欧氏距离。,9.2 SPSS 在聚类分析中的应用,Step08:其他选项输出在主对话框中单击【选项】按钮,弹出【选项】对话框,它用于指定要计算的统计量和对带有缺失值的观测量的处理方式。具体见图:【统计量】栏选择输出统计量 初始聚类中心:方差分析表:显示每个观测量的聚类信息:【缺失值】栏中选择处理缺失值方法 按列表排除个案:分析变量中带有缺失值的观测量都不参与后续分析;按对排除个案:成对剔除带有缺失值的观测量。Step09:单击确定按钮,结束操作,SPSS软件自动输出结果。,9.2 SPSS 在聚类分析中的应用,9.2.4 系统聚类法的SPSS操作详解SPSS具体操作步骤如下:Step01:打开主菜单 选择主菜单中的【分析】【分类】【系统聚类】命令,弹出【系统聚类分析】对话框,如图所示,这是系统聚类分析的主操作窗口。,9.2 SPSS 在聚类分析中的应用,Step02:选择聚类分析变量在【系统聚类分析】对话框左侧的候选变量中选择进行系统聚类分析的变量将其添加至【变量】列表框中。同时可以选择一个标识变量移入【标注个案】框中。Step03:选择聚类类型 主对话框中的【分群】栏中可以选择聚类类型。系统默认值是【个案】项。个案:对观测量(样品)进行聚类,即Q型聚类。变量:对变量进行聚类,即R型聚类。Step04:选择输出类型 主对话框中的【输出】栏中可以选择输出类型。系统默认值是【统计量)】欧诺供给量和【图】项。统计量:输出主对话框统计量按钮中设置的的统计量。图:输出主对话框中图按钮中聚类图形。,9.2 SPSS 在聚类分析中的应用,Step05:基本统计量输出选择 单击【统计量】按钮,弹出对话框图示。这里可以选择进行系统聚类分析的基本统计量。具体选项含义如下:,9.2 SPSS 在聚类分析中的应用,【合并进程表】:输出聚类过程表,系统默认选项。显示聚类过程中每一步合并的类或观测量,反映聚类过程中每一步样品或类的合并过程。【相似性矩阵】:输出各类之间的距离矩阵。以矩阵形式给出各项之间的距离或相似性测度值。产生什么类型的矩阵(相似性矩阵或不相似性矩阵)取决于在【方法】菜单中【度量标准】栏中的选择。【聚类成员】栏可以选择聚类数目相关的输出项:【无】:不显示类成员表,它是系统默认选项。【单一方案】:选择此项并在对应的【聚类数】参数框中指定分类数,这里要求分类数是一个大于1的整数。例如指输入数字“4”,则会在输出窗中显示聚为4类的分析结果。,9.2 SPSS 在聚类分析中的应用,【方案范围】:选择此选项并在下边的【最小聚类数】和【最大聚类数】参数框中输入最小聚类数目和最大聚类数目。它表示分别输出样品或变量的分类数从最小值到最大值的各种分类聚类表。输入的两个数值必须是不等于l 的正整数,最大类数值不能大于参与聚类的样品数或变量总数。Step06:聚类统计图形输出选择 单击【绘制】按钮,弹出对话框图所示。这里可以选择进行系统聚类分析的统计图形。可选择输出的统计图表有两种,一个是树形图,一个是冰柱图。具体选项含义如下:,9.2 SPSS 在聚类分析中的应用,【树状图】:显示树形图;【冰柱】:显示冰柱图形。对于冰柱图的具体选项还可以进一步用以下选择项来确定:所有聚类:显示全部聚类结果的冰柱图。可用此种图查看聚类的全过程。但如果参与聚类的个体很多会造成图形过大。聚类的指定全距:限定显示的聚类范围。当选择此项时,在下面的【开始聚类】、【停止聚类】和【排序标准】后的参数框中输入要求显示聚类过程的开始聚类数、终止聚类数及步长。输入到参数框中的数字必须是正整数。例如,输入的结果是:3,9,2,生成的冰柱图从第三步开始,显示第三、五、七、九步聚类的情况。无:不输出冰校图。同时,冰柱图显示方向可以在【方向】栏中确定:垂直:纵向显示的冰柱图。水平:横向显示的冰柱图。,9.2 SPSS 在聚类分析中的应用,Step07:聚类方法选择单击【方法】按钮,弹出对话框图所示。在对话框中可以设定聚类方法、距离测度的方法、数值变换方法等内容。具体选项含义如下:,9.2 SPSS 在聚类分析中的应用,Step08:聚类结果保存选择 单击【保存】按钮,弹出对话框图所示。在该对话框中可以将聚类结果用新变量保存在当前工作数据文件中。具体选项含义如下:,9.2 SPSS 在聚类分析中的应用,无:不建立新变量。单一方案:单个结果输出。生成一个新变量,表明每个样品在聚类之后所属的类。在【聚类数】的矩形框中指定类数。方案范围:选择此选项并在下边的【最小聚类数】和【最大聚类数】参数框中输入最小聚类数目和最大聚类数目。它表示分别生成样品或变量的分类数从最小值到最大值的各种分类聚类变量。例如输入结果是“4”和“6”时,它表示在聚类结束后在原变量后面增加了3 个新变量分别表明分为4 类时、分为5 类时和分为6 类时的聚类结果。即聚为4、5、6 类时各样品分别属于哪一类。Step09:单击【确定】按钮,结束操作,SPSS软件自动输出结果。,9.2 SPSS 在聚类分析中的应用,9.2.5 实例分析:商业银行综合竞争力的评价1 实例内容 要研究我国主要商业银行的综合竞争力,收集的数据如表9-16所示。这里不仅选取了中国工商银行、中国建设银行等大型国有商业银行,也包括了招商银行、民生银行等股份制商业银行。描述这些商业银行的综合竞争力指标主要有以下10个。X1:人均净利润,人均创造的净利润。X2:净利润率,反映公司获取利润能力的一项关键指标。X3:资产回报率,用来衡量每单位资产创造多少净利润的指标。,9.2 SPSS 在聚类分析中的应用,9.2 SPSS 在聚类分析中的应用,X4:核心资本充足率,核心资本与加权风险资产总额的比率。X5:人均费用额,人均消耗的管理费用。X6:资产负债率,公司年末的负债总额同资产总额的比率。X7:股东权益乘数,资产总额相当于股东权益的倍数。X8:不良贷款比率,金融机构不良贷款占总贷款余额的比重。X9:存款市场份额,存款业务量在全部银行存款业务量中所占的比重。X10:贷款市场份额,贷款业务量在全部银行贷款业务量中所占的比重。,2 实例操作 现在要分析我国主要商业银行的综合竞争力,案例中选择了“人均净利润”、“净利润率”、“资产回报率”等十个指标来反映这些银行的综合发展能力。这个问题也属于典型的多元分析问题,需要利用多个指标来分析不同国商业银行之间综合竞争发展能力的差异,因此可以利用系统聚类法,具体操作步骤如下。,9.2 SPSS 在聚类分析中的应用,9.2 SPSS 在聚类分析中的应用,Step01:打开随书光盘中的数据文件9-3.sav,选择菜单栏中的【分析】【分类】【系统聚类】命令,弹出【系统聚类分析】对话框。,9.2 SPSS 在聚类分析中的应用,Step02:在左侧的候选变量列表框中将X1、X2、X10变量设定为聚类分析变量,将其添加至【变量】列表框中,将Y变量设定为指示变量,将其添加至【标注个案】列表框中,如图9-28所示。,9.2 SPSS 在聚类分析中的应用,Step03:单击【统计量】按钮,弹出【系统聚类分析:统计量】对话框;点选【单一方案】单选钮,并在对应的【聚类数】文本框中输入数字“3”,表示输出窗中显示聚为三类分析结果,其他选项保持系统默认设置,如图9-29所示,单击【继续】按钮,返回【系统聚类分析】对话框。,9.2 SPSS 在聚类分析中的应用,Step04:击【绘制】按钮,弹出【系统聚类分析:图】对话框;勾选【树状图】复选框,表示输出样品的聚类树形图,如图9-30所示;其他选项保持系统默认设置,单击【继续】按钮返回【系统聚类分析】对话框。,9.2 SPSS 在聚类分析中的应用,Step05:单击【方法】按钮,弹出【系统聚类分析:方法】对话框;在【转换值】选项组的【标准】下拉列表框中选择【Z得分】标准化方法,其他选项保持系统默认设置,如图9-31所示,单击【继续】按钮返回【系统聚类分析】对话框,单击【确定】按钮完成操作。,3 实例结果及分析(1)聚类过程表 SPSS软件首先给出了进行系统聚类分析过程表,如表9-17所示。第一列列出了聚类过程的步骤号,第二列和第三列列出了某一步骤中哪些国家和地区参与了合并。例如从结果中看出,在第一步中,第九个样品(民生银行)和第十个样品(招商银行)首先被合并在一起。第四列列出了每一步骤的聚类系数,这一数值表示被合并的两个类别之间的距离大小;第五列和第六列表示参与合并的国家和地区(类别)是在第几步中第一次出现,0代表该记录是第一次出现在聚类过程中;第七列表示在这一步骤中合并的类别,下一次将在第几步中与其他类再进行合并。,9.2 SPSS 在聚类分析中的应用,9.2 SPSS 在聚类分析中的应用,(2)聚类分析结果表 表9-18显示了系统聚类法的聚类结果。可以看到聚类结果分为两大类:第类:民生银行、招商银行、中信银行。第类:交通银行、深发银行、光大银行、浦发银行。第类:工商银行、建设银行、中国银行。,9.2 SPSS 在聚类分析中的应用,(3)树形图 表9-18已给出了相关聚类结果,最后用树形图直观反映整个聚类过程和结果,如图9-32所示。从图中可以明显看到每个样品从单独一类逐次合并,一直到全部合并成一大类。,9.2 SPSS 在聚类分析中的应用,9.3.1 判别分析的基本原理1、方法概述 判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。2、基本原理 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。其中,距离判别分析是一种常见的判别分析方法。它的基本思想是:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。,9.3 SPSS 在判别分析中的应用,例如两个总体的距离判别法中,设有两个总体(或称两类)G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标如下页表。今任取一个样品,实测指标值为,问X应判归为哪一类?首先计算X到G1、G2总体的距离,分别记为 和,按距离最近准则判别归类,则可写成:然后比较 和 大小,按距离最近准则判别归类,9.3 SPSS 在判别分析中的应用,9.3.2 判别分析的SPSS操作详解Step01:打开主菜单选择主菜单中的【分析】【分类】【辨别】命令,弹出【辨别分析】对话框,如图所示,这是判别分析的主操作窗口。,9.3 SPSS 在判别分析中的应用,Step02:选择判别分析变量 在【辨别分析】对话框左侧的候选变量中选择进行判别分析的变量将其添加至【自变量】列表框中,将其作为自变量。Step03:指定分类变量及范围在主对话框的候选变量中选择分类变量(离散型变量)移入【分组变量】框中。此时它下面的【定义范围】按钮加亮,按该按钮,屏幕弹出一个小对话框,提供指定该分类变量的数值范围,如图所示。其中,输入最小值:输入最大值:,9.3 SPSS 在判别分析中的应用,Step04:选择判别分析方法 在主对话框【自变量】列表框下面有两个按钮,它们提供了判别分析方法选择:一起输入自变量:建立所选择的所有变量的判别式。当认为所有自变量都能对观测量特性提供丰富的信息时使用该选择项。系统默认设置。使用步进式方法:采用逐步判别法作判别分析。点选该项后,主菜单中的【方法】按钮加亮。可以进一步选择判别分析方法(见第 步)。如果希望使用一部分观测量进行判别函数的推导,选择一个能够标记需选择的这部分观测量的变量将其移入【选择变量】框中;再单击其右侧的Valve按钮,展开【设置值】对话框,键入能标记的变量值,如图所示。,9.3 SPSS 在判别分析中的应用,Step05:基本统计量输出选择 单击【统计量】按钮,弹出对话框图所示。这里可以选择进行判别分析的基本统计量输出。具体选项含义如下:,9.3 SPSS 在判别分析中的应用,【描述性】栏选择输出描述统计量:均值:输出各类中各自变量的均值、标准差和各自变量总样本的均值、标准差。单变量 ANOVAs:单因素方差分析。对各类中同一自变量进行均值检验,输出单因素方差分析结果。Boxs M:对各类协方差矩阵相等的假设进行检验。【函数系数】栏选择输出判别函数的系数Fishers:输出Fisher函数系数。对每一类给出一组系数,并给出该组中判别分数最大的观测量。未标准化:未经标准化处理的判别函数系数。【矩阵】栏选择输出自变量的系数矩阵类内相关矩阵:类内协方差矩阵:对每一类分别输出协方差矩阵:总样本的协方差矩阵:,9.3 SPSS 在判别分析中的应用,Step06:设置逐步判别分析选项 点选【使用步进式方法】后,就表示采用逐步判别法进行分析。接着单击主菜单中的【统计量】按钮,弹出对话框图所示。这里可以选择逐步判别分析的选项。具体选项含义如下:,9.3 SPSS 在判别分析中的应用,【方法】栏选择变量进入判别函数的方式:Wilks lambda:每步都选择Wilk 的统计量最小的变量进入判别函数。未解释方案:每步都选择使类间不可解释的方差和最小的变量进入判别函数。Mahalanobis 距离:每步都选择使靠得最近的两类间的Mahalanobis 距离最大的变量进入判别函数。最小 F 值:每步都选择使任何两类间的“最小F 值”达到最大的变量进入判别函数。Raos V:每步都选择使Raos V 统计量产生最大增量的变量进入判别函数。选择此种方法后,应该在该项下面的V-to-enter 后的参数框中输入这个增量的指定值。当某变量导致的V 值增量大于指定值的变量时,该变量进入判别函数。,9.3 SPSS 在判别分析中的应用,【标准】栏选择逐步判别停止的条件:使用 F 值:使用F 值,系统默认选项,当加入一个变量(或剔除一个变量)后,对在判别函数中的变量进行方差分析。当计算的F 值大于指定的Entry 值时,该变量保留在函数中。默认值是Entry 为3.84。当该变量使计算的F 值小于指定的Removal 值时,该变量从函数中剔除。默认值是Removal 为2.71。设置这两个值时应该要求Entry 值大于Removal 值。使用F的概率:使用F 检验的概率决定变量是否加入函数或被剔除。当计算的F 检验的概率小于指定的Entry 值时,该变量加入函数中。当该变量使计算的F 值的概率大于指定的Removal 值时,该变量从函数中剔除。【输出】栏选择逐步选择变量的过程和最后结果的显示:步进摘要:显示每步选择变量之后各变量的统计量结果。两两组间距离的F值:显示两类之间的F 比值矩阵。,9.3 SPSS 在判别分析中的应用,Step07:设置分类参数与判别结果 单击【分类】按钮,弹出对话框图所示。这里可以设置判别分析的分类参数及结果。具体选项含义如下:,9.3 SPSS 在判别分析中的应用,【先验概率】栏选择先验概率:各类先验概率相等:系统默认选项。若分为m 类,则各类先验概率均为lm。基于各类样本量占总样本量的比例计算先验概率。【使用协方差矩阵】栏选择分类使用的协方差矩阵:使用合并组内协方差矩阵进行分类。使用各组协方差矩阵进行分类。【输出】栏选择输出分类结果:输出每个观测量的判别分数、实际类、预测类(根据判别函数求得的分类结果)和后验概率等。选择此项后,下面的【将个案限制在前】项被激活,可以在它后面的文本框中输入观测量数n。选择此项则仅输出前n 个观测量。输出分类的小结表:输出对每一个观测量进行分类的结果,所依据的判别函数是由除该观测量以外的其他观测量导出的。,9.3 SPSS 在判别分析中的应用,【图】栏选择输出统计图:生成全部类的散点图:该图是根据前两个判别函数值作的散点图。如果只有一个判别函数,就输出直方图。对每一类生成一张散点图:如果只有一个判别函数,就输出直方图。生成根据判别函数值将观测量分到各类去的边界图:每一类占据一个区域。各类均值在各区中用星号标出。如果仅有一个判别函数,则不作此图。缺失值处理方式:用该变量的均值代替缺失值:,9.3 SPSS 在判别分析中的应用,Step08:结果保存设置 单击【保存】按钮,弹出对话框图所示。这里可以设置判别分析的结果输出。具体选项含义如下:,9.3 SPSS 在判别分析中的应用,建立新变量(系统默认变量名是dis_1)保存预测观测量所属类的值。建立新变量保持判别分数:建立新变量保存各个观测量属于各类的概率值。有m 类,对一个观测量就会给出m 个概率值,因此建立m 个新变量。,9.3 SPSS 在判别分析中的应用,Step09 相关统计量的Bootstrap估计 单击【Bootstrap】按钮,弹出如图9-45所示对话框,在此可以进行如下统计量的Bootstrap估计。标准化典则判别函数系数表支持标准化系数的bootstrap 估计。典则判别函数系数表支持非标准化系数的bootstrap 估计。分类函数系数表支持系数的bootstrap 估计。Step10:单击确定按钮,结束操作,SPSS软件自动输出结果。,9.3 SPSS 在判别分析中的应用,9.3.3 实例分析:全国30个省市经济增长差异研究1 实例内容 现要研究全国30个省市地区经济增长差异性,收集相关数据见表9-19所示。表中相关变量的含义分别是:x1经济增长率(%)、x2非国有化水平(%)、x3开放度(%)、x4市场化程度(%)。其中,辽宁、河北等省市归为一类,而黑龙江、吉林等省市归为另一类。请分析江苏、安徽和浙江的类别,9.3 SPSS 在判别分析中的应用,2 实例操作 由于案例中已经将北京、上海、四川等省市按照经济增长特点分类,现在需要将另外三个待估省市:江苏、安徽和陕西分类。因此,可以利用判别分析来判别它们的归属。,9.3 SPSS 在判别分析中的应用,3 实例结果及分析(1)判别分析概述表SPSS软件首先给出了进行判别分析的概述表9-20。可以看到,参加分析的变量总数为30,有效观测量数为27,占90%;包含缺失值或分类变量范围之外的观测量数为3,占10%。,9.3 SPSS 在判别分析中的应用,(2)分组统计表 表9-21给出了观测量按照类别不同进行的基本描述性统计量输出,其中包括均值、均方差和有效观测量的个数等。可以从结果初步看到,不同类之间省市经济指标的差异比较明显,例如第一类省份的“非国有化水平”指标均值等于65.0282,而第二类却只有40.1081。,9.3 SPSS 在判别分析中的应用,(3)类均值相等检验表 接着给出了不同类之间“经济增长率”等四个指标均值相等的检验结果表9-22。从结果看到,它们的相伴概率P值都远小于显著性水平0.05,因此,可以认为两个类指标之间的均值存在显著差异,可以进行判别分析。,9.3 SPSS 在判别分析中的应用,(4)判别分析特征值表 表9-23是判别函数的特征值表。从表可见,本案例仅有一个判别函数用于分析,特征值为1.479,方差百分比为100%,方差累计百分比为100%,典型相关系数为0.771。,9.3 SPSS 在判别分析中的应用,(5)Wilks 表 表9-24是对判别函数的显著性检验表。其中Wilks 值等于0.403,卡方统计量等于20.878,自由度等于4,相伴概率P值远小于显著性水平0.05,因此认为判别函数有效。,9.3 SPSS 在判别分析中的应用,(6)标准化判别函数系数 表9-25给出了标准化判别函数的系数,于是得到标准化判别函数如下:Function=0.190*经济增长率+0.242*非国有化水平+0.360*开放度+0.648*市场化程度 根据判别系数看到,“市场化程度”变量对判别结果的影响是最大的,这是因为它的系数值最大,等于0.648;相反的,“经济增长率”变量对判别结果的影响最小。,9.3 SPSS 在判别分析中的应用,(7)结构矩阵表 结构矩阵表9-26是判别变量与标准化函数之间的合并类内相关系数,变量按照相关系数的绝对值大小排列,表面判别变量与判别函数之间的相关性,如变量“市场化程度”与判别函数关系最密切。,9.3 SPSS 在判别分析中的应用,(8)非标准化判别函数系数 表9-27给出了非标准化判别函数系数,非标准判别函数为:函数=-7.263+0.060*经济增长率+0.017*非国有化水平+0.028*开放度+0.081*市场化程度 根据这个判别函数代入各变量数值可以计算出判别值。,9.3 SPSS 在判别分析中的应用,(9)判别函数类心表 表9-28给出的是按照非标准判别函数计算的函数类心,即判别函数在各类均值处的判别分数值。可以看到,在两个类心处,判别分数值差异较大。,9.3 SPSS 在判别分析中的应用,(10)分类过程概述表 表9-29给出了分类过程概述情况。可以看到,共有30个观测量参与了分类过程,没有缺失变量存在。,9.3 SPSS 在判别分析中的应用,(11)类先验概率表 表9-30给出了类先验概率表,按照先前的判别分析设置,先