第6章主成分分析.ppt
1,第六章 主成分分析,第一节 主成分分析的原理,第二节 主成分的几何意义及 求解,第三节 主成分的性质,第四节 主成分方法应用中应注意 的问题,第五节 实例分析与计算机实现,2,第一节 主成分分析的原理,多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。,利用这种“降维”的思想,诞生了“主成分分析”、“因子分析”、“典型相关分析”和“偏最小二乘回归”等统计方法。,3,主成分分析的基本思想,主成分分析(Principal components analysis),也称主分量分析、主轴分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当这些自变量的第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。,4,例6.1:斯通关于国民经济的研究,一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后,竟以97.4的精度,用三个新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入i、总收入变化率i以及时间t因素做相关分析,得到下表:,5,6,主成分分析的数学表达,7,主成分分析的数学表达,8,主成分分析的数学表达,9,当一个变量只取一个数据时,这个变量提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指主成分Yi的变异性,用方差D(Y)或D(Yi)表示。,主成分分析的数学表达,10,主成分分析的数学表达,?,11,主成分分析的数学表达,12,回忆正交矩阵的定义和性质:,13,主成分分析的数学表达,14,主成分分析的数学表达,15,主成分分析的数学表达,16,第二节 主成分的几何意义及求解,一 主成分的几何意义,二 主成分的求解,17,一、主成分的几何意义,根据上一节的分析,主成分分析从代数的角度看,就是求解p个原始变量的一些特殊线性组合(或者,对原始随机向量进行正交变换);从几何上看,这些线性组合就是把原先由X1,X2,Xp构成的坐标系进行旋转而构成新的坐标系。新的坐标系,使得样本在延着坐标轴方向有最大的离散程度(方差最大)。主成分分析在二维空间(p2)中有最为明显的几何意义。假设共有n个样品,每个样品都测量了两个指标(X1,X2),它们大致分布在一个椭圆内。事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。显然,在坐标系x1Ox2中,单独看这n个点的分量X1和X2,它们沿着x1方向和x2方向都具有较大的离散性,其离散的程度可以分别用的X1方差和X2的方差测定。如果仅考虑X1或X2中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃x1或x2分量不是“降维”的有效办法。,18,主成分分析的几何意义,平移、旋转坐标轴,19,20,易见,n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它们为原始变量X1和X2的综合变量,n个点在y1轴上的方差达到最大,即在此方向上包含了有关n个样品的最大量信息。因此,欲将二维空间的点投影到某个一维方向上,则选择y1轴方向能使信息的损失最小。我们称Y1为第一主成分,称Y2为第二主成分。易见第一主成分的效果与椭圆的形状有很大的关系,椭圆越是扁平,n个点在y1轴上的方差就相对越大,在y2轴上的方差就相对越小,用第一主成分代替所有样品所造成的信息损失也就越小。,21,如下页图示,考虑两种极端的情形:一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50的信息,这显然是不可取的。造成它的原因是,原始变量X1和X2的相关程度几乎为零,也就是说,它们所包含的信息几乎不重迭,因此无法用一个一维的综合变量来代替。另一种是椭圆扁平到了极限,变成y1轴上的一条线,第一主成分包含有二维空间点的全部信息,仅用这一个综合变量代替原始数据不会有任何的信息损失,此时的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍弃它当然没有信息损失。,22,主成分分析的几何解释,平移、旋转坐标轴,23,主成分分析的几何解释,平移、旋转坐标轴,24,这样,我们对主成分分析的几何意义就有了一个充分的理解:主成分分析的过程就是坐标系旋转的过程各主成分表达式就是新坐标系与原始坐标系的转换关系在新坐标系中,各坐标轴的方向就是原始数据变差最大的方向,25,二、主成分的求解,26,27,28,第一主成分的求解*,29,第一主成分的求解*,30,第二主成分的求解*,31,第二主成分的求解*,32,第i主成分的求解*,33,定理6.1,34,主成分分析不要求数据来自于正态总体,从上面的分析可以看到,主成分分析与其他多元统计方法不同,它不要求数据来自正态总体;实际上,主成分分析就是对数据协方差矩阵结构的分析。主要用到的技术,是矩阵的运算、矩阵对角化和矩阵特征值的计算以及矩阵的谱分解技术;我们知道,对于多元随机向量来说,其协差阵或相关矩阵都是非负定的,这样,主成分分析的操作步骤就很简单:求出协差阵或相关阵的特征值和相应的标准正交特征向量,进而就得到主成分,实现了缩减数据维度的目的;主成分分析的这个特性大大拓展了其应用范围,对于多元数据,只要涉及降维的处理,我们都可以尝试用主成分分析,而不用花太多精力考虑其分布情况。,35,第三节 主成分的性质,一 主成分的一般性质,二 主成分的方差贡献率,36,一、主成分的一般性质,37,一、主成分的一般性质,38,性质2,39,性质2,40,性质3 关于因子载荷量,41,性质4,42,因子载荷矩阵,43,性质5,44,因子载荷矩阵,45,二、主成分的方差贡献率,46,47,48,第四节 主成分方法应用中应注 意的问题,一 使用相关矩阵R计算主成分,二 主成分分析的应用领域,49,一、使用相关矩阵R计算主成分,50,一、使用相关矩阵R计算主成分,51,用R计算出主成分的性质,52,用R计算出主成分的性质,53,因子载荷矩阵,54,这里我们需要进一步强调的是,从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替。对于研究经济问题所涉及的变量单位大都不统一,采用R代替后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。因此,在后续内容中,我们默认使用相关系数矩阵R求解主成分。,一、使用相关矩阵R计算主成分,55,二、主成分分析的应用领域,数据简约、降维主成分回归聚类分析综合评价,56,利用主成分分析进行综合评价*,人们在对某个单位或某个系统进行综合评价时都会遇到如何选择评价指标体系和如何对这些指标进行综合的困难。一般情况下,选择评价指标体系后通过对各指标加权的办法来进行综合。但是,如何对指标加权是一项具有挑战性的工作。指标加权的依据是指标的重要性,指标在评价中的重要性判断难免带有一定的主观性,这影响了综合评价的客观性和准确性。由于主成分分析能从选定的指标体系中归纳出大部分信息,根据主成分提供的信息进行综合评价,不失为一个可行的选择。这个方法是根据指标间的相对重要性进行客观加权,可以避免综合评价者的主观影响,在实际应用中越来越受到人们的重视。对主成分进行加权综合。我们利用主成分进行综合评价时,主要是将原有的信息进行综合,因此,要充分的利用原始变量提供的信息。将主成分的权数根据它们的方差贡献率来确定,因为方差贡献率反映了各个主成分的信息含量多少。,57,综合评价函数,58,第五节 实例分析与计算机实现,一 主成分分析实例,二 利用SPSS进行主成分分析,59,一、主成分分析实例,例6.2 某市工业部门13个行业的8项重要经济指标数据如下页表所示,这8项经济指标分别是:X1:年末固定资产净值,单位:万元;X2:职工人数,单位:人;X3:工业总产值,单位:万元;X4:全员劳动生产率,单位:元/人年;X5:百元固定资产原值实现产值,单位:元;X6:资金利税率,单位:%;X7:标准燃料消费量,单位:吨;X8:能源利用效果,单位:万元/吨。,60,表6.1 某市工业部门13个行业8项指标,61,我们要考虑的是:如何从这些经济指标出发,对各工业部门进行综合评价与排序?我们先计算这些指标的主成分,然后通过主成分的大小进行排序。表6.2和表6.3分别是特征根(累计贡献率)和特征向量的信息。利用主成分得分进行综合评价时,从特征向量我们可以写出所有8个主成分的具体形式:,62,表6.2 特征根和累计贡献率,63,表6.3 特征向量,64,表6.4 各行业主成分得分及排序,65,我们以特征根为权,对8个主成分进行加权综合,得出各工业部门的综合得分,具体数据见表6.4。综合得分的计算公式是:(综合评价函数)根据上式可计算出各工业部门的综合得分,并可据此排序。从上表可以看出,机器行业在该地区的综合评价排在第一,原始数据也反映出机器行业存在明显的规模优势,另外从前两个主成分得分上看,该行业也排在第一位,同样存在效益优势;而排在最后三位的分别是皮革行业、电力行业和煤炭行业。,66,二、利用SPSS进行主成分分析,SPSS没有提供主成分分析的专用功能,只有因子分析的功能。但是因子分析和主成分分析有着密切的联系。因子分析的重要步骤因子的提取最常用的方法就是“主成分法”。利用因子分析的结果,可以很容易地实现主成分分析。具体来讲,就是利用因子载荷阵和相关系数矩阵的特征根来计算特征向量。即:即其中,zij为第j个特征向量的第i个元素;aij为因子载荷阵第i行第j列的元素;j为第j个因子对应的特征根。然后再利用计算出的特征向量来计算主成分。,67,100个学生的六门成绩(数学、物理、化学、语文、历史、英语)如下表所示(部分)。,例6.3 对六门考试成绩的主成分分析,68,(一)利用SPSS的 因子分析工具,1、将原始数据输入SPSS数据编辑窗口,将5个变量分别命名为X1X6。2、在SPSS窗口中选择Analyze Data ReductionFactor菜单项,调出因子分析主界面。,69,3、在因子分析的主界面中,将变量X1X6选入“Variables”栏:,因子分析主界面,70,4、“Descriptives”子对话框的设置,点击因子分析主界面的“Descriptives”选项,弹出子对话 框,对分析过程中的相关统计量进行设置:Initial solution:输出原始分析结果,包括:主成分的方差,与原始变量个数相同的主成分,各主成分的特征值以及所占总方差的百分比和累计百分比(也即累计贡献率)。,(1)Statistics复选框对分析中常用的描述性统计量进行设置。包括:Univariate descriptive:给出对每个变量的均值、方差和样本容量,71,(2)Correlation matrix复选框,给出一系列变量间的相关性指标及相关检验:Inverse、Reproduced、Anti-image三个选项,分别给出相关系数矩阵的逆矩阵、再生相关阵、反映象协方差阵和相关阵。这三个选项不常用。,Coefficients:给出所有原始变量之间的相关系数矩阵Significance level:给出所有变量相关系数的单侧显著性检验P值Determinant:输出相关系数矩阵的行列式,4、“Descriptives”子对话框的设置,72,4、“Descriptives”子对话框的设置,73,我们选中Coefficients和KMO Bartletts test of sphericity,再点击“Continue”,返回因子分析主界面。,4、“Descriptives”子对话框的设置,74,5、因子提取方法,点击因子分析主界面中的“Extraction”,弹出“因子提取方法”子对话框。“Method”选项提供了七种提取公因子的方法,具体内容我们在第七章因子分析时再详细介绍,此处,我们选取默认设置“主成分(Principal Componets)”方法即可。“Analyze”选项确定数据结构的分析对象:是分析数据的协方差阵,还是分析相关阵。我们选择默认设置“Correlation matrix”(相关阵)。,75,“Exact”选项设定公因子的提取标准。在主成分分析中,就是设定协差阵/相关阵的特征值(或主成分方差)的提取标准。系统默认为1,即输出结果中将只显示出数值大于1的特征值和相应的特征向量。也可以在“Number of factors”中指定显示因子/主成分的个数作为例题,为了清楚了解全部主成分的结果,我们将Eigenvalues over选项改为0,也即,显示计算得到的全部特征值和特征向量。(当然,在实际应用中,这样做的意义并不大),5、因子提取方法,76,“Display”选项给出两个重要的输出结果:(1)Unrotated factor solution:默认选项,显示未经旋转变换的因子提取结果。在主成分分析中,就是给出各个主成分的因子载荷矩阵“Component matrix”。这个系数矩阵(或经过适当转化),可以将所有主成分表示成各个变量的线性组合,也就是我们最后需要的主成分分析结果。(2)Scree Plot:碎石图,用于显示各主成分的重要程度。其实就是全部特征值的散点图,横轴为因子序号,纵轴为特征值数值,按照由大到小的顺序排列,可直观显示出各主成分的重要程度。,5、因子提取方法,我们选中Scree Plot,再点击“Continue”,返回因子分析主界面。,77,6、因子旋转方法,在因子分析主界面中点击“Rotation”,弹出子对话框对因子旋转方法进行设置。Method选项提供了五种因子旋转的方法。由于主成分分析不涉及因子旋转的内容,此处我们保持默认设置“不旋转(None)”即可。其他相关内容,我们在第七章因子分析时再详细介绍。,在Display选项中,我们勾选“Loading plot(s)”,生成因子空间载荷图。再单击Continue返回因子分析主界面。因子空间载荷图为二维(主成分个数为2时)或三维(当主成分个数3时),坐标轴为主成分,原始变量以散点的形式出现在图中。该图可以非常直观的观察变量与主成分/因子之间的关系。,78,7、对因子得分的设置,79,7、对因子得分的设置,在因子分析主界面中点击“Scores”,对因子得分进行设置:1、选项“Save as variables”:将计算出的因子得分作为新变量存入原数据文件。再次强调,此分数已经过标准化,全部样品的该得分值,方差为1。该选项下的单选框组“Method”:用于选择计算因子得分的方法。我们使用默认的回归“Regression”方法即可。2、选项“Display factor score coefficient matrix”:在输出结果中显示“因子得分矩阵”。这个系数矩阵的作用与“因子载荷矩阵”相似,(通过某种转化)可以将所有主成分表示成各个变量的线性组合,也就是我们最后需要的主成分分析结果。,需要特别指出的是,我们通过“因子得分矩阵”和“因子载荷矩阵”获得最终的主成分分析结果,需要各自经过不同的转化过程才能实现。我们在分析输出结果时再讨论这个问题。我们选中上述两个选项,再单击“Continue”,返回因子分析主界面。,80,结果分析1 原始变量的相关系数矩阵,在因子分析的主界面中,点击OK运行程序,在OUTPUT窗口中得到各类输出结果如下:1、原始变量的相关阵 该表可见,各变量之间的相关程度很高。主成分分析实际就是对这个相关阵进行分析,求解其特征值和特征向量。,81,2、原始变量相关性的检验,KMO统计量为0.834,说明变量之间的相关性没有太大差异,适合进行主成分/因子分析。Bartlett球形检验的P值显著,说明可以拒绝“相关阵为单位阵”的原假设,同样证明变量之间存在明显相关。,82,3、主成分对各变量信息的提取情况,标题“Communalities”原意为公因子方差比,指得是按照所选择的标准,提取相应数量主成分后,各原始变量中信息被提取出来的比例。表下的注解说明,本次分析所采用的因子提取标准,是默认的“主成分分析”方法。,结果显示,除“语文”的信息有约10没有提取出来,其他五个原始变量的绝大部分信息,都已由主成分提取。当然,这也可接受了。,83,4、各主成分的贡献率,该表显示了各主成分解释原始变量总方差的情况。也即,给出了6个主成分各自能够承载原始变量多少总信息。第二列为每个主成分特征值,第三、四列为每个主成分的贡献率和累计贡献率。可见,使用23个主成分就够用了。为什么?第五、六、七列的数据与前面三列相同?为什么?,84,5、碎石图,碎石图是全部特征值的散点图,横轴为因子序号,纵轴为特征值数值,按照由大到小的顺序排列,可直观显示出各主成分的重要程度。由图见,从第三、四个主成分开始,特征值就比较低了。这从另一个侧面说明选择二或三个主成分就够了。,85,6、因子载荷矩阵,这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分为数学、物理、化学、语文、历史、英语这六个变量的线性组合,系数(比例)为-0.806,-0.674,-0.675,0.893,0.825,0.836。,86,6、因子载荷矩阵,87,6、因子载荷矩阵,88,6、因子载荷矩阵,89,7、获取特征向量矩阵,90,7、获取特征向量矩阵,91,7、获取特征向量矩阵,因此,为获得主成分分析的特征向量矩阵,我们只需将SPSS的输出结果“Component matrix”(因子载荷矩阵)中的每一列,除以相应特征值的平方根即可!例如,第一个主成分的特征向量,就是因子载荷矩阵第一列每个元素,除以第一个特征值的平方根;第二个主成分的特征向量,就是因子载荷矩阵第二列每个元素,除以第二个特征值的平方根,依此类推我们根据特征向量矩阵,可以得到各个主成分得分的表达式:这就是我们主成分分析的最终结果!,92,7、获取特征向量矩阵,将标准化后的各变量数据X*代入上述表达式,即可得到每个样品的各主成分得分。以每个样品第一、二个主成分得分为例:可以验证,各主成分得分的方差,即为该主成分所对应的特征值(性质1)。为了与后面的另一种主成分得分相区别,我们定义它为“非标准化”的主成分得分。,93,在实际应用中,如何具体计算每个样品的非标准化主成分得分?SPSS并不能直接计算这种形式的主成分得分,我们可以转换到EXCEL中,利用标准化的原始变量数据和特征向量进行矩阵运算。当然,这样做的工作量可想而知。或者,SPSS可提供另外一种形式,“标准化”的主成分得分(其方差为1),这两种主成分得分是可以很方便转化的。“标准化”的主成分得分,需要使用SPSS输出结果中的“因子得分矩阵”来计算:,7、获取特征向量矩阵,94,8、因子得分矩阵,因为我们刚才在Score子对话框中勾选了“Display factor score coefficient matrix”,所以输出“因子得分矩阵”:,95,因子得分矩阵“Component score coefficient matrix”和刚才讲的因子载荷矩阵“Component matrix”无论在名称还是表式上都很相似,请同学们一定要区分清楚。因子载荷矩阵的元素值,是因子得分矩阵元素的lk倍。,8、因子得分矩阵,96,8、因子得分矩阵,97,9、标准化主成分得分的计算,因子得分矩阵其实就是计算标准化的主成分得分的系数矩阵。根据“标准化”的主成分得分,也可以得到另外一种主成分结果的表达方式。例如,本例第一、二个主成分的标准化得分为:也有些教材把这种表达方法作为主成分分析的最终结果。,98,9、标准化主成分得分的计算,比较主成分分析两种不同的结果表达方式:为何系数不一样?,99,标准化与非标准化主成分得分有何区别?1、标准化主成分得分值的方差为1。而非标准化主成分得分值的方差为其特征值。2、每个样品相同主成分的两类得分值,相差了特征值的平方根倍数。,9、标准化主成分得分的计算,100,因为我们刚才在Score子对话框中勾选了“Save as variables”,所以刚才计算出的因子得分(即每个样品标准化的主成分得分值)已作为新变量存入原数据文件:,9、标准化主成分得分的计算,变量Fac1_1、Fac2_1、Fac3_1分别表示第一、二、三个主成分的标准化得分。因此,如果需要计算非标准化主成分得分,只需将这些变量分别乘以相应主成分特征值的平方根,即可完成转化。,101,输出结果中,还给出标准化主成分得分之间的协方差矩阵。由于主成分分析时,各个主成分特征向量是相互正交的,因此该协差阵为单位阵。,9、标准化主成分得分的计算,102,因为我们在“Rotation”子对话框中勾选了“Loading plot”,结果输出三维因子载荷图;,10、因子空间载荷图,103,或者,为更清楚了解主成分之间关系,我们将Extraction子对话框中的Number of factor选项改为2,保持其他选项不变,将输出二维因子载荷图。,10、因子空间载荷图,104,该图左面三个点是数学、物理、化学三科,右边三个点是语文、历史、外语三科。分析二维载荷图可以看出:第一主成分既充分解释了理科成绩(数学、物理、化学),也充分解释了文科的语文、历史和外语三门成绩。但文理两科的符号相反。这也许是由于这两类科目的性质不同。因此,我们用第一主成分可以识别出学生偏科的情况:若偏于理科,则负方向很大;若偏向于文科,则正方向较大。第二主成分则大体正面的体现了所有6科的成绩,我们不妨认为它综合体现了学生对文、理两类科目的掌握程度。因此,我们通过两个指标,就综合概括了原先需6个指标(六门成绩)反映的信息,实现了降维的目的。,10、因子空间载荷图,105,本章结束,