多元统计分析 主成分分析ppt课件.ppt
主成分分析,主成分分析的基本思想主成分的计算主成分的性质主成分分析的应用主成分回归,一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。,1 基本思想,在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:,主成分分析的基本思想 主成分分析就是把原有的多个指标转化成少数几个代表性较好的综合指标,这少数几个指标能够反映原来指标大部分的信息(85%以上),并且各个指标之间保持独立,避免出现重叠信息。主成分分析主要起着降维和简化数据结构的作用。,主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。 在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。,主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。 很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。,2 数学模型与几何解释,假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论 m 个新的指标F1,F2,Fm(mp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。,其中,这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。,满足如下的条件:,主成分之间相互独立,即无重叠的信息。即,主成分的方差依次递减,重要性依次递减,即,每个主成分的系数平方和为1。即,主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,平移、旋转坐标轴,旋转变换的目的是为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。,Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的n个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。,主成分分析的几何解释,平移、旋转坐标轴,3 主成分的计算,先讨论二维情形,求主成分F1和F2。,观察图,我们已经把主成分F1和F2 的坐标原点放在平均值 所在处,从而使得F1和F2 成为中心化的变量,即F1和F2 的样本均值都为零。,因此F1可以表示为,关键是,寻找合适的单位向量 ,使F1的方差最大。,问题的答案是:X的协方差矩阵S 的最大特征根 所对应的单位特征向量即为 。并且 就是F1的方差。,推导,同样,F2可以表示为,寻找合适的单位向量 ,使F2与F1独立,且使F2的方差(除F1之外)最大。,问题的答案是:X的协方差矩阵S 的第二大特征根 所对应的单位特征向量即为 。并且 就是F2的方差。,推导,求解主成分的步骤:,1. 求样本均值 和样本协方差矩阵S;,2. 求S的特征根,求解特征方程 ,其中I是单位矩阵,解得2个特征根,3. 求特征根所对应的单位特征向量,4. 写出主成分的表达式,例1 下面是8 个学生两门课程的成绩表,对此进行主成分分析。,1. 求样本均值和样本协方差矩阵,2. 求解特征方程 0,解得:,3.求特征值所对应的单位特征向量,解得:,4. 得到主成分的表达式,5.主成分的含义,通过分析主成分的表达式中原变量前的系数来解释各主成分的含义。,第一主成分F1是 和 的加权和,表示该生成绩的好坏。,第二主成分F2表示学生两科成绩的均衡性,6. 比较主成分重要性,第一主成分F1的方差为,第二主成分F2的方差为,方差贡献率,方差贡献率为,主成分F1和F2的方差总和为,总方差保持不变,的数据。,对此进行主成分分析。,1. 求样本均值和样本协方差矩阵,2. 求解协方差矩阵的特征方程,3.解得三个特征值,和对应的单位特征向量:,4. 由此我们可以写出三个主成分的表达式:,5. 主成分的含义,F1表示学生身材大小。,F2反映学生的体形特征,三个主成分的方差贡献率分别为:,前两个主成分的累积方差贡献率为:,例3 对88个学生5 门不同课程的考试成绩进行分析,要求用合适的方法对这5 门课程成绩进行平均,以对88个学生的成绩进行评比。这5门课程是:Mechanics Vectors (闭),Algebra Analysis Statistics (开)。,经计算,得到5个主成分的表达式如下:,这5个主成分的方差分别为679.2,199.8,102.6, 83.7和31.8。前两个主成分各自的贡献率和累积贡献率为,在一般情况下,设有n个样品,每个样品观测p个指 标,将原始数据排成如下矩阵:,解得p个特征根,再加上单位向量的条件,解得,4. 写出主成分的表达式,根据累积贡献率的大小取前面m 个(mp)主成分选取原则: 且,主成分个数的选取原则,例4 设 的协方差矩阵为,经计算, 的特征值为,相应的主成分分别为,第一主成分的方差贡献率为:,4 R 型分析,为消除量纲影响,在计算之前先将原始数据标准化。标准化变量的 S=R,所以用标准化变量进行主成分分析相当于从原变量的相关矩阵 R 出发进行主成分分析。统计学上称这种分析法为R型分析,由协方差矩阵出发的主成分分析为S型分析。 S型分析和R型分析的结果是不同的。在一般情况下,若各变量的量纲不同,通常采用R型分析。,R型分析的概念,5 主成分的性质,一、主成分的相关结构主成分Fk的方差 主成分Fk的方差贡献率为主成分与每个变量之间的相关系数,4. 主成分对每个原变量的方差贡献,证明,第一主成分与原变量的相关系数依次是,第一主成分与原变量的相关系数依次是,同样,我们可以很容易地计算第二主成分与三个原变量之间的相关系数:,横行之和为1, 从横行看,有,因此从纵向看,有:,从纵向来看, 反映了 65.9%的信息,反映了 82.1%的信息,反映了 89.1%的信息。,二、主成分的性质,主成分的协差阵为对角阵,总方差保持不变 与 的相关系数,若进行R型分析,则,若进行R型分析,则,对 的方差贡献为,若进行R型分析,则,从横行看有,从纵向看有,6 用主成分图解样品和变量,主成分分析后,若能以两个主成分代表原变量大部分的信息,则我们可以在平面上分析每一个样品点。步骤如下: 1、对每个样品分别求第一主成分F1和第二主成分F2的得分。 2、建立以F1和F2 为轴的直角坐标系。以 F1为横坐标, F2为纵坐标,在坐标系中描出各个样品点(画散点图)。 3、解释坐标系的各个象限。,一、图解样品(对样品分类),二、图解变量(对变量分类),主成分分析后,若能以两个主成分代表原变量大部分的信息,则对应每个原变量 ,只剩下 和 。 以 为横轴, 为纵轴,建立直角坐标系。然后以为 横坐标,以 为纵坐标,在坐标系中描出各变量对应的点。,7 主成分分析用于系统评估,第一种方法,通过主成分分析得到综合指标 利用 F1作为评估指标,根据F1得分对样本点进行排序比较。但有两个前提条件: 1. F1与全体原变量都正相关, 即 (i=1,2,p)。 2.各 (i=1,2,p)在数值上的分布较为均匀。,第二种方法,通过主成分分析,取前面m个主成分 ,以每个主成分 的方差贡献率为权,构造综合评价函数按F值的大小对样品进行排序比较或分类。,注意:实际上,这一方法不合理, 的含义违背了综合评价的本意。,主成分回归,居民消费水平指常住住户对货物和服务的全部最终消费支出,居民消费除了直接以货币形式购买货物和服务的消费之外,还包括以其他方式获得的货币和服务的消费支出。居民消费水平受许多因素的影响,主要有居民收入、消费观念、消费环境、国家政策等等。由于资料的可得性和代表性,选择以下变量。,一、提出问题,居民消费水平的多因素分析,数据见sasuser.vregex01,影响人们外出旅游的因素有居民收入、交通、闲暇时间、旅游目的地治安状况、旅游目的地的环境卫生以及接待能力等等。,由于资料的可得性和代表性,选择以下变量。,数据见sasuser.tourmx,例2 国内旅游人数模型,二、主成分回归方法,主成分回归:,由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。,1、经济分析数据 X1 :GDP X2 :积累总额 X3:消费总额 Y:进口总额 求进口总额与GDP、积累总额和消费总额之间的回归方程。,三、主成分回归的实例,数据见sasuser.vregl01,Parameter Estimates,Summary of Fit,Eigenvectors,Eigenvalues of the Correlation Matrix,F1=0.7063x1+0.0435x2+0.7065x3,F2=-0.0357x1+0.9990 x2-0.0258x3,Analysis of Variance,Parameter Estimates,标准化后的变量,把标准化变量还原,代入得:,影响人们外出旅游的因素有居民收入、交通、闲暇时间、旅游目的地治安状况、旅游目的地的环境卫生以及接待能力等等。,由于资料的可得性和代表性,选择以下变量。,数据见sasuser.tourmx,例2 国内旅游人数模型,Parameter Estimates,Summary of Fit,Eigenvectors,Eigenvalues of the Correlation Matrix,F1=0.5810 x1+0.5918x2+0.5588x3,F2=-0.5167x1-0.2623x2+0.8150 x3,Analysis of Variance,Parameter Estimates,标准化后的变量,把标准化变量还原,代入得:,选 题,地区经济发展现状及潜力分析长江三角洲经济发展状况分析长江三角洲产业发展状况分析城市竞争力评价指标体系区域智力资本的测度区域创新能力对经济增长的影响分析区域智力资本对经济增长的影响分析区域软实力评价体系研究,主成分的推导,(一) 第一主成分,寻找合适的单位向量 ,使F1的方差最大。,表明: 应为 的特征值,而 为与 对应的单位特征向量。,而且,可见 应取 的最大特征根。,如果第一主成分的信息不够,则需要寻找第二主成分。,(二) 第二主成分,寻找合适的单位向量 ,使F2的方差最大。,用 左乘上式,,0,0,因而,表明: 应为 的特征值,而 为与 对应的单位特征向量。,而且,这时 能再取 了,应取 。,主成分的改进,1、无量纲化的改进,从标准化的数据提取的主成分,实际上只包含了各指标间相互影响这一部分信息,不能准确反映原始数据所包含的全部信息。,改进原始数据的无量纲化方法,均值化方法,均值化后,数据的协方差矩阵S 中的元素,均值化后,数据的协方差矩阵,对角线上是原变量标准差系数的平方,其他位置上是变量两两之间的相互关系。,均值化处理后的协方差矩阵不仅消除了指标量纲与数量级的影响,还能包含原始数据的全部信息。,