主成份分析和因子分析实例.ppt
《主成份分析和因子分析实例.ppt》由会员分享,可在线阅读,更多相关《主成份分析和因子分析实例.ppt(63页珍藏版)》请在三一办公上搜索。
1、主成份分析和因子分析实例,主成份分析的基本思想 假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要求p个指标的综合指标F1,F2,Fk(kp),而这些新的指标要充分反映原指标的信息,并且相互独立。这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。,各个主成分分析是原始指标的线性组合,满足如下的条件:,主成分之间相互独立,即无重叠的信息。即,主成分的方差依次递减,重要性依次递减,即,每个主成分的系数平方和为1。即,设X的协方差阵为,1,2,p为的特征根,不妨假设1 2 p,可以证明:第一主成份的方差为1,线性组合的系数为
2、1所对应的特征单位向量。进一步可以证明,为各个特征根所对应的标准正交向量所组成的矩阵,因子分析的基本思想,因子分析也是一种数据简化的方法。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个不可观测变量来多个变量的相关关系。这几个不可观测变量能够反映原来众多变量的主要信息,这些不可观测的潜在变量称为因子。,基本的因子分析模型:,称 为公共因子,是不可观测的变量,系数称为因子载荷。是特殊因子,是不能被前m个公共因子包含的部分。并且满足:,即不相关;,即 互不相关,方差为1。即 互不相关,方差不一定相等,AnalyzeDataReductionFctor进入因子分析和主成份
3、分析对话框,13,例1:利用2007年全国31省市自治区经济发展情况的八项指标做主成份分析。,Descriptive框:选择描述性统计量。,Statistics:Univariate descriptives 输出原始变量的均值、标准差等单变量的描述统计量。Initial solution 给出因子提取前,分析变量的公因子方差。对于主成份分析来说,这些值是分析变量的相关(协方差)矩阵对角线的元素。Correlation Matrix 相关矩阵栏 Coefficients 给出原始分析变量间的相关系数矩阵。Significance levels给出每个相关系数相对于0的单尾假设检验的显著性水平。
4、Determinant 给出相关系数矩阵的行列式值。,Inverse 给出相关系数矩阵的逆矩阵。Reproduced 再生相关矩阵。此项给出因子分析后的相关矩阵,还给出残差,即原始相关阵与再生相关阵的差。Anti-image 给出反映像相关矩阵KMO and Bartlett test of sphericity 要求进行KMO检验和球形Bartlett检验。KMO是用来比较变量间相关系数的大小。如果KMO接近1,表示适合做因子分析,如果KMO接近0,表示不适合做因子分析。球形Bartlett检验是检验相关矩阵是否是单位矩阵,表明数据是否合适做因子模型。,Extraction按钮:用于设置因子
5、提取方法、迭代收敛条件、公因子数等。,Method:选择因子提取方法,共有七种因子提取方法,默认为主成份法。七种方法分别是:Principal Components:主成份法;Unweighted least squares:未加权最小二乘法Generalized least square:综合最小平方法Maximum likelihood:最大似然估计法Principal axis factoring:主轴因子法Alpha factoring:因子法Image factoring:映像因子法。,Analyze Correlaton Matrix 使用相关矩阵进行因子分析。如果原始变量的量纲不
6、同选择此项。Covariance Matrix 使用协方差矩阵进行因子分析。Extract 因子提取选项。Eigenvalues over 指定提取的因子的特征根应具有的范围。Number of factors 指定提取公因子的数目。,Display 指定与因子提取相关的输出项。Unrotated solution 要求显示未经旋转的因子提取结果。Scree plot 显示碎石图。Maximum iterations for Convergence 指定因子分析收敛的最大迭代次数,默认值为25.,Rotation 按钮,Method 选择旋转的方法。None 不进行旋转。Varimax 方差最
7、大旋转。是一种正交旋转。它使得每个因子具有最高载荷的变量数最小。Direct Oblimin 直接斜交旋转。如果指定此项需要输入Delta值,越接近于0,斜交程度越深。Quartmax 四次最大正交旋转。四次方最大法通过使因子载荷矩阵中每一行的因子载荷平方的方差达到最大。四次方最大旋转是从简化载荷矩阵的行出发,通过旋转初始因子,使每个变量只在一个因子上又较高的载荷,而在其它的因子上尽可能低的载荷。如果每个变量只在一个因子上有非零的载荷,这时的因子解释是最简单的。,Equamax 平均正交旋转。是方差最大旋转和四次最大旋转的结合。可以使在一个因子上有较高载荷的变量数和变量中需要解释的因子数最少。
8、Promax 斜交旋转方法。允许因子之间彼此相关,它比直接斜交旋转更快,因此适用于大数据集的因子分析。DisplayRotated solution 给出旋转后的因子载荷矩阵和因子转换矩阵。对于斜交旋转除显示以上两项外,还显示因子之间的相关矩阵。,Loding plots 因子载荷散点图。给出以因子为坐标轴的各变量的载荷散点图。如果有两个因子,给出原始变量旋转以后的散点图。如果多于三个因子,则给出基于前三个因子的三维载荷散点图。如果只提取一个因子则不会给出散点图。Scores 因子得分对话框。Save as variable 将因子得分最为新变量保存在数据文件中。,2,Method 指定计算因
9、子得分的方法。Regression 回归法。Bartlett 巴特利特法(加权最小二乘法)。Anderson-Rubin 安德森-鲁宾法。是为了保证因子的正交性,而对Bartlett做的调整。因子得分的均值为0,方差为1,且彼此不相关。Display factor score coefficient matrix 显示因子得分系数矩阵,是标准化的得分系数。,Options,2,Sorted by size 载荷系数按其数值的大小排列并构成因子载荷矩阵。使在同一个因子上具有较高载荷的变量排在一起,便于观察。Suppress absolute values less than 不显示那些绝对值小于
10、所指定值的载荷系数。输入0-1之间的数,默认值为0.1。选择此项可以突出载荷较大的变量,便于得出结论。,Initial 列表示各变量的方差。Extraction列表示每个变量被公共因子提取的方差,即共同度。,因子分析结果,上表为未经旋转的因子载荷矩阵。国内生产总值0.968第一公因子0.238第二公共因子。,再生相关矩阵:它是因子分析后的相关矩阵。即根据各个变量的公共因子表达式所计算的变量之间的相关系数矩阵。残差为原始相关矩阵与再生相关矩阵的差。,旋转后的因子载荷矩阵。相对于未旋转前因子载荷的元素更加极端。,上表为因子旋转时的因子转换矩阵。,成分得分系数矩阵,上表给出了用原始变量表示主成份得分
11、的系数信息。,标准化第一主成份(第一公因子)0.221标准化后的国内生产总值0.187标准化后的城乡存款余额,未标准化第一主成份0.221标准化后的国内生产总值0.187标准化后的城乡存款余额,未标准化第二主成份-0.046标准化后的国内生产总值0016标准化后的城乡存款余额,上表为因子得分的协方差矩阵,由此可见各个因子之间是完全正交的。,例2:用主成份分析研究影响我国物价波动的因素。受国内经济波动、居民收入及财富变化、生产成本价格上涨、国际石油、粮食等原材料价格的影响使得我国物价的波动变得极其复杂。由于物价的波动不是取决于某一种因素,或某几个指标,而是受多方面因素的影响。而且随着我国市场化程
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成份 分析 因子分析 实例
链接地址:https://www.31ppt.com/p-5178270.html