多元统计分析之因子分分析.ppt
《多元统计分析之因子分分析.ppt》由会员分享,可在线阅读,更多相关《多元统计分析之因子分分析.ppt(108页珍藏版)》请在三一办公上搜索。
1、2023/11/1,中国人民大学六西格玛质量管理研究中心,1,多元统计分析,何晓群,中国人民大学出版社,2023/11/1,中国人民大学六西格玛质量管理研究中心,2,第六章 因子分分析,目录 上页 下页 返回 结束,6.1 因子分析的基本理论,6.2 因子载荷的求解,6.3 因子分析的步骤与逻辑框图,6.4 因子分析的上机实现,2023/11/1,中国人民大学六西格玛质量管理研究中心,3,第六章 因子分分析,目录 上页 下页 返回 结束,因子分析(factor analysis)模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量
2、归结为少数几个综合因子的一种多变量统计分析方法。相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系;因此,因子分析的出发点是原始变量的相关矩阵。因子分析的思想始于1904年Charles Spearman对学生考试成绩的研究。近年来,随着电子计算机的高速发展,人们将因子分析的理论成功地应用于心理学、医学、气象、地质、经济学等各个领域,也使得因子分析的理论和方法更加丰富。本章主要介绍因子分析的基本理论及方法,运用因子分析方法分析实际问题的主要步骤及因子分析的上机实现等内容。,2023/11/1,中国人民大学六西格玛质量管理研究中心,4,目录 上页 下页 返回 结束,6.1 因子分析的基
3、本理论,6.1.1 因子分析的基本思想,6.1.2 因子分析的基本理论及模型,因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。在经济统计中,描述一种经济现象的指标可以有很多,比如要反映物价的变动情况,对各种商品的价格做全面调查固然可以达到目的,但这样做显然耗时耗力,为实际工作者所不取。实际上,某一类
4、商品中很多商品的价格之间存在明显的相关性或相互依赖性,只要选择几种主要商品的价格或进而对这几种主要商品的价格进行综合,得到某一种假想的“综合商品”的价格,就足以反映某一类物价的变动情况,这里,“综合商品”的价格就是提取出来的因子。,2023/11/1,中国人民大学六西格玛质量管理研究中心,5,目录 上页 下页 返回 结束,6.1.1 因子分析的基本思想,2023/11/1,中国人民大学六西格玛质量管理研究中心,6,目录 上页 下页 返回 结束,6.1.1 因子分析的基本思想,这样,对各类商品物价或仅对主要类别商品的物价进行类似分析然后加以综合,就可以反映出物价的整体变动情况。这一过程也就是从一
5、些有错综复杂关系的经济现象中找出少数几个主要因子,每一个主要因子就代表经济变量间相互依赖的一种经济作用。抓住这些主要因子就可以帮助我们对复杂的经济问题进行分析和解释。因子分析还可用于对变量或样品的分类处理,我们在得出因子的表达式之后,就可以把原始变量的数据代入表达式得出因子得分值,根据因子得分在因子所构成的空间中把变量或样品点画出来,形象直观地达到分类的目的。,因子分析不仅仅可以用来研究变量之间的相关关系,还可以用来研究样品之间的相关关系,通常将前者称之为R 型因子分析,后者称之为Q 型因子分析。我们下面着重介绍型因子分析。,2023/11/1,中国人民大学六西格玛质量管理研究中心,7,目录
6、上页 下页 返回 结束,6.1.2 因子分析的基本理论及模型,(一)Charles Spearman提出因子分析时用到的例子,为了对因子分析的基本理论有一个完整的认识,我们先给出Charles Spearman 1904年用到的例子。在该例中Spearman研究了33名学生在古典语(C)、法语(F)、英语(E)、数学(M)、判别(D)和音乐(Mu)六门考试成绩之间的相关性并得到如下相关阵:,2023/11/1,中国人民大学六西格玛质量管理研究中心,8,目录 上页 下页 返回 结束,6.1.2 因子分析的基本理论及模型,2023/11/1,中国人民大学六西格玛质量管理研究中心,9,目录 上页 下
7、页 返回 结束,6.1.2 因子分析的基本理论及模型,除此之外,还可以得到如下有关 方差的关系式:,2023/11/1,中国人民大学六西格玛质量管理研究中心,10,目录 上页 下页 返回 结束,6.1.2 因子分析的基本理论及模型,2023/11/1,中国人民大学六西格玛质量管理研究中心,11,目录 上页 下页 返回 结束,6.1.2 因子分析的基本理论及模型,2023/11/1,中国人民大学六西格玛质量管理研究中心,12,目录 上页 下页 返回 结束,6.1.2 因子分析的基本理论及模型,(二)一般因子分析模型,下面我们给出更为一般的因子分析模型:设有 个样品,每个样品观测 个指标,这 个指
8、标之间有较强的相关性(要求个指标相关性较强的理由是很明确的,只有相关性较强才能从原始变量中提取出“公共”因子)。为了便于研究,并消除由于观测量纲的差异及数量级不同所造成的影响,将样本观测数据进行标准化处理,使标准化后的变量均值为0,方差为1。为方便把原始变量及标准化后的变量向量均用 表示,用 表示标准化的公共因子。,2023/11/1,中国人民大学六西格玛质量管理研究中心,13,目录 上页 下页 返回 结束,6.1.2 因子分析的基本理论及模型,2023/11/1,中国人民大学六西格玛质量管理研究中心,14,目录 上页 下页 返回 结束,6.1.2 因子分析的基本理论及模型,2023/11/1
9、,中国人民大学六西格玛质量管理研究中心,15,目录 上页 下页 返回 结束,6.1.2 因子分析的基本理论及模型,由模型(6.7)及其假设前提知,公共因子 相互独立且不可测,是在原始变量的表达式中都出现的因子。公共因子的含义,必须结合实际问题的具体意义确定。叫做特殊因子,是向量 的分量()所特有的因子。各特殊因子之间以及特殊因子与所有公共因子之间也都是相互独立的。矩阵 中的元素 称为因子载荷,的绝对值大,表明 与 的相依程度越大,或称公共因子 对于 的载荷量越大,进行因子分析的目的之一,就是要求出各个因子载荷的值。,2023/11/1,中国人民大学六西格玛质量管理研究中心,16,目录 上页 下
10、页 返回 结束,6.1.2 因子分析的基本理论及模型,2023/11/1,中国人民大学六西格玛质量管理研究中心,17,目录 上页 下页 返回 结束,6.1.2 因子分析的基本理论及模型,2023/11/1,中国人民大学六西格玛质量管理研究中心,18,目录 上页 下页 返回 结束,6.1.2 因子分析的基本理论及模型,2变量共同度与剩余方差,上式表明共同度 与剩余方差 有互补的关系,越大表明 对公共因子的依赖程度越大,公共因子能解释 方差的比例越大,因子分析的效果也就越好。,2023/11/1,中国人民大学六西格玛质量管理研究中心,19,目录 上页 下页 返回 结束,6.1.2 因子分析的基本理
11、论及模型,3公因子 的方差贡献,共同度考虑的是所有公共因子 与某一个原始变量的关系,与此类似,考虑某一个公共因子 与所有原始变量 的关系。,记(),则 表示的是公共因 子 对于 的每一分量()所提供的方差的总和,称为公因子 对原始变量向量 的方差贡献,它是衡量公因子相对重要性的指标。越大,则表明公共因子 对 的贡献越大,或者说对 的影响和作用就越大。如果将因子载荷矩阵 的所有()都计算出来,并按其大小排序,就可以依此提炼出最有影响的公共因子。,2023/11/1,中国人民大学六西格玛质量管理研究中心,20,目录 上页 下页 返回 结束,6.2 因子载荷的求解,6.2.1 主成分法,6.2.2
12、主轴因子法,6.2.4 因子旋转,6.2.3 极大似然法,6.2.5 因子得分,6.2.6 主成分分析与因子分析的区别,2023/11/1,中国人民大学六西格玛质量管理研究中心,21,目录 上页 下页 返回 结束,6.2 因子载荷的求解,因子分析可以分为确定因子载荷,因子旋转及计算因子得分三个步骤。首要的步骤即为确定因子载荷或是根据样本数据确定出因子载荷矩阵。有很多方法可以完成这项工作,如主成分法,主轴因子法,最小二乘法,极大似然法,因子提取法等。这些方法求解因子载荷的出发点不同,所得的结果也不完全相同。下面我们着重介绍比较常用的主成分法、主轴因子法与极大似然法。,2023/11/1,中国人民
13、大学六西格玛质量管理研究中心,22,目录 上页 下页 返回 结束,6.2.1 主成分法,用主成分法确定因子载荷是在进行因子分析之前先对数据进行一次主成分分析,然后把前面几个主成分作为未旋转的公因子。相对于其它确定因子载荷的方法而言,主成分法比较简单。但是由于用这种方法所得的特殊因子 之间并不相互独立,因此,用主成分法确定因子载荷不完全符合因子模型的假设前提,也就是说所得的因子载荷并不完全正确。但是当共同度较大时,特殊因子所起的作用较小,因而特殊因子之间的相关性所带来的影响就几乎可以忽略。事实上,很多有经验的分析人员在进行因子分析时,总是先用主成分法进行分析,然后再尝试其他的方法。,2023/1
14、1/1,中国人民大学六西格玛质量管理研究中心,23,目录 上页 下页 返回 结束,6.2.1 主成分法,2023/11/1,中国人民大学六西格玛质量管理研究中心,24,目录 上页 下页 返回 结束,6.2.1 主成分法,2023/11/1,中国人民大学六西格玛质量管理研究中心,25,目录 上页 下页 返回 结束,6.2.1 主成分法,2023/11/1,中国人民大学六西格玛质量管理研究中心,26,目录 上页 下页 返回 结束,6.2.1 主成分法,那么如何确定公因子的数目 呢?一般而言,这取决于问题的研究者本人,对于同一问题进行因子分析时,不同的研究者可能会给出不同的公因子数;当然,有时候由数
15、据本身的特征可以很明确地确定出因子数目。当用主成分法进行因子分析时,也可以借鉴确定主成分个数的准则,如所选取的公因子的信息量的和达到总体信息量的一个合适比例为止。但对这些准则不应生搬硬套,应按具体问题具体分析,总之要使所选取的公因子能够合理地描述原始变量相关阵的结构,同时要有利于因子模型的解释。,2023/11/1,中国人民大学六西格玛质量管理研究中心,27,目录 上页 下页 返回 结束,6.2.2 主轴因子法,主轴因子法也比较简单,且在实际应用中也比较普遍。用主轴因子法求解因子载荷矩阵的方法其思路与主成分法有类似的地方,两都均是从分析矩阵的结构入手;两者不同的地方在于,主成分法是在所有的 个
16、主成分能解释标准化原始变量所有方差的基础之上进行分析的,而主轴因子法中,假定 个公共因子只能解释原始变量的部分方差,利用公因子方差(或共同度)来代替相关矩阵主对角线上的元素1,并以新得到的这个矩阵(称之为调整相关矩阵)为出发点,对其分别求解特征根与特征向量并得到因子解。,在因子模型(6.7)中,不难得到如下关于 的相关矩阵 的关系式:,2023/11/1,中国人民大学六西格玛质量管理研究中心,28,目录 上页 下页 返回 结束,6.2.2 主轴因子法,注意到,上面的分析是以首先得到调整相关矩阵 为基础的,而实际上,与共同度(或相对的,剩余方差)都是未知的,需要我们先进行估计。一般我们先给出一个
17、初始估计,然后估计出载荷矩 阵 后再给出较好的共同度或剩余方差的估计。初始估计的方法有很多,可尝试对原始变量先进行一次主成分分析,给出初始估计值。,式中,为因子载荷矩阵,为一对角阵,其对角元素为相应特殊因子的方差。则称 为调整相关矩阵,显然 的主对角元素不再是1,而是共同度。分别求解 的特征值与标准正交特征向量,进而求出因子载荷矩阵。此时,有 个正的特征值。设 为 的特征根,为对应的标准正交化特征向量。,则因子载荷矩阵 的一个主轴因子解为:,(6.16),2023/11/1,中国人民大学六西格玛质量管理研究中心,29,目录 上页 下页 返回 结束,6.2.3 极大似然法,2023/11/1,中
18、国人民大学六西格玛质量管理研究中心,30,目录 上页 下页 返回 结束,6.2.4 因子旋转,这样的线性组合可以找到无数组,由此便引出了因子分析的第二个步骤因子旋转。建立因子分析模型的目的不仅在于要找公共因子,更重要的是知道每一个公共因子的意义,以便对实际问题进行分析。,2023/11/1,中国人民大学六西格玛质量管理研究中心,31,目录 上页 下页 返回 结束,6.2.4 因子旋转,然而我们得到的初始因子解各主因子的典型代表变量不是很突出,容易使因子的意义含糊不清,不便于对实际问题进行分析。出于该种考虑,可以对初始公因子进行线性组合,即进行因子旋转,以期找到意义更为明确,实际意义更明显的公因
19、子。经过旋转后,公共因子对 的贡献 并不改变,但由于载荷矩阵发生变化,公共因子本身就可能发生很大的变化,每一个公共因子对原始变量的贡献 不再与原来相同,从而经过适当的旋转我们就可以得到比较令人满意的公共因子。,因子旋转分为正交旋转与斜交旋转,正交旋转由初始载荷矩阵 右乘一正交阵而得到。经过正交旋转而得到的新的公因子仍然保持彼此独立的性质。而斜交旋转则放弃了因子之间彼此独立这个限制,因而可能达到更为简洁的形式,其实际意义也更容易解释。,2023/11/1,中国人民大学六西格玛质量管理研究中心,32,目录 上页 下页 返回 结束,6.2.4 因子旋转,但不论是正交旋转还是斜交旋转,都应当使新的因子
20、载荷系数要么尽可能地接近于0,要么尽可能的远离0。因为一个接近于0的载荷 表明 与 的相关性很弱;而一个绝对值比较大的载荷 则表明公因子 在很大程度上解释了 的变化。这样,如果任一原始变量都与某些公共因子存在较强的相关关系,而与另外的公因子之间几乎不相关的话,公共因子的实际意义就会比较容易确定。,下面介绍正交旋转中的方差最大化正交旋转,该方法由H.K凯泽(H.F.Kaiser)首先提出,是应用最为普遍的正交旋转方法。方差最大化正交旋转方法的提出以下面的假设为前提:公因子 的解释能力能够以其因子载荷平方的方差,即 的方差来度量。我们先考虑两个因子的平面正交旋转,设因子载荷矩阵为:,2023/11
21、/1,中国人民大学六西格玛质量管理研究中心,33,目录 上页 下页 返回 结束,6.2.4 因子旋转,2023/11/1,中国人民大学六西格玛质量管理研究中心,34,目录 上页 下页 返回 结束,6.2.4 因子旋转,2023/11/1,中国人民大学六西格玛质量管理研究中心,35,目录 上页 下页 返回 结束,6.2.4 因子旋转,2023/11/1,中国人民大学六西格玛质量管理研究中心,36,目录 上页 下页 返回 结束,6.2.4 因子旋转,如果公共因子多于两个,我们可以逐次对每两个进行上述的旋转,当公共因子数 时,可以每次取两个,全部配对旋转,旋转时总是对初始载荷矩阵 中的 列,列同时进
22、行,此时公式(6.21)中只需将,就可以了。变换共需进行 次,这样就完成了第一轮旋转,然后对第一轮旋转所得结果用上述方法继续进行旋转,得到第二轮旋转的结果。每一次旋转后,矩阵各列平方的相对方差之和总会比上一次有所增加。如此继续下去,当总方差的改变不大时,就可以停止旋转,这样就得到了新的一组公共因子及相应的因子载荷矩阵,使得其各列元素平方的相对方差之和最大。,2023/11/1,中国人民大学六西格玛质量管理研究中心,37,目录 上页 下页 返回 结束,6.2.5 因子得分,当因子模型建立起来之后,我们往往需要反过来考察每一个样品的性质及样品之间的相互关系。比如当关于企业经济效益的因子模型建立起来
23、之后,我们希望知道每一个企业经济效益的优劣,或者把诸企业划分归类,如哪些企业经济效益较好,哪些企业经济效益一般,哪些企业经济效益较差等。这就需要进行因子分析的第三步骤的分析,即因子得分。顾名思义,因子得分就是公共因子 在每一个样品点上的得分。这需要我们给出公共因子用原始变量表示的线性表达式,这样的表达式一旦能够得到,就可以很方便的把原始变量的取值代入到表达式中求出各因子的得分值。,2023/11/1,中国人民大学六西格玛质量管理研究中心,38,目录 上页 下页 返回 结束,6.2.5 因子得分,2023/11/1,中国人民大学六西格玛质量管理研究中心,39,目录 上页 下页 返回 结束,6.2
24、.5 因子得分,2023/11/1,中国人民大学六西格玛质量管理研究中心,40,目录 上页 下页 返回 结束,6.2.6主成分分析与因子分析的区别,1、因子分析把展示在我们面前的诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成。因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊特殊因子,以及公共因子和特殊因子组合系数。主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量变异绝大部分的几组彼此不相关的新变量(主成分)。,2、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各变量的线性组合。,3、
25、主成分分析中不需要有假设,因子分析则需要一些假设。因子分析的假设包括:各个公共因子之间不相关,特殊因子(specific factor)之间也不相关,公共因子和特殊因子之间也不相关。,2023/11/1,中国人民大学六西格玛质量管理研究中心,41,目录 上页 下页 返回 结束,6.2.6主成分分析与因子分析的区别,4、抽取主因子的方法不仅仅有主成分法,还有极大似然法等,基于这些不同算法得到的结果一般也不同。而主成分只能用主成分法抽取。,5、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。,6、在因子分析中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 因子 分析
链接地址:https://www.31ppt.com/p-6456442.html