探索性因素分析.ppt
探索性因素分析exploratory factor analysis,原悦,在开发量表时,我们需要通过因子分析技术来识别测量变量中的潜在结构,在这个过程中应该首先使用EFA,然后再进行验证性因子分析(confirmatory factor analysis)。EFA对因子模型没有先验,假设任何变量都有可能与任何公因子相关联,目标是用少数几个潜在的、不可观测的随机变量(因子)来描述原始变量之间的关系。,操作,KMO检验和球形检验用于检验数据是否适合进行因子分析,一般来说,KMO0.5,球形检验显著,说明数据适合进行因子分析。抽取方法:主成分分析法vs因子分析法,主成分分析:,主成分分析能够将大量的相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。主成分分析是将一组变量通过线性变换转换为一组不相关的变量,并且在变换的过程中变量的总方差是保持不变的,每个主成分都是由原有的P个变量线性组合得到的,在诸多主成分Z中,Z1在总方差中占的比重最大,说明它综合原有变量的能力最强,其余的主成分在总方差中占的比重会依次递减,说明越往后的主成分综合原信息的能力越弱。在之后的分析中我们使用前面几个方差最大的主成分来代替原有变量来进行,一般情况下要求前几个主成分所包含的信息不少于原始信息的85%,这样既减少了变量的数目,又能够用较少的主成分反映原有变量的绝大部分信息。,因子分析:通过因子分析得到的新变量是对每一个原始变量进行内部剖析。比如说,原始变量是成千上万的糕点,每一种糕点的原材料都有面粉、油、糖及相应的不同原料,这其中面粉、油、糖是所有糕点的共同材料,这就可以代表因子分析中的因子变量,当我们通过分析正确地选择了因子变量后,如果想要考虑成千上万糕点的物价变动,那么只需要重点考虑面粉、油、糖等公共因子的物价变动即可。因子分析得到的新变量不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两个部分,因子分析的目的就是要利用少数几个公共因子去解释较多个观测变量中存在的复杂关系。,主成分分析和因子分析的不同:主成分分析侧重于“变异量”,得到的主成分是原始变量的线性组合;因子分析更重视相关变量的“共变异量”,因子分析需要构造因子模型,原始变量是公共因子的线性组合,因子作为影响观测变量的潜在变量,目的是找出起作用的少数关键因子因子分析的评价结果没有主成分分析准确,因子分析比主成分分析的计算工作量大主成分分析中当给定唯一的数据矩阵后主成分一般是固定的,但是因子分析可以通过旋转得到不同的因子结果,这使得因子分析在解释方面更加有优势由于特殊因子的存在所有因子分析得到的公共因子只能够解释部分变异,主成分分析能够解释所有变异,使用场景:主成分分析主要作为一种探索性的技术,也就是在进行多元数据分析之前,用主成分分析来分析数据可以对自己的数据有一个大致的了解,主要用于了解数据;在进行聚类分析之前利用主成分分析降维提升计算速度;当变量数很多个案数不多时直接判别分析可能无法得到结果,这时候可以使用主成分分析来对变量进行简化;利用主成分分析来判断多元变量直接是否存在共线性。而一般来说,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且可以借助旋转技术来帮助得到更好的解释。而如果想要把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析的话,则可以使用主成分分析。,主成分法:假设变量是各因子的线性组合,从原始变量的总体方差变异出发,尽量使原始变量的方差能够被公因子解释,并且各公因子对原始变量方差变异的解释比例依次减少。主轴因子法:不同于主成分法从原始变量的方差出发,而是从变量相关系数的矩阵出发,使原始变量的相关程度尽可能地被公因子解释。这种方法主要在于解释变量的相关性,确定内在结构,当研究的目的在于确定结构,而对变量方差的情况不太关心时,可以使用这种方法。极大似然法:要求公共因子和特殊因子都服从正态分布,在样本量较大时(1500以上)使用效果较好,此外,最大似然法能够输出载荷的显著性以及置信区间。,建立因子分析模型的目的不仅是要找出主因子,更重要的是要知道每个主因子的意义,以便对实际问题进行分析。如果求出主因子解后各个主因子的典型代表变量不突出,结果不好解释,那么可以考虑进行因子旋转,通过适当的旋转得到比较满意的主因子。正交旋转的基本假设是,因子分析中被提取出来的因子之间是相互独立的,因子之间不相关,目的是要获得因子的简单结构,也就是使每个变量在尽可能少的因子上有较高的负载。斜交旋转中因子间的夹角是任意的,也就是说斜交旋转对因子间是否相关没有限定,这会使各因子所解释的变量的方差出现一定程度的重叠。由于斜交旋转允许因子间相关,它也会输出因子的相关系数。虽然正交旋转能容易地解释和表示因子分析的结果,但由于其规定因子间不相关,因此正交旋转的结果往往并不符合实际。建议在探索性因子分析中使用斜交旋转法,它既能很容易地解释因子,同时也确保了因子间的简单结构,更重要的是,允许因子间的相关也更符合现实。,最大方差法(Varimax Method):一种正交旋转方法,使因子载荷矩阵的平方值向0和1两个方向分化,使大的载荷更大,小的更小。该方法简化了因子的解释。直接 Oblimin 方法:斜交旋转方法。当 delta 等于 0(缺省值)时,解是最斜交的。最大四次方值法(Quartimax Method):斜交旋转,它可使得解释每个变量所需的因子最少。该方法简化了观察到的变量的解释。最大平衡值法(Equamax Method):斜交旋转,它是简化因子的最大方差法与简化变量的最大四次方值法的组合。它可以使得高度依赖因子的变量的个数以及解释变量所需的因子的个数最少。最优斜交旋转(Promax Rotation):斜交旋转,可使因子相关联。该旋转可比直接最小斜交旋转更快地计算出来,因此适用于大型数据集。,Structure matrix 结构矩阵:斜交旋转后各观察变量与因素间的相关系数矩阵Pattern matrix 模式矩阵:斜交旋转后各观察变量与因素间排除因素间相关后的相关系数矩阵,平行分析:首先,生成一组随机数据的矩阵,这些矩阵和真实数据矩阵的变量个数以及被试个数是相同的。然后计算这组随机数据矩阵的特征值,并且计算平均数,最后通过比较真实数据的特征值的碎石图和随机矩阵的平均特征值曲线,找到两条曲线之间的交点,根据交点的位置,确定要抽取的因子数目。平行分析的潜在逻辑是通过比较真实数据中特征值的碎石图和一组随机矩阵的平均特征值的曲线,由于特征值代表了因子所解释的变异的大小,如果一个从真实数据中抽取的因子所解释的变异比模拟的随机数据中抽取的相应因子所解释的变异还小,就没有保留的价值。,某题在多个因子上存在交叉载荷。某题在某个因子下的因子载荷出现异号。某题在每一个维度的因子载荷都未到0.4。,