第8章 因子分析 课件.ppt
《第8章 因子分析 课件.ppt》由会员分享,可在线阅读,更多相关《第8章 因子分析 课件.ppt(111页珍藏版)》请在三一办公上搜索。
1、第八章,因子分析,Factor Analysis,8.1 引言,1、什么是因子分析? 因子分析是主成分分析的推广,也是利用降维的思想,由研究原始变量相关矩阵或协方差矩阵的内部依赖关系出发,把一些具有错综复杂关系的多个变量归结为少数几个综合因子,以再现原始变量与因子之间的相关关系的一种多元统计分析方法。,2、因子分析的基本思想: 把每个研究变量分解为几个影响因素变量,将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子.,3、因子分析的目的:因子分析的目的之一,简化变量维数,即要使因素结构简单化,希望以最少的共同因素(公
2、共因子),能对总变异量作最大的解释,因而抽取得因子愈少愈好,但抽取因子的累积解释的变异量愈大愈好.在因子分析的公共因子抽取中,应最先抽取特征值最大的公共因子,其次是次大者,最后抽取公共因子的特征值最小,通常会接近0.,实例1 在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣.但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格.因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价.而这三个公共因子可以表示为:称 是不可观测的潜在因子,称为公共因子.24个变量共享这三个
3、因子,但是每个变量又有自己的个性,不被包含的部分 ,称为特殊因子.这就是个因子分析模型.,(i=1,2,24),实例2 调查青年对婚姻家庭的态度,抽取n个青年回答了p=50个问题的答卷,这些问题课归纳为如下几个方面:对相貌的重视、对孩子的观点、对老人的态度等等,这也是一个因子分析的模型,每一个方面就是一个因子.,实例3 考察人体的五项生理指标:收缩压(X1)、舒张压(X2)、心跳间隔(X3)、呼吸间隔(X4)和舌下温度(X5).从生理学知识可知,这五项指标是受植物神经支配的,植物神经又分为交感神经和副交感神经,因此这五项指标至少受到两个公共因子的影响,也可用因子分析的模型去处理它.,因子分析的
4、主要应用有两方面:一是寻求基本结构,简化观测系统,将具有错综复杂的对象(变量或样品)综合为少数几个因子(不可观测的随机变量),以再现因子与原始变量之间的内在联系;二是用于分类,对p个变量或n个样品进行分类.,因子分析,R型因子分析,Q型因子分析,4、主成分分析分析与因子分析的联系和差异: 联系: (1)因子分析是主成分分析的推广,是主成分分析的逆问题.(2)二者都是以“降维”为目的,都是从协方差矩阵或相关系数矩阵出发. 区别:(1)主成分分析模型是原始变量的线性组合,是将原始变量加以综合、归纳,仅仅是变量变换;而因子分析是将原始变量加以分解,描述原始变量协方差矩阵结构的模型;只有当提取的公因子
5、个数等于原始变量个数时,因子分析才对应变量变换.(2)主成分分析,中每个主成分对应的系数是唯一确定的;因子分析中每个因子的相应系数即因子载荷不是唯一的.(3)因子分析中因子载荷的不唯一性有利于对公因子进行有效解释;而主成分分析对提取的主成分的解释能力有限.,8.2 因子模型,一、正交因子模型,假定随机向量X满足以下的模型:,(8.2.1),则称模型(8.2.1)为正交因子模型.,(8.2.2),模型(8.2.1)用矩阵表示为,(1)(2),三个关键的假设:,即 互不相关,方差为1.,(3),即特殊因子互不相关,方差不一定相等, 。满足以上条件的,称为正交因子模型,如果(2)不成立,即 各公共因
6、子之间不独立,则因子分析模型为斜交因子模型,在主成分分析中,回归模型(7.2.2)中的残差通常是彼此相关的.在因子分析中,特殊因子起着残差的作用,但被定义为彼此不相关且与公共因子也不相关;而且每个公共因子假定至少对两个变量有贡献,否则它将是一个特殊因子.,在正交因子模型中,假定公共因子彼此不相关且具有单位方差,即D(F)=Im.由,可知,正交因子模型意味着第j个变量和第k个变量的协方差jk由下式给出,(8.2.3),如果原始变量已被标准化,在(8.2.3)式中将用相关阵代替协方差阵.在此意义上,公共因子解释了观测变量间的相关性.用正交因子模型预测的相关与实际的相关之间的差异就是剩余相关.评估正
7、交因子模型拟合优度的好方法就是考察剩余相关的大小.,(8.2.4),(8.2.3),(8.2.4),上述两个关系式称为正交因子模型的协方差结构.,因子分析案例,F1 体现逻辑思维和运算能力, F2 体现空间思维和推理能力,二、正交因子模型中各个量的统计意义,1. 因子载荷的统计意义,因子负荷量(或称因子载荷) 是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程度.,由因子模型(8.2.1)及(8.2.4)可知,Xi与Fj的协方差,如果Xi是标准化变量(即E(Xi)=0,Var(Xi)=1),即Xi为,则,在各公共因子不相关的前提下, (载荷矩阵中第i行,第j列的元素)是随机变量Xi与公
8、共因子Fj的相关系数,统计术语叫做“权重”,它表示Xi依赖Fj的分量(比重). 由于历史的原因,在心理学中将模型(8.2.1)中的系数 叫做“载荷”,即第i个变量在第j个因子上的载荷(或负荷),反映了第i个原始变量在第j个公共因子上的相对重要性.因此 绝对值越大,则公共因子Fj与原始变量Xi的关系越强.,2. 变量共同度的统计意义,共同度又称共性方差或公因子方差(community 或 common variance)就是变量与每个公共因子之负荷量的平方总和(一行中所有因素负荷量的平方和).变量的共同度是因子载荷矩阵 A 的各行的元素的平方和 hi2 .记为,从共同性的大小可以判断这个原始实测
9、变量与公共因子之间的关系程度. 如因子分析案例中:共同度h12=(0.896)2+(0.341)2=0.919,为了给出hi2的统计意义,下面来计算Xi的方差:,左式表明Xi的方差由两部分组成,第一部分hi2是全部公共因子对变量Xi的总方差所作出的贡献,称为公因子方差;第二部分i2是由特定因子i产生的方差,它仅与变量Xi有关,也称为剩余方差.,所有的公共因子和特殊因子对变量Xi的贡献为1,即hi2+i21 . hi2反映了全部公共因子对变量Xi的影响,是全部公共因 子对变量方差所做出的贡献,或者说Xi对公共因子的共同依赖程度,称为公共因子对变量Xi的方差贡献. hi2接近于1,表明该变量的原始
10、信息几乎都被选取的公共因子说明了.hi2反映了变量Xi对公因子F依赖的程度,故也称公因子方差hi2为变量Xi的共同度. 特殊因子的方差i2(剩余方差),反映了原始变量方差中无法被公共因子描述的比例,即各变量的特殊因素影响的大小,就是 1 减掉该变量共同度的值.如因子分析案例中: i2=1- 0.919 = 0.081,3. 公共因子Fj的方差贡献的统计意义,在因子载荷矩阵 A 中,求 A 的各列的平方和,记为qj2,即,qj2的统计意义与Xi的共同度hi2恰好相反,qj2表示第 j 个公共因子Fj对X的所有分量X1,Xp的总影响,称为第 j 个公因子 Fj 对 X 的贡献,它是衡量第 j 个公
11、共因子相对重要性的指标.方差贡献qj2即每个变量与某一共同因素之因素负荷量的平方总和(因子载荷矩阵中某一公共因子列所有因子负荷量的平方和),又称为特征值.,如因子分析案例中:F1的方差贡献为 =(0.896)2+(0.802)2+(0.516)2+(0.841)2+(0.833)2=3.113,qj2 愈大,表明 Fj 对 X 的贡献愈大,该因子的重要程度越高.如果我们把载荷矩阵 A的各列平方和都计算,使相应的贡献有顺序:q12qm2,我们就能够以此为依据,找出最有影响的公共因子.要解决此问题,关键是求载荷矩阵A的估计.,方差贡献率指公共因子对实测变量的贡献,又称变异量. 方差贡献率=方差贡献
12、qj2/实测变量数 p,是衡量公共因子相对重要性的指标.qj2越大,表明公共因子Fj对 X 的贡献越大,该因子的重要程度越高. 如因子分析案例中: F1的贡献率为 3.113/5=62.26%, 【注】,关于因子模型有下列两点需要指出(书P298):,(1) 模型不受量纲的影响.,(2) 因子载荷矩阵A不是唯一的.,例8.2.1 已知 的协方差阵 为,试求满足(8.2.3)式的因子载荷矩阵 A 和特殊因子协方差阵D,并计算X1的共同度.,解:容易验证,因而因子载荷矩阵 A 和特殊因子协方差阵 D 分别为,即X的协方差阵 具有m=2的正交因子模型结构,且X1的共同度为,第一个特殊因子1的方差12
13、=2, X1的方差可分解为,即 方差共同度特殊方差,对Xi(i=2,3,4)也有类似地分解.,8.3 参数估计方法,其中A=(aij)为pm的因子载荷矩阵;D=diag(12,p2)为p阶对角矩阵.也就是估计公共因子的个数m、因子载荷矩阵A及特殊因子方差i2(i=1,p),使得满足,由 p 个相关变量的观测数据计算样本协方差阵 S ,作为协方差阵的估计.为了建立公因子模型,首先要估计因子载荷aij和特殊因子方差i2.常用的参数估计方法有一下几种:主成分法,主因子解和极大似然法.,一、主成分法 (基于主成分模型的主成分分析法 Principal components),设样本协方差阵 S 的特征
14、值为12p0,相应单位正交特征向量为l1,l2,lp,则 S 有谱分解式:,当最后 pm 个特征值较小时, S 可近似地分解为,(8.3.1),其中,def,(8.3.2),(8.3.2)式给出的 A 和 D 就是因子模型的一个解.载荷矩阵 A 中第 j 列(即第 j 个公共因子 Fj 在 X 上的载荷)和 X 的第 j 个主成分的系数相差一个倍数 故(8.3.2)式给出的这个解常称为因子模型的主成分解.,当相关变量所取单位不同时,我们常常先对变量标准化.标准化变量的样本协方差阵就是原始变量的样本相关阵R,再用R代替S,与上类似,即可的主成分.,例: 假定某地固定资产投资率 ,通货膨胀率 ,失
15、业率 ,相关系数矩阵为试用主成分分析法求因子分析模型.,(1)求解特征根(2)求解单位特征向量:(3)因子载荷矩阵:,(4)因子分析模型: 可取前两个因子F1和F2为公共因子,第一公因子F1物价就业因子,对X的贡献为1.55.第二公因子F2为投资因子,对X的贡献为0.85.共同度分别为0.987,0.706,0.706。,此方法是从 R 出发,是对主成分方法的一种修正.假定我们首先对变量进行标准化变换,则 R=AA+D R*=AA=R-D称R*为约相关矩阵,R*对角线上的元素是 ,而不是1.,二、主因子解 (基于因子分析模型的主轴因子法 Principal axis factoring),这里
16、,直接求R*的前p个特征根和对应的单位正交特征向量,得如下的矩阵:,当特殊因子 的方差已知:,方差矩阵未知,估计的方法有如下几种:,1)取 ,在这个情况下主因子解与主成分解等价; 2)取 , 为Xi与其他所有的原始变量Xj的复相关系数的平方,即Xi对其余的p-1个Xj的回归方程的判定系数,这是因为Xi 与公共因子的关系是通过其余的p-1个Xj 的线性组合联系起来的; 3)取 ,这意味着取Xi与其余的Xj的简单相关系数的绝对值最大者;,4)取 ,其中要求该值为正数。 5)取 ,其中 是 的对角元素。,例:假定某地固定资产投资率 ,通货膨胀率 ,失业率 ,相关系数矩阵为试用主因子分析法求因子分析模
17、型.假定用代替初始的 。 。,(1)求解特征根:(2)对应的非0特征向量:(3)因子载荷矩阵表:,(4)因子分析模型:(5)新的共同度:,三、主成分估计法的具体步骤,设样本数据阵为,应用主成分估计法求因子模型的具体步骤如下:,(2) 求R的特征值和标准化特征向量.记12p0为R的特征值,其相应的单位正交特征向量为l1,l2,lp.,(3) 求因子模型的因子载荷矩阵A:, 确定公共因子的个数m.比如取m满足(1+2+m) / p 0.80 (或0.70 或0.90)的最小正整数;, 令 则A=(a1,am)为因子载荷矩阵.,(4) 求特殊因子方差 Xi的共同度hi2为,(5) 对m个公共因子(或
18、称潜因子,主因子)作解释.,(1) 由样本数据阵X计算样本均值、样本离差阵及样本相关阵.,因子旋转:为什么要旋转因子? 建立了因子分析数学目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释。由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目的是使每个变量在尽可能少的因子上有比较高的载荷,让某个变量在某个因子上的载荷趋于1,而在其他因子上的载荷趋于0,即:使载荷矩阵每列或行的元素平方值向0和1两极分化。,奥运会十项全能运动项目得分数据的因子分析 百米跑成绩 跳远成绩 铅球成绩 跳高成绩
19、 400米跑成绩 百米跨栏 铁饼成绩 撑杆跳远成绩 标枪成绩 1500米跑成绩,因子载荷矩阵,因子载荷矩阵可以看出,除第一因子在所有的变量在公共因子上有较大的正载荷,可以称为一般运动因子。其他的3个因子不太容易解释。似乎是跑和投掷的能力对比,似乎是长跑耐力和短跑速度的对比。于是考虑旋转因子,得下表,旋转变幻后因子载荷矩阵,通过旋转,因子有了较为明确的含义。 百米跑, 跳远和 400米跑,需要爆发力的项目在 有较大的载荷, 可以称为短跑速度因子; 铅球, 铁饼和 标枪在 上有较大的载荷,可以称为爆发性臂力因子; 百米跨栏, 撑杆跳远, 跳远和 跳高在 上有较大的载荷, 爆发腿力因子; 长跑耐力因
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第8章 因子分析 课件
链接地址:https://www.31ppt.com/p-1819786.html