【教学课件】第八章因子分析.ppt
1,第八章 因子分析,8.1 引言 8.2 正交因子模型 8.3 参数估计 8.4 因子旋转 8.5 因子得分,2,8.1 引言,(本身作为目的的)主成分分析的成功需满足如下两点:(1)前(少数)几个主成分具有较高的累计贡献率;(通常较易得到满足)(2)对主成分给出符合实际背景和意义的解释。(往往正是主成分分析的困难之处)因子分析的目的和用途与主成分分析类似,它也是一种降维方法。由于因子往往比主成分更易得到解释,故因子分析比主成分分析更容易成功,从而有更广泛的应用。,3,因子分析起源于20世纪初,K.皮尔逊(Pearson)和C.斯皮尔曼(Spearman)等学者为定义和测定智力所作的努力,主要是由对心理测量学有兴趣的科学家们培育和发展了因子分析。因子分析与主成分分析主要有如下一些区别:(1)主成分分析涉及的只是一般的变量变换,它不能作为一个模型来描述,本质上几乎不需要任何假定;而因子分析需要构造一个因子模型,并伴有几个关键性的假定。(2)主成分是原始变量的线性组合;而在因子分析中,原始变量是因子的线性组合,但因子却一般不能表示为原始变量的线性组合。,4,5,(3)在主成分分析中,强调的是用少数几个主成分解释总方差;而在因子分析中,强调的是用少数几个因子去描述协方差或相关关系。(4)主成分的解是惟一的(除非含有相同的特征值或特征向量为相反符号);而因子的解可以有很多,表现得较为灵活(主要体现在因子旋转上),这种灵活性使得变量在降维之后更易得到解释,这是因子分析比主成分分析有更广泛应用的一个重要原因。(5)主成分不会因其提取个数的改变而变化,但因子往往会随模型中因子个数的不同而变化。,6,例8.1.1 林登(Linden)根据他收集的来自139名运动员的比赛数据,对第二次世界大战以来奥林匹克十项全能比赛的得分作了因子分析研究。这十个全能项目是:x1:100米跑 x6:11米跨栏x2:跳远 x7:铁饼x3:铅球 x8:撑杆跳高x4:跳高 x9:标枪x5:400米跑 x10:1500米跑经标准化后所作的因子分析表明,十项得分基本上可归结于他们的爆发性臂力强度、短跑速度、爆发性腿部强度和跑的耐力这四个方面,每一方面都称为一个因子。十项得分与这四个因子之间的关系可以描述为如下的因子模型:xi=i+ai1f1+ai2f2+ai3f3+ai4f4+i,i=1,2,10 其中f1,f2,f3,f4表示四个因子,称为公共因子(common factor),7,aij称为xi在因子fj上的载荷(loading),i是xi的均值,i是xi不能被四个公共因子解释的部分,称之为特殊因子(specific factor)。例8.1.3 公司老板对48名应聘者进行面试,并给出他们在15个方面所得的分数,这15个方面是:x1:申请书的形式 x9:经验x2:外貌 x10:积极性x3:专业能力 x11:抱负x4:讨人喜欢 x12:理解能力x5:自信心 x13:潜力x6:精明 x14:交际能力x7:诚实 x15:适应性x8:推销能力通过因子分析,这15个方面可以归结为应聘者的进取能干、经验、讨人喜欢的程度、专业能力和外貌这五个因子。,8,8.2 正交因子模型,一、数学模型 二、正交因子模型的性质三、因子载荷矩阵的统计意义,9,一、数学模型,设有p维可观测的随机向量,其均值为,协差阵为=(ij)。因子分析的一般模型为其中f1,f2,fm为公共因子,1,2,p为特殊因子,它们都是不可观测的随机变量。公共因子出现在每一个原始变量的表达式中,可理解为原始变量共同具有的公共因素。上式可用矩阵表示为x=+Af+,10,式中 为公共因子向量,为特殊因子向量,称为因子载荷矩阵。通常假定该假定和上述关系式构成了正交因子模型。由上述假定可以看出,公共因子彼此不相关且具有单位方差,特殊因子也彼此不相关且和公共因子也不相关。,11,二、正交因子模型的性质,1.x的协差阵的分解2.模型不受单位的影响3.因子载荷是不惟一的,12,1.x的协差阵的分解,=V(Af+)=V(Af)+V()=AV(f)A+V()=AA+D如果A只有少数几列,则上述分解式揭示了的一个简单结构。由于D是对角矩阵,故的非对角线元素可由A的元素确定,即因子载荷完全决定了原始变量之间的协方差。如果x为各分量已标准化了的随机向量,则就是相关阵R,即有R=AA+D,13,例8.2.1 设随机向量x=(x1,x2,x3,x4)的协方差矩阵为则可分解为=AA+D其中,14,若取A=1/2,D=0,则有分解式=1/21/2+0此时m=p,没有达到降维目的,故所作的因子分析没有意义。出于降维的需要,我们常常希望m要比p小得多,这样前述的分解式通常只能近似成立,即有=AA+D近似程度越好,表明因子模型拟合得越佳。一般来说,m选取得越小,上述近似效果就越差,即因子模型拟合得越不理想。拟合得太差的因子模型是没有什么实际意义的,故实践中m也不应选得过小。,15,2.模型不受单位的影响,将x的单位作变化,通常是作一变换x*=Cx,这里C=diag(c1,c2,cp),ci0,i=1,2,p,于是x*=C+CAf+C令*=C,A*=CA,*=C,则有x*=*+A*f+*这个模型能满足类似于前述因子模型的假定,即,16,其中 因此,单位变换后新的模型仍为正交因子模型。,17,3.因子载荷是不惟一的,设T为任一mm正交矩阵,令A*=AT,f*=Tf,则模型能表示为x=+A*f*+因为E(f*)=TE(f)=0V(f*)=TV(f)T=TT=ICov(f*,)=E(f*)=TE(f)=0所以仍满足模型条件。也可分解为=A*A*+D因此,因子载荷矩阵A不是惟一的,在实际应用中常常利用这一点,通过因子的旋转(见稍后的8.4),使得新的因子有更好的实际意义。,18,三、因子载荷矩阵的统计意义,1.A的元素aij2.A的行元素平方和3.A的列元素平方和,19,1.A的元素aij,xi=i+ai1f1+ai2f2+aimfm+i即aij是xi与fj之间的协方差。若x为各分量已标准化了的随机向量,则xi与fj的相关系数 此时aij表示xi与fj之间的相关系数。,20,2.A的行元素平方和,xi=i+ai1f1+ai2f2+aimfm+i令于是,21,反映了公共因子对xi的影响,可以看成是公共因子f1,f2,fm对xi的方差贡献,称为共性方差(communality);而 是特殊因子i对xi的方差贡献,称为特殊方差(specific variance)。当x为各分量已标准化了的随机向量时,ii=1,此时有,22,3.A的列元素平方和,其中 反映了公共因子fj对x1,x2,xp的影响,是衡量公共因子fj重要性的一个尺度,可视为公共因子fj对x1,x2,xp的总方差贡献。,23,8.3 参数估计,一、主成分法二、主因子法三、极大似然法,24,一、主成分法,设样本协方差矩阵S的特征值依次为,相应的正交单位特征向量为。选取相对较小的因子数m,并使得累计贡献率 达到一个较高的百分比,则S可近似分解如下:其中 为pm矩阵,i=1,2,p。这里的 和 就是因子模型的一个主成分解。,25,对主成分解,当因子数增加时,原来因子的估计载荷并不变,第j个因子fj对x的总方差贡献仍为。主成分法与主成分分析有着很相似的名称,两者很容易混淆。虽然第j个因子与第j个主成分的解释完全相同,但主成分法与主成分分析本质上却是两个不同的概念。主成分法是因子分析中的一种参数估计方法,它并不计算任何主成分,且旋转后的因子解释一般就与主成分明显不同了。称 为残差矩阵,对于主成分解,有当p个原始变量的单位不同,或虽单位相同,但各变量的数值变异性相差较大时,我们应首先对原始变量作标准化变换。,26,例8.3.1 在例中,分别取m=1和m=2,用主成分法估计的因子载荷和共性方差列于表。,表8.3.1当m=1和m=2时的主成分解,27,主成分解的近似关系式,主成分解的因子解释与主成分的解释完全相同。因子f1代表在径赛项目上的总体实力,可称为强弱因子;因子f2反映了速度与耐力的对比。,28,二、主因子法,假定原始向量x的各分量已作了标准化变换。如果随机向量x满足正交因子模型,则有R=AA+D其中R为x的相关矩阵,令R*=RD=AA 则称R*为x的约相关矩阵(reduced correlation matrix)。R*中的对角线元素是,而不是1,非对角线元素和R中是完全一样的,并且R*也是一个非负定矩阵。,29,设 是特殊方差 的一个合适的初始估计,则约相关矩阵可估计为其中 是 的初始估计。又设 的前m个特征值依次为,相应的正交单位特征向量为,则A的主因子解为,30,由此我们可以重新估计特殊方差,的最终估计为如果我们希望求得拟合程度更好的解,则可以采用迭代的方法,即利用上式中的 再作为特殊方差的初始估计,重复上述步骤,直至解稳定为止。该估计方法称为迭代主因子法。,31,特殊(或共性)方差的常用初始估计方法,(1)取,其中rii是 的第i个对角线元素,此时共性方差的估计为,它是xi和其他p1个变量间样本复相关系数的平方,该初始估计方法最为常用,但一般要求 满秩。(2)取,此时。(3)取,此时,得到的 是一个主成分解。,32,例8.3.2 在例中,取m=2,为求得主因子解,选用xi与其他七个变量的复相关系数平方作为 的初始估计值。计算得于是约相关矩阵为,33,的特征值为从 起特征值已接近于0,故取m=2,相应的计算结果列于表。,34,表8.3.2 当m=2时的主因子解,35,三、极大似然法,设fNm(0,I),Np(0,D),且相互独立,则必有xNp(,)。由样本x1,x2,xn计算得到的似然函数是和的函数L(,)。由于=AA+D,故似然函数可更清楚地表示为L(,A,D)。记(,A,D)的极大似然估计为(),即有可以证明,而 满足以下方程组:,36,其中。由于A的解是不惟一的,故为了得到惟一解,可附加计算上方便的惟一性条件:AD1A是对角矩阵上述方程组中的 一般可用迭代方法解得。对极大似然解,各因子所解释的总方差的比例未必像主成分解及主因子解那样依次递减。还有,当因子数增加时,原来因子的估计载荷及对x的贡献将发生变化,这也与主成分解及主因子解不同。例8.3.3 在例中,取m=2,极大似然法的计算结果列于表。的初始估计值与例相同。,37,表8.3.3 当m=2时的极大似然解,38,8.4 因子旋转,因子的解释带有一定的主观性,我们常常通过旋转因子的方法来减少这种主观性且使之更易解释。因子是否易于解释,很大程度上取决于因子载荷矩阵A的元素结构。假设A是从R出发求得的,则有|aij|1。如果A的所有元素都接近0或1,则模型的因子就易于解释。这时可将x1,x2,xp分成m个部分,分别对应f1,fm,这是一种使因子解释大为简化的理想情形,称之为简单结构。反之,如果A的元素多数居中,不大不小,则对模型的因子往往就不易作出解释,此时应考虑进行因子旋转,使得旋转之后的载荷矩阵在每一列上元素的绝对值尽量地大小拉开,也就是尽可能多地使其中的一些元素接近于0,另一些元素接近于1。,39,因子旋转方法有正交旋转和斜交旋转两类,本章只讨论正交旋转。对公共因子作正交旋转f*=Tf的同时,载荷矩阵也相应地变为A*=AT。记,于是几何上,考虑由在m个因子f1,f2,fm上的载荷构成的m维坐标系,于是ai是xi在该坐标系下的一个坐标点。p个坐标点a1,a2,ap经正交旋转后转换为新坐标点,显然这p个点的几何结构仍保持不变。可见,因子正交旋转不改变共性方差,且共性方差为上述坐标点到原点的平方(欧氏)距离。A*A*=ATTA=AA,故因子正交旋转也不改变残差矩阵。,40,如果旋转后的因子载荷具有前述的简单结构,则每一变量的坐标点将接近于其中的一个新坐标轴,即它只在该轴对应的因子上有高的载荷,而在其余因子上仅有小的载荷。并且,此时的因子分析也能够很好地用于对变量的聚类,即可将p个原始变量清晰地聚成m个因子所分别对应的m组变量。通常因子旋转未必能达到这种简单结构,但旋转的目标一般应是让坐标轴接近于尽可能多的点。正交矩阵T的不同选取法构成了正交旋转的各种不同方法,在这些方法中使用最普遍的是最大方差旋转法(varimax),本节仅介绍这一种正交旋转法。例8.4.1 在例至例中分别使用最大方差旋转法,旋转后的因子载荷矩阵列于表。,41,表8.4.1旋转后的因子载荷估计,42,三种方法的因子载荷估计经因子旋转之后给出了大致相同的结果,在因子 上的载荷依次增大,在因子 上的载荷依次减小,可称 为耐力因子,称 为(短跑)速度因子。将主成分解的在图中用点表示,在点上标出相应变量的序号。使用最大方差旋转法后,因子按顺时针方向旋转了=40.6,点i在新坐标系下的坐标为旋转后的因子载荷配对。从图中容易直接看出旋转后因子的实际意义。,43,图8.4.1 主成分解的因子旋转,44,当只有两个因子(m=2)时,实际上,我们也可以通过目测因子载荷图的方法,主观地给出一个恰当的坐标轴按逆时针旋转的角度(如其值为负,则实为按顺时针),以使新坐标轴都尽可能地穿过或接近变量点群。旋转后的因子载荷可计算如下:,45,例8.4.2 沪市604家上市公司2001年财务报表中有这样十个主要财务指标(数据可从前言中提及的作者网页上下载):x1:主营业务收入(元)x6:每股净资产(元)x2:主营业务利润(元)x7:净资产收益率(%)x3:利润总额(元)x8:总资产收益率(%)x4:净利润(元)x9:资产总计(元)x5:每股收益(元)x10:股本上述十个指标的样本相关矩阵列于表。,46,从相关矩阵出发,选择主成分法,相关阵的前三个特征值为 累计贡献率为83.82%,取因子数m=3,相应结果列于表。,表8.4.2 十个财务指标的样本相关矩阵,47,表8.4.3 m=3时的主成分解,48,表8.4.4 旋转后的因子载荷估计,49,8.5 因子得分,一、加权最小二乘法二、回归法*三、两种因子得分方法的比较,50,一、加权最小二乘法,采用类似于回归分析中加权最小二乘估计的想法将 估计为 称为巴特莱特(Bartlett,1937)因子得分。在实际应用中,用估计值 分别代替上述公式中的,A和D,并将样品xj的数据代入,便可得到相应的因子得分,51,二、回归法,在正交因子模型中,假设 服从(m+p)元正态分布,用回归预测方法可将 估计为 称为汤姆森(Thompson,1951)因子得分。在实际应用中,可用 分别代替上式中的,A和 来得到因子得分。样品xj的因子得分,52,例8.5.1 在例中,用回归法得到的因子得分为其中 为xi的标准化值,i=1,2,p,经计算:,53,表8.5.1 按规模因子得分 的排序,54,表8.5.2 按盈利因子得分 的排序,55,表8.5.3 按每股价值因子得分 的排序,56,*三、两种因子得分方法的比较,1.无偏性2.有效性,