《应用多元统计分析》第五版ppt课件.pptx

上传人：牧羊曲112

文档编号：2051223

上传时间：2023-01-04

格式：PPTX

页数：66

大小：1.10MB

《《应用多元统计分析》第五版ppt课件.pptx》由会员分享，可在线阅读，更多相关《《应用多元统计分析》第五版ppt课件.pptx（66页珍藏版）》请在三一办公上搜索。

1、第八章因子分析,8.1 引言 8.2 正交因子模型 8.3 参数估计 8.4 因子旋转 8.5 因子得分,1,8.1 引言,（本身作为目的的）主成分分析的成功需满足如下两点：(1)前(少数)几个主成分具有较高的累计贡献率；(通常较易得到满足)(2)对主成分给出符合实际背景和意义的解释。(往往正是主成分分析的困难之处)因子分析的目的和用途与主成分分析类似，它也是一种降维方法。因子往往比主成分更易得到解释。,2,因子分析起源于20世纪初，K.皮尔逊(Pearson)和C.斯皮尔曼(Spearman)等学者为定义和测定智力所作的努力，主要是由对心理测量学有兴趣的科学家们培育和发展了因子分析。因子分

2、析与主成分分析主要有如下一些区别：(1)主成分分析涉及的只是一般的变量变换，它不能作为一个模型来描述，本质上几乎不需要任何假定；而因子分析需要构造一个因子模型，并伴有几个关键性的假定。(2)主成分是原始变量的线性组合；而在因子分析中，原始变量是因子的线性组合，但因子却一般不能表示为原始变量的线性组合。,3,4,(3)在主成分分析中，强调的是用少数几个主成分解释总方差；而在因子分析中，强调的是用少数几个因子去描述协方差或相关关系。(4)主成分的解是唯一的（除非含有相同的特征值或特征向量为相反符号）；而因子的解可以有很多，表现得较为灵活（主要体现在因子旋转上），这种灵活性使得变量在降维之后更易得到

3、解释，这是因子分析比（需对主成分作出解释的）主成分分析有更广泛应用的一个重要原因。(5)主成分不会因其提取个数的改变而变化，但因子往往会随模型中因子个数的不同而变化。,5,例8.1.1 林登(Linden)根据他收集的来自139名运动员的比赛数据，对第二次世界大战以来奥林匹克十项全能比赛的得分作了因子分析研究。这十个全能项目是：x1：100米跑 x6：110米跨栏x2：跳远 x7：铁饼x3：铅球 x8：撑杆跳高x4：跳高 x9：标枪x5：400米跑 x10：1500米跑经标准化后所作的因子分析表明，十项得分基本上可归结于他们的爆发性臂力强度、短跑速度、爆发性腿部强度和跑的耐力这四个方面，每一方

4、面都称为一个因子。十项得分与这四个因子之间的关系可以描述为如下的因子模型：xi=i+ai1f1+ai2f2+ai3f3+ai4f4+i,i=1,2,10 其中f1,f2,f3,f4表示四个因子，称为公共因子，aij称为xi在因,6,子aij称为xi在因子fj上的载荷，i是xi的均值，i是xi不能被四个公共因子解释的部分，称之为特殊因子。例8.1.3 公司老板对48名应聘者进行面试，并给出他们在15个方面所得的分数，这15个方面是：x1：申请书的形式 x9：经验x2：外貌 x10：积极性x3：专业能力 x11：抱负x4：讨人喜欢 x12：理解能力x5：自信心 x13：潜力x6：精明 x14：交际

5、能力x7：诚实 x15：适应性x8：推销能力通过因子分析，这15个方面可以归结为应聘者的进取能干、经验、讨人喜欢的程度、专业能力和外貌这五个因子。,7,8.2 正交因子模型,一、数学模型二、正交因子模型的性质三、因子载荷矩阵的统计意义,8,一、数学模型,设有p维可观测的随机向量，其均值为，协差阵为=(ij)。因子分析的一般模型为其中f1,f2,fm为公共因子，1,2,p为特殊因子，它们都是不可观测的随机变量。公共因子出现在每一个原始变量的表达式中，可理解为原始变量共同具有的公共因素。上式可用矩阵表示为x=+Af+,9,式中为公共因子向量，为特殊因子向量，称为因子载荷矩阵。通常假定该假定和上

6、述关系式构成了正交因子模型。由上述假定可以看出，公共因子彼此不相关且具有单位方差，特殊因子也彼此不相关且和公共因子也不相关。,10,二、正交因子模型的性质,1.x的协差阵的分解3.因子载荷是不唯一的,11,1.x的协差阵的分解,=V(Af+)=V(Af)+V()=AV(f)A+V()=AA+D如果A只有少数几列，则上述分解式揭示了的一个简单结构。由于D是对角矩阵，故的非对角线元素可由A的元素确定，即因子载荷完全决定了原始变量之间的协方差，具体有如果x为各分量已标准化了的随机向量，则就是相关阵R，即有R=AA+D 相应地有,12,例8.2.1 设随机向量x=(x1,x2,x3,x4)的协方差矩阵

7、为则可分解为=AA+D其中,13,若取A=1/2，D=0，则有分解式=1/21/2+0此时m=p，没有达到降维目的，故所作的因子分析没有意义。出于降维的需要，我们常常希望m要比p小得多，这样前述的分解式通常只能近似成立，即有AA+D近似程度越好，表明因子模型拟合得越佳。在因子数m的选择上，我们既希望m尽可能小又希望因子模型的拟合尽可能好，而这两个目标是彼此矛盾的，实践中我们应确定一个折中、合理的m。,14,3.因子载荷是不唯一的,设T为任一mm正交矩阵，令A*=AT，f*=Tf，则模型能表示为x=+A*f*+因为 E(f*)=TE(f)=0 V(f*)=TV(f)T=TT=ICov(f*,)=

8、E(f*)=TE(f)=0所以仍满足模型条件。也可分解为=A*A*+D因此，因子载荷矩阵A不是唯一的，在实际应用中常常利用这一点，通过因子的旋转（见稍后的8.4），使得新的因子有更好的实际意义。,15,三、因子载荷矩阵的统计意义,1.A的元素2.A的行元素平方和3.A的列元素平方和4.A的元素平方和,16,1.A的元素,或若x为各分量已标准化了的随机向量，则,17,2.A的行元素平方和,xi=i+ai1f1+ai2f2+aimfm+i令于是,18,反映了公共因子对xi的影响，可以看成是公共因子f1,f2,fm对xi的方差贡献，称为共性方差；而是特殊因子i对xi的方差贡献，称为特殊方差。当x为

9、各分量已标准化了的随机向量时，ii=1，此时有,19,3.A的列元素平方和,其中反映了公共因子fj对x1,x2,xp的影响，是衡量公共因子fj重要性的一个尺度，可视为公共因子fj对x1,x2,xp的总方差贡献。,20,fj所解释的总方差的比例（或称贡献率）为，如果各原始变量已作了标准化，则该比例就简化为。,21,4.A的元素平方和,A的元素平方和为或这是f1,f2,fm对总方差的累计贡献，f1,f2,fm所解释的总方差的累计比例（或称累计贡献率）为,22,对于标准化了的原始变量可简化为,23,8.3 参数估计,一、主成分法二、主因子法三、极大似然法,24,一、主成分法,设样本协方差矩阵S的

10、特征值依次为，相应的正交单位特征向量为。选取相对较小的因子数m，并使得累计贡献率达到一个较高的百分比，则S可近似分解如下：其中为pm矩阵，i=1,2,p。这里的和就是因子模型的一个主成分解。,25,对主成分解，当因子数增加时，原来因子的估计载荷并不变，fj对x的总方差贡献仍为。主成分法与主成分分析有着很相似的名称，两者很容易混淆。虽然第j个因子与第j个主成分的解释完全相同，但主成分法与主成分分析本质上却是两个不同的概念。主成分法是因子分析中的一种参数估计方法，它并不计算任何主成分，且旋转后的因子解释一般就与主成分明显不同了。称为残差矩阵。当p个原始变量的单位不同，或虽单位相同，但各变

11、量的数值变异性相差较大时，我们应首先对原始变量作标准化变换，也就是从出发求解。,26,例8.3.1 在例7.3.2中，分别取m=1和m=2，用主成分法估计的因子载荷和共性方差列于表8.3.1。,表8.3.1当m=1和m=2时的主成分解,27,28,主成分解的近似关系式,主成分解的因子解释与主成分的解释完全相同。因子f1代表在径赛项目上的总体实力，可称为强弱因子；因子f2反映了（短跑）速度与耐力的对比。,29,二、主因子法,假定原始向量x的各分量已作了标准化变换。如果随机向量x满足正交因子模型，则有R=AA+D令R*=RD=AA 则称R*为x的约相关矩阵。R*中的对角线元素是，而不是1，非对角

12、线元素和R中是完全一样的，并且R*也是一个非负定矩阵。,30,设是特殊方差的一个合适的初始估计，则约相关矩阵可估计为其中是的初始估计。又设的前m个特征值依次为，相应的正交单位特征向量为,则A的主因子解为,31,由此我们可以重新估计特殊方差，的最终估计为,32,特殊(或共性)方差的常用初始估计方法,(1)取，其中rii是的第i个对角线元素，此时共性方差的估计为，它是xi和其他p1个变量间样本复相关系数的平方，该初始估计方法最为常用，但一般要求满秩。(2)取，此时。(3)取，此时，得到的是一个主成分解。,33,例8.3.2 在例7.3.2中，取m=2，为求得主因子解，选用xi与其他

13、七个变量的复相关系数平方作为的初始估计值。计算得于是约相关矩阵为,34,的特征值为从起特征值已接近于0，故取m=2，相应的计算结果列于表8.3.2。,35,表8.3.2 当m=2时的主因子解,36,37,三、极大似然法,设fNm(0,I)，Np(0,D)，且相互独立，则必有xNp(,)。由样本x1,x2,xn计算得到的似然函数是和的函数L(,)。由于=AA+D，故似然函数可更清楚地表示为L(,A,D)。记(,A,D)的极大似然估计为()，即有其中，由于A的解是不唯一的，故为了得到唯一解，可附加计算上方便的唯一性条件：AD1A是对角矩阵,38,例8.3.3 在例7.3.2中，取m=2，极大

14、似然法的计算结果列于表8.3.3。的初始估计值与例8.3.2相同。,表8.3.3 当m=2时的极大似然解,39,40,8.4 因子旋转,因子的解释带有一定的主观性，我们常常通过旋转因子的方法来减少这种主观性且使之更易解释。因子是否易于解释，很大程度上取决于因子载荷矩阵A的元素结构。假设A是从R出发求得的，则有|aij|1。如果A的所有元素都接近0或1，则模型的因子就易于解释。这时可将x1,x2,xp分成m个部分，分别对应f1,fm，这是一种使因子解释大为简化的理想情形，称之为简单结构。反之，如果A的元素多数居中，不大不小，则对模型的因子往往就不易作出解释，此时应考虑进行因子旋转，使得旋转之后的

15、载荷矩阵在每一列上元素的绝对值尽量地大小拉开，也就是尽可能多地使其中的一些元素接近于0，另一些元素接近于1。,41,因子旋转方法有正交旋转和斜交旋转两类，本章只讨论正交旋转。正交旋转：f*=Tf，相应地有A*=AT。记因A*=TA，即故几何上，考虑由在m个因子f1,f2,fm上的载荷构成的m维坐标系，于是ai是xi在该坐标系下的一个坐标点。p个坐标点a1,a2,ap经正交旋转后转换为新坐标点，显然这p个点的几何结构仍保持不变。,42,可见，因子正交旋转不改变共性方差，且共性方差为上述坐标点到原点的平方（欧氏）距离。A*A*=ATTA=AA由此得tr(A*A*)=tr(AA)，从而正交旋转不改

16、变m个因子的累计贡献率。经正交旋转后的残差矩阵，仍保持不变。例8.4.1 对十个变量从R出发进行因子分析，选取两个因子f1和f2。图8.4.1中有这十个变量的坐标点，横轴f1和纵轴f2分别表示变量在因子f1和f2上的载荷，坐标旋转后的轴和轴的意思类似。旋转后的因子载荷显然具有简单结构，其旋转角度可在该图中用目测法加以（主观）确定。,43,44,图8.4.1 旋转后具有简单结构的因子载荷图,对m=2时的一般情形，设按逆时针旋转的角度为（如其值为负，则实为按顺时针），则旋转前后的因子载荷有如下关系式：当因子数m2时，我们一般就无法通过目测确定旋转，此时需要通过一种算法来给出正交矩阵T，不同的算

17、法构成了正交旋转的各种不同方法，在这些方法中使用最普遍的是最大方差旋转法。例8.4.2 在例8.3.1至例8.3.3中分别使用最大方差旋转法，旋转后的因子载荷矩阵列于表8.4.1。,45,表8.4.1旋转后的因子载荷估计,46,47,48,49,三种方法的因子载荷估计经因子旋转之后给出了大致相同的结果，在因子上的载荷依次增大，在因子上的载荷依次减小，可称为耐力因子，称为（短跑）速度因子。将主成分解的在图8.4.2中用点表示，在点上标出相应变量的序号。使用最大方差旋转法后，因子按顺时针方向旋转了40.6(=40.6)，点i在新坐标系下的坐标为旋转后的因子载荷配对。,50,图8.4.2 主

18、成分解的因子旋转,51,例8.4.3 对例6.3.7中的八个变量进行因子分析，主成分解、主因子解和极大似然解的因子载荷见表8.4.2。这三种解的结果相近，f1都可称为（身材）大小因子，f2也都可称为形状因子（或胖瘦因子）。,52,表8.4.2m=2时的因子载荷估计,53,表8.4.3旋转后的因子载荷估计,54,经最大方差旋转法旋转后的表8.4.3显示，三种方法的因子载荷也都很相似，并都呈现出几乎相同的简单结构，以致因子的解释也都相同。可称为（身材）纵向（或长度）因子；可称为（身材）横向（或宽度或围度）因子。比较因子旋转前后的因子解释，应该说旋转后的因子不如旋转前的因子有更符合实际需要的解释。单

19、从这一点来看，所作的因子旋转并不是很成功。不过，旋转后因子载荷所呈现出的简单结构却可以很好地被用来对变量进行聚类。以上三种解都可将所有八个变量分为与关系密切的和与关系密切的两类，这与例6.3.7中的各聚类方法得到的结果相同。,55,例8.4.4 沪市604家上市公司2001年财务报表中有这样十个主要财务指标(数据可从前言中提及的作者网页上下载)：x1：主营业务收入(元)x6：每股净资产(元)x2：主营业务利润(元)x7：净资产收益率(%)x3：利润总额(元)x8：总资产收益率(%)x4：净利润(元)x9：资产总计(元)x5：每股收益(元)x10：股本上述十个指标的样本相关矩阵列于表8

20、.4.3。,56,从相关矩阵出发，选择主成分法，相关阵的前三个特征值为累计贡献率为83.82%，取因子数m=3，相应结果列于表8.4.5。,表8.4.4 十个财务指标的样本相关矩阵,57,表8.4.5 m=3时的主成分解,58,表8.4.6 旋转后的因子载荷估计,59,8.5 因子得分,回归法相比加权最小二乘法有着更高的估计精度，因而在实际应用中，回归法应用得最为广泛。二、回归法,60,二、回归法,在正交因子模型中，假设服从(m+p)元正态分布，用回归预测方法可将估计为称为汤姆森（Thompson,1951）因子得分。在实际应用中，可用分别代替上式中的,A,来求得因子得分。样品xj的因子得分,61,例8.5.1 在例8.4.4中，用回归法得到的因子得分为其中为xi的标准化值，i=1,2,p，经计算：,62,63,表8.5.1 按规模因子得分的排序,64,表8.5.2 按盈利因子得分的排序,65,表8.5.3 按每股价值因子得分的排序,66,