《应用多元统计分析》第五版ppt课件.pptx
《《应用多元统计分析》第五版ppt课件.pptx》由会员分享,可在线阅读,更多相关《《应用多元统计分析》第五版ppt课件.pptx(66页珍藏版)》请在三一办公上搜索。
1、第八章 因子分析,8.1 引言 8.2 正交因子模型 8.3 参数估计 8.4 因子旋转 8.5 因子得分,1,8.1 引言,(本身作为目的的)主成分分析的成功需满足如下两点:(1)前(少数)几个主成分具有较高的累计贡献率;(通常较易得到满足)(2)对主成分给出符合实际背景和意义的解释。(往往正是主成分分析的困难之处)因子分析的目的和用途与主成分分析类似,它也是一种降维方法。因子往往比主成分更易得到解释。,2,因子分析起源于20世纪初,K.皮尔逊(Pearson)和C.斯皮尔曼(Spearman)等学者为定义和测定智力所作的努力,主要是由对心理测量学有兴趣的科学家们培育和发展了因子分析。因子分
2、析与主成分分析主要有如下一些区别:(1)主成分分析涉及的只是一般的变量变换,它不能作为一个模型来描述,本质上几乎不需要任何假定;而因子分析需要构造一个因子模型,并伴有几个关键性的假定。(2)主成分是原始变量的线性组合;而在因子分析中,原始变量是因子的线性组合,但因子却一般不能表示为原始变量的线性组合。,3,4,(3)在主成分分析中,强调的是用少数几个主成分解释总方差;而在因子分析中,强调的是用少数几个因子去描述协方差或相关关系。(4)主成分的解是唯一的(除非含有相同的特征值或特征向量为相反符号);而因子的解可以有很多,表现得较为灵活(主要体现在因子旋转上),这种灵活性使得变量在降维之后更易得到
3、解释,这是因子分析比(需对主成分作出解释的)主成分分析有更广泛应用的一个重要原因。(5)主成分不会因其提取个数的改变而变化,但因子往往会随模型中因子个数的不同而变化。,5,例8.1.1 林登(Linden)根据他收集的来自139名运动员的比赛数据,对第二次世界大战以来奥林匹克十项全能比赛的得分作了因子分析研究。这十个全能项目是:x1:100米跑 x6:110米跨栏x2:跳远 x7:铁饼x3:铅球 x8:撑杆跳高x4:跳高 x9:标枪x5:400米跑 x10:1500米跑经标准化后所作的因子分析表明,十项得分基本上可归结于他们的爆发性臂力强度、短跑速度、爆发性腿部强度和跑的耐力这四个方面,每一方
4、面都称为一个因子。十项得分与这四个因子之间的关系可以描述为如下的因子模型:xi=i+ai1f1+ai2f2+ai3f3+ai4f4+i,i=1,2,10 其中f1,f2,f3,f4表示四个因子,称为公共因子,aij称为xi在因,6,子aij称为xi在因子fj上的载荷,i是xi的均值,i是xi不能被四个公共因子解释的部分,称之为特殊因子。例8.1.3 公司老板对48名应聘者进行面试,并给出他们在15个方面所得的分数,这15个方面是:x1:申请书的形式 x9:经验x2:外貌 x10:积极性x3:专业能力 x11:抱负x4:讨人喜欢 x12:理解能力x5:自信心 x13:潜力x6:精明 x14:交际
5、能力x7:诚实 x15:适应性x8:推销能力通过因子分析,这15个方面可以归结为应聘者的进取能干、经验、讨人喜欢的程度、专业能力和外貌这五个因子。,7,8.2 正交因子模型,一、数学模型 二、正交因子模型的性质三、因子载荷矩阵的统计意义,8,一、数学模型,设有p维可观测的随机向量,其均值为,协差阵为=(ij)。因子分析的一般模型为其中f1,f2,fm为公共因子,1,2,p为特殊因子,它们都是不可观测的随机变量。公共因子出现在每一个原始变量的表达式中,可理解为原始变量共同具有的公共因素。上式可用矩阵表示为x=+Af+,9,式中 为公共因子向量,为特殊因子向量,称为因子载荷矩阵。通常假定该假定和上
6、述关系式构成了正交因子模型。由上述假定可以看出,公共因子彼此不相关且具有单位方差,特殊因子也彼此不相关且和公共因子也不相关。,10,二、正交因子模型的性质,1.x的协差阵的分解3.因子载荷是不唯一的,11,1.x的协差阵的分解,=V(Af+)=V(Af)+V()=AV(f)A+V()=AA+D如果A只有少数几列,则上述分解式揭示了的一个简单结构。由于D是对角矩阵,故的非对角线元素可由A的元素确定,即因子载荷完全决定了原始变量之间的协方差,具体有如果x为各分量已标准化了的随机向量,则就是相关阵R,即有R=AA+D 相应地有,12,例8.2.1 设随机向量x=(x1,x2,x3,x4)的协方差矩阵
7、为则可分解为=AA+D其中,13,若取A=1/2,D=0,则有分解式=1/21/2+0此时m=p,没有达到降维目的,故所作的因子分析没有意义。出于降维的需要,我们常常希望m要比p小得多,这样前述的分解式通常只能近似成立,即有AA+D近似程度越好,表明因子模型拟合得越佳。在因子数m的选择上,我们既希望m尽可能小又希望因子模型的拟合尽可能好,而这两个目标是彼此矛盾的,实践中我们应确定一个折中、合理的m。,14,3.因子载荷是不唯一的,设T为任一mm正交矩阵,令A*=AT,f*=Tf,则模型能表示为x=+A*f*+因为 E(f*)=TE(f)=0 V(f*)=TV(f)T=TT=ICov(f*,)=
8、E(f*)=TE(f)=0所以仍满足模型条件。也可分解为=A*A*+D因此,因子载荷矩阵A不是唯一的,在实际应用中常常利用这一点,通过因子的旋转(见稍后的8.4),使得新的因子有更好的实际意义。,15,三、因子载荷矩阵的统计意义,1.A的元素2.A的行元素平方和3.A的列元素平方和4.A的元素平方和,16,1.A的元素,或若x为各分量已标准化了的随机向量,则,17,2.A的行元素平方和,xi=i+ai1f1+ai2f2+aimfm+i令于是,18,反映了公共因子对xi的影响,可以看成是公共因子f1,f2,fm对xi的方差贡献,称为共性方差;而 是特殊因子i对xi的方差贡献,称为特殊方差。当x为
9、各分量已标准化了的随机向量时,ii=1,此时有,19,3.A的列元素平方和,其中 反映了公共因子fj对x1,x2,xp的影响,是衡量公共因子fj重要性的一个尺度,可视为公共因子fj对x1,x2,xp的总方差贡献。,20,fj所解释的总方差的比例(或称贡献率)为,如果各原始变量已作了标准化,则该比例就简化为。,21,4.A的元素平方和,A的元素平方和为 或这是f1,f2,fm对总方差的累计贡献,f1,f2,fm所解释的总方差的累计比例(或称累计贡献率)为,22,对于标准化了的原始变量可简化为,23,8.3 参数估计,一、主成分法二、主因子法三、极大似然法,24,一、主成分法,设样本协方差矩阵S的
10、特征值依次为,相应的正交单位特征向量为。选取相对较小的因子数m,并使得累计贡献率 达到一个较高的百分比,则S可近似分解如下:其中 为pm矩阵,i=1,2,p。这里的 和 就是因子模型的一个主成分解。,25,对主成分解,当因子数增加时,原来因子的估计载荷并不变,fj对x的总方差贡献仍为。主成分法与主成分分析有着很相似的名称,两者很容易混淆。虽然第j个因子与第j个主成分的解释完全相同,但主成分法与主成分分析本质上却是两个不同的概念。主成分法是因子分析中的一种参数估计方法,它并不计算任何主成分,且旋转后的因子解释一般就与主成分明显不同了。称 为残差矩阵。当p个原始变量的单位不同,或虽单位相同,但各变
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用多元统计分析 应用 多元 统计分析 第五 ppt 课件

链接地址:https://www.31ppt.com/p-2051223.html