数学模型讲座因子分析.ppt
因子分析(Factor analysis),武汉理工大学统计学系 唐湘晋,因子分析是主成分分析的推广和发展,它也是多元统计中处理降维的一种方法。因子分析是研究相关阵或协差阵的内部依赖关系,将多个变量综合为少数几个因子,再现原始变量与因子之间的关系。形成和发展:1904 年Charles Spearman 的论文 对智力测验得分进行的统计分析 早期主要用于心理学和教育学方面的问题 目前:经济学、社会学、考古学、生物学、医学及体育科学,实例1(1)为了解学生的学习能力,观测了n 个学生p 个科目的成绩,用X1,X2,Xp 表示科目(例如代数、几何、语文、英语,)可以认为各科目有两部分组成:其中F 是对所有的Xi 都起作用的公共因子,它表示智能高低的因子;系数ai 称为因子载荷,表示第i 各科目在智能高低上的体现;i 是科目变量特有的特殊因子,描述原始变量.这就是一个最简单的因子模型;(2).推广到m 个因子,如数学因子、记忆因子、计算因子等,分别记为F1,F2,Fm。这就是一个因子分析模型.,实例2 调查青年对婚姻家庭的态度,抽取n 个青年回答了50个问题的答卷,这些问题可归纳为如下的几个方面:如对相貌的重视,对孩子的观点、对老人的态度等实例3考察人体的五项生理指标:收缩压、舒张压、心跳间隔、呼吸间隔和舍下温度。从生理学知识,这五项指标是受植物神经支配的,植物神经又分为交感神经和副交感神经,因此这五项指标也可以用因子分析模型去处理,因子分析的主要应用(1).寻求基本结构,简化观测系统,将具有错综复杂关系的对象(变量或样本)综合为少数几个因子(不可观测的随机变量),以再现因子与原始变量之间的内在联系(2).用于分类,对变量或样本进行分类.R型和Q型因子分析(1).R型 从变量的相关阵出发,找出控制所有变量的几个公共因子,用以对变量或样本进行分类。(2).Q型 从样本的相相似据阵出发,找出控制所有样本的几个主要因素。,因子分析与主成分分析的区别(1).主成分分析不能作为一个模型,只是变量变换,而因子分析需要构造模型(2).主成分的个数和变量的个数相同,它是将一组具有相关的关系的变量变换为一组互不相关的变量,而因子分析是要用尽可能少的的公因子,以便构造一个简单的因子模型(3).主成分表示为原始变量的线性组合,而因子分析是将原始变量表示为公因子和特殊因子的线性组合。,R型因子分析的数学模型,用矩阵表示,因子分析的数学模型,简记为,且满足,为任一个m 阶的正交阵,上式仍满足约束条件,因子分析每个相应的系数不是唯一的,即因子载荷阵不是唯一的,通过模型 以F 代替X,由于mp,或 mn,从而达到简化变量维数目的,因子分析的目的,正交因子模型中各统计量的意义,因子载荷的统计意义第i 个变量与第j 个公共因子的相关系数。用统计学术语叫权重,表示Xi 依赖Fj 的分量,因子载荷据阵A中各行元素的平方和记为,称为变量Xi 的共同度,公共因子方差,剩余方差,变量共同度的统计意义,因子载荷据阵A中各列元素的平方和记为,表示第j 个因子对所有分量的总影响,称为第j 个因子对X 的贡献,它是衡量第j 个因子相对重要性的指标,公共因子Fj方差的统计意义,因子载荷阵的估计方法,主成分法 主因子法 极大似然法,设样本的协差阵的特征值和特征向量分别为:,则协差阵可分解为,其中分量A和D就是因子模型的一个解,A中的第j 列和X中的第j个主成分的系数相差一个倍数。故此解常称为因子模型的主成分解。,当最后p-m个特征值较小时,协差阵可以近似的分解为,公因子个数的确定方法,1)根据实际问题的意义或专业理论知识2)用确定主成分个数的原则,因子旋转,用一个正交阵右乘A,使旋转后的因子载荷阵结构简化,即使得每个变量仅在一个公共因子上有较大的载荷,而在其余的因子上载荷比较小。,方差最大的正交旋转使得旋转后的所得到的因子载荷阵的总方差达到最大值.,因子得分,Thomson 回归法,因子分析的步骤,计算所选原始变量的相关系数矩阵 相关系数矩阵描述了原始变量之间的相关关系。可以帮助判断原始变量之间是否存在相关关系,这对因子分析是非常重要的,因为如果所选变量之间无关系,做因子分析是不恰当的。并且相关系数矩阵是估计因子结构的基础。,选择分析的变量 用定性分析和定量分析的方法选择变量,因子分析的前提条件是观测变量间有较强的相关性,因为如果变量之间无相关性或相关性较小的话,他们不会有共享因子,所以原始变量间应该有较强的相关性。,提取公共因子 这一步要确定因子求解的方法和因子的个数。需要根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小。只取方差大于1(或特征值大于1)的那些因子,因为方差小于1的因子其贡献可能很小;按照因子的累计方差贡献率来确定,一般认为要达到60才能符合要求;因子旋转 通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子解的实际意义更容易解释,并为每个潜在因子赋予有实际意义的名字。,计算因子得分 求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子的得分做聚类分析的变量,做回归分析中的回归因子。,因子分析计算步骤与实例分析,对我国30个省市自治区的农业生产情况作因子分析。从农业生产条件和生产结果及效益出发,选取六项指标分别为:X1乡村劳动力人口(万人)、X2人均经营耕地面积(亩)、X3户均生产性固定资产原值(元)、X4家庭基本纯收入(元)、X5人均农业总产值(千元/人)、X6增加值占总产值比重(%),原始资料数据如下页表:,因子分析计算步骤与实例分析,第一步 将原始数据标准化第二步 建立指标间的相关系数阵R:,因子分析计算步骤与实例分析,第三步 求R的特征值和特征向量。,因子分析计算步骤与实例分析,由于前三个特征值累积贡献率已达87.15%,所以取前三个特征值所对应的特征向量如下:,因子分析计算步骤与实例分析,第四步 列出因子载荷矩阵表。,因子分析计算步骤与实例分析,第五步 对因子载荷阵实行方差最大正交旋转,旋转后的矩阵如下:由上表可见,每个因子只对应少数几个指标的因子载荷较大,因此可根据上表对指标进行分类。,因子分析计算步骤与实例分析,第六步 将六项指标按高载荷分成三类,并结合专业知识给出各因子的命名如下:,因子分析计算步骤与实例分析,在第一因子中,X4、X5、X6三项指标有较大的载荷,这些都从产出效益方面描述农业情况的,所以称为产出及效益因子。在第二个因子中,X1、X3有较大的载荷,这主要是人们对农业的生产工具、人力等的投入,所以称为人为投入条件因子。在第三个因子中,X2有较大的载荷,这主要从自然条件方面刻划农业的生产条件状况,所以称为自然条件因子。,