确定性因子分析.ppt
确定性因子分析,流行病与卫生统计学系,Confirmatory Factor Analysis,因子分析可分为两种:,探索性因子分析(exploratory factor analysis)确定性因子分析(confirmatory factor analysis),什么是探索性因子分析?探索性因子分析是去探讨一组可测变量的特征,性质和内部的关联性,并揭示有多少主要的潜在因子可能影响这些可测变量。,如果所进行的一项研究涉及到很多的可测变量,而且在研究之前,并不清楚有哪些可能的潜在因子会影响这些可测变量,这时可作探索性因子分析。,何时使用探索性因子分析?,什么是确定性因子分析?确定性因子分析是在探索性因子分析的基础上进一步确定每一个潜在因子对可测变量的影响程度,以及了解这些潜在因子之间的关联程度。,如果根据以往的经验或根据探索性因子分析的结果已经清楚哪些可测变量可能被那一个潜在因子所影响,而只需进一步确定每一个潜在因子对可测变量的影响程度,以及了解这些潜在因子之间的关联程度,这时可用确定性因子分析。,何时使用确定性因子分析?,确定潜在因子个数,和每一个潜在因子影响哪几个可测变量。,确定潜在因子对可测变量的影响大小,和潜在因子之间的关系。,两种因子分析的假设条件,探索性因子分析要求寻找出的这些潜在因子是相互独立的,有实际意义的,而且这些独立的潜在因子尽可能多地概括了原可测变量的信息。确定性因子分析不要求寻找出的这些潜在因子是相互独立的,它的目的是研究潜在因子之间的关联性。,两种因子分析的统计分析,探索性因子分析仅仅用在研究初期对原始数据的探讨,它的结果一般不需要进行统计检验。确定性因子分析是确定性地描述了观察变量与潜在因子之间的关系,具有有效的实际意义,因此需要进行统计检验。,第一节 确定性因子分析的基本原理,确定性因子分析和探索性因子分析的数学模型是一样的。但是,它们的不同之处是,进行探索性因子分析时,总是假定研究者对指标的内在结构以及隐含的潜在因子一无所知,或知之甚少。因此,估计模型中的未知因子载荷 a ij 时,所有的因子载荷都应估计,也就是说,探索性因子分析是一种非限制性(unrestricted)的分析,其结果完全取决于已知数据。而确定性因子分析是在探索性因子分析的基础上进行的,它不需要估计所有的因子载荷,只需要估计特定的因子载荷,其余的因子载荷均假定为零。,例如,孩子的数学成绩(x1),孩子的语文成绩(x2),父亲的学历(x3)和母亲的学历(x4)这四个指标变量经过探索性因子分析得到模型如下:,非限制性的(unrestricted),限制性的(restricted),确定性因子分析的基本原理就是对一个特定的因子分析模型进行分析,分析的过程就是用数据去证实(统计检验)这个特定的因子分析模型是否成立,并且估计潜在因子之间的相关系数。,确定性因子分析的基本原理,第二节 确定性因子分析的数学模型,一、模型:,例如:i=4,q=2 模型:,可测变量,潜在因子,因子载荷,度量误差,矩阵形式:,其中,x 是待估计的因子载荷矩阵,是潜在因子矩阵,是误差项矩阵。,(1)x i 是随机变量;(2)i 是均值为 0,方差为常数的正态随机变量;(3)i 之间相互独立;(4)i 与所有的j 独立;,二、假设条件,探索性因子分析的假设条件:(1)-(4)相同,(5)i 是方差为1的随机变量,且i 之间相互独立。,第三节 确定性因子分析模型的基本要素,基本矩阵:x,和,第四节 潜在因子的尺度问题,任何一个观察变量都是有尺度(scales)的,即有原点(origin)和单位(unit)。潜在因子是没有尺度的,即,没有原点和单位。为了使得潜在因子之间具有可比性,必须给每一个潜在因子定义它的原点和单位。只要将原始数据标准化,潜在因子的原点问题就得以解决。,解决潜在因子的单位问题有两个常用的方法:一个方法是假定所有潜在因子的方差为 1,即,令矩阵 中所有主对角线上的元素为 1。这意味着,假定潜在因子的单位等于样本总体的标准差。另一个最常用的也是最方便的方法是,在每一个潜在因子所支配的几个观察变量中,选择一个作为参照变量(reference variable),并假定该潜在因子对这个参照变量的影响是1,即,参照变量在这个因子上的因子载荷是 1。这就意味着潜在因子的尺度被假定为和参照变量的尺度一样。,参照变量的选取方法:参照变量可以任意选取,也可以选择代表性最强的指标,即在探索性因子分析中,因子载荷最大的指标。对于单指标潜在因子,可以假定其因子载荷等于1,即假定误差等于0,或误差是接近于0的一个很小的数。,这两种解决潜在因子单位的方法都等价于增加了模型的限制条件,从而减少了未知参数的个数。,第五节 确定性因子分析模型的可鉴别性和自由度,确定性因子分析模型 的可鉴别性的必要条件:对于可鉴别的模型(正好可鉴别或过分可鉴别),一定有 cp。自由度df=c-p。如果df0,则模型一定是不可鉴别的。,第六节 样本导出的与模型隐含的方差协方差矩阵,样本导出的方差协方差矩阵S:由原始数据计算出来的关于 k个观察变量的方差协方差矩阵。由于它不受任何条件的限制,所以称之为非限制性方差协方差矩阵。模型导出的方差协方差矩阵():令是由这p个未知参数构成的向量,它是一个 p 维向量。对于的任意一组给定的值,都可以由(17-2)计算出x 的一组预期值。由这组新的x 值计算出的方差协方差矩阵称为()。,样本导出的方差协方差矩阵S是由观察数据计算得到的,它是一个与参数无关的k 阶方阵,它表示了原始变量之间的关联程度。模型隐含的方差协方差矩阵()是由拟和模型的预测值计算出来的,它是一个与参数有关的k 阶方阵,它表示了预测变量之间的关联程度。如果一个模型很好地描述了变量之间的关系,那么,这两个矩阵的对应元素应当很接进。确定性因子分析的统计检验以此为准则。,第七节 确定性因子分析的方法步骤,1、估计和检验系数(因子载荷);2、计算标准(因子载荷);3、模型的总体评价;4、模型的修正和再估计。,一、估计因子载荷,逐步迭代:,直到(k)与 S 充分地接近。,最后得到的这个估计为模型(17-2)的一个非标准参数估计,二、计算标准因子载荷,标准因子载荷消除了量纲的影响,可以用来比较指标对潜在因子的相对重要性。绝对值越大,指标对潜在因子的贡献就越大。,三、模型的总体评价,一个好的模型就是参数的估计值使得模型隐含的方差协方差矩阵()与样本导出的方差协方差矩阵S充分地接近,或满足事先给定的精确度要求。对于一个估计出来的特定模型,如何从统计意义上评价它是否满足事先给定的精确度要求呢?关于这方面的内容将在第十八章中介绍。,四、模型的修正和再估计,不论模型的总体评价失败与否,都需要对模型中所有未知参数的估计值是否具有统计意义和实际的解释意义进行逐个检查,如果有不满足要求的,就需要对初始模型进行修改,然后重新估计未知参数和重新进行模型的总体评价,直到模型的总体检验合格并且所有的参数估计满足要求为止。有关这方面的内容也将在第十八章中祥述,,第八节 确定性因子分析在医学中的应用,确定性因子分析的用处:确定性因子分析是研究多个变量之间的关联性问题。但是它和简单相关分析,偏相关分析以及典型相关分析不同。一个不同在于在它允许每一个指标变量有度量误差,这是符合实际情况的,这样使得分析结果更接近真实,分析结论更加准确可信。第二个不同在于它分析的是潜在变量之间的关联性,而不是观察变量之间的关联性,即它利用的是综合信息而不是单一信息。这种处理数据的手段在医学中是很有应用价值的。,【例17-1】研究者调查了3094个学生的四个指标,x 1 是母亲的学历等级(1-6),x 2 是父亲的学历等级(1-6),x 3 是父母亲的工资总收入等级(1-10),x 4 是学生的大学学分等级(1-4),x 5是学生毕业5年后的工资等级(1-10)。它们的相关系数列在表 17-1 中。进行确定性因子分析。,表17-1 相关系数矩阵,利用探索性因子分析,得到下面的结果:Rotated Factor Pattern FACTOR1 FACTOR2X1 0.84736 0.17503X2 0.81438 0.11794X3 0.78878 0.11735X4 0.16018 0.90034X5 0.13914 0.90558,特定的确定性因子分析模型是:,【SAS程序】data eg17_1(type=corr);infile cards missover;_type_=corr;input _name_$x1-x5;if _n_=1 then _type_=n;else if _n_=2 then _type_=std;else _type_=corr;cards;n 3094std 1.229 1.511 2.649 0.777 0.810 x1 1.0000 x2 0.5902 1.0000 x3 0.5461 0.4509 1.0000 x4 0.2852 0.2377 0.2349 1.0000 x5 0.2701 0.2269 0.2203 0.6759 1.0000run;,proc calis method=ml cov;lineqs x1=f1+e1,x2=a2 f1+e2,x3=a3 f1+e3,x4=f2+e4,x5=a5 f2+e5;std e1-e5=5*var:,f1 f2=2*var:;cov f1 f2=cov;run;,【SAS部分输出结果】Covariance Structure Analysis:Pattern and Initial Values Number of endogenous variables=5Manifest:X1 X2 X3 X4 X5 Number of exogenous variables=7Latent:F1 F2Error:E1 E2 E3 E4 E5,Manifest Variable EquationsInitial Estimates X1=1.0000 F1+1.0000 E1 X2=.*F1+1.0000 E2 A2 X3=.*F1+1.0000 E3 A3 X4=1.0000 F2+1.0000 E4 X5=.*F2+1.0000 E5 A5,Variances of Exogenous Variables-Variable Parameter Estimate-F1 VAR6.F2 VAR7.E1 VAR1.E2 VAR2.E3 VAR3.E4 VAR4.E5 VAR5.Covariances among Exogenous Variables-Parameter Estimate-F2 F1 COV.,Covariance Structure Analysis:Maximum Likelihood Estimation 3094 Observations Model Terms 1 5 Variables Model Matrices 4 15 Informations Parameters 11VARIABLE Mean Std DevX1 0 1.229000000X2 0 1.511000000X3 0 2.649000000X4 0 0.777000000X5 0 0.810000000,Fit criterion.0.0004Goodness of Fit Index(GFI).0.9998GFI Adjusted for Degrees of Freedom(AGFI).0.9994Root Mean Square Residual(RMR).0.0090Parsimonious GFI(Mulaik,1989).0.3999Chi-square=1.2988 df=4 Probchi*2=0.8616Null Model Chi-square:df=10 4774.7413RMSEA Estimate.0.0000 90%C.I.,0.0143Probability of Close Fit.1.0000ECVI Estimate.0.0075 90%C.I.,0.0092Bentlers Comparative Fit Index.1.0000Normal Theory Reweighted LS Chi-square.1.3015,Akaikes Information Criterion.-6.7012Bozdogans(1987)CAIC.-34.8501Schwarzs Bayesian Criterion.-30.8501McDonalds(1989)Centrality.1.0004Bentler&Bonetts(1980)Non-normed Index.1.0014Bentler&Bonetts(1980)NFI.0.9997James,Mulaik,&Brett(1982)Parsimonious NFI.0.3999Z-Test of Wilson&Hilferty(1931).-1.0909Bollen(1986)Normed Index Rho1.0.9993Bollen(1988)Non-normed Index Delta2.1.0006Hoelters(1983)Critical N.22596,Manifest Variable Equations X1=1.0000 F1+1.0000 E1 X2=1.0215*F1+1.0000 E2 Std Err 0.0321 A2 t Value 31.7832 X3=1.6620*F1+1.0000 E3 Std Err 0.0544 A3 t Value 30.5397 X4=1.0000 F2+1.0000 E4 X5=0.9873*F2+1.0000 E5 Std Err 0.0478 A5 t Value 20.6435,Variances of Exogenous Variables-StandardVariable Parameter Estimate Error t Value-F1 VAR6 1.070309 0.045598 23.473F2 VAR7 0.430867 0.024652 17.478E1 VAR1 0.440132 0.029232 15.057E2 VAR2 1.166227 0.041414 28.160E3 VAR3 4.060829 0.129497 31.358E4 VAR4 0.172862 0.020265 8.530E5 VAR5 0.236115 0.020196 11.691,Covariances among Exogenous Variables-Standard Parameter Estimate Error t Value-F2 F1 COV 0.275825 0.017145 16.088,Equations with Standardized Coefficients X1=0.8418 F1+0.5398 E1 X2=0.6994*F1+0.7147 E2 X3=0.6491*F1+0.7607 E3 X4=0.8448 F2+0.5351 E4 X5=0.8001*F2+0.5999 E5,Squared Multiple Correlations-Error Total Variable Variance Variance R-squared-1 X1 0.440132 1.510441 0.708607 2 X2 1.166227 2.283121 0.489196 3 X3 4.060829 7.017201 0.421304 4 X4 0.172862 0.603729 0.713677 5 X5 0.236115 0.656100 0.640123Correlations among Exogenous Variables-Parameter Estimate-F2 F1 COV 0.406170,总 结,什么是确定性因子分析?探索性因子分析和确定性因子分析的区别?确定性因子分析的模型和基本要素?如何解决潜在因子的原点和单位问题?确定性因子分析模型的可鉴别性?样本导出的和模型隐含的方差协方差矩阵?,结 束,