路径分析、结构方程讲义ppt课件.pptx
路径分析、结构方程模型及应用,知识要点:1、路径分析、结构方程的基本思想和模型设定2、路径分析模型、结构方程模型的构建3、路径分析模型、结构方程模型的识别和估计4、路径分析模型、结构方程模型的评价和修改5、路径分析模型、结构方程的应用和文献阅读,路径分析、结构方程模型的发展历史,20世纪初,“Pearson原理”占着生物遗传学(在过去几乎就是我们现在所称作的统计学)的统治地位。Pearson原理的一个基本内容就是相关关系是现实生活中最基本的关系,而因果关系仅仅是完全相关的(理论)极限。这种理论认为没必要寻找变量之间的因果关系,只需计算相关系数。然而相关分析逐渐暴露出自身的很多局限:一是相关分析仅仅反应变量之间的线性关系;二是相关分析反应变量之间的关系是对称的,而很多变量之间的关系是非对称的(见路径图P7);三是只有在正态假设下,相关思想才是有效的。以上说明,对因果关系的研究仍然是重要的。,在遗传学中,很多现象具有明显的因果关系,如父代与子代的基因关系,父代在前,子代在后,二者的关系只能是单向的,而非对称的。对这种变量结构进行思考,遗传学家Sewall Wright于1918-1921年提出路径分析(path analysis),用来分析变量间的因果关系。现代的路径分析由生物遗传学家、心理测验学家、计量经济学家以及社会学家的推进,引入隐变量(latent variable, 又称unmeasured variable, 不可观测变量),并允许变量间具有测量误差,并且极大似然估计代替了最小二乘法,成为路径系数主流的估计方法。,路径分析现在成为多元分析的一种重要方法,广泛应用于遗传学、社会学、心理学、经济问题和市场调研领域。习惯上把基于最小二乘的传统的路径分析称作路径分析;把基于极大似然的路径分析称作结构方程式模型(Structural Equation Modeling,SEM)。,路径分析的相关知识简介,1、路径分析的基本概念和理论2、相关系数的分解3、路径模型的调试和识别4、路径分析的流程图和案例分析,路径分析流程图,一、路径图,路径分析的主要工具是路径图,它采用一条带箭头的线(单箭头表示变量间的因果关系,双箭头表示变量间的相关关系)表示变量间预先设定的关系,箭头表明变量间的关系是线性的,很明显,箭头表示着一种因果关系发生的方向。在路径图中,观测变量一般写在矩形框内,不可观测变量一般写在椭圆框内。,A是父亲智商,B是母亲智商,C1、C2是两个成年子女的智商,e1, e2 是与A,B不相关的另外原因变量。一般来说,父母亲的智商之间不存在关系;父母亲的智商对子女的智商存在因果关系,用单箭头表示,子女的之间,存在相关关关系,用双箭头表示。箭头上的字母表示路径系数,路径系数反应原因变量对结果变量的相对影响大小。在路径分析中一般采用经过标准化后的变量.,把上图写为方程式的形式:,以上方程实际上是普通的多元回归方程,多元回归分析是因果关系模型的一种,但它是一种比较简单的因果关系模型,各个自变量对因变量的作用并列存在,它仅包含一个环节的因果结构。,路径分析的优势在于:它可以容纳多环节的因果结构,通过路径图把这些因果关系很清楚地表示出来,据此进行更深层次的分析,如比较各种因素之间的相对重要程度,计算变量与变量之间的直接与间接影响,例:某种消费性电子产品(如手机)路径分析:,四个变量耐用性、操作的简单性、通话效果和价格两两相关,决定感知价值,同时通过感知价值决定忠诚度。相对于图10-1,它具有两层的因果关系。,路径图上的变量分为两大类:一类是外生变量(exogenous variable,又称独立变量,源变量),它不受模型中其他变量的影响。另一类是内生变量(endogenous variable,又称因变量或下游变量),在路径图上至少有一个箭头指向它,它被模型中的其它一些变量所决定。其中,将路径图中不影响其它变量的内生变量称为最终结果变量(ultimate response variable),最终结果变量不一定只有一个。如:顾客忠诚度,耐用性、操作的简单性、通话效果和价格即为外生变量,感知价值和顾客忠诚度为内生变量,感知价值和顾客忠诚度为内生变量,其他变量对内生变量的影响:若A直接通过单向箭头对B具有因果影响,称A 对B有直接作用(direct effect);若A 对B的作用是间接地通过其他变量(C)起作用,称A 对B有间接作用(indirect effect),称C为中间变量(mediator variable)。,四个外生变量耐用性、操作的简单性、通话效果和价格既对忠诚度有直接作用,同时通过感知价值对忠诚度具有间接作用。,中间变量的中间作用有理论依据吗?中间作用统计显著吗?,检验中间变量间接作用是否统计显著(Barron, R.M. & Kenny D.(1986) Agarwal ,S.& Teas,R.K.(1997) ):第一步:用中间变量(感知价值)对外生变量耐用性、操作的简单性、通话效果和价格四个变量进行回归; 第二步:用内生变量(忠诚度)对第一步中的四个变量进行回归; 第三步:用忠诚度对第一步中的四个变量以及中间变量感知价值进行回归。,如果(a)在第一步的估计中解释变量统计显著;(b) 在第二步的估计中解释变量统计显著;(c) 在第三步的估计中中间变量统计显著,则说明中间变量的间接作用显著。如果第一步中外生变量的回归系数不是统计显著或者第三步中(中间变量)感知价值的回归系数不显著,说明该外生变量不存在间接作用;如果某一外生变量(如耐用性、操作的简单性和通话效果)在第一步和第三步中的回归系数都是统计显著的,说明该外生变量存在部分间接作用;如果某外生变量(价格)的回归系数在第一步显著,而在第三步不显著,说明该外生变量存在完全的间接作用。,五、递归路径模型,广义的路径模型有两种基本类型:递归模型和非递归模型。两种模型在分析时有所不同,递归模型可以直接通过最小二乘法求解,而非递归模型的求解比较复杂。这里主要介绍基于最小二乘法的路径分析(即递归路径模型)。递归模型:因果关系结构中全部为单向链条关系、无反馈作用的模型。无反馈作用意味着,各内生变量与其原因变量的误差之间或各两个内生变量的误差项之间必须相互独立。,二、相关系数的分解,分解相关系数在路径分析中带有一般性意义,并且是路径分析中很重要的一部分。通过对原因变量和结果变量的相关系数的分解,我们可以很清楚地看出造成相关关系的各种原因。例: A,B,C为三个两两相关的外生变量,A,B和残差项e4共同决定D,B,C,D和残差项e5决定E,最后,D,E和残差项e6影响最终结果变量F,共具有三层的因果关系。,首先分解A、D之间的相关系数,由于各变量均经过标准化处理,所以A、D的相关系数rAB等于A、D乘积的期望值。即:,可看出,A与D相关系数可分解成两部分:p14是A对D直接作用,r12*p24的存在是因为由于A与B之间的相关性引入了D,而B有着直接影响D的作用。然而,从因果分析的角度, r12*p24并未得到分解,称为未析部分。也有:,这里,第一项p45为D对E的直接作用,第二项p24p25是前面尚未涉及的分解内容,对应路径图,既找不到间接作用的路径链条,也找不到涉及相关的路径,这一部分的原因是相关系数所涉及的两个变量D、E有一个共同的作用因子B。由于B的存在,是得B的变化引起D、E的同时变化,而使D、E的样本数据表现出相关关系,这种相关关系称为伪相关。很多情况下均存在伪相关,特别是在一些混杂因子的影响中。,通过上面对相关系数的分解,可以总结出,相关系数的分解可能产生四种类型的组成部分:1、直接作用;2、间接作用;3、由于原因变量相关而产生的未析部分;4、由于共同作用原因的存在而产生的伪相关部分。然而,如果按照上面的步骤,相关系数的分解将是非常繁琐的。赖特提供了从路径图直接分解的Wright规则可以较方便实现对相关系数的分解。以上过程由AMOS软件实现,AMOS路径系数分解的结果一般通过报表的形式把各种作用展现出来。见后面的举例。,三、路径模型的调试,对模型的调试过程有些类似多元回归过程的调试:如果某一变量的路径系数(回归系数)统计性不显著,则考虑是否将其对应的路径从模型中删去;如果多个路径系数同时不显著,则首先删除最不显著的路径继续进行回归分析,根据下一步的结果再决定是否需要删除其它原因变量。进行调试的一般原则,实际进行调试时,还必须考虑模型的理论基础。作为研究焦点的因果联系必须要有足够的理论根据,即使其统计不显著,仍然应当加以仔细考虑,并寻找其统计不显著的原因:是否是多重共线性的影响,还是其它路径假设的不合理而影响了该路径的显著性。,在多元回归中碰到的很多问题在这里都可能碰到,我们可以参照相应的方法处理。,三、路径模型的整体检验,路径模型中方程的个数和内生变量的个数相等,不妨设有m个内生变量,则对于这m个方程,设其回归后的决定系数分别是 每个R2 都代表相应内生变量的方差中由回归方程所解释的比例,1- R2 则表示回归方程未能解释的残差比例。定义路径模型的整体拟合指数为:,如果经过调试的新模型与事先已设置的模型有所不同,此时可以采用拟合度对两个模型进行检验。如果统计检验不显著,说明调试后对模型的修改并不妨碍“接受”原假设模型,即新模型与原模型没有显著差异,可以认为前后两模型是一致的。反之,说明调试后得到的模型已经与原模型十分不同了。可以看出,路径分析的模型检验不是检验原模型是否符合观测数据,而是检验调试后的模型是否与原模型一致。这正是路径模型检验的意义所在。,设原模型和调试后的模型的路径模型整体拟合指数分别为:,Q的分布很难求出,根据Q构造统计量: n为样本大小,d为检验模型与基准模型的路径数目之差,大样本情况下,Q 渐进服从自由度为d 的 分布。只有不显著时才能用新模型替换原模型!,则取模型拟合度的统计量Q为:,(1)首先要求模型中各变量的函数关系为线性、可加;否则不能采用回归方法估计路径系数。如果处理变量之间的交互作用,把交互项看作一个单独的变量,此时它与其它变量的函数关系同样满足线性、可加。(2)模型中各变量均为等间距测度。(3)各变量均为可观测变量,并且各变量的测量不能存在误差。(4)变量间的多重共线性程度不能太高,否则路径系数估计值的误差将会很大。(5)需要有足够的样本量。Kline(1998)建议样本量的个数应该是需要估计的参数个数的10倍(20倍更加理想)。,四、路径模型的假设条件和限制,AMOS软件简介:SPSS软件中没有提供专门进行路径分析的模块,而是单独提供了一个AMOS软件来进行路径分析。AMOS是Analysis of Moment Structure的简称,它是处理结构方程模型和路径分析问题的专业软件,其最大优点在于路径图简单易懂,方便操作。AMOS具有Amos Graphics和Amos Basic两大运作模块,在进行路径分析时,用户主要使用前者进行分析,该模块可以便捷地绘制并输出路径图。 AMOS使用时,首先打开Amos Graphics模块,进入主界面。,四、路径模型的上机实现,AMOS菜单:(1)选择数据文件,在File菜单下,选择“Data Files”给出需要进行分析的文件名。(2)绘出路径分析图:在Diagram菜单下,选择“Draw Observed”绘制观测变量;选择“Draw Unobserved”绘制不可观测变量(在路径分析中是残差项);选择“Draw Path”绘制两变量的因果关系;选择“Draw Covariance”绘制两变量的相关关系;(3)在FileData Files下选择数据文件,单击“List variables in data set”图标,对绘制的变量选取变量名。,四、路径模型的上机实现,AMOS菜单:(4)指定残差项方差为1,选定某个残差项后,击右键,选择“Object Properties”后,在“Parameteres”下设定方差为1。并在菜单下View/Set下选择“Analysis Properties”,在“Estimation”页中选择估计方法为“Scale-free least square”,在“Output”页中全选(输出全部内容),关闭该窗页口。(5)最后就可以点击Model-Fit菜单下的选项“Calculate Estimates”计算路径系数了。可以通过三种方式察看结果:文字法(单击“View text”图标),表格法和图表法(单击“View the output path diagram”图标)。,四、路径模型的上机实现,1模型设定,【例】我们采用SPSS 10.0自带的数据文件Employee data进行路径分析。该数据共有474个观测值,473个有效,标号为434的出生日期缺失,在下面的分析中,不考虑该样品;该数据包含10个变量:标号(id)、性别(gender)、出生日期(bdate,Date of Birth)、受教育水平(educ,Educational Level)、工作类别(jobcat,Employment Category)、当前工资(salary,Current Salary)、初始工资(salbegin,Beginning Salary)、已经工作时间(jobtime,Months since Hire)、以前的工作经验(preexp,Previous Experience)、是否是少数民族(minority)。性别为属性变量,用“f ”表示女性,“m ”表示男性;受教育水平使用受教育的年数衡量;工作类别分为三类:公务员(“1”),监督人(“2”)以及经理人员(“3”)。,当前工资和初始工资以实际额为准。已经工作的时间和以前的工作经验均以发生的月份衡量;是否是少数民族为0, 1变量,1表示是少数民族,0表示非少数民族。假设数据的采集时间为1997,则用1997减出生日期的年份数作为年龄(age)的衡量指标。例如若某人在1952年出生,则年龄的测度为1997-1952 = 45。如下表:,对标号、性别、民族不进行区分,关注其余7个变量之间的因果关系。表10-2为这7个变量的样本相关系数。根据时间和逻辑顺序,我们得到几条因果路径:受教育水平影响初始工资和当前工资,因为大量统计结果表明,个人受教育的水平越高,所获得工资也越高;同时也认为,一个人受教育水平越高,以前的工作经验越多,他从事的工作类别应该越高;另外,初始工资会影响工作类别,在相关系数矩阵中,我们已经看到二者的相关系数较大;年龄影响已经工作的时间以及以前的工作经验,因为年龄越大,(在本职位)已经工作的时间或者以前的工作经验会越长;其次,年龄和受教育水平应该存在负相关,这里不关注二者的因果关系,仅仅简单假设二者相关。,最后,初始工资、工作类别、已经工作的时间以及以前的工作经验都影响当前工资,一般来说,初始工资越高,工作类别越高(按1, 2, 3的顺序),以前工作的经验越多,时间越长,当前的工资越高,这些变量间的均应有正的因果关系。根据这些逻辑理由,我们假设的路径模型如图10-8所示,不妨称此模型为模型1。很显然,模型1为递归的路径模型,各外生变量不存在测量误差,假设各路径的因果关系均为线性、可加,并进一步假设各内生变量之间不存在相关关系。,2路径系数估计,采用Amos软件对路径图10-8进行估计。先对所有变量进行标准化处理(这可用SPSS的AnalyzeDescriptive StatisticsDescriptive中的Save standardized valus as variables对选择的变量进行标准化处理。 ),操作AMOS,输出结果如图10-9所示。,3模型评价及修正,根据图10-9,我们发现年龄对已经工作时间的路径系数仅为0.003, 为0.001,方程拟合效果不好;同时,以前工作经验对当前工资的路径系数也很小。考虑删除上面的两条路径以及残差项e6,并重新估计模型,结果如下:,假设图10-9对应的模型是基准模型,图10-10对应的模型为待检模型。下面分别计算基准模型和待检模型的拟合指数 和 ,对模型进行调试:,从而W统计量为:,若基准模型正确,W服从自由度为2的 分布。这里W的p值为0.1891,统计不显著。可以认为图10-10对应的模型正确。,4路径系数分解,表10-3 路径系数的分解报表,受教育水平对当前工资的影响主要是通过工作类别和初始工资传递的间接影响,教育水平对初始工资(工作)具有很大的影响作用,但随后的(直接)影响便较弱(0.196),这与我们的常识相一致,初始工作可能取决于学历,然而以后主要看工作经历及个人能力了。年龄对当前工资的影响主要通过工作类别和以前工作经验的传递完成,它对当前工资的影响为正。其它的分析类似,关于中国妇女生育率的路径分析案例,(1)首先要求模型中各变量的函数关系为线性、可加;否则不能采用回归方法估计路径系数。如果处理变量之间的交互作用,把交互项看作一个单独的变量,此时它与其它变量的函数关系同样满足线性、可加。(2)模型中各变量均为等间距测度。(3)各变量均为可观测变量,并且各变量的测量不能存在误差(4)变量间的多重共线性程度不能太高,否则路径系数估计值的误差将会很大。(5)需要有足够的样本量。Kline(1998)建议样本量的个数应该是需要估计的参数个数的10倍(20倍更加理想)。,五、路径模型的假设条件和限制,该弱点在SEM技术中得到了克服,已经发展了一套成熟的处理隐变量和测量误差的技术。,结构方程模型及应用,知识要点:1、结构方程的基本思想和模型设定2、结构方程模型的构建3、结构方程模型的识别和估计4、结构方程模型的评价和修改5、结构方程的应用和文献阅读,一、结构方程的基本思想和模型设定,1、结构方程的基本思想结构方程模型是反映隐变量和显变量的一组方程,其目的是通过显变量的测量推断隐变量,并对假设模型的正确性进行检验。结构方程模型是模型验证技术。即利用结构方程模型分析的过程实际上是对假定模型的验证过程。结构方程模型分析的过程是:在设定结构模型的基础上,为证实模型的准确性,首先要判断这些方程是否可识别模型,对于可识别模型,通过收集显变量的数据,利用最大似然估计(maximum likelihood)或广义最小二乘估计(generalized least squares)等估计方法对未知参数进行估计。对于模型的结果,需要对模型与数据之间是否拟合进行评价。如果,模型与数据拟合得不好,就需要对模型进行修正,重新设定模型,一个拟合较好的模型往往需要反复试验多次。在进行模型估计之前,研究者需要根据专业知识或经验设定假设的初始模型。而结构方程模型的主要用途即为确定该假定模型是否合理。,第四节、验证性因子分析,结构方程模型通常是借助路径图将初始模型描述出来,对于复杂的模型尤其如此。路径图中的变量可以是不同的类型,按能否被直接测量,路径图中的变量可以分为显变量(manifest variable)和隐变量(latent variable)。通常前者是可以直接测量的,在图中用方框来标识;而后者虽然是客观存在的,但由于人的认识水平或事物本身的抽象性、复杂性等原因,我们无法直接测量,通常用椭圆形框来标识。按照变量之间的关系,又可分为外生变量(exogenous variable)和内生变量(endogenous variable),内生变量是由隐变量决定的变量,外生变量是由显变量决定的变量。变量之间的关系用线条表示,可以是直接作用也可以是间接作用,当二者之间有直接联线时,称为直接作用。如果变量之间没有直接联线则是假设变量之间没有直接联系,但可以通过其他变量发生联系,称之为间接联系。线条既可以加单箭头,也可以加双箭头。单箭头表示存在因果关系,双箭头则表示具有相关关系。,路径图实际上提供了一个假设模型,它体现了隐变量与隐变量之间、隐变量与显变量之间(包括内生隐变量与显变量和外生隐变量与显变量之间)可能存在的关系,而且,这种关系的具体程度,可以通过路径系数来反映。,显变量,显变量,隐变量,2、结构方程模型的结构结构方程模型一般由测量方程(Measurement Equation)和结构方程(Structural Equation)两部分构成。测量方程描述潜变量与指标之间的关系;指标含有随机误差和系统误差,即测量误差。测量方程指测量上的不准确性行为,结构方程则反映潜变量之间的关系。反映指标同时测量潜变量以外的特性。潜变量则不含随机误差和系统误差。,3、结构方程模型的优点(1)能同时处理多个因变量:结构方程模型可同时考虑并处理多个因变量。而回归分析中,只能处理一个因变量,如果有多个因变量需要处理,则需要分别计算,这样在计算一个因变量时,就忽略了其他因变量的存在及影响。(2)允许自变量和因变量均包含测量误差:从测量方程中可看到,很多变量如学业成绩、社会经济地位等潜变量的观察值不能用单一指标来测量,往往还包含了大量的测量误差。从结构方程模型的特点看出:结构方程分析允许自变量和因变量均含有测量误差。而回归分析只允许因变量存在测量误差,假定自变量没有误差。,(3)估计整个模型的拟和程度:在传统的路径分析中,我们只估计每条路径变量间关系得强弱。在结构方程分析中,可以通过结构方程软件LISREL计算出的多个拟和参数值,可以判断不同模型对同一个样本数据的整体拟和程度,从中选取最精确的模型描述样本数据体呈现的特征。,问题的关键:如何构建结构方程模型呢?,二、结构方程模型的构建,1、结构方程的建立:根据模型的假设条件可以建立反映隐变量间关系的路径图。,2、测量方程的建立:根据模型的假设条件可以建立反映显变量和隐变量关系的路径图。,说明:路径分析图中全为显变量(除测量误差外),所以主要图是方框。而结构方程模型中含有潜变量,在测量方程中主要考察潜变量之间的相互作用,显变量如何受潜变量作用的影响(即由潜变量来定义显变量),故图形中只有潜变量的箭头朝显变量,而没有显变量的箭头朝潜变量。,测量方程和结构方程都得到了建立,整个结构方程模型也得以建立。当然,初始建立的理论模型有可能不是较理想模型,需要在数据的拟合过程中反复修改,直到建立较理想模型。,如何对结构方程的初始模型参数进行估计和修正,三、结构方程模型的识别和估计,1、结构方程模型的识别模型识别的主要任务就是在初始模型建立之后,考虑模型中的每一个未知参数是否能由观测数据得到唯一解。根据结构方程组的个数与未知参数个数之间的关系,模型可分为恰好识别结构模型(just-determined constructural model),识别不足结构模型(under-determined constructural model)和过渡识别结构模型(over-determined constructural model)。,一个未知参数至少可以由显变量的协方差矩阵的一个或多个元素的代数函数来表达,就称这个参数可识别了。参数可以由一个以上的不同函数来表达,这种参数称之为过度识别参数。如果模型中的所有未知参数都是可识别参数,这个模型就是可识别的。当可识别模型不存在过度识别参数时,称模型为恰好识别结构模型;当可识别模型至少存在一个过度识别参数时,称模型为过度识别结构模型。识别不足结构模型指的是模型中至少有一个不能识别的参数。,识别不足结构模型和恰好识别结构模型都是不令人满意的,因为我们无法得到确定解,即使得到唯一解也无法识别模型在统计上是否合理。只有当个数多于未知参数时,人们才可以在待估参数上附加不同的条件以便所求得的参数满足统计学要求。(结构方程主要处理过度识别问题!),2、结构方程模型的估计当判断出一个模型是可识别的,下一步工作就是根据显变量的方差和协方差对参数进行估计。结构方程模型的目标:尽量缩小样本协方差阵与由模型估计出的协方差阵之间的差异。而传统的统计方法,如回归分析的着眼点在于追求尽量缩小每一个观测的真实值与拟合值之间的差异。,结构方程模型的估计最常见的估计方法:没有加权的最小二乘法(ULS)、广义最小二乘法(GLS)和最大似然估计(ML)。ML方法对于多数应用问题特别是考虑到统计问题时是首选的方法。GLS通常得出与ML方法类似的结论。ULS方法适用于仅当这些变量是可比较的尺度上被测量时得到的协差阵,否则ULS方法使用相关阵。,ML和GLS这两种方法在不考虑协差阵的尺度时是适用的,而且需要显变量是连续的和多元正态的。这是因为变量的偏态或高峰度会导致很差的估计及其不正确的标准误和较高的卡方值。,若预测的或观测的协差阵是奇异的,则不能使用ML和GLS这两种方法,这时要么去掉线性相关变量,要么用ULS方法。,1、结构方程模型的评价结构方程模型进行模型检验主要思路就是将实际收集到的样本值运用于假设的模型,通过建立结构方程组解出未知参数,并且根据未知参数求解各个显变量之间的模型相关系数矩阵;而同时通过样本可直接算这些显变量间的样本相关系数矩阵。理论上,上述两个相关系数阵应该相等,因此,我们构造统计量或指标来检验其拟合程度。,四、结构方程模型的评价和修正,结构方程的概念,结构方程的求解过程是:依据输入的相关矩阵S和模型(如M1),用一定的数学方法,找出另一个相关矩阵,称为再生矩阵,记为。这矩阵既符合模型M1,又与S在某种意义上最接近。与S的差距越小,表示模型M1越能吻合数据。结构方程求解中,会尽可能找一个与S的差距最小的,但如果找出的,仍与S有很大的差异,则表示M1不吻合数据S。模型的拟合好坏主要通过以下指标来衡量:,原关系S(但内部结构不清楚),设计的某种结构模型M1,新关系,两者若吻合,说明M1很好反映了原关系S的内部结构,估计方法:没有加权的最小二乘法(ULS)、广义最小二乘法(GLS)和最大似然估计(ML)。,思考,回归分析中存在伪回归,如成都市GDP与某非洲国家某城市的GDP,由于两个城市之间可能根本没有任何联系,所以硬性回归就是一个伪回归。回归分析的前提是两者内部确实存在一定的依存关系。 因子分析时也同样存在这种问题,也可能将以上两者联系到一起,表现为某种公共因子的作用,这也太牵强。 结构方程模型则可以根据经济现象本身的情况确定出变量之间的相互关系,并可以深入分析内部结构。 因子分析是“瞎子摸象”,结构方程模型是“画象”。“画”的原理是:回归方程是找最接近散点的直线、平面;因子分析是将变量分解成由少数几个公共因子和特殊因子共同作用的结果。结构方程则是找出变量间的内部结构关系。,成都市经济,中国经济,世界经济,某国经济,某城市经济,拟合准则F(fit criterion,F越接近于0,说明拟合越好)拟合优度指标GFI(goodness of fit index,最大值为1,越接近于1越好)调整自由度的GFI的指标AGFI(adjusted goodness of fit index,此值越大越好)均方根残差RMR(root mean square residul, 此值越小越好)Bentler的比较拟和指数CFI(comparation fit index, 越接近于1,说明拟合越好)AIC准则(Akaikes information criterion,AIC达到最小值时最好)CAIC准则(consistent Akaikes information criterion, 同AIC一样,达到最小值时最好)SBC准则(Schwarzs Bayesian criterion, 此值越小越好)正规指数NFI(normed index, 越接近于1,说明拟合越好)非正规指数NNI(non- normed index, 越接近于1,说明拟合越好)节俭指数(parsimonious index, 越大,说明拟合越好)临界指数CN(critical n, 越大,说明拟合越好),这么多评价指标,究竟依据哪一个作评判合适呢?好的应是怎样的呢?,对模型进行评价的目的,不是简单地接受或拒绝一个假设的理论模型,而是根据评价的结果来寻求一个理论上和统计上都有意义的相对较好的模型。一个好的模型应具备以下几个条件:(1)测量模型中的因子负荷和因果模型中的结构系数的估计值都有实际意义和统计学意义。(2)模型中所有固定参数的修正指数(MI)不要过高;(3)几种主要的拟合指数达到了一般要求。(4)测量模型和因果模型中的主要方程的决定系数(coefficient of determination)R2 应足够大。(5)所有的标准拟合残差都小于1.96。,如果模型评价所得结果不理想,该怎么办?,注意:结构方程模型中,样本个数不能过少。各种研究表明,样本个数小于100时,即使正态分布严格满足,仍很容易出现不收敛,或计算结果很反常,或是解的精确度很差等等。因此,大样本是必须的。卡方检验要求样本容量在100-200之间,对小样本或是过大的样本都不适合。,2、结构方程模型的修正 如果我们希望看到的上述情况中的一种或几种没有实现,可以根据具体的结果做出如下改变:(1)如模型评价结果中含有没有实际意义或统计学意义的参数时,可以将这些参数固定为零,即删除相应的自由参数。(2)如模型的某个或某几个固定参数的修正指数(MI)比较大时,原则上每次只将那个最大或较大MI的参数改为自由参数。理由是:假设某一固定路径的MI原本很大,需要自由估计,但当修改其他路径后,这MI可能已变小,对应的路径无需再改动。因此,每次只修改一个固定路径,然后重新计算所有固定路径的MI。但MI受样本容量的影响,因此,不能把MI的数值作为修改的唯一根据 。,(3)当评价结果中有较大的标准残差时,分两种情况:一是当有较大的正标准残差时,需要在模型中添加与残差对应的一个自由参数;二是当有较大的负标准残差时,则需要在模型中删除与残差对应的一个自由参数。通过不断添加与删除自由参数,直到所有的标准残差均小于2为止。(4)如果主要方程的决定系数很小,则可能是以下某个或某几个方面的原因:一是缺少重要的观察变量,二是样本量不够大,三是所设定的初始模型不正确。,1、常用软件:专门为进行结构方程模型分析所编写的LISREL软件SAS软件中的CALISSPSS的AMOS2、结构方程模型分析流程:,五、结构方程模型的上机实现,3、LISREL软件简介LISREL(linear structural relations)是专门为进行结构方程分析而编写的统计分析软件。LISREL的路径图可以在输出结果中直观给出,并能够在图形窗口进行编辑和修改。LISREL能够在图形窗口进行编辑和修改路径图。用光标点击命令行的path diagram或相应的图标,即进入图形窗口。在图形窗口命令行点击model,可以选择显示不同的图形。对模板图形进行修改和变动,可以得到所需的路径图。图形窗口命令行的其他命令的用途分别是:exit退出该窗口,kind调出其他统计结果以便对路径图进行修改,options修改统计数值得小数位显示长度,print打印路径图,zoom对路径图进行放大和缩小,re-estimate是根据统计分析结果对路径图进行修改之后再次运行估计程序。,(1)对结构方程模型数据进行预处理:LISREL程序包含一子程序PRELIS,该子程序对结构方程模型数据进行预处理。该程序包括多个指令,指示原始数据的出处以及变量信息和结果的存入。,原始数据经过预处理可以得到其协方差矩阵,(2)根据协方差矩阵开始编写LISREL程序:,编辑好Lisrel命令后,只要点击命令行中的run lisrel,就可执行了,(3)图形编辑和修改: 用光标点击命令行的pathdiagram或相应的图标,即进入图形窗口。在图形窗口命令行点击model,可以选择显示不同的图形(x模型、y模型和结构模型)。,4、 AMOS软件简介及案例分析:【例】我们对某超市顾客购物服务满意度调查,以著名的美国顾客满意度指数模型(ASCI)为基础,增加超市形象:顾客对超市总体形象及与其他超市相比的知名度,得到数据文件(处理后的数据.sav)。本次调查共发放问卷500份,收回有效样本436份。问卷内容包括7个潜变量因子,24项可测指标,7个人口变量,量表采用了Likert10级量度,如对超市形象的测量:,4.1模型设定,路径图和基本路径假设,由此看出,本模型中“超市形象”是外生潜变量,其余是内生潜变量。,采用表列删除法,即在一条记录中,只要存在一项缺失,则删除该记录。最终得到401条数据,基于这部分数据做分析。,1缺失值的处理,2数据的的信度和效度检验,信度检验的SPSS处理:AnalyzeScaleReliability Analysis(如图1)将数据中在左边方框中待分析的24个题目一一选中,点击进入右边的items方框中,使用Alpha模型(默认),得到图2点击ok即可得到如表3的结果,补充:信度(reliability)指测量结果(数据)一致性或稳定性的程度。一致性主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质。稳定性是指用一种测量工具(譬如同一份问卷)对同一群受试者进行不同时间上的重复测量结果间的可靠系数。如果问卷设计合理,重复测量的结果间应该高度相关。,表3 信度分析结果,Cronbachs Alpha系数为0.892,说明案例所使用数据具有较好的信度。,再重复以上操作对问卷中每个潜变量的信度分别检验结果表4所示:,表4 潜变量的信度检验,除顾客抱怨量表Cronbacas Alpha系数为0.255,比较低以外,其它分量表的Alpha系数均在0.7以上,且总量表的Cronbachs Alpha系数达到了0.891,表明此量表的可靠性较高。由信度检验的结果可知顾客抱怨的测量指标的信度远低于0.7,因此在路径图中去掉顾客抱怨因子,即初始模型中包括6个潜变量、21个可测变量。,数据的效度检验:测量工具能够正确测量出所要测量的特质的程度,分为内容效度(content validity)、效标效度(criterion validity)和结构效度(construct validity)三个主要类型。内容效度:测量目标与测量内容之间的适合性与相符性。准则效度:用不同的几种测量方式或不同的指标对同一变量进行测量,并将其中的一种方式作为准则(效标),用其他的方式或指标与这个准则作比较,如果其他方式或指标也有效,那么这个测量即具备效标效度。结构效度:如果问卷调查结果能够测量其理论特征,使调查结果与理论预期一致,就认为数据是具有结构效度的。可以采用多种方法来实现:第一种方法是通过模型系数评价结构效度。第二种方法是通过相关系数评价结构效度。第三种方法是先构建理论模型,通过验证性因子分析的模型拟合情况来对量表的结构效度进行考评。对于本案例,从表7-16可知理论模型与数据拟合较好,结构效度较好。,注意:本模型中“超市形象”作为外生潜变量,故无测量误差,其余是内生潜变量,存在测量误差(Z1Z5)。在验证性因子分析中,因子全是外生变量,故都不存在测量误差。,3Amos实现,1、Amos基本界面:,图4 Amos Graphics初始界面图,2、Amos的绘制 :第一步,使用建模区域 绘制模型中的七个潜变量(如图5)。在潜变量上点击右键选择Object Properties,为潜变量命名(如图6)。绘制好的潜变量图形如图7。,图5 建立潜变量,图6 建立潜变量,图7 命名后的潜变量,第二步:设置潜变量之间的关系。使用来 设置变量间的因果关系,使用来 设置变量间的相关关系。绘制好的潜变量关系图如图8。,图8 设定潜变量关系,第三步:潜变量设置可测变量及相应的残差变量,可以使用 绘制,也可以使用 和 自行绘制(绘制结果如图9)。在可测变量上点击右键选择Object Properties,为可测变量命名。其中Variable Name一项对应的是数据中的变量名(如图10),在残差变量上右键选择Object Properties为残差变量命名。最终绘制完成模型结果如图11。,图9设定可测变量及残差变量,图10 可测变量指定与命名,图11初始模型设置完成,说明:在AMOS绘制的路径图中,有些路径或箭头标记着1,这意味着该路径系数(即影响系数)的数