方差分析SPSS操作流程ppt课件.pptx
SPSS操作方差分析,方差分析由英国统计学家R.A.Fisher在1923年提出,为纪念Fisher,以F命名,故方差分析又称 F 检验。,三种变异,总变异:全部观察值大小各不相等,其变异就称为总变异(total variation)。用SST表示组间变异:由于各组处理不同所引起的变异称为组间变异(variation between groups)。它反应了处理因素对不同组的影响,同时也包括了随机误差。用SS组间表示组内变异:每个处理组内部的各个观察值也大小不等,与每组的样本均数也不相同,这种变异称为组内变异(variation within groups)。组内变异只反映随机误差的大小,如个体差异、随机测量误差等。因此,又称为误差变异。用SS组内表示,方差分析中的多重比较,目的:如果方差分析判断总体均值间存在显著差异,接下来可通过多重比较对每个水平的均值逐对进行比较,以判断具体是哪些水平间存在显著差异。常用方法备选:LSD法:t检验的变形,在变异和自由度的计算上利用了整个样本信息。Duncan 新复极差测验法Tukey 固定极差测验法Dunnett最小显著差数测验法 等实现手段:方差分析菜单中的“Post hoc test”按钮,实例-多重比较,步骤一: 同one-way ANOVA,步骤二: 选“Post hoc test”勾选多重比较的方法(如LSD、duncan法 确定显著性水平continue,方差分析的思路: 将全部观测值的总变异按影响结果的诸因素分解为相应的若干部分变异,构造出反映各部分变异作用的统计量,在此基础上,构建假设检验统计量,以实现对总体参数的推断。,检验假设: H0:三个组的总体均数相同; H1:三个组的总体均数不全相同;,方差分析步骤,单因素方差分析,也称有一维方差分析,对二组以上的均值加以比较。检验由单一因素影响的一个(或几个相互独立的)分析变量由因素各水平分组的均值之间的差异是否有统计意义。并可以进行两两组间均值的比较,称作组间均值的多重比较,还可以对该因素的若干水平分组中哪些组均值不具有显著性差异进行分析,即一致性子集检验。步骤AnalyzeCompare means One-way ANOVA,One-Way过程,One-Way过程:单因素简单方差分析过程。在Compare Means菜单项中,可以进行单因素方差分析(完全随机设计资料的多个样本均数比较和样本均数间的多重比较,也可进行多个处理组与一个对照组的比较)、均值多重比较和相对比较,用于。One-Way ANOVA过程要求:因(分析)变量属于正态分布总体,若因(分析)变量的分布明显的是非正态,应该用非参数分析过程。对被观测对象的实验不是随机分组的,而是进行的重复测量形成几个彼此不独立的变量,应该用Repeated Measure菜单项,进行重复测量方差分析,条件满足时,还可以进行趋势分析。,analyzecompare meansone-way ANVOA,响应变量,因素,Contrasts:线性组合比较。是参数或统计量的线性函数,用于检验均数间的关系,除了比较差异外,还包括线性趋势检验Contrasts可以表达为: a1u1+ a2u2 +akuk =0;满足a1+ a2+ak =0。式中ai为线性组合系数,ui为总体均数,k为分类变量的水平数,Polynomial(多项式比较):均值趋势的检验有5种多项式:Linear线性、Quadratic二次、Cubic三次、4th四次、5th五次多项式,Coefficients:为多项式指定各组均值的系数。因素变量分为几组,输入几个系数,多出的无意义。如果多项式中只包括第一组与第四组的均值的系数,必须把第二个、第三个系数输入为0值。如果只包括第一组与第二组的均值,则只需要输入前两个系数,第三、四个系数可以不输入 。多项式的系数需要由根据研究的需要输入。,如果进行先验对比检验,则应在Coefficients后依次输入系数ci,并确保ci0。应注意系数输入的顺序,它将分别与控制变量的水平值相对应。例如,当k4时, 即有A、B、C、D 4个处理组,如果只将B组和D组比较,则线性组合系数依次为0、-1、0、-1;如果C组与其他3组的平均水平比较,则线性组合系数依次为-1、-1、3、-1,余类推。线性组合系数要按照分类变量水平的顺序依次填入Coefficients框中。,均值的多项式比较,可以同时建立多个多项式。一个多项式的一级系数输入结束,激活Next按钮,单击该按钮后Coefficients 框中清空,准备接受下一组系数数据。 如果认为输入的几组系数中有错误,可以分别单击Previous或Next按钮前后翻找出错误的一组数据。单击出错的系数,该系数显示在编辑框中,可以在此进行修改,修改后击Change按钮,在系数显示框中出现正确的系数值。当在系数显示框中选中一个系数时,同时激活Remove按钮;单击该按钮将选中的系数清除。,Post Hoc(均数的多重比较选项),进行多重比较是对每两个组的均值进行如下比较:MEAN(i)-MEAN(j)4.6625RANGESQRT(1/N(i)+1/N(j);其中i、j分别为组序号, MEAN(i)、MEAN(j)分别为第i、j组均值, N(i)、N(j)分别为第i、j组中的观测数。各组均值的多重比较方法的算法不同RANGE值也不同。,方差相等时可选择的比较方法,方差不等时可选择的比较方法,与对照组的配对比较,用t检验完成各组均值的配对比较,LSD(最小显著差异法):用 t检验完成各组均值间的配对比较。 在变异和自由度的计算上利用了整个样本信息。对多重比较误差率不进行调整;(此法最敏感)Bonferroni(修正最小显著差异法) :用 t检验完成各组均值间的配对比较,但通过设置每个检验的误差率来控制整个误差;(应用较多)Sidak(斯达克法):计算t统计量进行多重配对比较,可以调整显著性水平,比Bonferroni法的界限要小Scheffe(谢弗检验法):对所有可能的组合进行同步进入的配对比较,这些选择可以同时选择若干个,以便比较各种均数比较方法的结果;R-E-G-W F(赖安艾耶盖F法):用F检验进行多重比较检验,显示一致性子集表;,R-E-G-W Q (赖安艾耶盖Q法):正态分布范围进行多重配对比较;显示一致性子集表;S-N-K(SNK法):用student range分布进行所有各组均值间的比较;(应用较多)Tukey(图基法):固定极差测验法,用student-range统计量进行所有组间均值的配对比较,将所有配对比较误差率作为实验误差率;Tukeys-b(图基s-b法):用student range分布进行组间均值的配对比较。其精确值为前两种检验相应值的平均值;Duncan(邓肯法) :新复极差测验法,指定一系列的的Range值,逐步进行计算比较得出结论;Hochbergs GT2(霍耶比GT2法):用正态最大系数进行多重比较,Gabriet(盖比理法):用正态标准系数进行配对比较,在单元数较大时,这种方法较自由;Waller-Duncan(瓦尔-邓肯法):用t统计量进行多重比较检验。使用贝耶斯接近;Dunnett(邓尼特法):最小显著差数测验法,进行各组与对照组的均值,默认的对照组是最后一组;选定此方法后,激活下面的Control Catetory参数框,展开小菜单,选择对照组Tamhanes T2(塔海尼T2法):t检验进行配对比较;Dunnetts T3(邓尼特T3法):正态分布下的配对比较;Games-Howell(盖门-霍威尔法):各组均值的配对比较,该方法较灵活;DunnettC(邓尼特C法):正态分布下的配对比较。,常用的多重比较方法的适用性LSD(Least significant Difference):存在明确对照组,进行验证性研究;两均数间的比较是独立的T(Tukey)方法:如果事先未计划未计划多重比较,在方差分析得到由统计学意义的F值之后,有需要进行任意两组之间的比较,且各组样本数相同S(Scheffe)方法:多个均值间的比较,且各组样本数不相同SNK(Student-Newman-Keul)方法:两两比较次数不多,常用的方法有LSD,Scheffe法,SNK法,Turky法,Duncan法和Bonferroni法等。其中LSD法最敏感, Scheffe法不敏感, SNK法和Bonferroni法应用较多。,Options (输出统计量的选择),Descriptive复选项,要求输出描述统计量。选择此项,会计算并输出:观测量数目、均值、标准差、标准误、最小值、最大值、各组中每个因变量的95可信区间;Fix and random effects:输出固定效应模型的标准差、标准误和95%可信区间与随机效应模型的标准误和95%可信区间;,Homogeneity of variance复选项,要求进行方差齐次性检验,并输出检验结果。Brown-Forsythe:检验各组均数相等,当不能确定方差齐性检验时,该统计量优于F统计量。Welch:检验各组均数相等,当不能确定方差齐性检验时,该统计量优于F统计量。Mean plot复选项,即均数分布图,横轴为分类变量,纵轴为反应变量的均数线图;Missing Values栏中,选择缺失值处理方法。 Exclude cases analysis by analysis选项,对含有缺失值的观测量根据缺失值是因变量还是自变量从有关的分析中剔除。 Exclude cases listwise选项对含有缺失值的观测量从所有分析中剔除,实例-单因素方差分析各处理重复数不等的方差分析用四种饲料喂养19头猪比较,四种饲料是否不同。,实例-单因素方差分析,第一栏:方差来源第二栏:离均差平方和第三栏:自由度第四栏:均方(第二栏与第三栏之比)第五栏:F值(组间均方与组内均方之比)第六栏:F值对应的概率即P值,实例-单因素方差分析(结果输出),存在问题与解决方法,本例只考虑了猪体重的增加量,对其均值进行了比较。但实际工作中的问题往往不是这样简单,例如是否应该考虑每头猪的进食量对体重增加的影响,去除这个影响比较猪体重的增加会对饲料比较得出更切合生产实际的结论。这个问题应该使用ANOVA过程的协方差分析功能去解决。使用系统默认值进行单因素方差分析只能得出是否有显著性差异的结论,本例数据量少,哪两组之间差别最大,哪种饲料使猪体重增加更快,几乎是可以看出来的。实际工作中往往需要两两的组间均值比较。这就需要使用 One-way ANOVA进行单因素方差分析时使用选择项从而获得更丰富的信息,使分析更深入。,例题进一步分析,用4种饲料喂猪,共19头猪分为四组,每组用一种饲料。一段时间后称重。猪体重增加数据如下。比较四种饲料对猪体重增加的作用有无不同;并比较A、C饲料效应和与B、D效应和之间是否有显著性差异。,指定多项式系数,1.0mean11.0mean21.0mean31.0mean4检验饲料对使猪体重增加的效应,A、D饲料效应和与B、C饲料效应和之间是否有显著性差异;1.0mean11.0mean21.0mean31.0mean4检验 A、C饲料效应和与B、D效应和之间是否有显著性差异。,结果分析(1)描述统计量结果,给出了四种饲料分组的样本含量N、平均数Mean、标准差 Std Deviation、标准误 Std Error、95的置信区间、最小值和最大值 ;,结果分析(2)方差齐次性检验结果,方差齐性检验由于方差分析的前提是各水平下的总体服从正态分布并且方差相等,因此有必要对方差齐性进行检验,即对控制变量不同水平下各观测变量不同总体方差是否相等进行分析。SPSS单因素方差分析中,方差齐性检验采用了方差同质性(Homogeneity of Variance)的检验方法,其零假设是各水平下观测变量总体方差无显著性差异,实现思路同SPSS两独立样本t检验中的方差齐性检验。 从显著性概率看, P0.9950.05,说明各组的方差在=0.05水平上没有显著性差异,即方差具有齐次性。这个结论在选择多重比较方法时作为一个条件。,结果分析(3)方差分析结果,与未使用选择项的输出结果一样给出了组间、组内的偏差平方和、均方、 F值和概率P值。 P0.05,各组间均值在0.05水平上有显著性差异。另外。表中还给出了未加权、加权的线性项以及加权的线性项与组间偏差平方和之差351.7660,以及由此派生出的均方、F值、P值。,结果分析(4)对比系数表,列出两组多项式比较的系数,结果分析(5)多项式比较结果,第一栏:按方差齐性和非齐性划分。第二栏:多项式的值。第三栏:标准误。第四栏:计算的t值,是第2栏与第3栏之比。第五栏:自由度。第六栏:t值的概率。,从概率值可以看出:Contrast1,p0.05;Contrast2,p0.05,因此饲料对猪体重增加的效应,A、D效应之和与B、C效应之和在=0.05水平上没有显著性差异;而A、C效应之和与B、D效应之和有显著性差异。,结果分析(6)均值多重比较的结果LSD法,对饲料间均值差两两比较,用”*”表示差异显著,结果分析(7)多重比较下的齐性子集结果Duncan法,第一栏列出A、B、C、D各组,第二栏列出DUNCAN取渐渐增大的Range值进行比较而分的子集。由于各组样本含量不等,计算均数用的是调和平均数的样本量是4.706。从概率值看,p0.05;说明各组方差具有齐次性 。对饲料间均值差两两比较,处在同一竖栏为差异不显著,反之则差异显著,结果分析(8)均数图形,以因素变量fodder为横轴,以独立变量Weight为纵轴而绘制的均数散点图。可看出各组均数的水平分布。,特别说明,应该特别说明的是,选取哪些选择项是根据研究需要进行的。本例中希望比较各种饲料对猪体重增加的效应,因此选择多重比较的选择项。相对比较在此例中无实际意义,只是为了说明选择项的使用方法才选择了Contrast 选择项。,ANOVAWEIGHT,n=19,p=4,实例-单因素方差分析各处理重复数相等的方差分析,调查5个不同小麦品系株高是否差异显著,分析:5水平5重复的单因素(品系)固定模型的方差分析,实例-单因素方差分析,步骤一: AnalyzeCompare MeansOne-way ANOVA,步骤二: 确定响应变量确定控制因素参数默认,OK,实例-单因素方差分析(结果输出),方差分析表,F检验,P0.01处理间效应极显著,练习一,用二氧化硒50mg对大鼠染尘后不同时期全肺湿重的变化见下表,试比较染尘后1个月,3个月,6个月,三个时期的全肺湿重有无差别。,练习二,为试验三种镇咳药,先以NH.OH0.2ml对小白鼠喷雾,测定其方式咳嗽的时间,然后分别用药灌胃,在同样条件下再测定发生咳嗽的时间,并以“用药前的时间用药后的时间”之差为指标,计算延迟咳嗽时间(秒)。试比较三种药物的镇咳作用。,SD大鼠90天后的骨小梁面积百分比(%)观测值,练习三,将27只3月龄的雌性SD大鼠随机分成3组每组9只。3组分别是空白对照组、去卵巢组和雌激素组。90天后杀死大鼠,测量骨骼变化情况,用骨小梁面积百分比评价,结果见表,试比较3种处理对大鼠骨骼发育的影响有无差异。,为考察所喝咖啡的浓度是否会影响人们反应的快慢,从某大学一年级男生中随机抽取了15名学生,再随机分成三组。每一学生都要喝一杯咖啡,20分钟后测试每一被试者的简单反应时间。三组所喝咖啡的浓度分别为:淡、中、浓,实验数据如下表所示,请问:咖啡浓度对反应速度有明显影响吗?,练习四,练习五,随机抽取了17个受试对象。按完全随机设计方案将他们随机分为三组,要求每组受试者都记忆10个生词,生词内容和难度对每组受试者都是一样的,但给予不同的指导:第一组的受试者可以通过反复朗读单词来记忆;第二组受试者可以通过查生词的意思来记忆;第三组受试者可以通过寻找生词之间的联系来记忆。在经过一段时间记忆后,要求被试者写出所记住的生词,得记住生词个数,结果如表所示。试问不同指导措施在记忆中的作用有明显影响吗?,单因变量多因素方差分析,是对一个独立变量是否受多个因素或变量影响而进行的方差分析。检验不同水平组合之间因(分析)变量均值由于受不同因素影响是否有差异的问题。控制因素的种类固定效应因素(Fixed Factor):试验因素的k个水平是认为特意选择的。随机效应因素(Random Factor):指试验因素的k个水平是从该因素所有可能水平总体中随机抽出的样本。两种因素的区别水平抽样方式不同检验模型和假设不同F检验的计算方式不同检验结果的解释不同,多因素方差分析,基本思路:以两因素的方差分析为例:SS总=SSA+SSB+SSAB+SSeSSA、SSB分别为控制变量A、B独立作用引起的效应; SSAB表示两因素间的交互效应,即:两个因素各水平之间的不同搭配对响应变量的影响. SSe为随机因素引起的效应步骤: AnalyzeGeneral Linear Model Univariate多因一果的模式,双因素不重复试验,两因素分别为A和B,A有n种水平,B有m种水平(m=3),每种因素组合只有一个样本值,这样的实验称为不重复试验。不重复试验不能识别因素间的交互作用与单因素方差分析类似,总变异可分成两个因素的离差平方和及误差平方和:,双因素重复试验,两因素分别为A和B,A有n种水平,B有m种水平,两种因素不同水平共有mn组合,在每种因素组合(i,j)下作d次重复试验,以减轻误差的干扰,,例:某企业准备上市一种新型香水,需要进行市场调研。经验表明除香水气味外,香水包装对需求也有很大影响。现对三种不同的包装、三种不同香型的香水进行测试,每种组合采用一个不同的市场调查,调查结果见下表。,General Linear Model过程,General Linear Model(简称GLM)过程:GLM过程由Analyze菜单直接调用。这些过程可以完成简单的多因素方差分析和协方差分析,不但可以分析各因素的主效应,还可以分析各因素间的交互效应。在General Linear Model菜单项下有四项:Univariate:提供回归分析和一个因变量和一个或几个因素变量的方差分析。Multivariate:可进行多因变量的多因素分析Repeated Measure:可进行重复测量方差分析Variance Component:可进行方差成分分析。通过计算方差估计值,可以帮助我们分析如何减小方差。,UNIANOVA过程可以分析每一个因素的作用(主效应),也可以分析因素之间的交互作用(交互效应)。可以进行协方差分析,以及各因素变量与协变量之间的交互作用。UNIANOVA过程要求因变量是从多元正态总体随机采样得来,且总体中各单元的方差相同,也可以通过方差齐次性检验选择均值比较结果。因变量和协变量必须是数值型变量,协变量与因变量彼此不独立。因素变量是分类变量,可以是数值型和字符型。固定因素变量(Fixed Factor)是反应处理的因素。随机因素是随机设置的因素,是在确定模型时需要考虑会对实验有影响的因素,对实验结果影响的大小可以通过方差成分分析确定。,UNIANOVA过程,响应变量,因素,协变量,随机因素,Model对话框:模型设定,自定义模型,指定主效应,指定交互效应,指定所有两维交互效应,指定所有三维交互效应,指定所有四维交互效应,本例只有主效应,选择分解平方和的方法:,指定模型类型,建立全模型,建立非饱和模型的操作 SPSS多因素方差分析中默认建立的是饱和模型。如果希望建立非饱和模型,则应在主窗口中单击Model按钮,出现窗口:,默认的选项是Full factorial,表示饱和模型。此时Factors & Covariates框、Model框以及Build Term(s)下拉框均呈不可用状态;如果选择Custom项,则表示建立非饱和模型,且Factors & Covariates框、Model框以及Build Term(s)下拉框均变为可用状态。此时便可自定义非饱和模型中的数据项。其中Interaction为交互作用;Main effects为主效应;All 2-way、All 3-way等表示二阶、三阶或更高阶交互作用。,Contrast对话框:效应比较,默认:无效应比较,改变效应比较设置,比较因素每个水平的效应,因素变量每一水平都与参考水平比较:选择last或first为参考水平,因素每一水平都与其前面个水平比较,因素每一水平都与后续水平比较,均值比较的操作对比检验采用的是单样本t检验的方法。如果采用对比检验方法,则单击Contrasts按钮,默认None是不进行对比检验;如果进行对比检验,可展开Contrast后的下拉框,指定对比检验的检验值,并单击Change按钮完成指定。检验值可以指以下几种: None:SPSS默认。不做对比分析; Deviation:表示以观测变量的总体均值为标准,比较各水平上观测变量的均值是否有显著差异; Simple:表示以第一水平或最后一个水平上的观测变量均值为标准,比较各水平上的观测变量均值是否有显著差异; Diffeence:表示将各水平上观测变量均值与其前一个水平上的观测变量均值做比较; Helmert:表示将各水平上观测变量均值与其后一个水平上的观测变量均值做比较。,Plots对话框:因变量均数分布图,选择横坐标,选择纵坐标,散点图框,控制变量交互作用图形分析的操作 如果希望通过图形直观判断控制变量间是否存在交互作用,则应在主窗口单击Plots按钮。首先选择一个控制变量作为交互图形中的横轴,并将其选择到Horizontal Axis框中;其次,指定在交互图中各直线代表的是哪个控制变量的不同水平,并将其选择到Separated Lines框中;最后,如果控制变量有三个,由于交互作用图只能反映两控制变量的交互情况,此时第三个变量只能选入Separate Plots框中,第三个变量有几个水平便绘制出几张交互图。,Post hoc对话框:多重比较,与one-way ANOVA相同,均值比较的操作在SPSS中,利用多因素方差分析功能还能够对各个控制变量不同水平下的均值是否存在显著差异进行比较,实现方式有两种:多重比较检验(Post Hoc)和对比检验(Contrast)。多重比较检验的方法与单因素方差分析类似,不再重复。如果采用多重比较检验方法,则单击Post Hoc按钮,选择合适的多重比较检验方法。,Save对话框:保存,模型分析的操作 SPSS多因素方差模型建立完成后,可以在主窗口中单击Save按钮对模型进行分析,并将分析结果以变量的形式存入SPSS数据编辑窗口中。其中,Predicted Values框中的选项用来计算模型的预测值;Residuals框中的各选项用来计算各种残差;Diagnostics框实现异常值的诊断。各选项具体含义同回归分析。,Option对话框,比较主效应均值,指定输出统计量,效应量估计,显示观测功效,参数估计:因变量与自变量的回归系数等,等方差检验,观测量均值对方差的图,拟合度不足的检验,实例-两因素方差之交叉分组资料的方差分析,为了从三种不同原料和三种不同发酵温度中,选出最适宜的条件,设计了一个两因素试验,并得到以下结果,试做方差分析。,分析:温度(A因素)和原料(B因素)都是固定因素,每一处理都有4次重复。需考虑A、B因素的交互作用的影响。,实例-两因素方差分析,步骤一: AnalyzeGLMUnivariate,步骤二: 确定响应变量确定控制因素(随机或固定)其他选项,实例-两因素方差分析,步骤三:模型确定 Model.确定要检验的因素效应(主效应及交互效应)默认“full factorial”会包括所有可能的效应Continue,从中选择要检验的效应,这里模型分析的主要任务有三个:一,利用多因素方差分析模型计算观测变量预测值;二,计算各种残差值,评价模型对数据的拟合程度;三,对数据中的异常点进行诊断。,实例-两因素方差分析,步骤四:根据需要设置作图栏“Plots.”绘制交互效应图Continue,填加到“作图栏”:即作以原料为横坐标,以响应变量为纵坐标的平面图(以温度区分不同曲线,实例-两因素方差分析,步骤五:根据需要设置“Options.”估计边缘均值方差齐性检验残差分析 等Continue,实例-两因素方差分析(结果输出1),Levene 方差齐性检验:P0.05,齐性满足,实例-两因素方差分析(结果输出2),A、B效应均极显著,AxB效应显著,方差分析表,实例-两因素方差分析(结果输出3),对不同发酵温度之间的边缘均值的比较,用”*”表示差异显著:3个温度两两间差异均显著,温度30C最佳,实例-两因素方差分析(结果输出4),对不同原料之间的边缘均值的比较,用”*”表示差异显著:仅原料2、3间差异不显著,原料2、3最佳,实例-两因素方差分析(结果输出5),对不同温度和原料的组合计算其均值和相应的置信区间,温度30C与原料2或3的组合效果“最佳”,实例-两因素方差分析(结果输出6),对由数学模型计算的理论值”predicted”、实测值”observed”及残差”Std. residual”之间进行作图分析,检验模型的拟合程度。,实例-两因素方差分析(结果输出7),“交互作用”图,线段相交表示交互存在,平行则不存在,