方差分析spss过程ppt课件.ppt
1,随机从三个班级分别抽取5名同学参加数学竞赛,得分如下,问这三个班级同学在“数学竞赛得分”上有没有显著的差异?,第五节 SPSS方差分析过程,2,方差分析基本概念,方差分析:从分解数据差异来源入手,检验两个以上总体均数是否相等或是否具有差异的方法。可用于寻找关键性的影响因素,分析影响因素的不同水平及其组合是如何影响观测变量的。观测变量:方差分析的因变量,即进行差异分析的数值型变量。控制变量:方差分析中的影响因素,分组变量、自变量。其不同类别,称为控制变量的不同水平。,3,如何分解数据差异?,实习一的思考题:,4,方差分析的思路,分解离均差平方和:SSTSSASSE分解自由度:n-1=(k-1)+(n-k) 注:n=kl比较组间方差与组内方差有无异同:如果组间方差显著大于组内方差,超过F统计量的界值,则不能认为各组所代表的总体均数相同,只能认为三个班级的得分有显著差异。,5,方差分析表ANOVA,组间,方差MS,离均差平方和SS,差异来源,组内,自由度,P0.05,显示三个班级竞赛得分有显著差异,F值,P值,6,与其他统计过程的联系,方差分析常用于均数比较,研究控制因素(定性)与观测变量(定量)间的关系。与t检验:方差分析是检验多个总体的均值间差异是否具有统计意义的一种方法,比较时是通过分解方差进行分析的。与回归分析:方差分析是回归分析的一种特例,可以用回归模型来表示。,7,内容,单因素方差分析多因素方差分析协方差分析,8,一、单因素方差分析,拟研究:一个控制因素是否对一个观测变量有影响。即控制因素不同水平下观测变量均值是否有差异;多个总体间的均值比较问题。前提条件:各样本彼此独立各总体的方差相等观测变量各总体应服从正态分布,9,统计思想:观测变量的总方差可分解为组间方差和组内方差,前者反映控制因素的影响,后者体现随机误差,如果前者显著大于后者,则可认为控制因素对观测值有影响。分析步骤:明确控制因素和观测变量剖析观测变量的离均差平方和:SST=SSA+SSE分解自由度比较组间和组内的方差大小,根据F分布界值做出统计结论。,10,数学模型,组别i,观测值j,11,假设检验基本步骤,提出假设 H0:a1=a2=ak=0确定显著性水平构造检验统计量并计算统计结论与结果解释,12,SPSS单因素方差分析过程,操作AnalyzeCompare MeansOne Way ANOVA,研究不同的广告形式是否对销售额有影响?,13,说明广告形式不同对销售额有影响。,14,单因素方差分析的进一步分析,多重比较检验:判断控制因素确有作用后,进一步确定控制因素不同水平对观测变量的影响程度,即各水平下观测变量的均值两两比较。为何不用t检验:弃真错误的概率增大,15,多重比较方法,LSD:Least Significant Difference,最小显著差法,检验统计量t服从n-k个自由度的t分布,并未对犯类错误的概率予以限制。是t检验的变形,只是在变异和自由度的计算上利用了整个样本信息。Bonferroni方法:是对LSD法的校正,将除以两两检验的总次数N( / N ),使犯类错误的概率缩小N分之一。,16,Tukey法:q检验,计算统计量q,服从(k,n-k)个自由度的q分布。适用于各水平样本量相等的情形,对犯类错误的最大试验误差率予以了控制。检验功效高于BON、SIDAK、 Scheffe方法。Scheffe方法:采用S统计量,服从(k-1,n-k)个自由度的S分布。当各水平个案数不相等,或者想进行复杂的比较时用此法,结果与方差分析相容。但它相对比较保守。SNK:划分相似子集,适用于各水平样本量相等的情形。是运用最广泛的一种两两比较方法。它采用Student Range 分布进行所有各组均值间的配对比较。该方法保证在H0真正成立时总的水准等于实际设定值,即控制了完全无效假设下的试验误差率。,17,Sidak法:依据Sidak不等式调整各组均值,对均值进行配对t检验。CER1-(1-)1/NDunnett:指定对照组,其他组均与对照组比较的两两比较法。可选择双尾或单尾检验,18,多重比较方法的选择策略,尊重相关研究领域的统计惯例。如果存在明确的对照组,要进行的是验证性研究,即计划好的某两个或几个组间(和对照组)的比较,宜用Bonferroni(LSD)法若需要进行的是多个均数间的两两比较(探索性研究),且各组个案数相等,适宜用Tukey法;SNK也很常用。其它情况宜用Scheffe法。,19,其他检验,先验对比检验:事先确定各均值的系数(Ci=0),对相似性子集进行差异比较的方法。趋势检验:当控制因素的不同水平为有序水平时,分析随着控制因素水平的等级变化,观测变量的变化趋势。方差齐性检验:Homogeneity of variance,对多组数据的方差进行齐性检验。,20,SPSS单因素方差分析的其他选项,Options选项:方差齐性检验;输出其他相关统计量;对缺失值的处理Post Hoc选项:多重比较检验,提供了18种方法。Contrasts选项:先验对比检验和趋势检验。,21,22,23,24,例子:广告、城市与销售额,控制因素:广告形式:报纸、广播、宣传品、体验城市:按照人口密度从高到低排列的18个城市观测变量:销售额,具体数值型变量分析要求:分析不同的广告形式对销售额是否有影响?分析不同的城市对销售额是否有影响?对城市与销售额的关系进行趋势检验。研究报纸的效果与广播、体验的两组的平均效果是否有差异?,25,二、多因素方差分析,26,研究内容与前提条件,拟研究:两个及以上控制因素对观测变量的影响,包括各因素的独立作用和交互作用。是实验设计的常用分析方法,常用于寻找最佳的实验因素组合。前提条件:同单因素方差分析,要求每一单元格的样本数据符合独立性、正态性及方差齐性。但对正态性和方差齐性的要求不严格。只要无极端值,前提条件稍有偏离是可以耐受的。单元格无重复数据时,不要求正态性及方差齐性。,27,双因子方差分析的数据结构,28,利用下表资料分析研究不同地区和不同时间对农民家庭人均纯收入(元)的影响,29,分析步骤,确定观测变量和若干个控制变量剖析观测变量的离均差平方和SST控制变量的独立作用SSA、SSB控制变量的交互作用SSAB随机因素的影响SSESST=SSA+SSB+SSAB+SSE分解自由度比较各部分方差的大小,30,双因子方差分析数学模型,设因素A有r个水平,因素B有s个水平,在每个单元格内有l个样本,则在因素A的Ai水平和因素B的Bj水平下的第k个样本值xijk,可定义为:,31,双因子(有交互作用)方差分析表,32,相关概念,饱和模型(Full Factorial):即全因素模型,方差分析模型中包含所有因素的独立作用和可能的交互作用。不饱和模型:非全因素模型。主效应:控制变量的独立作用。交互效应:控制变量之间的相互作用,如果一个因素的效应大小在另一因素不同水平下明显不同,则二者存在交互效应。,33,交互作用,A、B无交互作用,A、B有交互作用,34,固定效应与随机效应,固定效应:考察因素的水平数是可控的,在研究中对该因素的所有可能水平都进行了考察,不需要进一步外推,如性别。因素的效应是固定。随机效应:考察因素难以控制在固定的水平上,或因素的所有可能水平并未都出现在样本中。因此要用样本来推论总体情况,包括未出现的水平。这不可避免的存在误差(即随机效应),需要估计该误差的大小,因而其效应具有随机性。如家庭。,35,基本步骤,提出假设 H0:各控制变量不同水平下观测变量各总体的均值无统计学差异。确定显著性水平构造模型、并计算检验统计量固定效应模型( Fixed factor ),36,随机效应模型(Random factor):统计结论与结果解释,37,SPSS多因素方差分析过程(GLM),操作AnalyzeGeneral Linear ModelUnivariate,即单变量一般线性模型,38,饱和模型,39,多因素方差分析的其他选项,不饱和模型的建立(Model)均值检验多重比较检验(Post Hoc):两两比较对比检验(Contrast):单样本t检验的思想,检验值可指定:观测变量的均值(Deviation):选择忽略水平第一水平或最后水平的观测变量的均值(Simple)该水平前的所有水平的观测变量的均值(Difference)该水平后的所有水平的观测变量的均值(Helmert)前一水平的观测变量的均值(Repeated)多项式比较(Polynomial),40,41,主效应模型,42,43,44,图形分析(Profile plot):均值折线图,可直观显示交互作用保存新变量(Save):可计算观测变量的预测值;可计算残差,评价模型拟和优度;异常点诊断。,45,Options选项:Estimated Marginal Means: 输出均数比较Display:一些常用的指标Estimates of effects:计算偏Eta统计量Observed power:观测检验效能Parameter estimates:参数估计Homogeneity:方差齐性检验Residual plot:绘制实测值、预测值与残差的两两散点图Lack of fit::失拟检验,检验模型拟和优度,零假设如被拒绝,则说明模型不能刻划观测变量与控制变量的关系。可能有其他因素未发现。,46,47,48,49,模型拟和一般流程,先拟和饱和模型;交互效应无意义时,可剔除该项,再拟和不饱和模型;因素有意义时,对因素的各个水平两两比较;选择一些常用选项;,50,例:,广告、城市与销售量,51,三、协方差分析,52,统计思想,研究控制变量对观测变量的影响时,如果存在对观测变量确有影响的其他因素,而该因素又不能在实验设计时予以排除,当该因素为连续性变量时,可用协方差分析其作用,该变量为协变量。差异来源:控制因素的独立作用、交互作用、协变量的作用、随机误差,53,特点,线性回归方差分析线性回归求出假定协变量相等时的控制因素各水平下的观测变量修正均数。方差分析比较修正均数的差别。,54,前提,观测变量与协变量间有显著的线性关系。在控制因素不同水平下,观测变量与协变量的总体回归系数应相等。即控制因素与协变量无交互作用。多个协变量间无交互作用。各比较组间协变量的取值范围不宜相差过大。,55,数学模型与假设检验,单因素协方差分析:假设检验 H0 :协变量对观测变量的线性影响不显著。余同前。,56,操作AnalyzeGeneral Linear ModelUnivariate,57,例:生猪与饲料,研究三种饲料(SL)对生猪体重增加的影响协变量:生猪喂养前体重(WYQ),58,(一)、前提条件预分析,分组散点图直观判断协变量与观测变量的关系。交互作用模型:检验协变量与控制因素是否存在交互作用。,59,1. 操作GraphScatterSimple,60,2. 交互作用模型检验,61,(二)比较修正均数,62,63,64,65,