《SAS方差分析》PPT课件.ppt
第5章 方差分析,5.1方差分析简介,5.1.1 方差分析基本概念,1.单因素试验的方差分析 考虑一个因素A取k个水平,分析这k个不同水平对所考察的指标y的影响,即在试验中只有A一种因素改变,而其它因素控制不变,这样的试验叫单因素试验,所进行的方差分析叫单因素试验的方差分析。,2.双因素及多因素试验方差分析客观现实中的事物很复杂,影响某项指标的因素往往有很多,这些因素互相联系,互相依存,互相对立,问题也就变得复杂了。当只考虑两个因素的作用时,我们进行组间变差和误差的变差分析,叫双因素试验方差分析。当考虑的因素多于两个时,就叫多因素试验方差分析。,3.多重比较(Multiple Comparison Procedure)在三个或多个均值之间作两个或多个比较的检验称多重比较。在引入假设概念时,我们曾把选择水平与做出错误判断的风险相联系。为了理解多重比较方法,需要控制所有比较的总错判的机会(当均值相同时判断为不同的错误),也要控制每个单独比较的错判机会。例如:有5种施肥方法,均值作两两比较有十种组合,如要控制10种比较的总错判率,就称为控制“试验错误率”或称“对整个试验的总错判机会”,记为“试验错误率”MEER(Means Experimentwise Error Rate)。另一方面,如果想对10种比较中的每一种都控制比较错判机会,就称为控制“比较错误率”,或称“对每一个比较的错判机会”,记为“比较错误率”CER(Comparisonwise Error Rate)。对于多因素,由于多因素的影响及各因素间的交互作用相当复杂,为了保证试验的正确性及结论的可靠性,我们通常使用MEER“试验错误率”作为控制准则。,5.1.2 总体方差检验,1方差检验的基本概念方差检验的基本思想是:利用样本方差建立一个统计量,并为这个总体方差的统计量构造一个置信区间。这个置信区间的显著水平为,区间中包括总体方差的概率是1-。在确定的水平下,统计量有其固定的拒绝区域。单尾检验中,拒绝区域分布在统计量分布曲线的一侧;双尾检验中,拒绝区域分布在统计量分布曲线的两侧。如果检验统计量大于或等于临界值而落入拒绝区域,或P值小于显著水平而落入拒绝区域,便可以拒绝零假设;反之,则不能拒绝零假设。,5.1.3 方差的同质性检验,所谓方差的同质性(也称方差齐性),就是指各个总体的方差是相同的。方差的同质性检验就是要从各样本的方差来推断其总体方差是否相同。,5.1.3 方差分析的基本假定和数据转换,2数据转换1)平方根转换2)对数转换3)反正弦转换,5.2 ANOVA过程和GLM过程简介,5.2.1 ANOVA过程1ANOVA过程简介ANOVA过程主要用于处理均衡设计(即:对于每个因素、每个水平的观测数是相等的,另外还可以处理拉丁方设计、正交设计等)的一元、多元方差分析和重复测量的方差分析,也可用于多个变量的对比检验。PROC ANOVA过程首先要检查试验设计是否均衡,如果不均衡,也不是上面提到的几种情况之一,就建议使用GLM过程。ANOVA过程和GLM过程最后需用QUIT语句退出。,ANOVA过程语句格式:,PROC ANOVA 选择项1;CLASS 变量;MODEL 因变量=效应变量/选择项2;MANOVA H=效应变量 E效应变量;BY 变量;MEANS 效应变量/选择项3;RUN;,5.2.2 GLM过程,1GLM过程简介GLM过程是一个非常通用的方差分析方法,GLM(General Linear Model)过程用到的统计方法有:回归分析、方差分析、协方差分析、多元方差分析和偏相关,GLM过程同时还提供了多种诊断方法:随机效应检验、常用的假设检验对比估计和多变量的对比检验等。相对于ANOVA过程,GLM过程在处理不均衡设计时更有效。GLM采用最小二乘法拟合一般线性模型,在此基础上进行其它的分析。最后需用QUIT语句从过程中退出。,GLM语句格式说明:PROC GLM 选择项1;CLASS 变量;(以上两语句必须出现在MODEL语句之前)MODEL 因变量=自变量/选择项2;CONTRAST LABEL EFFECT(效应名)VALUES(取值)/选项3;LSMEANS 效应/选择项4;MEANS 效应/选择项5;OUTPUT OUT=SAS数据集 关键字=新变量名;RUN;,1选择项11)DATA=SAS数据集。2)MANOVA:要求删去具有缺失值的观测的多元模型,同ANOVA过程中的一样。2CLASS语句:说明分类变量,同ANOVA过程中的一样;它必须在MODEL语句之前。3MODEL 语句 MODEL语句用来指明因变量和自变量效应。如果没有指明效应变量,则GLM过程只拟合截距,也只检验因变量是否为0。,5.3 单因素多水平试验设计及方差分析,完全随机设计单因素试验设计指仅安排1个试验因素,按受试对象的抽取或分组的随机程度不同可细分为以下2类:1完全随机设计:从符合条件的总体中完全随机地抽取所需数目的受试对象,再将全部受试对象完全随机地分配到k个组中。此时,受试对象与试验因素间无直接联系。2组内完全随机设计:按试验因素的k个水平将全部受试对象划分成k个子总体,再分别从k个子总体中完全随机地抽取所需数目的受试对象。此时,试验因素的各水平决定了受试对象各自应归属的组别。,5.3.2 一元方差分析应用举例,输出结果中的Duncan Grouping列标识相同符号表示组间没有差异,标识不同符号表示组间存在差异。所以(a2与a5),(a4与a7)品种的玉米青贮之间的可溶性有机物wsc的含量没有差异,而其它品种(a2,a5)与a6与a1与(a4,a7)与a3的玉米青贮之间的可溶性有机物wsc的含量均存在显著差异。从专业角度说明:青贮玉米中的可溶性有机物wsc的含量越高,饲料使用价值越高,因此可以认为a2高油玉米115a和a5农大80两个品种的玉米青贮饲料使用价值较高。注意:在进行方差分析之前,必须对分析的数据进行正态性和方差同质性检验,然后根据检验结果,采用相应的方法进行下一步的分析。否则,方法选择不当,会导致错误结论。,如果使用菜单操作方式,具体操作步骤如下:在主窗口选择菜单Solutions|ASSIST打开ASSIST功能模块,在ASSIST界面中选择Data Analysis|ANOVA弹出窗口图5-1。,5.3.3 多元方差分析应用举例,例5.4 数据为不同土壤:t1原始林地、t2荒草地、t3新茶地、t4茶地tea1、t5茶地tea2、t6竹林地中的第一层土壤团聚体几何平均直径(gmd1)和第二层土壤团聚体几何平均直径(gmd2)。数据见程序中。要解决的问题:分别比较不同的土壤之间的第一层土壤团聚体几何平均直径和第二层土壤团聚体几何平均直径是否有差异。说明:此例相当于单因素(土壤)6水平(6种土壤)的二元(gmd1、gmd2)方差分析。SAS程序glm5_4.sas,程序说明:首先用DATA步建立数据集。第一个GLM过程用DUNCAN法检验两两均值间是否存在显著差异。由第一个GLM过程的结果初步判断哪两组间存在差异,进而在第二个GLM过程使用CONTRAST语句对两组均值进行比较,详细分析两组均值间的差异大小。因素turang共有6个水平,作任何2个水平之间的比较时,对应的2个水平中一个用“1”表示,另一个用“-1”表示,其他水平用“0”表示。MANOVA语句表示要作多元方差分析,H=turang表示要分析的因素为turang,该语句若出现在CONTRAST语句之前,则每次只对单项指标进行两两比较。当它出现在CONTRAST语句之后,若MODEL语句中没有NOUNI,则先对多项指标构成的均值向量进行两两比较,后对单项指标进行两两比较。,5.3.4 完全随机区组设计,完全随机区组设计的优点:设计简单、容易掌握。富于弹性、多因素以及综合性的试验都可应用。能提供无偏的误差估计,在大区域试验中还能有效地减少非试验因素的单向差异,降低误差。对试验区的形状要求不严,不同区组也可分散地设置在不同区段上。,5.3.5 单因素多水平间的多重比较,MEANS 因素名/拟选用的方法名 ALPHA=p;(0p1)1.仅控制比较误差率(CER)的两两比较法 法:即成组比较的检验法,但误差的均方不是由所比较的2组数据算得,而是由全部数据算得的。拒绝域:若Tt(,),则p,即可称被比较的2组总体均值之间差异显著。注意:用此法所作比较的次数越多,其试验误差率(MEER)就越大,结论安全性较差。LSD法:也叫最小显著差法,只用于2组样本数相等的场合。LDS的值被称为Fisher的最小显著差值。当X-i-X-jLSD时,则p,即可称被比较的2组总体均值之间差异显著。注意:用此法所作比较的次数越多,其试验误差率(MEER)就越大,安全性较差。DUNCAN法(参见本节“多级检验”部分),结果分析:BON法和T法检验结果不同。如果选用t检验(控制比较错误率)结果,t检验的最小差异值为833.9,处理n1即在6月1日播种,玉米产量最高,且与其它几个处理有显著差异。但在n7(6月7日)和n14(6月14日)播种,对玉米产量影响没有差异。同时证明,n21(6月21日)播种,严重影响玉米的产量。随播期推迟,夏玉米产量显著降低。如果选用BON法的检验(控制试验错误率)结果,n1和n7,n7和n14处理间没有显著差异,但n21处理与n1、n7、n14处理有显著差异。即播种期晚,会影响夏玉米的产量。为了近一步分析各处理间的差异大小,在程序中添加下面一条语句,由于n1处理的玉米产量最高,可以将n1处理作为对照组,用单尾t检验来检验n1与其它处理的差异大小。means x/dunnettL(n1);,5.4 配伍组设计及其统计分析,配伍组设计也称为随机区组设计或双因素无重复试验设计。它是在单因素设计的基础上,多考虑一个区组因素。配伍组试验设计方法:将全部受试对象按某一个重要的属性(即区组因素,如:窝别、或体重、或年龄)分组,把条件最接近的k个受试对象(k为试验因素的水平数)分在同一个区组内;然后,用完全随机的方法将每个区组中的全部受试对象分配到k个组(含对照组和处理组)中去。,5.4.1 一元应用实例,程序说明:程序中的变量g代表饲料组别,weekk为周别,y为每周平均日产奶量。用DATA步生成数据集后,由于本试验是均衡试验设计,所以使用ANOVA过程进行方差分析。第一条MEANS语句,使用REGWQ和SNK两种方法对各组饲料以及每周两因素进行两两比较,从结果看,week因素之间没有显著差异,而g因素的第二组均值与其它组间有显著差异,所以又添加了第二条MEANS语句,将第二组饲料与其它组饲料进行两两比较,分析它们之间的差异大小。第二条MEANS语句是在前面分析的结果上添加的,根据分析数据的实际情况,可添加修改相应语句。,5.4.2 多因素多水平间的多重比较,