用SAS软件进行方差分析.ppt
《用SAS软件进行方差分析.ppt》由会员分享,可在线阅读,更多相关《用SAS软件进行方差分析.ppt(189页珍藏版)》请在三一办公上搜索。
1、第五章 方差分析,5.1 单因子方差分析5.2 两因子方差分析,方差分析中的基本概念例5.1 为比较五种牌子的合成木板的耐久性,对每种牌子取4个样品做试验,测量磨损量。推断不同牌子的磨损量间有无显著性差异。,方差分析中的基本概念(续1)方差分析研究分组变量对数值型变量的影响。分组变量称为因子,分组变量的每个取值称为因子的一个水平。只考虑一个因子的方差分析称单因子的方差分析,考虑两个因子的方差分析称两因子的方差分析。例题中牌子是分组变量,磨损量为数值型变量,牌子是因子,A、B、C、D和E是因子的五个水平,属于单因子的方差分析。研究牌子对磨损量的影响,即比较五种牌子的磨损量间有无显著性差异,将每个
2、牌子的磨损量看做一个总体,本题比较五个独立总体的均值间有无显著性差异,是多总体均值相等的假设检验问题。,5.1.单因素方差分析1.数学模型 设因子A有r个水平,在每个水平下进行m次试验,观测数据yij表示第i个水平下第j次试验的观测数据,i=1,2,r;j=1,2,m。每个水平的数量指标是一个总体,如每个牌子的磨损量为一总体,每个水平下的所有试验数据构成来自该总体的一个样本,单因子的方差分析就是用r个样本来检验r个总体的均值是否相等。即H0:1=2=r,H1:1,2,r不全相等;,2.模型的假定条件 单因子方差分析要求满足下面的假定条件:a)所有观测数据独立;(可直观判断)b)每个总体均服从正
3、态分布;(需要正态性检验)c)所有总体的方差相等。(需要方差齐性检验)在以上假定条件下,可设第i个水平对应的总体服从正态分布,相应样本为。根据yij与总体同分布可设 yij=i+ij,1ir,1jm。其中i表示第i个总体的均值,ij为随机误差,服从正态分布。,3.方差分析表 方差分析将总波动分解成误差引起的波动和因子引起的波动,当因子引起的波动相对于误差引起的波动大时,说明因子是显著的,即因子对数量指标有显著性影响。总的偏差平方和,其中,它反映数据总的波动。因子A的偏差平方和 其中。SST中第i个水平下的每个观测数据都用其样本均值替换得到SSM,因此SSM反映因子的不同引起的波动。误差的偏差平
4、方和,它反映误差或其它随机因素引起的波动。,在H0成立下可以证明:SST=SSM+SSE,为排除自由度对波动的影响,对波动分别除以各自的自由度得到均方和:因子的均方和:误差的均方和:两均方和之比得检验统计量:由检验统计量得概率p值,从而做出推断。,方差分析表 来源 平方 自由度 均方和 F比因子 SSM fA=r-1 MSA=SSM/fA F=(MSA/MSE)F(fA,fe)误差 SSE fe=n-r MSE=SSE/fe 总和 SST fT=n-1,4.方差分析的SAS编程第一步 检验模型的假定条件 条件1:观测数据的独立性可直观判断;条件2:各样本所来自总体的独立性用univariate
5、过程+normal选项,并使用by语句来检验;程序如下:proc sort data=数据集名;by 分组变量名;run;proc univariate data=数据集名 normal;by 分组变量名;var 数值型变量名;run;,条件3:方差齐性,用anova过程中的means语句+hovest选项。程序如下:proc anova data=数据集名;class 分组变量名;model 数值型变量名=分组变量名;means 分组变量名/hovest;/*或hovest=levene*/run;第二步 输出方差分析表 上面的方差齐性程序就可产生方差分析表。根据表中的概率p值可作出推断。如
6、果只需输出方差分析表,不要求检验方差相等,则上面的程序删去means过程,保留其它语句则可。,5.多重t检验 若方差分析的检验结果表明均值间有显著性差异,则可进一步检验哪些均值间有显著性差异,从而找到因子的最优水平。这就需要做多重t检验,它对其中任何两个总体均值都检验是否相等。实际上,多重t检验就是若干个两独立组的比较问题。多重t检验的程序如下:proc anova data=数据集名;class 分组变量名;model 数值型变量名=分组变量名;means 分组变量名/t;/*对means语句+选项t*/run;,6.非参数检验 当方差分析的正态性或方差齐性的假定条件不能满足时,使用krus
7、kal-wallis非参数检验。程序如下:proc npar1way data=数据集名 wilcoxon;class 分组变量名;var 数值型变量名;run;程序和两独立组比较的一样,不过这时看kruskal-wallis 检验,而不看wilcoxon秩和检验。,7.单因子方差分析的应用举例例5.1 为比较五种牌子的合成木板的耐久性,对每种牌子取4个样品做试验,测量磨损量,数据如下,试用编程的方法推断不同牌子的磨损量间有无显著性差异。,5.2 两因子方差分析 两因子的方差分析研究两个分类变量对一个数值型变量的影响。两因子的方差分析分为两类:无交互作用的和有交互作用的方差分析。设有两个分组变
8、量即因子A和B,有一个数值型变量Y。A:A1,A2,Ar,即A有r个水平 B:B1,B2,Bs,即B有s个水平 若Y仅受Ai和Bj各自的影响,与组合(Ai,Bj)无关,则称为无交互作用,否则称有交互作用。,5.2.1 无交互作用的方差分析(无重复试验的方差分析)1.模型的假定条件 设yij为组合(Ai,Bj)下的试验结果。模型的假定条件为 a)观测数据独立;b)yij来自正态总体。含义:每种组合下的数量指标看成一个总体,假定总体均服从正态分布,且方差均相等。对每种组合下只做一次试验,故每个总体的样本容量都是1。由样本各分量均与总体同分布知:从而可设yij=ij+ij,ij 为总体均值,ij为随
9、机误差,1ir,1js,ij服从正态分布。,2.无交互作用的方差分析的数据模型 为了便于描述引入一下定义:记 因子A的第i个水平效应因子B的第j个水平效应若,则称无交互作用;若,则称有交互作用。,2.无交互作用的方差分析的数据模型下证:同理可证证:,3.提假设 方差分析的目的是检验所有总体均值是否相等,对于无交互作用的方差分析,有,故检验问题可转化为两个检验:H0A:1=2=r,H1A:1,2,r不全相等;H0B:1=2=j,H1B:1,2,j不全相等;第一个检验因子A对数量指标有无显著性影响,第二个检验因子B对数量指标有无显著性影响。而模型无显著效应(即接受原假设)是指以上两个假设的原假设同
10、时成立。,4.检验统计量平方和分解:总的偏差平方和 其中,它反映数据总的波动。因子A的偏差平方和 其中。它反映因子A引起的波动。因子B的偏差平方和它反映因子B引起的波动。误差的偏差平方和,它反映误差或其它随机因素引起的波动。,在H0成立下可以证明:SST=SSA+SSB+SSE,为排除自由度对波动的影响,对波动分别除以各自的自由度得到均方和:因子A的均方和:因子B的均方和:误差的均方和:,检验统计量 两均方和之比得检验统计量。因子A的检验统计量为 其中 fA=r-1,fe=(r-1)(s-1).因子B的检验统计量为 其中 fB=s-1,fe=(r-1)(s-1).,无交互作用的两因子方差分析表
11、 来源 平方 自由度 均方和 F比 A SSA fA=r-1 MSA=SSA/fA F=(MSA/MSE)F(fA,fe)B SSB fB=s-1 MSA=SSB/fB F=(MSB/MSE)F(fB,fe)误差 SSE fe=(r-1)(s-1)MSE=SSE/fe 注:由方差分析表中的检验统计量 计算出概率p值,由此作出推断。,5编程做无交互作用的两因子方差分析 首先检验模型的假定条件条件1:观测数据独立,可直观判断;条件2:数据来自正态总体,且方差相等。由于每个总体仅有一个容量为1的样本,故该条件无法检验。用anova过程编程做方差分析的推断,程序如下:proc anova data=数
12、据集名;class 分组变量名列表;/*如a b;*/model 数值型变量名=分组变量名列表;/*如y=a b*/means分组变量名列表/t;/*该句要求做多重t检验*/run;,5.2.2 有交互作用的多因素方差分析(有重复试验)1.数据模型 设观测数据yijk为(Ai,Bj)组合下的第k次试验所得数值型变量y的观测值,i=1,2,r;j=1,2,s;k=1,2,t。采用以下的数据模型:yijk=+i+j+ij+ijk,1ir,1js,1kt其中表示平均的效应,i和j分别表示因素A的第i个水平和因素B的第j个水平的效应,ij表示因素A的第i个水平和因素B的第j个水平的交互效应。ijk为随
13、机误差,这里也假定它是独立的并且服从等方差的正态分布。,2.要检验的假设 H0(A*B):ij=0,Hl(A*B):ij不全为零 H0A:1=2=r,H1A:1,2,r不全相等 H0B:1=2=S,H1B:1=2=s 不全相等;其中(1ir,1js)。三个假设分别用于检验搭配对数值型变量有无显著性影响,因子A对数值型变量有无显著性影响,因子B对数值型变量有无显著性影响。,3.检验统计量在H0成立下可以证明:SST=SSA+SSB+SSAB+SSE,其中fe=rs(t-1),fAB=(r-1)(s-1),4.有交互作用的方差分析表,5.编程实现有交互作用的两因子方差分析 程序如下:proc an
14、ova data=数据集名;class A B;/*A和B分别是两个分组变量名*/model Y=A B A*B;/*Y为数值型变量*/means a b a*b/t;/*模型显著时means该语句用于多重t检验*/run;,6两因子方差分析的应用举例 1)单因子的2)两因子的,有交互作用的双因素方差分析表见表5-3。表5-3 有交互作用的双因素方差分析表 其中MSA=SSMA/(l 1),MSB=SSMB/(m 1),MS(A*B)=SSM(A*B)/(l 1)(m 1),MSE=SSE/lm(n l)。利用表中的信息,就可以对各个因素间交互作用是否显著和每个因素各水平间的差异是否显著做出判
15、断。,5.1.3 方差分析中的基本假定 方差分析中常用的基本假定是:正态性:每个总体均服从正态分布,也就是说,对于每一个水平,其观测值是来自正态分布的简单随机样本。方差齐性:各总体的方差相同。独立性:从每一总体中抽取的样本是相互独立的。在SAS中,正态性可用第3章介绍的方法来验证,也可通过本章介绍的“残差的正态性检验”来验证,方差齐性可以在方差分析的过程进行验证,而独立性可由试验的随机化确定。,5.2 单因素方差分析的SAS实现5.2.1 用INSIGHT作单因素方差分析5.2.2 用“分析家”作单因素方差分析5.2.3 用过程进行单因素方差分析,5.2.1 用INSIGHT作单因素方差分析1
16、.实例【例5-1】消费者与产品生产者、销售者或服务的提供者之间经常发生纠纷。当发生纠纷后,消费者常常会向消费者协会投诉。为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本。每个行业各抽取5家企业,所抽取的这些企业在服务对象、服务内容、企业规模等方面基本上是相同的。然后统计出最近一年中消费者对总共20家企业投诉的次数,结果如表5-4。,表5-4 消费者对四个行业的投诉次数 通常,受到投诉的次数越多,说明服务的质量越差。消费者协会想知道这几个行业之间的服务质量是否有显著差异,即在方差分析中检验原假设:四个行业被投诉次数的均值相等。,2.分
17、析步骤 1)将表5-4中数据整理成如图左所示结构的数据集,存放在Mylib.xfzts中;2)在INSIGHT模块中打开数据集Mylib.xfzts;3)选择菜单“Analyze(分析)”“Fit(拟合)”,在打开的“Fit(X Y)”对话框中按图(右)选择分析变量;4)单击“OK”按钮,得到分析结果。,3.结果分析 第一张表提供拟合模型的一般信息:第二张表为列名型变量信息,即HANGYE为列名型的,有4个水平;第三张表提供参数信息,并且约定,P_2、P_3、P_4、P_5分别为航空、家电、零售和旅游4个行业的标识变量(也称哑变量)。如下图所示。,第四张表给出响应变量均值关于自变量不同水平的模
18、型方程,如图5-6所示。其中,标识变量取值:,第五张表(图5-7)给出模型拟合的汇总信息,其中:R-Square(R2)是判定系数(coefficient of determination),阐明了自变量所能描述的变化(模型平方和)在全部变差平方和中的比例,它的值总在0和1之间,其值越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。Aaj R-Sq(校正R2)是类似于R2的,但它随模型中的参数的个数而修正。,第六张为方差分析表,如图5-8所示,其中各项含义可参见表5-1的说明。从方差分析表可以看出,p值小于0.05(显著水平),所以拒绝原假设,即不同行
19、业的消费者投诉次数有显著差异。第七张表提供III型检验,它是方差分析表的细化,给出了各因素的平方和及F统计量,因为本例是单因素的,所以这一行与图5-8的“Model”一行相同。如图5-9所示。,第八张为参数估计表,其中有关于不同行业下投诉次数差异的估计和检验:1)根据标识变量的定义,Intercept后的估计47.4是对应于旅游业投诉次数的均值,其后的t检验是检验这一均值是否为0。这里p值 0.05,所以航空业与旅游业的被投诉次数没有显著差异的。其它分析类似。,4.检验模型假定 为了验证残差为正态分布的假定,回到数据窗口。可以看到R_TOUSU(残差)和P_TOUSU(预测值)已加到数据集之中
20、,下面用Distribufion(Y)来验证残差的正态性。1)选择菜单“Analyze”“Distribution(Y)”;2)在打开的“Distribution(Y)”对话框中选定分析变量:R_TOUSU;单击“OK”按钮;,3)选择菜单“Curves”“Test for Distribution”;在打开的“Test for Distribution”对话框中直接单击“OK”按钮。在检验结果的“Test for Distribution”表中看到,p值大于0.05,不能拒绝原假设,表明可以认为残差是正态分布的(图5-12)。,5.2.2 用“分析家”作单因素方差分析1.分析步骤 1)在“分
21、析家”中,打开数据集Mylib.xfzts;2)选择菜单“Statistics(统计)”“ANOVA(方差分析)”“One-Way ANOVA(单因素方差分析)”,打开“One-Way ANOVA”对话框;,3)选中分类变量HANGYE,单击“Independent”按钮,将其移到“Independent(自变量)”框中;选中数值变量TOUSU,单击按钮“Dependent”,将其移到“Dependent(因变量)”框中,如图5-13所示;,4)为了检验方差分析中关于方差齐性的假定,单击“Tests”按钮,打开“One-Way ANOVA:Tests”对话框,选中“Tests for equa
22、l variance”栏下的“levenes test”复选框(常用),如图左,单击“OK”按钮返回;5)单击“Plots”按钮,打开“One-Way ANOVA:Plots”对话框,可以选择图形类型,如选中“Types of plots”栏下的“Box-&-whisker plot”复选框,如图右,单击“OK”按钮返回;再次单击“OK”按钮。,2.结果分析 在显示的结果中,提供了自变量的各个水平和单因素方差分析表。结果分为五个部分,第一部分(下图左)是因素水平的信息,可以看到只有一个因素HANGYE,它的4个水平分别是航空、家电、零售、旅游,共有20个观测。,第二部分就是经典的方差分析表。由
23、于这里p值小于0.05(显著水平),所以模型是显著的,即因素对指标有显著影响。第三部分是一些与模型有关的简单统计量,第一个是复相关系数平方R2,代表总变差中能被模型解释的比例,第二个是指标的变异系数,第三个是根均方误差,第四个是均值。第四部分是方差分析表的细化,给出了各因素的平方和及F统计量,因为是单因素所以这一行与上面的“Model(模型)”一行相同。,第五部分是对方差齐性的假定检验的结果,如图5-16所示。结果表明使用Levenes检验法的p值为0.6357,所以不同水平下观测结果的方差无显著差异。,在分析家窗口的项目管理器中双击“Boxplot of TOUSY by HANGYE”选项
24、,得到响应变量关于自变量各水平的盒形图如图5-17所示。图中从左到右依次为航空、家电、零售、旅游等水平的盒形图,可以从中对不同水平下均值的差异以及方差的差异有一个直观的了解。,5.2.3 用过程进行单因素方差分析1.ANOVA过程和GLM过程的简介(1)ANOVA过程 ANOVA过程的一般格式包含许多选项,其中最为常用的为如下格式:PROC ANOVA DATA=;CLASS;MODEL=/;MEANS/;RUN;,其中CLASS语句用来指定样本分组的分类变量,CLASS语句是必需的,而且必需位于MODEL语句之前;MODEL语句给出模型表达式,可以用来表示三种不同的效应模型:1)主效应模型:
25、y=a b c 2)交互效应模型:y=a b c a*b a*c b*c a*b*c 3)嵌套效应模型:y=a b c(a b)同一MODEL语句中三种效应可以混合使用。MEANS语句指定ANOVA过程计算自变量各水平下因变量的均值、标准差,并进行组间的多重比较。,(2)GLM过程PROC GLM DATA=ALPHA=;CLASS;MODEL=/;MEANS/;RUN;一般地,ANOVA过程中涉及的所有语句都包含在GLM过程所涉及的语句中,其用法和功能也都是基本相同的。,2.使用ANOVA过程作单因素方差分析 使用ANOVA过程对例5-1作方差分析的方法:proc anova data=My
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 软件 进行 方差分析

链接地址:https://www.31ppt.com/p-5368901.html