用SAS软件进行方差分析.ppt
第五章 方差分析,5.1 单因子方差分析5.2 两因子方差分析,方差分析中的基本概念例5.1 为比较五种牌子的合成木板的耐久性,对每种牌子取4个样品做试验,测量磨损量。推断不同牌子的磨损量间有无显著性差异。,方差分析中的基本概念(续1)方差分析研究分组变量对数值型变量的影响。分组变量称为因子,分组变量的每个取值称为因子的一个水平。只考虑一个因子的方差分析称单因子的方差分析,考虑两个因子的方差分析称两因子的方差分析。例题中牌子是分组变量,磨损量为数值型变量,牌子是因子,A、B、C、D和E是因子的五个水平,属于单因子的方差分析。研究牌子对磨损量的影响,即比较五种牌子的磨损量间有无显著性差异,将每个牌子的磨损量看做一个总体,本题比较五个独立总体的均值间有无显著性差异,是多总体均值相等的假设检验问题。,5.1.单因素方差分析1.数学模型 设因子A有r个水平,在每个水平下进行m次试验,观测数据yij表示第i个水平下第j次试验的观测数据,i=1,2,r;j=1,2,m。每个水平的数量指标是一个总体,如每个牌子的磨损量为一总体,每个水平下的所有试验数据构成来自该总体的一个样本,单因子的方差分析就是用r个样本来检验r个总体的均值是否相等。即H0:1=2=r,H1:1,2,r不全相等;,2.模型的假定条件 单因子方差分析要求满足下面的假定条件:a)所有观测数据独立;(可直观判断)b)每个总体均服从正态分布;(需要正态性检验)c)所有总体的方差相等。(需要方差齐性检验)在以上假定条件下,可设第i个水平对应的总体服从正态分布,相应样本为。根据yij与总体同分布可设 yij=i+ij,1ir,1jm。其中i表示第i个总体的均值,ij为随机误差,服从正态分布。,3.方差分析表 方差分析将总波动分解成误差引起的波动和因子引起的波动,当因子引起的波动相对于误差引起的波动大时,说明因子是显著的,即因子对数量指标有显著性影响。总的偏差平方和,其中,它反映数据总的波动。因子A的偏差平方和 其中。SST中第i个水平下的每个观测数据都用其样本均值替换得到SSM,因此SSM反映因子的不同引起的波动。误差的偏差平方和,它反映误差或其它随机因素引起的波动。,在H0成立下可以证明:SST=SSM+SSE,为排除自由度对波动的影响,对波动分别除以各自的自由度得到均方和:因子的均方和:误差的均方和:两均方和之比得检验统计量:由检验统计量得概率p值,从而做出推断。,方差分析表 来源 平方 自由度 均方和 F比因子 SSM fA=r-1 MSA=SSM/fA F=(MSA/MSE)F(fA,fe)误差 SSE fe=n-r MSE=SSE/fe 总和 SST fT=n-1,4.方差分析的SAS编程第一步 检验模型的假定条件 条件1:观测数据的独立性可直观判断;条件2:各样本所来自总体的独立性用univariate过程+normal选项,并使用by语句来检验;程序如下:proc sort data=数据集名;by 分组变量名;run;proc univariate data=数据集名 normal;by 分组变量名;var 数值型变量名;run;,条件3:方差齐性,用anova过程中的means语句+hovest选项。程序如下:proc anova data=数据集名;class 分组变量名;model 数值型变量名=分组变量名;means 分组变量名/hovest;/*或hovest=levene*/run;第二步 输出方差分析表 上面的方差齐性程序就可产生方差分析表。根据表中的概率p值可作出推断。如果只需输出方差分析表,不要求检验方差相等,则上面的程序删去means过程,保留其它语句则可。,5.多重t检验 若方差分析的检验结果表明均值间有显著性差异,则可进一步检验哪些均值间有显著性差异,从而找到因子的最优水平。这就需要做多重t检验,它对其中任何两个总体均值都检验是否相等。实际上,多重t检验就是若干个两独立组的比较问题。多重t检验的程序如下:proc anova data=数据集名;class 分组变量名;model 数值型变量名=分组变量名;means 分组变量名/t;/*对means语句+选项t*/run;,6.非参数检验 当方差分析的正态性或方差齐性的假定条件不能满足时,使用kruskal-wallis非参数检验。程序如下:proc npar1way data=数据集名 wilcoxon;class 分组变量名;var 数值型变量名;run;程序和两独立组比较的一样,不过这时看kruskal-wallis 检验,而不看wilcoxon秩和检验。,7.单因子方差分析的应用举例例5.1 为比较五种牌子的合成木板的耐久性,对每种牌子取4个样品做试验,测量磨损量,数据如下,试用编程的方法推断不同牌子的磨损量间有无显著性差异。,5.2 两因子方差分析 两因子的方差分析研究两个分类变量对一个数值型变量的影响。两因子的方差分析分为两类:无交互作用的和有交互作用的方差分析。设有两个分组变量即因子A和B,有一个数值型变量Y。A:A1,A2,Ar,即A有r个水平 B:B1,B2,Bs,即B有s个水平 若Y仅受Ai和Bj各自的影响,与组合(Ai,Bj)无关,则称为无交互作用,否则称有交互作用。,5.2.1 无交互作用的方差分析(无重复试验的方差分析)1.模型的假定条件 设yij为组合(Ai,Bj)下的试验结果。模型的假定条件为 a)观测数据独立;b)yij来自正态总体。含义:每种组合下的数量指标看成一个总体,假定总体均服从正态分布,且方差均相等。对每种组合下只做一次试验,故每个总体的样本容量都是1。由样本各分量均与总体同分布知:从而可设yij=ij+ij,ij 为总体均值,ij为随机误差,1ir,1js,ij服从正态分布。,2.无交互作用的方差分析的数据模型 为了便于描述引入一下定义:记 因子A的第i个水平效应因子B的第j个水平效应若,则称无交互作用;若,则称有交互作用。,2.无交互作用的方差分析的数据模型下证:同理可证证:,3.提假设 方差分析的目的是检验所有总体均值是否相等,对于无交互作用的方差分析,有,故检验问题可转化为两个检验:H0A:1=2=r,H1A:1,2,r不全相等;H0B:1=2=j,H1B:1,2,j不全相等;第一个检验因子A对数量指标有无显著性影响,第二个检验因子B对数量指标有无显著性影响。而模型无显著效应(即接受原假设)是指以上两个假设的原假设同时成立。,4.检验统计量平方和分解:总的偏差平方和 其中,它反映数据总的波动。因子A的偏差平方和 其中。它反映因子A引起的波动。因子B的偏差平方和它反映因子B引起的波动。误差的偏差平方和,它反映误差或其它随机因素引起的波动。,在H0成立下可以证明:SST=SSA+SSB+SSE,为排除自由度对波动的影响,对波动分别除以各自的自由度得到均方和:因子A的均方和:因子B的均方和:误差的均方和:,检验统计量 两均方和之比得检验统计量。因子A的检验统计量为 其中 fA=r-1,fe=(r-1)(s-1).因子B的检验统计量为 其中 fB=s-1,fe=(r-1)(s-1).,无交互作用的两因子方差分析表 来源 平方 自由度 均方和 F比 A SSA fA=r-1 MSA=SSA/fA F=(MSA/MSE)F(fA,fe)B SSB fB=s-1 MSA=SSB/fB F=(MSB/MSE)F(fB,fe)误差 SSE fe=(r-1)(s-1)MSE=SSE/fe 注:由方差分析表中的检验统计量 计算出概率p值,由此作出推断。,5编程做无交互作用的两因子方差分析 首先检验模型的假定条件条件1:观测数据独立,可直观判断;条件2:数据来自正态总体,且方差相等。由于每个总体仅有一个容量为1的样本,故该条件无法检验。用anova过程编程做方差分析的推断,程序如下:proc anova data=数据集名;class 分组变量名列表;/*如a b;*/model 数值型变量名=分组变量名列表;/*如y=a b*/means分组变量名列表/t;/*该句要求做多重t检验*/run;,5.2.2 有交互作用的多因素方差分析(有重复试验)1.数据模型 设观测数据yijk为(Ai,Bj)组合下的第k次试验所得数值型变量y的观测值,i=1,2,r;j=1,2,s;k=1,2,t。采用以下的数据模型:yijk=+i+j+ij+ijk,1ir,1js,1kt其中表示平均的效应,i和j分别表示因素A的第i个水平和因素B的第j个水平的效应,ij表示因素A的第i个水平和因素B的第j个水平的交互效应。ijk为随机误差,这里也假定它是独立的并且服从等方差的正态分布。,2.要检验的假设 H0(A*B):ij=0,Hl(A*B):ij不全为零 H0A:1=2=r,H1A:1,2,r不全相等 H0B:1=2=S,H1B:1=2=s 不全相等;其中(1ir,1js)。三个假设分别用于检验搭配对数值型变量有无显著性影响,因子A对数值型变量有无显著性影响,因子B对数值型变量有无显著性影响。,3.检验统计量在H0成立下可以证明:SST=SSA+SSB+SSAB+SSE,其中fe=rs(t-1),fAB=(r-1)(s-1),4.有交互作用的方差分析表,5.编程实现有交互作用的两因子方差分析 程序如下:proc anova data=数据集名;class A B;/*A和B分别是两个分组变量名*/model Y=A B A*B;/*Y为数值型变量*/means a b a*b/t;/*模型显著时means该语句用于多重t检验*/run;,6两因子方差分析的应用举例 1)单因子的2)两因子的,有交互作用的双因素方差分析表见表5-3。表5-3 有交互作用的双因素方差分析表 其中MSA=SSMA/(l 1),MSB=SSMB/(m 1),MS(A*B)=SSM(A*B)/(l 1)(m 1),MSE=SSE/lm(n l)。利用表中的信息,就可以对各个因素间交互作用是否显著和每个因素各水平间的差异是否显著做出判断。,5.1.3 方差分析中的基本假定 方差分析中常用的基本假定是:正态性:每个总体均服从正态分布,也就是说,对于每一个水平,其观测值是来自正态分布的简单随机样本。方差齐性:各总体的方差相同。独立性:从每一总体中抽取的样本是相互独立的。在SAS中,正态性可用第3章介绍的方法来验证,也可通过本章介绍的“残差的正态性检验”来验证,方差齐性可以在方差分析的过程进行验证,而独立性可由试验的随机化确定。,5.2 单因素方差分析的SAS实现5.2.1 用INSIGHT作单因素方差分析5.2.2 用“分析家”作单因素方差分析5.2.3 用过程进行单因素方差分析,5.2.1 用INSIGHT作单因素方差分析1.实例【例5-1】消费者与产品生产者、销售者或服务的提供者之间经常发生纠纷。当发生纠纷后,消费者常常会向消费者协会投诉。为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本。每个行业各抽取5家企业,所抽取的这些企业在服务对象、服务内容、企业规模等方面基本上是相同的。然后统计出最近一年中消费者对总共20家企业投诉的次数,结果如表5-4。,表5-4 消费者对四个行业的投诉次数 通常,受到投诉的次数越多,说明服务的质量越差。消费者协会想知道这几个行业之间的服务质量是否有显著差异,即在方差分析中检验原假设:四个行业被投诉次数的均值相等。,2.分析步骤 1)将表5-4中数据整理成如图左所示结构的数据集,存放在Mylib.xfzts中;2)在INSIGHT模块中打开数据集Mylib.xfzts;3)选择菜单“Analyze(分析)”“Fit(拟合)”,在打开的“Fit(X Y)”对话框中按图(右)选择分析变量;4)单击“OK”按钮,得到分析结果。,3.结果分析 第一张表提供拟合模型的一般信息:第二张表为列名型变量信息,即HANGYE为列名型的,有4个水平;第三张表提供参数信息,并且约定,P_2、P_3、P_4、P_5分别为航空、家电、零售和旅游4个行业的标识变量(也称哑变量)。如下图所示。,第四张表给出响应变量均值关于自变量不同水平的模型方程,如图5-6所示。其中,标识变量取值:,第五张表(图5-7)给出模型拟合的汇总信息,其中:R-Square(R2)是判定系数(coefficient of determination),阐明了自变量所能描述的变化(模型平方和)在全部变差平方和中的比例,它的值总在0和1之间,其值越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。Aaj R-Sq(校正R2)是类似于R2的,但它随模型中的参数的个数而修正。,第六张为方差分析表,如图5-8所示,其中各项含义可参见表5-1的说明。从方差分析表可以看出,p值小于0.05(显著水平),所以拒绝原假设,即不同行业的消费者投诉次数有显著差异。第七张表提供III型检验,它是方差分析表的细化,给出了各因素的平方和及F统计量,因为本例是单因素的,所以这一行与图5-8的“Model”一行相同。如图5-9所示。,第八张为参数估计表,其中有关于不同行业下投诉次数差异的估计和检验:1)根据标识变量的定义,Intercept后的估计47.4是对应于旅游业投诉次数的均值,其后的t检验是检验这一均值是否为0。这里p值 0.05,所以航空业与旅游业的被投诉次数没有显著差异的。其它分析类似。,4.检验模型假定 为了验证残差为正态分布的假定,回到数据窗口。可以看到R_TOUSU(残差)和P_TOUSU(预测值)已加到数据集之中,下面用Distribufion(Y)来验证残差的正态性。1)选择菜单“Analyze”“Distribution(Y)”;2)在打开的“Distribution(Y)”对话框中选定分析变量:R_TOUSU;单击“OK”按钮;,3)选择菜单“Curves”“Test for Distribution”;在打开的“Test for Distribution”对话框中直接单击“OK”按钮。在检验结果的“Test for Distribution”表中看到,p值大于0.05,不能拒绝原假设,表明可以认为残差是正态分布的(图5-12)。,5.2.2 用“分析家”作单因素方差分析1.分析步骤 1)在“分析家”中,打开数据集Mylib.xfzts;2)选择菜单“Statistics(统计)”“ANOVA(方差分析)”“One-Way ANOVA(单因素方差分析)”,打开“One-Way ANOVA”对话框;,3)选中分类变量HANGYE,单击“Independent”按钮,将其移到“Independent(自变量)”框中;选中数值变量TOUSU,单击按钮“Dependent”,将其移到“Dependent(因变量)”框中,如图5-13所示;,4)为了检验方差分析中关于方差齐性的假定,单击“Tests”按钮,打开“One-Way ANOVA:Tests”对话框,选中“Tests for equal variance”栏下的“levenes test”复选框(常用),如图左,单击“OK”按钮返回;5)单击“Plots”按钮,打开“One-Way ANOVA:Plots”对话框,可以选择图形类型,如选中“Types of plots”栏下的“Box-&-whisker plot”复选框,如图右,单击“OK”按钮返回;再次单击“OK”按钮。,2.结果分析 在显示的结果中,提供了自变量的各个水平和单因素方差分析表。结果分为五个部分,第一部分(下图左)是因素水平的信息,可以看到只有一个因素HANGYE,它的4个水平分别是航空、家电、零售、旅游,共有20个观测。,第二部分就是经典的方差分析表。由于这里p值小于0.05(显著水平),所以模型是显著的,即因素对指标有显著影响。第三部分是一些与模型有关的简单统计量,第一个是复相关系数平方R2,代表总变差中能被模型解释的比例,第二个是指标的变异系数,第三个是根均方误差,第四个是均值。第四部分是方差分析表的细化,给出了各因素的平方和及F统计量,因为是单因素所以这一行与上面的“Model(模型)”一行相同。,第五部分是对方差齐性的假定检验的结果,如图5-16所示。结果表明使用Levenes检验法的p值为0.6357,所以不同水平下观测结果的方差无显著差异。,在分析家窗口的项目管理器中双击“Boxplot of TOUSY by HANGYE”选项,得到响应变量关于自变量各水平的盒形图如图5-17所示。图中从左到右依次为航空、家电、零售、旅游等水平的盒形图,可以从中对不同水平下均值的差异以及方差的差异有一个直观的了解。,5.2.3 用过程进行单因素方差分析1.ANOVA过程和GLM过程的简介(1)ANOVA过程 ANOVA过程的一般格式包含许多选项,其中最为常用的为如下格式:PROC ANOVA DATA=;CLASS;MODEL=/;MEANS/;RUN;,其中CLASS语句用来指定样本分组的分类变量,CLASS语句是必需的,而且必需位于MODEL语句之前;MODEL语句给出模型表达式,可以用来表示三种不同的效应模型:1)主效应模型:y=a b c 2)交互效应模型:y=a b c a*b a*c b*c a*b*c 3)嵌套效应模型:y=a b c(a b)同一MODEL语句中三种效应可以混合使用。MEANS语句指定ANOVA过程计算自变量各水平下因变量的均值、标准差,并进行组间的多重比较。,(2)GLM过程PROC GLM DATA=ALPHA=;CLASS;MODEL=/;MEANS/;RUN;一般地,ANOVA过程中涉及的所有语句都包含在GLM过程所涉及的语句中,其用法和功能也都是基本相同的。,2.使用ANOVA过程作单因素方差分析 使用ANOVA过程对例5-1作方差分析的方法:proc anova data=Mylib.xfzts;class hangye;model tousu=hangye;run;分析结果与“分析家”相同。,3.使用GLM过程作单因素方差分析 使用GLM过程对例5-1作方差分析的方法:proc GLM data=Mylib.xfzts;class hangye;model tousu=hangye;run;分析结果与“分析家”相同。,5.3 双因素方差分析5.3.1 用INSIGHT作双因素方差分析5.3.2 用“分析家”作双因素方差分析5.3.3 用GLM过程进行双因素方差分析,5.3.1 用INSIGHT作双因素方差分析1.不存在交互作用的双因素方差分析【例5-2】为了提高一种橡胶的定强,考虑三种不同的促进剂(因素A)、四种不同分量的氧化锌(因素B)对定强的影响,对配方的每种组合重复试验两次,总共试验了24次,得到表5-5的结果。表5-5 橡胶配方试验数据,要用方差分析将不同促进剂和不同份量氧化锌的影响区分开来。即检验:H0A:不同促进剂对定强无影响,H1A:不同促进剂对定强有显著影响 H0B:氧化锌的不同分量对定强无影响,H1B:氧化剂的不同分量对定强有显著影响,(1)分析设置 1)将表5-5中数据整理成如图5-18左所示结构的数据集,存放在Mylib.xjpf中;,2)在INSIGHT模块中打开数据集Mylib.xjpf。由于在Insight中,要求方差分析中的自变量必须是列名型的,故先把变量a和b的测量水平由区间型改为列名型;,3)选择菜单“Analyze(分析)”“Fit(拟合)”,在打开的“Fit(X Y)”对话框中选择数值型变量作因变量,分类型变量作自变量:选择变量stren,单击“Y”按钮,选择变量a和b,单击“X”按钮,分别将变量移到列表框中,如图5-18右所示;单击“OK”,得到分析结果。,(2)分析结果 1)第一张表提供了模型的一般信息;第二张表列举了作为分类变量的a和b的水平的信息;第三张参数信息表给出了标识变量P_i的定义;其中,标识变量取值:,2)第四张表给出了方差分析模型,利用参数信息表中标识变量的定义可以推算出在各个因素不同水平下变量stren均值的信息;第五张拟合汇总表中给出变量stren的均值为37.0417,判定系数R2为0.8945等,如图5-20;图5-20 多因素方差分析第4、5张表,3)在第六张方差分析表中,检验模型显著性的F统计量为30.53,相应的p值小于0.05=,所以拒绝a和b对分析变量stren无显著影响的假设,即模型是显著的;在模型显著的情况下常需要进一步分析两个因素是否都有显著影响或者只有一个因素是显著的,这时就需要用到第七张表提供的信息。在III型检验表中,进一步将模型平方和分解为属于a和b的平方和。在这里两个因素的p值都小于0.05,再一次说明了这两个因素对分析变量stren都有显著影响,如图5-21。,4)第八张是模型的参数估计表(图5-22),参数估计表也是根据标识变量的定义,对参数或对各因素不同水平下的参数之差进行估计和检验。可以根据t统计量的p值来检验不同水平下均值是否有显著差异。图5-22 多因素方差分析第8张表,模型方程提供了各个因素不同水平下变量stren均值的信息,利用参数信息表中标识变量P_j的定义可以推算出:参数估计表根据标识变量的定义,对参数或不同水平下参数之差进行估计和检验。如第一行是对a=3,b=4水平下均值的估计和检验,第二行是a=1,b=4水平下的均值与a=3,b=4水平下均值之差的估计与检验。结果表明两个因素的各水平下的均值都有显著差异。,5)考察模型假定:在显示窗的底部有一个残差和预测值的散点图(如图5-23所示),可以像单因素分析一样考察残差分布的正态性假定。,2.存在交互作用的双因素方差分析【例5-3】考虑合成纤维收缩率(因素A)和总拉伸倍数(因素B)对纤维弹性y的影响。收缩率取4个水平:A1=0,A2=4,A3=8,A4=12;因素B也取4个水平:B1=460,B2=520,B3=580,B4=640。在每个组合AiBj下重复做二次试验,弹性数据如表5-6所示。表5-6 合成纤维收缩率和总拉伸倍数对纤维弹性的影响,考虑如下问题:1)收缩率(因素A)、拉伸倍数(因素B)对弹性y有无显著性影响?2)因素A和因素B是否有交互作用?3)使纤维弹性达到最大的生产条件是什么?要用方差分析将不同收缩率和不同拉伸倍数的影响区分开来。即检验:H0A:不同收缩率对弹性无影响,H1A:不同收缩率对弹性有显著影响 H0B:不同拉伸倍数对弹性无影响,H1B:不同拉伸倍数对弹性有显著影响,(1)分析设置 1)将表5-6中数据整理成如图所示结构的数据集,存放在Mylib.xwtx中;2)在INSIGHT模块中打开数据集Mylib.xwtx。由于在Insight中,要求方差分析中的自变量必须是列名型的,故先把变量a和b的测量水平由区间型改为列名型;,3)选择菜单“Analyze(分析)”“Fit(拟合)”,在打开的“Fit(X Y)”对话框中选择数值型变量作因变量,分类型变量作自变量,如图所示。图5-24 数据集xwtx与分析变量的选择 为了考虑变量a和b的交互作用,同时选上a、b,然后单击“Cross”按钮,注意到在右框中多了a*b一行,如图5-24右所示。4)单击“OK”按钮,得到分析结果。,(2)分析结果 1)在参数信息表中较无交互作用的情形多了表示两个因素各个水平组合下的标识变量,而在模型方程表中也就多了许多的参数,如图5-25所示;图5-25 多因素方差分析的前5张表,2)在方差分析表中,检验模型显著性的F统计量为7.87,相应的p值为0.0001 0.05,所以从总体上看b变量的效应不显著;检验a变量效应的p值为0.00010.05,所以变量a的效应是显著的;检验两者交互作用的p值为0.00060.05,所以交互作用的影响也是显著的,如图5-27。,4)在模型方程(图5-25中)和参数估计表(图5-28)中也提供了双因素不同水平组合下因变量y均值的估计和比较的信息。因为这里是考虑存在交互作用的情形,所以较为复杂一些。,5.3.2 用“分析家”作双因素方差分析1.不存在交互作用的双因素方差分析 下面介绍在“分析家”中对例5-2作方差分析:1)在“分析家”中,打开数据集Mylib.xjpf;2)选择菜单“Statistics(统计)”“ANOVA(方差分析)”“Factorial ANOVA(因素方差分析)”,打开“Factorial ANOVA”对话框(如图5-29);,若要得到用图形表示的两个因素不同水平下均值和标准差的信息,可以单击“Plots”按钮,在打开的“Factorial ANOVA:Plots”对话框中,选中“Means plots”栏下的“Plots Dependent Means for Main Effects(作主效应响应均值图)”。,4)分析结果如图5-30所示,其中内容前面已讲,这里不再赘述。图5-30 无交互作用的多因素方差分析,5)在分析家窗口的项目管理器中依次双击“Means Plots”下的两个选项,得到响应变量关于自变量a、b的均值图如图5-31所示。图5-31 响应变量关于自变量a、b的均值图 图中描述了变量a、b不同水平下的均值和标准差的图形,从中可以对不同水平下均值的差异有一个直观的了解。,2.存在交互作用的双因素方差分析 下面介绍在“分析家”中对例5-3合成纤维的试验数据作方差分析。分析步骤如下:1)在“分析家”中,打开数据集Mylib.xwtx;2)选择菜单“Statistics”“ANOVA”“Factorial ANOVA”,打开“Factorial ANOVA”对话框,按图选择参数与图形;,输出的方差分析表给出双因素考虑交互作用的方差分析模型是显著的(F=7.87,p=0.0001),最下面一张表给出两个因素和交互作用的检验结果。由最后一列“Pr F”的三个p值可以看出因素A及因素A与B的交互作用(A*B)对指标y的影响是高度显著的,而因素B在=0.05的水平上对指标y的影响是不显著(p=0.1363 0.05)。,在分析家窗口的项目管理器中依次双击选项“Means Plot of y by a and b”,得到双因素不同水平下因变量均值差异的连线图如图5-35所示。直观地可以看出使纤维弹性达最大的最佳生产条件是A3和B2;其次是A2和B3。,5.3.3 用GLM过程进行双因素方差分析1.不考虑交互作用 过程GLM也可用于多因素方差分析,其用法与单因素方差分析是相同的,只需要在class语句和model语句中分别填入表示因素的多个自变量。以数据集Mylib.xjpf为例,为了比较变量a和b不同水平下因变量stren均值的差异,可使用以下程序:proc glm data=Mylib.xjpf;class a b;model stren=a b;run;,提交上述程序后得到与上一节使用“分析家”有相似的结果,如图5-36所示。有关的说明请参见上节的解释。,2.考虑交互作用 使用过程GLM于多因素方差分析时,若要考虑交互作用只需要在model语句中增加相应的交互作用项即可。以数据集Mylib.xjpf为例,为了比较变量a和b不同水平组合下变量stren均值的差异,可使用以下的程序:proc glm data=Mylib.xjpf;class a b;model stren=a b a*b;run;这里model语句中a*b就是指明要考虑交互作用。,提交这一程序后的输出如图5-37所示。图5-37 使用GLM过程作有交互作用的多因素方差分析,5.4 均值估计与多重比较5.4.1 概述5.4.2 用“分析家”进行均值比较,5.4.1 概述 在方差分析中,不论是单因素或多因素的实验结果,都是检验关于参数的一个整体的假设。若原假设被拒绝,表明某个因素各个水平下的响应有显著差异或因素间存在交互影响,但并不了解某两个水平下响应是否有差异。所以在方差分析后,还常需要对各水平下响应变量的均值进行估计和比较。,5.4.2 用“分析家”进行均值比较1.对于单因素方差分析的均值比较 下面介绍在“分析家”中对例5-1作均值比较。(1)分析设置 1)在“分析家”中,打开数据集Mylib.xfzts;,2)选择菜单“Statistics”“ANOVA”“One-Way ANOVA”,打开“One-Way ANOVA”对话框,按图所示设置;,3)单击“Means(均值)”按钮,在打开的“One-Way ANOVA:Means”对话框中选中“Comparisons(比较)”选项卡。按图设置。,(2)分析结果 1)使用Tukeys HSD检验法的结果,如图5-39所示。图5-39 Duncans Multiple Range检验法 它先提示这一检验法是控制整体的第一类错误的,但它的第二类错误一般比REGWQ方法要高。,然后指出根据所用的方法,两个均值间显著差异最小值为20.362,即不同水平间均值之差超过20.362,就表明这两个水平下的均值是有显著差异的。最后,不同水平下响应变量的均值自大至小排成一列,无显著效应的水平在左侧用同一字母标出。例如,航空业与旅游业、零售业无显著差异,与家电制造业有显著差异,家电制造业与零售业、旅游业无显著差异,等等。,2)使用Dunnetts t-test检验法的结果,如图所示。图5-40 Dunnetts t-test检验法 用这一方法给出t的临界值为2.34654,两个均值间显著差异最小值为18.297。以下显示成组比较的结果,凡是达到0.08显著性水平的则在最右边一栏加标三个星号*。可以看出,家电制造业与航空业有显著差异。其他行业之间均无显著差异。,3)使用Fisher最小显著差异(LSD)检验法的结果,如图所示。图5-41 Fisher最小显著差异(LSD)检验法 用这一方法给出t的临界值为1.86928,两个均值间显著差异最小值为14.576。以下显示成组比较的结果,可以看出,航空业与旅游业无显著差异,与其他行业均有显著差异。其他行业之间均无显著差异。,2.对于多因素方差分析的均值比较 下面介绍在“分析家”中对例5-3合成纤维的试验数据作均值比较。(1)分析设置 1)在“分析家”中,打开数据集Mylib.xwtx;2)选择菜单“Statistics(统计)”“ANOVA(方差分析)”“Factorial ANOVA(因素方差分析)”,打开“Factorial ANOVA”对话框;3)选中变量a、b,单击“Independent(自变量)”按钮,将其移到“Independent”框中;选中变量y,单击按钮“Dependent(因变量)”,将其移到“Dependent”框中;,4)考虑因素间的交互作用:单击“Model”按钮,打开“Factorial ANOVA Model”对话框。单击“Standard Models”按钮,在弹出的菜单中选择“Effects up to 2-wav interactions”项,表示交互作用的a*b加入了模型效应栏,单击“OK”按钮返回;图5-42 设置模型和均值参数,5)单击“Means(均值)”按钮,在打开的“One-Way ANOVA:Means”对话框中选中“Comparisons(比较)”选项卡。在“Comparison method”下拉列表中选择比较法Fishers LSD,在“Main effects(主效应)”栏中选择变量a、b,单击“Add”按钮,加到主效应框中。再在“Comparison method”下拉列表中选择比较法Tucks HSD,在“Main effects(主效应)”栏中选择变量a,单击“Add”按钮,加到主效应框中,如图5-42;单击“OK”,返回,再单击“OK”得到分析结果。,(2)分析结果 在显示方差分析结果的后面,有关于均值比较的三张表,如图5-43、4-44所示。用Fisher最小显著差异检验的结果表明(图5-43),收缩率为4和8之间无显著差异,而另两个收缩率有显著差异。拉伸倍数520和640之间有显著差异,其余无显著差异。,图5-43 Fisher最小显著差异检验,用Tucky诚实显著差异检验对收缩率的比较结果表明(图5-44),收缩率12与其他收缩率之间有显著差异。与Fisher最小显著差异法的区别在于临界点,前者为1.6583,后者为1.2287。,第六章 主成分分析与因子分析,6.1 主成分分析6.2 因子分析,6.1 主成分分析6.1.1 主成分分析的概念与步骤6.1.2 使用INSIGHT模块作主成分分析6.1.3 使用“分析家”作主成分分析6.1.4 使用PRINCOMP过程进行主成分分析,6.1.1 主成分分析的概念与步骤1.主成分分析基本思想 主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标(比如p个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。但是这种线性组合,如果不加限制,则可以有很多,应该如何去选取呢?,在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)0。称F2为第二主成分,依此类推可以构造出第三、第四、第p个主成分。,2.主成分分析的数学模型 设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,X2,Xp,得到原始数据资料阵:其中Xi=(x1i,x2i,xni),i=1,2,p。,用数据矩阵X的p个列向量(即p个指标向量)X1,X2,Xp作线性组合,得综合指标向量:简写成:Fi=a1iX1+ai2X2+apiXp i=1,2,p,为了加以限制,对组合系数ai=(a1i,a2i,api)作如下要求:即:ai为单位向量:aiai=1,且由下列原则决定:1)Fi与Fj(ij,i,j=1,p)互不相关,即Cov(Fi,Fj)=aiai=0,其中是X的协方差阵。2)F1是X1,X2,Xp的一切线性组合(系数满足上述要求)中方差最大的,即,其中c=(c1,c2,cp)F2是与F1不相关的X1,X2,Xp一切线性组合中方差最大的,Fp是与F1,F2,Fp-1都不相关的X1,X2,Xp的一切线性组合中方差最大的。,满足上述要求的综合指标向量F1,F2,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值i,每一个主成分的组合系数ai=(a1i,a2i,api)就是相应特征值i所对应的单位特征向量ti。方差的贡献率为,i越大,说明相应的主成分反映综合信息的能力越强。,3.主成分分析的步骤(1)计算协方差矩阵 计算样品数据的协方差矩阵:=(sij)pp,其中 i,j=1,2,p(2)求出的特征值及相应的特征向量 求出协方差矩阵的特征值12p0及相应的正交化单位特征向量:则X的第i个主成分为Fi=aiX i=1,2,p。,(3)选择主成分 在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率解释主成分Fi所反映的信息量的大小,m的确定以累计贡献率达到足够大(一般在85%以上)为原则。,(4)计算主成分得分 计算n个样品在m个主成分上的得分:i=1,2,m(5)标准化 实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换:其中,j=1,2,p。标准化后的数据阵记为X*,其中每个列向量(标准化变量)的均值为0,标准差为1,数据无量纲。,标准化后变量的协方差矩阵(Covariance Matrix)=(sij)pp,即原变量的