01方差分析.docx
方差分析专题单因素试验的方差分析(一)单因素试验在科学试验和生产实践中,影响一事物的因素往往是许多的。例如,在化工生产中,有原料成分、原料剂量、催化剂、反应温度、压力、溶液浓度、反应时间、机器设备及操作人员的水同等因素。每一因素的变更都有可能影响产品的数量和质量。有些因素影响较大,有些较小。为了使生产过程得以稳定,保证优质、高产,就有必要找出对产品质量有显著影响的那些因素。为此,我们需进行试验。方差分析就是依据试验的结果进行分析,鉴别各个有关因素对试验结果影响的有效方法。在试验中,我们将要考察的指标称为试验指标.影响试验指标的条件称为因素因素可分为两类,一类是人们可以限制的(可控因素);一类是人们不能限制的。例如,反应温度、原料剂量、溶液浓度等是可以限制的,而测量误差、气象条件等一般是难以限制的。以下我们所说的因素都是指可控因素。因素所处的状态,称为该因素的水平(见下述各例)。假如在一项试验中只有一个因素在变更称为单因素试验,假如多于一个因素在变更称为多因素试验例1设有三台机器,用来生产规格相同的铝合金薄板。取样,测量薄板的厚度精确至千分之一厘米。得结果如表9.1所示。表9.1铝合金板的厚度机器I机器11机器In0.2360.2570.2580.2380.2530.2640.2480.2550.2590.2450.2540.2670.2430.2610.262这里,试验的指标是薄板的厚度。机器为因素,不同的三台机器就是这个因素的三个不同的水平。我们假定除机器这一因素外,材料的规格、操作人员的水同等其它条件都相同。这是单因素试验。试验的目的是为了考察各台机器所生产的薄板的厚度有无显著的差异。即考察机器这一因素对厚度有无显著的影响。例2下面列出了随机选取的、用于计算器的四种类型的电路的响应时间(以毫秒计)。表9.2电路的响应时间类型I类型11类型In类型IV192016182221152220331819182726154017这里,试验的指标是电路的响应时间。电路类型为因素,这一因素有4个水平。这是一个单因素试验。试验的目的是为了考察各种类型电路的响应时间有无显著差异。即考察电路类型这一因素对响应时间有无显著的影响。例3一火箭运用了四种燃料,三种推动器作射程试验。每种燃料与每种推动器的组合各放射火箭两次,得结果如下(射程以海里计)。表9.3火箭的射程推动器(B)B?458.256.265.352.641.260.8A249.154.151.6燃料(八)42.850.548.4As60.158.370.973.239.240.775.858.248.771.55141.4这里,试验的指标是射程,推动器和燃料是因素,它们分别有3个、4个水平。这是一个双因素的试验。试验的目的在于考察在各种因素的各个水平下射程有无显著的差异,即考察推动器和燃料这两个因素对射程是否有显著的差异。本节限于探讨单因素试验,我们就例1来探讨。在例1中,我们在因素的每一水平下进行了独立试验,其结果是一个随机变量。表中数据可看成来自三个不同总体(每个水平对应一个总体)的样本值。将各个总体的均值依次记为从,?,3。按题意须要检验假设%:M=42=M3HI:4“G外不全相等现在进而假设各总体均为正态变量,且各总体的方差相等,那么这是一个检验同方差的多个正态总体均值是否相等的问题。下面所要探讨的方差分析法,就是解决这类问题的一种统计方法。现在起先探讨单因素试验的方差分析。设因素有S个水平A,A2,4,在水平Aj(J=I,2,s)下,进行%(nj2)次独立试验,得到如下表的结果。我们假定:各个水平4(=1,2,s)下的样原来F,迎”,再“自具有相同方差2,均值分别为j(7=1,2,5)的正态总体N(j,/),勺与/未知。且设不同水平A.下的样本之间相互独立。由于马N(勺,O?),即有为/N(0,c2),故勺-勺可看成是随机误差。记xij-j-ij»则勺可写成xij=+%,i=12,%;j=l,2,马N(0,/),各与独立,,(1.1)其中勺与人均为未知参数。(1.1)式称为单因素试验方差分析的数学模型。这是本节的探讨对象。方差分析的任务是对于模型(1.1),I0检验S个总体N(MQ2),n(2q2),N(m,q2)的均值是否相等,即检验假设H0x=2=sH1:必,2,,4不全相等。(1.2)2°作出未知参数必,2,,$,人的估计。为了将问题(1.2)写成便于探讨的形式,我们将外,2,,4的加权平均值勺勺ny=l记为,即"=叫勺(13)n7=1其中二£叼。4称为总平均。再引入;=1M=j-R,j=,2、,s(1.4)此时有用+%4+凡。.=0,%表示水平4下的总体平均值与总平均的差异,习惯上将称为水平4的效应。利用这些记号,模型(1.1)可改写成Xij=+S,÷ij,*ErljBj=O,/=1,2,wy;J=1,2,5,;=|JjN(0,2),各%独立而假设(1.2)等价于假设(1.2)'“0:心=&=瓦=OHi:"0,瓦不全为零。这是因为当且仅当必=2=4时J=,即与=0,(/=1,2,s)。(二)平方和的分解下面我们从平方和的分解着手,导出假设检验(1.2)'的检验统计量。引入总平方和ST=(x2C/=1*=1(1.6)其中途色nZ=I=是数据的总平均。Sr能反映全部试验数据之间的差异,因此S7又称为总变差。又记水平Aj下的样本平均值为工八即我们将»写成s=(-jv)2=k-X)+(-X)2y=l=l7=1/=I5zry_Xn,_.Vnj_=(-)2+U-)2+2X(Xy-Xj×Xj-X)J=I/=I;=1<=1J=I<=留意到上式第三项(即交叉项)SJj、-Xj)(xj-x)=2(x-x)E(Xij-xj)=07=1/=I=l1.i=I于是我们就将s7分解成为S=Se+S,(1.8)其中SE=(-x.j)21(1.9)=1Z=I3_'_'、-22SA=ZZ(X1.X)2=Z%(Xj7)2=Z%KjiJ(1.10)jli三Ijj上述SE的各项(-1j)2表示在水平A,下,样本视察值与样本均值的差异,这是由随机误差所引起的。SE叫做误差平方和。SA的各项(TJ-幻2表示为水平下的样本平均值与数据总平均的差异,这是由水平Aj引起的。SA叫做因素A的效应平方和。(1.8)式就是我们所须要的平方和分解式。(三)Se,S八的统计特性为了引出(1.2)'的检验统计量,我们依次来探讨SA的一些统计特性。(1) SE的统计特性将SE写成SE=X(_彳1)2+(Xi2_工,2)2+(xis-Xs')2(1.11)J=I=li=ltli留意到£(七一工/)2是总体N(j,b2)的样本方差的叫一倍,于是有/=1丐_£(%f)2-/51)J因各马独立,故(1.lI)式中各平方和独立。由力?分布的可加性知,%2恪(厂1)即-f("s),(1.12)由(1.12)式还可知,SE的自由度为一S。且有E(Sf)=(n-s)2(1.13)(2) SA的统计特性我们看到SA=ZZ(X./-x)2=nj(.j-X)2是S个变量"J(xj-1);=1i=l7=1(/=1,2,/)的平方和,它们之间仅有一个线性约束条件名MIM(X1.X)=SJ=I7=1nj(x.j-X)=O故知SA的自由度为5-1。再由(1.3),(1.6)及勺的独立性,知X-NwE)n即得E(SA)=En.".j-nx(1.14)E(.j)-nE(x)t>U;)+辰町)fl-11O()+反)2=,z;=1%7=1£1+2+【/i>-n<+-n(厅,=s2+n2+2Elnjbj-2-nj=lJ=由(1.1)'式,知2%=0,故有7=1(1.15)(1.16)E(SA)=(S-I)M+Z叩号;=i进一步还可以证明SA与SE独立,且当为真时SJ-z2(-i)证略。思索:当”。为真时,整个样原来自什么总体?(四)假设检验问题的拒绝域现在我们可以来确定假设检验问题(1.2)'的拒绝域了。由(1.15)式知,当"o为真时=2(1.17)5-1Sv即T是的无偏估计。而当为真时,Z勺b;0,此时S-IJ=I力凤鸟_)=22(1.18)5-15-1又由(1.13)式知=2(1.19)n-s即不管”0是否为真,£都是的无偏估计。n-s综上所述,分式SAS-ISEn-s的分子与分母独立,SE的分布与40无关,分母的数学期望总是当,0为真时,分子的数学期望为2,而当修为真时,由(1.18)式分子的取值有偏大的趋势。故知检验问题(1.2)'的拒绝域具有形式n-s其中上由预先给定的显著性水平。确定。由(1.12),(1.16)式及SE与SA的独立性知,当HO由此得检验问题(1.2)'的拒绝域为SAF=sFa(s-,n-s)(1.20)n-s上述分析的结果可排成表95的形式,称为方差分析表表9.5单因素试验£方差分析表方差来源平方和自由度均方尸比因素ASA5-1SaOA=S-1SaFSE误差SEn-sQSEn-s总和Stn-_._a,表中S2j,S分别称为S.,SE的均方。5-1n-s思索:当”。为真时,均方的数学期望分别是什么?因此均方又可以称什么?另外,由于在S7中个变量/-7之间仅满意一个约束条件(1.6),故57的自由度为H-Io例4如上所述,在例1中须要检验假设":1=2=3H:»2,3不全相等试取=0.05,完成这一假设检验。解:表9.6例4的方差分析表方差来源平方和自由度均方尸比因素A0.0010533320.0005266732.92误差0.00019200120.00001600总和0.0012453314因”os(2,12)=3.89<32.92,故在水平0.05下拒绝修,认为各台机器生产的薄板厚度有显著的差异。例5设在例2中的四种类型电路的响应时间的总体均为正态,且各总体的方差相同。又设各样本相互独立。试取=0.05,检验各类型电路的响应时间是否有显著差异。解:我们需检验假设“0:从=2=4=4Hl:4*2,43,4不全相等表9.7例5的方差分析表方差来源平方和自由度均方F比因素A318.977777783106.325925933.76误差395.466666671428.24761905总和714.4444444417因E)O5(3,14)=3.34<3.76,故在水平0.05下拒绝,认为各类型电路的响应时间有显著差异。(五)未知参数的估计上面已讲到过,不管”0是否为真,一都是O2的无偏估计,因此n-s2-n-s又由(1.14),(1.7)式知,_12E(X)=,E(Xj)=2E(.)=r=l,2,s,故nj/=1=x,j=Xj分别是,外的无偏估计。又若拒绝”0,这意味着司»2,,瓦不全为零。由于j=j-,j=1,2,»知Sj=XJ-X是b/的无偏估计。当拒绝/时,常须要作出两总体Na,")和"(H,d),JWZ的均值差j-k=j-k的区间估计。其做法如下。由于E(Xj-Xk)=J1.lj一%,D(.jXk)(y1_S由第六章附录知Xj-X,与2=独立。于是n-s(.j-.k)-(j-k)n-s据此,可得均值差勺-4=2-4的置信度为1一。的置信区间为-I-(1PXj一Xk±7。(-S)JSE+(1.21)1T1,人思索:以前我们学过两个正态总体方差相等但未知的状况下,均值差的置信区间:Xj-Xk±ta(nj+nk-2)一+7VMnJJ7(.-l)5y+(,/-1)Sj其中,S,j=3_1.JU_1.Jli请问这与(1.21)式有何异同?ni÷nl.-2(提示:SK的自由度是多少?)双因素试验方差分析本节介绍双因素试验方差分析。并设:(一)双因索等重复试验的方差分析设有两个因素A、8作用于试验的指标,因素A有/*个水平从,42,4,因素B有S个水平用,坊,风。现对因素A,3的水平的每对组合(A,约),i=l,2,/=1,2,$都作/C2)次试验(称为等重复试验),得到如下结果。m因瓮ZBlB2B54xIIPxI12»,孙rX121,X|22,XXIS1,XlS2,XISrA2r21Px212,%2b“221,”2229''x22tx2s,>x2s2'>,、A,XrlI,XrI2,XrIfXr21,Xr22,'X”,XrrI,Xr2,,心表9.8xijkN(,2),i=1.2,r,j=l,2,s,4=1,2,/,各为独立。这里,ij,O?均为未知参数。或写成=A,y+,£淋MO,,),各私独立,(2.1)i=l,2,r,j=1.2,-,s,Z=l,2,"引入记号:=任/A/=1j=ISM=-Z/,i=12/S;=1ai=b-,Z=l,2,r易见,£%=0,yjj=0=1J=I从j=_S/,=l,2,sr2j=,-,7=1,2,s称为总平均,称名为水平人的效应,称为水平吗的效应。这样可将均表示成ij=-ai+j+(ij-i.-,j+),=l,2,r,J=1,2,5(2.2)记Yij=Ay-A/.-Pj÷P»i=l,2,/,J=I,2,,s(2.3)此时/.=/+al.+j+(2.4)先称为水平4和水平吗的交互效应,这是由4,吗搭配起来联合起作用而引起的。易见t兀=°,=1,2,s?=之九=°,i=12/;=1这样,(2.1)可写成=+%+/+/+%«,(2.5)£油N(OQ2),i=l,2,",j=l,2,,s,%=1,2,J,各,独立,=。,为四=OS加=。,£加=°Z=Ij=r=l;=1其中M,aj,j,九.及er?都是未知参数。(2.5)式就是我们所要探讨的双因素试验方差分析的数学模型。对于这一模型我们要检验以下三个假设:/:a1a2=,=af0,<H”:%,%,不全为零,(26)“02:B=B?=B$=。,1%:自,氏不全为零,(2.7)HQi-Xll=%2=7=0,网3%,%2,%不全为零(2.8)与单因素状况类似,对这些问题的检验方法也是建立在平方和的分解上的。先引入以下记号:_I/Xij-=-»i=l,2,r,=l,2,siA=I_1sI=->z=l,2,rSt=1=lj-=,J=12门<=*=1再引入总平方和s7=-)2Z-I;=1=l我们可将S7写成:s7=(x)2=(I-Ij=lA=I/-1y=*=1-Xy.)+(Xi-)+(x-X)+(Xij-Xi-X-J-+X)2=(-Xi2+(xf-)2+(x>-x>21-1j=lM=Ii-1J=I=l1-1;=1Jt=I-$,_+ZZZ(x-Xi.-Xj.÷x)2*-1=«=1即得平方和的分解式:Sr=SE+Sa+SAxB(2.9)其中=,)2/-l=lk=Sa=(X1.X)2=SfS(X,.-x)2/-lj=Jt=I*-lSB=(-)2=-x)1I-j=lj=(2.10)(2.11)(2.12)_r_5_/_J_$_sa×b=(冲一XiTj+x)2=Z(x.-Xi-Xj.+x)2-lj=l=l/-1j=SE称为误差平方和,S”Ss分别称为因素A、因素B的效应平方和,Saxs称为A,B交互效应平方和。可以证明S7,Se,Sa,Sb,Saxb的自由度依次为注,一1,r-l,S-I,I:(2.14)SIEY=2+-r-(2.15)SB»-1_2,;=1=H5-1(2.16)SAXB方i=lJ=I(r-l)(5-l)(2.17)当H(H:%=。2=,=0为真时,可以证明SAfa=rsj-(r-hr5(r-l)(2.18)rs(t-1)取显著性水平为,得假设“0的拒绝域为SA(2.19)(2.20)Fa=-r-Fa(r-yrs(t-)rs(t-1)类似地,在显著性水平。下,假设”02的拒绝域为SBFg=.A-1.>Fa(s-9rs(t-)建rs(t-1)在显著性水平。下,假设”03的拒绝域为°A×BFaxb="U'"(r-l)(5-l),r5(r-l)、Ers(t-i)上述结果可汇总成下列的方差分析表:表9.9双因素试验的方差分析表方差来源平方和自由度均方尸比因素ASAr-1SAr-1FSaFF因素BSBs-l-SrSB=-s-5-1ZTSBF1J=hSE交互作用SAK8(D(S-I)_SSAXB=也一(r-1)(5-1)口SA×BA×B3E误差SErs(t-)SESe=rs(t-1)总和STE-I(二)双因素无重复试验的方差分析在以上的探讨中,我们考虑了双因素试验中两个因素的交互作用。为要检验交互作用的效应是否显著,对于两个因素的每一组合(Aj,8j)至少要做2次试验。这是因为在模型(2.5)中,若k=l,乙与与总以结合在一起的形式出现,这样就不能将交互作用与误差项分别开来。假如在处理实际问题时,我们己经知道不存在交互作用,或己知交互作用对试验的指标影响很小,则可以不考虑交互作用。此时,即使=1,也能对因素4、因素8的效应进行分析。现设对于两个因素的每一组合(4,B,)只做一次试验,所得结果如下。B2Bi4孙X12XSA2X2X22彳2XrS4NQijj,"),各与独立,i=l,2,=1,2,5VVV并设其中,/-,均为未知参数。或写成Xij=Nij+%j,%N(0q2),各为独立,i=l,2,r,j=l,24,s(2.23)沿用(一)中的记号,留意到现在假设不存在交互作用,此时ii=O,i=l,2,r,/=1,2,5。故由(2.4)式知z歹=+%+4,。于是(2.23)式可写成Xij="+%+0+%,£寸'(O,/),各独立,i=l,2,r,=l,2,sSaj=Os.)=。7=1(2.24)这就是现在要探讨的方差分析的模型。对这个模型我们所要检验的假设有以下两个:HOl:a1=a2=%=0,HIl:囚,不全为零,HO2'=l=A=0,HEA,不全为零,与(一)中同样的探讨可得方差分析表如下:方差来源平方和自由度均方尸比因素ASAr-1SAr-1FSaE=hSE因素BSBS-ISrSb=-5-1c,SBFli=hSe误差SE(D(s-l)ME=总和STrs-取显著性水平为Q,得假设的拒绝域为Fa=Fz(r-l,(r-l)(5-l)(D(S-I)在显著性水平。下,假设Ho?的拒绝域为SBFB=展一(5-l,(r-l)Cv-l)(Dd)思索:SA=?'SB=?,SE=?提不:=(一元P,Sb=司一君2,Se=££(专一吊一弓+亍)2i=lJ=I/=Ij=l=lJ=I