实验设计与数据处理第二部分.ppt
第三章 方差分析,3.1 数据处理的概念和意义,数据处理主要研究实验测量或观察数据分析计算的处理方法,从而得出可靠或规律性的结果。依据这个规律和结果对工业生产、农业生产、天气、地震等进行预报和控制,从而掌握和主宰客观事物的发展规律,使之服从和服务于人类。数据处理的方法很多,如参数估计、假设检验、方差分析和回归分析等。,3.2 方差分析的概述,方差分析(Analysis of Variance)由英国统计学家首创,为纪念Fisher,以F命名,故方差分析又称 F 检验。,3.2.1 方差分析的概念和意义,方差分析的中心点是把实验观测数据总的波动分解为反映因素水平变化引起的波动和反映实验误差引起的波动两部分。方差分析亦即把实验观测数据的总的偏差平方和(ST)分解为反映必然性的各个因素的偏差平方和(SA、SB、SN)与反映偶然性的误差偏差平方和(Se),并计算比较它们的平均偏差平方和,以找出对实验观测数据起决定性影响的因素作为进行定量分析判断的依据。,方差分析能把实验过程中实验条件改变所引起的数据波动与实验误差引起的数据波动区分开,同时对影响实验结果的各因素的重要程度给以精确的数量估计。方差分析类型很多,概括起来有以下几种:(1)单因素实验的方差分析(2)多因素实验的方差分析(3)正交实验设计的方差分析(4)SN比实验设计法,3.2.2 单因素实验的方差分析,在一项实验中,若只有一个因素的水平在改变,而其他因素的水平固定不变,这就叫做单因素实验。3.2.2.1 方差分析的基本思想例 3.1 考察生产某化工产品时反应温度A()对收率y()的影响。为此,比较两个反应温度A130,A240。,实验号,水平,表 3.1 某化工产品收率实验数据表,条件误差:由于实验条件的不同而引起的差异叫“条件误差”。实验误差:即同一条件(同水平)下,存在偶然因素而引起的差异叫“实验误差”,即“随机误差”。为了考察某个因素对指标的作用,必须将总误差分解为条件误差和实验误差,并比较之,作出因素对指标的作用是否显著的结论,这种分析方法称为方差分析法。,条件误差、实验误差、总误差之间有什么关系呢?,用全部10个实验数据与总的平均值(75.7)之差的偏差平方和来估计总的误差,这个平方和称为总的偏差平方和,记为ST,即 ST(75-75.7)2+(78-75.7)2+(85-75.7)2 1294.10用同一条件(水平)下5次实验的数据与其平均值之差的偏差平方和来估计实验误差,即 对A1(30)条件下:S1(75-71.4)2+(78-71.4)2+(83-71.4)2 429.20 对A2(40)条件下:S2(89-80.0)2+(62-80.0)2+(85-80.0)2 680.00 这两个偏差平方和相加,反映了实验误差的大小,称为组内偏差平方和或误差平方和(Se):Se S1+S2 429.20+680.00 1109.20,用每种条件(水平)的数据平均值与总的平均值差的偏差平方和来估计条件误差。因每种条件重复了5次,故将此平方和5倍,称为组间偏差平方和或因素的偏差平方和(SA):SA5(71.4-75.7)2+5(80.0 75.7)2 184.90 可以看出,此处有ST SA+Se 184.90+1109.20 1294.10即总的偏差平方和可以分解为组间偏差平方和与组内偏差平方和。,有了SA和Se之后,是否就能直接比较出由于因素水平的变化引起的数据波动与实验误差引起的数据波动之间的差异呢?,偏差平方和不仅与数据本身有关,而且还与数据的个数有关。为此,必须消除数据个数的影响,采用平均偏差平方和SA/fA(组间方差)与Se/fe(组内方差)进行比较,并以此作出推断。其中,fA和fe分别称为SA与Se的自由度(即偏差平方和式中独立数据的个数)。对Se而言,因为其中的10个数据满足两个关系式(75+78+60+61+83)/5=71.4(89+62+93+71+85)/5=80.0 所以Se的自由度fe=10-28.,对SA而言,因为其中的2个数据有一个关系式(71.4+80.0)/2=75.7 所以SA的自由度fA=2-1=1.对ST而言,因为其中的10个数据有一个关系式(75+78+60+61+83+89+62+93+71+85)/10=75.7 所以ST的自由度fT=10-1=9.显然 fT=fA+fe=1+8=9.如果平方和是由n项组成,它的自由度就是n1,如果一个平方和是由几部分的平方和组成,则总的自由度等于各部分自由度之和。,计算F值:,然后对因素进行显著性检验。F值的大小,可以用来判断因素水平对考察指标影响的显著性。F值接近1,说明因素水平改变对考察指标的影响在误差范围内,即水平间无显著差异;F值越大,说明因素水平的改变对指标的影响超过了实验误差造成的影响,即条件误差相对实验误差大得多。,F多大时,可以说因素的水平改变对考察指标的影响是显著的呢?小到多小,认为实验结果的误差主要是实验误差引起的,这就需要有一个标准。这个标准由F表给出。,在F表上,横行n1代表F值中分子的自由度,竖行n2代表F值中分母的自由度,相交后的数值即为F比的临界值。,本例中,因,对0.05,查得F0.05(1,8)5.3,为置信度(显著水平),表示在作出某种判断时犯错误的概率。因F1.335.3,故可以认为在水平0.05下,反应温度A对指标收率的影响不显著,或反应温度30和40对收率的影响没有显著差异,实验结果出现的波动主要是由实验误差造成的。,3.2.2.2 单因素实验方差分析的一般步骤,设有一单因素实验,因素A有m个水平,每个水平均重复k次实验,水平Ai的第j次实验值为xij(i=1,2,m;j=1,2,k)。,表3.2 数据计算表,Ti表示Ai水平下k次实验数据的合计,表示Ai水平下k次实验数据的算术平均值。,共进行了mk次实验,令n=mk,用T表示n个实验值的总和,即,用 表示n个实验值的总平均值,即,1.偏差平方和的分解,把整个实验结果所得的每一个观测值xij对其总平均值 求偏差平方和,用ST表示,可用下式计算:,I,II,III,式中I项是在同一条件(水平)下,k次实验的数据与其平均值的偏差平方和,称为组内偏差平方和,因为它反映了实验过程引起的误差,所以也称误差平方和,用Se表示。,式中II项,式中III项是每一种条件(水平)下,k次实验数据的平均值与km次实验总的平均值的偏差平方和,称为组间偏差平方和,因为它反映了条件(水平)引起的误差,所以也称条件误差。用SA或S1表示。,所以 ST Se+SA,总偏差平方和分解公式,在实际计算中,往往先算出ST及SA,而Se由STSA求得。,2.平均偏差平方和与自由度,(1)自由度 令f、fe及fA分别为总自由度、组内自由度和组间自由度,则,它们之间的关系为 f=fe+fA,偏差平方和的自由度分解式,(2)方差令V、Ve和VA分别为总方差、组内方差和组间方差,则,3.用F检验法进行显著性检验,为了计算方便,计算ST,Se,SA时经常采用以下简化公式,STRP,SeRQ,SAQP,例 3.2 某4个实验室同用碘量法测定一种黄铜合金试样中的铜含量,均测定5次,结果如下表所示。,试分析各实验室的测定结果之间是否存在显著性差异。,fe=n-m=20-4=16fA=m-1=4-1=3f=n-1=20-1=19f=fA+fe=16+3=19,为了方便计算,可对数据进行简化。将整数部分去掉(不影响计算结果)。,(1)偏差平方和,ST Se SA 0.9278+1.7044=2.6322,(2)方差,(3)F检验,(4)方差分析表,方差分析表,即各实验室的测定结果之间存在显著性差异。因此,实验室间存在系统误差,应仔细查找原因,采取有效措施加以消除。,作业,现有四种型号1、2、3、4的轮胎,欲比较各型号轮胎在运行20km后支撑瓦的磨损情况,为此,从每型号轮胎中任取四只,并随机地安装于四辆汽车上,汽车运行20km后,对各支撑瓦进行检测得表中所示的数据,问四种型号的轮胎是否具有明显的差别?,型号,实验号,3.2.3 正交实验设计方差分析的基本原理,在正交表上进行方差分析的基本步骤与格式如下:(1)偏差平方和的计算与分解现以L4(23)正交表上安排实验来说明,列号,实验号,L4(23)正交表,总的偏差平方和ST为,化简为,第一列各水平的偏差平方和,同理,第二列、第三列各水平的偏差平方和分别为,由此可得,L4(23)正交表总偏差平方和的分解公式,若将L4(23)正交表的第1列和第2列分别安排A、B因素,在不考虑AB的情况下,在第3列为误差列。,一般地,若用正交表安排N个因素的实验(包括存在交互作用因素),则有,要计算某因素的偏差平方和,只要把该因素所在列偏差平方和计算出来即可(交互作用的偏差平方和,同样是它所在列的列偏差平方和),空白列的列偏差平方和就是误差平方和。,今用正交表安排N个因素的实验,设总的试验次数为n,实验结果为x1、x2、xn,每个因素的水平数为m,每个水平做r次试验(水平重复数r),则n=mr。,称为各数据平方之和,称为修正项,因素的偏差平方和(如因素A)为,误差的偏差平方和Se为,或者 Se=ST 各因素(含交互作用)的偏差平方和之和。,(2)计算平均偏差平方和与自由度,平均偏差平方和,自由度分解公式,fT=总的实验次数-1n1 fA=因素A的水平数-1m1 fB=因素B的水平数-1 m 1 fe=fT(fA+fB),若A、B两因素存在交互作用,则SAB的自由度fAB等于两因素自由度之积、即fAB fA fB 此时,fe=fT(fA+fB+fAB),(3)F值计算及F检验,例如,对因素A来说,当FAF(f1,f2)时,如0.1,就有90的把握说因素A的水平改变对实验结果有显著影响。,根据正交表的特点,其方差分析可以按下述原则进行:总的平方和恰好等于各列的平方和之和。方差分析的优点是能把总平方和分解成因素与误差平方和。计算规格化。在正交设计中每个因素列(包括交互作用列和误差列)的计算步骤完全一样。因此,方差分析的基本计算可逐列进行。,3.2.4 正交实验设计的方差分析,3.2.4.1 相同水平正交实验设计的方差分析例3.3 用两种不同蒸养时间和振捣方式进行混凝土增强效果的比较试验。试验中的因素与水平列于下表。,因素,水平,因素水平表,要考虑A、B、C和AB、AC、BC对混凝土7天抗压强度的影响,并选择较优的生产工艺。,L8(27)试验方案与极差计算结果,影响因素的主次顺序 B A AB C AC BC,例3.4 对例3.3进行方差分析解:按公式先算第1列的偏差平方和SA,其它各列的计算方法同上各列自由度均为211,方差分析结果见下表,方差分析表,对因素进行F检验时,一般可考虑四种情况。F F0.01(f因,fe),则因素对结果的影响高度显著。F0.01(f因,fe)F F0.05(f因,fe),则该因素对结果的影响为显著。F0.05(f因,fe)F F0.1(f因,fe),则该因素对结果有影响。F F0.1(f因,fe),则该因素对结果无影响。方差分析结果:A和B对强度影响高度显著,AB影响显著,而C的影响不显著。所以,对A和B的水平应严格选取,而C的水平可以任取。实验误差为:(Ve)1/2=(62.7)1/2=7.9kg/cm2,可见,方差分析的结论与极差法的结论不尽相同。显然,由于方差分析利用了更多的信息,因此方差分析更加可靠、准确。注意 由于实验误差的方差Ve=Se/fe直接影响F值的大小。在fe很小时,F检验的灵敏度很低;fe太大,又要增加实验次数,故一般fe在620之间最理想。当正交实验安排表中空列不止一列,如为y列时,实验误差平方和Se应等于总平方和ST减去各因素列平方和。而相应的自由度fe=y(因素的水平数1),3.2.4.2 不同水平正交实验设计的方差分析不同水平(混合型)正交表的方差分析与相同水平的正交表方差分析基本相同,只是在计算偏差平方和及自由度时,应注意各列水平数的差别。,3.2.5 正交实验的下一轮实验设计,在完成了第一轮正交实验后,通过不同的分析方法,至少可以得到三个优秀方案。所获得的可能最优及可能更优方案,都还没有经过实验验明,而且也还存在实验误差,因此正交试验设计常常要进行第二轮、第三轮甚至更多次。进行下轮实验的目的:首先是为了验证原实验结果是否可靠;验证可能最优及可能更优方案是否确实最优,以及哪一个方案最优;其次是结合其它要求(如成本、质量、能耗、操作等),探寻综合更优的条件组合。,下一轮实验计划有如下两种安排方法:一、不用正交表的下一轮实验设计对第一轮正交实验结果分析所得出的全部可能优秀方案,逐一方案都重复做n次实验。然后将其实验结果取平均值,得出每一方案的准确结果。比较这些方案的各自结果,从中选出最优秀方案,将其确定为生产条件。二、继续用正交表安排下一轮实验此方法是利用前批实验的经验和信息,重新选取后批实验的因素、水平以及比前批试验次数少的正交表,进行下一轮实验。,