试验设计与数据处理(第二版)-李云雁(全书ppt).ppt
试验设计与数据处理(第二版),Experiment Design and Data Processing,引 言,0.1 试验设计与数据处理的发展概况,20世纪20年代,英国生物统计学家及数学家费歇(RAFisher)提出了方差分析 20世纪50年代,日本统计学家田口玄一将试验设计中应用最广的正交设计表格化 数学家华罗庚教授也在国内积极倡导和普及的“优选法”我国数学家王元和方开泰于1978年首先提出了均匀设计,0.2 试验设计与数据处理的意义,0.2.1 试验设计的目的:合理地安排试验,力求用较少的试验次数获得较好结果 例:某试验研究了3个影响因素:A:A1,A2,A3 B:B1,B2,B3 C:C1,C2,C3 全面试验:27次 正交试验:9次,0.2.2 数据处理的目的,通过误差分析,评判试验数据的可靠性;确定影响试验结果的因素主次,抓住主要矛盾,提高试验效率;确定试验因素与试验结果之间存在的近似函数关系,并能对试验结果进行预测和优化;试验因素对试验结果的影响规律,为控制试验提供思路;确定最优试验方案或配方。,第1章 试验数据的误差分析,误差分析(error analysis):对原始数据的可靠性进行客观的评定 误差(error):试验中获得的试验值与它的客观真实值在数值上的不一致试验结果都具有误差,误差自始至终存在于一切科学实验过程中客观真实值真值,1.1 真值与平均值,1.1.1 真值(true value)真值:在某一时刻和某一状态下,某量的客观值或实际值 真值一般是未知的相对的意义上来说,真值又是已知的平面三角形三内角之和恒为180国家标准样品的标称值国际上公认的计量值 高精度仪器所测之值多次试验值的平均值,1.1.2 平均值(mean),(1)算术平均值(arithmetic mean),等精度试验值,适合:,试验值服从正态分布,(2)加权平均值(weighted mean),适合不同试验值的精度或可靠性不一致时,wi权重,加权和,(3)对数平均值(logarithmic mean),说明:若数据的分布具有对数特性,则宜使用对数平均值对数平均值算术平均值如果1/2x1/x22 时,可用算术平均值代替,设两个数:x10,x2 0,则,(4)几何平均值(geometric mean),当一组试验值取对数后所得数据的分布曲线更加对称时,宜采用几何平均值。几何平均值算术平均值,设有n个正试验值:x1,x2,xn,则,(5)调和平均值(harmonic mean),常用在涉及到与一些量的倒数有关的场合调和平均值几何平均值算术平均值,设有n个正试验值:x1,x2,xn,则:,1.2 误差的基本概念,1.2.1 绝对误差(absolute error)(1)定义 绝对误差试验值真值 或,(2)说明,真值未知,绝对误差也未知,可以估计出绝对误差的范围:,绝对误差限或绝对误差上界,或,绝对误差估算方法:最小刻度的一半为绝对误差;最小刻度为最大绝对误差;根据仪表精度等级计算:绝对误差=量程精度等级%,1.2.2 相对误差(relative error),(1)定义:,或,或,(2)说明:,真值未知,常将x与试验值或平均值之比作为相对误差:,或,可以估计出相对误差的大小范围:,相对误差限或相对误差上界,相对误差常常表示为百分数(%)或千分数(),1.2.3 算术平均误差(average discrepancy),定义式:,可以反映一组试验数据的误差大小,1.2.4 标准误差(standard error),当试验次数n无穷大时,总体标准差:,试验次数为有限次时,样本标准差:,表示试验值的精密度,标准差,试验数据精密度,(1)定义:以不可预知的规律变化着的误差,绝对误差时正时负,时大时小(2)产生的原因:偶然因素(3)特点:具有统计规律小误差比大误差出现机会多正、负误差出现的次数近似相等当试验次数足够多时,误差的平均值趋向于零 可以通过增加试验次数减小随机误差随机误差不可完全避免的,1.3.1 随机误差(random error),1.3 试验数据误差的来源及分类,1.3.2 系统误差(systematic error),(1)定义:一定试验条件下,由某个或某些因素按照某一确定的规律起作用而形成的误差(2)产生的原因:多方面(3)特点:系统误差大小及其符号在同一试验中是恒定的 它不能通过多次试验被发现,也不能通过取多次试验值的平均值而减小只要对系统误差产生的原因有了充分的认识,才能对它进行校正,或设法消除。,1.3.3 过失误差(mistake),(1)定义:一种显然与事实不符的误差(2)产生的原因:实验人员粗心大意造成(3)特点:可以完全避免 没有一定的规律,1.4.1 精密度(precision),(1)含义:反映了随机误差大小的程度在一定的试验条件下,多次试验值的彼此符合程度 例:甲:11.45,11.46,11.45,11.44 乙:11.39,11.45,11.48,11.50(2)说明:可以通过增加试验次数而达到提高数据精密度的目的 试验数据的精密度是建立在数据用途基础之上的 试验过程足够精密,则只需少量几次试验就能满足要求,1.4 试验数据的精准度,(3)精密度判断,极差(range),标准差(standard error),R,精密度,标准差,精密度,方差(variance),标准差的平方:样本方差(s2)总体方差(2)方差,精密度,1.4.2 正确度(correctness),(1)含义:反映系统误差的大小(2)正确度与精密度的关系:,精密度不好,但当试验次数相当多时,有时也会得到好的正确度,精密度高并不意味着正确度也高,(a),(b),(c),1.4.3 准确度(accuracy),(1)含义:反映了系统误差和随机误差的综合 表示了试验结果与真值的一致程度(2)三者关系无系统误差的试验,精密度:ABC正确度:ABC准确度:ABC,有系统误差的试验,精密度:A B C 准确度:A B C,A B,C,1.5.1 随机误差的检验,1.5 试验数据误差的统计假设检验,(1)目的:,对试验数据的随机误差或精密度进行检验。,(2)检验步骤:,计算统计量,查临界值,一般取0.01或0.05,表示有显著差异的概率,双侧(尾)检验(two-sided/tailed test):,检验,若,则判断两方差无显著差异,否则有显著差异,单侧(尾)检验(one-sided/tailed test):左侧(尾)检验:,则判断该方差与原总体方差无显著减小,否则有显著减小,右侧(尾)检验,则判断该方差与原总体方差无显著增大,否则有显著增大,若,若,1.5.1.2 F检验(F-test),(1)目的:对两组具有正态分布的试验数据之间的精密度进行比较(2)检验步骤计算统计量,设有两组试验数据:,都服从正态分布,样本方差分别为,和,和,,则,第一自由度为,第二自由度为,服从F分布,,查临界值给定的显著水平,查F分布表,临界值,双侧(尾)检验(two-sided/tailed test):,检验,若,则判断两方差无显著差异,否则有显著差异,单侧(尾)检验(one-sided/tailed test):左侧(尾)检验:,则判断该判断方差1比方差2无显著减小,否则有显著减小,右侧(尾)检验,则判断该方差1比方差2无显著增大,否则有显著增大,若,若,(3)Excel在,F检验中的应用,1.5.2 系统误差的检验,1.5.2.1 t检验法(1)平均值与给定值比较 目的:检验服从正态分布数据的算术平均值是否与给定值有显著差异检验步骤:计算统计量:,给定值(可以是真值、期望值或标准值),双侧检验:,若,则可判断该平均值与给定值无显著差异,否则就有显著差异,单侧检验,左侧检验,若,且,则判断该平均值与给定值无显著减小,否则有显著减小,右侧检验,若,且,则判断该平均值与给定值无显著增大,否则有显著增大,(2)两个平均值的比较 目的:判断两组服从正态分布数据的算术平均值有无显著差异计算统计量:两组数据的方差无显著差异时,s合并标准差:,两组数据的精密度或方差有显著差异时,服从t分布,其自由度为:,t检验,双侧检验:,若,则可判断两平均值无显著差异,否则就有显著差异,单侧检验,左侧检验,若,且,则判断该平均值1较平均值2无显著减小,否则有显著减小,右侧检验,若,且,则判断该平均值1较平均值2无显著增大,否则有显著增大,(3)成对数据的比较 目的:试验数据是成对出现,判断两种方法、两种仪器或两分析人员的测定结果之间是否存在系统误差计算统计量:,成对测定值之差的算术平均值:,零或其他指定值,n对试验值之差值的样本标准差:,t检验 若,否则两组数据之间存在显著的系统误差,,则成对数据之间不存在显著的系统误差,,(4)Excel在,t检验中的应用,1.5.2.2 秩和检验法(rank sum test),(1)目的:两组数据或两种试验方法之间是否存在系统误差、两种方法是否等效等,不要求数据具有正态分布(2)内容:设有两组试验数据,相互独立,n1,n2分别是两组数据的个数,总假定 n1n2;将这个试验数据混在一起,按从小到大的次序排列 每个试验值在序列中的次序叫作该值的秩(rank)将属于第1组数据的秩相加,其和记为R1 R1第1组数据的秩和(rank sum)如果两组数据之间无显著差异,则R1就不应该太大或太小,查秩和临界值表:根据显著性水平和n1,n2,可查得R1的上下限T2和T1 检验:如果R1T2 或R1 T1,则认为两组数据有显著差异,另一组数据有系统误差如果T1R1T2,则两组数据无显著差异,另一组数据也无系统误差,(3)例:,设甲、乙两组测定值为:甲:8.6,10.0,9.9,8.8,9.1,9.1 乙:8.7,8.4,9.2,8.9,7.4,8.0,7.3,8.1,6.8已知甲组数据无系统误差,试用秩和检验法检验乙组测定值是否有系统误差。(0.05),解:(1)排序:,(2)求秩和R1 R1=7911.511.5141568(3)查秩和临界值表 对于0.05,n1=6,n2=9得 T1=33,T263,R1T2 故:两组数据有显著差异,乙组测定值有系统误差,1.5.3 异常值的检验,可疑数据、离群值、异常值 一般处理原则为:在试验过程中,若发现异常数据,应停止试验,分析原因,及时纠正错误试验结束后,在分析试验结果时,如发现异常数据,则应先找出产生差异的原因,再对其进行取舍在分析试验结果时,如不清楚产生异常值的确切原因,则应对数据进行统计处理;若数据较少,则可重做一组数据对于舍去的数据,在试验报告中应注明舍去的原因或所选用的统计方法,1.5.3.1 拉依达()检验法,内容:可疑数据xp,若,则应将该试验值剔除。,说明:,计算平均值及标准偏差s 时,应包括可疑值在内,3s相当于显著水平0.01,2s相当于显著水平0.05,可疑数据应逐一检验,不能同时检验多个数据 首先检验偏差最大的数 剔除一个数后,如果还要检验下一个数,应重新计算平均值及标准偏差方法简单,无须查表 该检验法适用于试验次数较多或要求不高时3s为界时,要求n102s为界时,要求n5,有一组分析测试数据:0.128,0.129,0.131,0.133,0.135,0.138,0.141,0.142,0.145,0.148,0.167,问其中偏差较大的0.167这一数据是否应被舍去?(0.01),解:(1)计算,例:,(2)计算偏差,(3)比较,3s30.011160.03350.027,故按拉依达准则,当0.01时,0.167这一可疑值不应舍去,(2)格拉布斯(Grubbs)检验法,内容:可疑数据xp,若,则应将该值剔除。,Grubbs检验临界值,格拉布斯(Grubbs)检验临界值G(,n)表,说明:,计算平均值及标准偏差s 时,应包括可疑值在内可疑数据应逐一检验,不能同时检验多个数据 首先检验偏差最大的数 剔除一个数后,如果还要检验下一个数,应重新计算平均值及标准偏差能适用于试验数据较少时 格拉布斯准则也可以用于检验两个数据偏小,或两个数据偏大的情况 例:例1-13,(3)狄克逊(Dixon)检验法,单侧情形将n个试验数据按从小到大的顺序排列:x1x2xn-1xn 如果有异常值存在,必然出现在两端,即x1 或xn计算出统计量D或D查单侧临界值,检验,双侧情形计算D和 D查双侧临界值,检验,说明,适用于试验数据较少时的检验,计算量较小 单侧检验时,可疑数据应逐一检验,不能同时检验多个数据 剔除一个数后,如果还要检验下一个数,应重新排序 例:例1-14,1.6.1 有效数字(significance figure),能够代表一定物理量的数字有效数字的位数可反映试验或试验仪表的精度数据中小数点的位置不影响有效数字的位数例如:50,0.050m,5.0104m第一个非0数前的数字都不是有效数字,而第一个非0数后的数字都是有效数字例如:29和29.00第一位数字等于或大于8,则可以多计一位例如:9.99,1.6 有效数字和试验结果的表示,1.6.2 有效数字的运算,(1)加、减运算:与其中小数点后位数最少的相同(2)乘、除运算 以各乘、除数中有效数字位数最少的为准(3)乘方、开方运算:与其底数的相同:例如:2.42=5.8(4)对数运算:与其真数的相同 例如ln6.841.92;lg0.000044,(5)在4个以上数的平均值计算中,平均值的有效数字可增加一位(6)所有取自手册上的数据,其有效数字位数按实际需要取,但原始数据如有限制,则应服从原始数据。(7)一些常数的有效数字的位数可以认为是无限制的 例如,圆周率、重力加速度g、1/3等(8)一般在工程计算中,取23位有效数字,1.6.3 有效数字的修约规则,4:舍去5,且其后跟有非零数字,进1位例如:3.14159 3.1425,其右无数字或皆为0时,“尾留双”:若所保留的末位数字为奇数则进1若所保留的末位数字为偶数则舍弃例如:3.1415 3.142 1.3665 1.366,1.7 误差的传递,误差的传递:根据直接测量值的误差来计算间接测量值的误差1.7.1 误差传递基本公式 间接测量值y与直接测量值xi之间函数关系:,全微分,函数或间接测量值的绝对误差为:,相对误差为:,误差传递系数,直接测量值的绝对误差;,间接测量值的绝对误差或称函数的绝对误差。,函数标准误差传递公式:,1.7.2 常用函数的误差传递公式,表1-4,1.7.3 误差传递公式的应用,(1)根据各分误差的大小,来判断间接测量或函数误差的主要来源:例1-16(2)选择合适的测量仪器或方法:例1-17,秩和临界值表,统计量D计算公式,第2章 试验数据的表图表示法,2.1 列表法,将试验数据列成表格,将各变量的数值依照一定的形式和顺序一一对应起来(1)试验数据表记录表试验记录和试验数据初步整理的表格 表中数据可分为三类:原始数据 中间数据最终计算结果数据,结果表示表表达试验结论 应简明扼要,(2)说明:,三部分:表名、表头、数据资料 必要时,在表格的下方加上表外附加 表名应放在表的上方,主要用于说明表的主要内容,为了引用的方便,还应包含表号 表头常放在第一行或第一列,也称为行标题或列标题,它主要是表示所研究问题的类别名称和指标名称 数据资料:表格的主要部分,应根据表头按一定的规律排列 表外附加通常放在表格的下方,主要是一些不便列在表内的内容,如指标注释、资料来源、不变的试验数据等,(3)注意:,表格设计应简明合理、层次清晰,以便阅读和使用;数据表的表头要列出变量的名称、符号和单位;要注意有效数字位数;试验数据较大或较小时,要用科学记数法来表示,并记入表头,注意表头中的与表中的数据应服从下式:数据的实际值10n 表中数据;数据表格记录要正规,原始数据要书写得清楚整齐,要记录各种试验条件,并妥为保管。,2.2.1 常用数据图,(1)线图(line graph/chart)表示因变量随自变量的变化情况 线图分类:单式线图:表示某一种事物或现象的动态 复式线图:在同一图中表示两种或两种以上事物或现象的动态,可用于不同事物或现象的比较,2.2 图示法,图1 高吸水性树脂保水率与时间和温度的关系,图2 某离心泵特性曲线,(2)XY散点图(scatter diagram),表示两个变量间的相互关系 散点图可以看出变量关系的统计规律,图3 散点图,(3)条形图和柱形图,用等宽长条的长短或高低来表示数据的大小,以反映各数据点的差异 两个坐标轴的性质不同 数值轴:表示数量性因素或变量 分类轴:表示的是属性因素或非数量性变量,图4 不同提取方法提取率比较,分类:单式:只涉及一个事物或现象 复式:涉及到两个或两个以上的事物或现象,图5 不同提取方法对两种原料有效成分提取率效果比较,(4)圆形图和环形图,圆形图(circle chart)也称为饼图(pie graph)表示总体中各组成部分所占的比例 只适合于包含一个数据系列的情况 饼图的总面积看成100%,每3.6圆心角所对应的面积为1%,以扇形面积的大小来分别表示各项的比例,图6 全球天然维生素E消费比例,环形图(circular diagram),每一部分的比例用环中的一段表示 可显示多个总体各部分所占的相应比例,有利于比较,图7 全球合成、天然维生素E消费比例比较,(5)三角形图(ternary),常用于表示三元混合物各组分含量或浓度之间的关系 三角形:等腰Rt、等边、不等腰Rt等顶点:纯物质边:二元混合物三角形内:三元混合物,M,xA,xS,xB1 xA xS,图8 等腰直角三角形坐标图,A,B,C,xC,xB,xA,xA,xA,xC,xC,xB,xB,M,E,F,图9 等边三角形坐标图,(6)三维表面图(3D surface graph),三元函数Z=f(X,Y)对应的曲面图,根据曲面图可以看出因变量Z值随自变量X和Y值的变化情况,图10 三维表面图,(7)三维等高线图(contour plot),三维表面图上Z值相等的点连成的曲线在水平面上的投影,图11 三维等高线图,绘制图形时应注意:,(1)在绘制线图时,要求曲线光滑,并使曲线尽可能通过较多的实验点,或者使曲线以外的点尽可能位于曲线附近,并使曲线两侧的点数大致相等;(2)定量的坐标轴,其分度不一定自零起;(3)定量绘制的坐标图,其坐标轴上必须标明该坐标所代表的变量名称、符号及所用的单位,一般用纵轴代表因变量;(4)坐标轴的分度应与试验数据的有效数字位数相匹配;(5)图必须有图号和图题(图名),以便于引用,必要时还应有图注。,2.2.2 坐标系的选择,坐标系(coordinate system)笛卡尔坐标系(又称普通直角坐标系)、半对数坐标系、对数坐标系、极坐标系、概率坐标系、三角形坐标系.对数坐标系(semi-logarithmic coordinate system)半对数坐标系 双对数坐标系,(1)选用坐标系的基本原则:,根据数据间的函数关系线性函数:普通直角坐标系幂函数:双对数坐标系指数函数:半对数坐标根据数据的变化情况两个变量的变化幅度都不大,选用普通直角坐标系;有一个变量的最小值与最大值之间数量级相差太大时,可以选用半对数坐标;两个变量在数值上均变化了几个数量级,可选用双对数坐标;在自变量由零开始逐渐增大的初始阶段,当自变量的少许变化引起因变量极大变化时,此时采用半对数坐标系或双对数坐标系,可使图形轮廓清楚,例:,图12 普通直角坐标系,图13 对数坐标系,(2)坐标比例尺的确定,在变量x和y的误差x,y已知时,比例尺的取法应使试验“点”的边长为2x,2y,而且使2x2y12,若2y2,则y轴的比例尺My应为:,推荐坐标轴的比例常数M(1、2、5)10 n(n为正整数),而3、6、7、8等的比例常数绝不可用;,纵横坐标之间的比例不一定取得一致,应根据具体情况选择,使曲线的坡度介于3060之间,例2:研究pH值对某溶液吸光度A的影响,已知pH值的测量误差pH0.1,吸光度A的测量误差A0.01。在一定波长下,测得pH值与吸光度A的关系数据如表所示。试在普通直角坐标系中画出两者间的关系曲线。,设2pH2A2mm,解:,pH0.1,A0.01,横轴的比例尺为,纵轴的比例尺为,图14 坐标比例尺对图形形状的影响,2.3.1 Excel在图表绘制中的应用(1)利用Excel生成图表的基本方法(2)对数坐标的绘制(3)双Y轴(X轴)复式线图的绘制(4)图表的编辑和修改2.3.2 Origin在图形绘制中的应用(1)简单二维图绘制的基本方法(2)三角形坐标图的绘制(3)三维图的绘制,2.3 计算机绘图软件在图表绘制中应用,表2-1 离心泵特性曲线测定实验的数据记录表,附:泵入口管径:_mm;泵出口管径:_mm;真空表与压力表垂直距离:_mm;水温:_;电动机转速 r/min。,第3章 试验的方差分析,方差分析(analysis of variance,简称ANOVA)检验试验中有关因素对试验结果影响的显著性试验指标(experimental index)衡量或考核试验效果的参数 因素(experimental factor)影响试验指标的条件 可控因素(controllable factor)水平(level of factor)因素的不同状态或内容,3.1 单因素试验的方差分析(one-wayanalysisofvariance),3.1.1 单因素试验方差分析基本问题(1)目的:检验一个因素对试验结果的影响是否显著性(2)基本命题:设某单因素A有r种水平:A1,A2,Ar,在每种水平下的试验结果服从正态分布在各水平下分别做了ni(i1,2,r)次试验判断因素A对试验结果是否有显著影响,(3)单因素试验数据表,3.1.2 单因素试验方差分析基本步骤,(1)计算平均值组内平均值:,总平均:,(2)计算离差平方和,总离差平方和SST(sum of squares for total),表示了各试验值与总平均值的偏差的平方和 反映了试验结果之间存在的总差异,组间离差平方和 SSA(sum of square for factor A),反映了各组内平均值之间的差异程度 由于因素A不同水平的不同作用造成的,组内离差平方和 SSe(sum of square for error),反映了在各水平内,各试验值之间的差异程度 由于随机误差的作用产生,三种离差平方和之间关系:,(3)计算自由度(degree of freedom),总自由度:dfTn1组间自由度:dfA r1组内自由度:dfe nr 三者关系:dfT dfA dfe(4)计算平均平方均方离差平方和除以对应的自由度,MSA组间均方,MSe组内均方/误差的均方,(5)F检验,服从自由度为(dfA,dfe)的F分布(F distribution)对于给定的显著性水平,从F分布表查得临界值F(dfA,dfe)如果FA F(dfA,dfe),则认为因素A对试验结果有显著影响否则认为因素A对试验结果没有显著影响,(6)方差分析表,若 FA F0.01(dfA,dfe),称因素A对试验结果有非常显著的影响,用“*”号表示;若 F0.05(dfA,dfe)FA F0.01(dfA,dfe),则因素A对试验结果有显著的影响,用“*”号表示;若 FA F0.05(dfA,dfe),则因素A对试验结果的影响不显著,单因素试验的方差分析表,3.1.3 Excel在单因素试验方差分析中的应用,利用Excel“分析工具库”中的“单因素方差分析”工具,3.2 双因素试验的方差分析,讨论两个因素对试验结果影响的显著性,又称“二元方差分析”3.2.1 双因素无重复试验的方差分析(1)双因素无重复试验,(2)双因素无重复试验方差分析的基本步骤,计算平均值 总平均:,Ai水平时:,Bj水平时:,计算离差平方和,总离差平方和:因素A引起离差的平方和:因素B引起离差的平方和:误差平方和:,计算自由度,SSA的自由度:dfA r1SSB的自由度:dfBs1 SSe的自由度:dfe(r1)(s1)SST的自由度:dfTn1rs1 dfT dfA dfB dfe计算均方,F检验,FA服从自由度为(dfA,dfe)的F分布;FB服从自由度为(dfB,dfe)的F分布;对于给定的显著性水平,查F分布表:F(dfA,dfe),F(dfB,dfe)若FAF(dfA,dfe),则因素A对试验结果有显著影响,否则无显著影响;若FBF(dfB,dfe),则因素B对试验结果有显著影响,否则无显著影响;,无重复试验双因素方差分析表,无重复试验双因素方差分析表,3.2.2 双因素重复试验的方差分析,(1)双因素重复试验方差分析试验表,双因素重复试验方差分析试验表,(2)双因素重复试验方差分析的基本步骤,计算平均值总平均:任一组合水平(Ai,Bj)上:Ai水平时:Bj水平时:,计算离差平方和,总离差平方和:因素A引起离差的平方和:因素B引起离差的平方和:交互作用AB引起离差的平方和:误差平方和:,计算自由度,SSA的自由度:dfA r1SSB的自由度:dfBs1 SSAB的自由度:dfAB(r1)(s1)SSe的自由度:dfers(c 1)SST的自由度:dfTn1rsc1 dfT dfA dfB dfAB dfe,计算均方,F检验,若FAF(dfA,dfe),则认为因素A对试验结果有显著影响,否则无显著影响;若FBF(dfB,dfe),则认为因素B对试验结果有显著影响,否则无显著影响;若FABF(dfAB,dfe),则认为交互作用AB对试验结果有显著影响,否则无显著影响。,重复试验双因素方差分析表,3.2.3 Excel在双因素方差分析中的应用,(1)双因素无重复试验方差分析利用“分析工具库”中的“无重复双因素方差分析”工具(2)双因素重复试验方差分析利用“分析工具库”中的“重复双因素方差分析”工具,第4章 试验数据的回归分析,4.1 基本概念,(1)相互关系 确定性关系:变量之间存在着严格的函数关系相关关系:变量之间近似存在某种函数关系(2)回归分析(regression analysis)处理变量之间相关关系的统计方法确定回归方程:变量之间近似的函数关系式检验回归方程的显著性 试验结果预测,4.2 一元线性回归分析,4.2.1 一元线性回归方程的建立(1)最小二乘原理设有一组试验数据(如表),若x,y符合线性关系,计算值 与试验值yi不一定相等,与yi之间的偏差称为残差:,a,b回归系数(regressioncoefficient),回归值/拟合值,由xi代入回归方程计算出的y值。,一元线性回归方程:,残差平方和:,残差平方和最小时,回归方程与试验值的拟合程度最好,求残差平方和极小值:,正规方程组(normalequation):,解正规方程组:,简算法:,4.2.2 一元线性回归效果的检验,(1)相关系数检验法 相关系数(correlationcoefficient):描述变量x与y的线性相关程度定义式:,相关系数特点:,1r1r1:x与y有精确的线性关系,r0:x与y负线性相关(negative linear correlation)r0:x与y正线性相关(positivelinear correlation),r0时,x与y没有线性关系,但可能存在其它类型关系相关系数r越接近1,x与y的线性相关程度越高 试验次数越少,r越接近1,当,说明x与y之间存在显著的线性关系,对于给定的显著性水平,查相关系数临界值rmin,相关系数检验,(2)F检验,离差平方和 总离差平方和:,回归平方和(regressionsumofsquare):,残差平方和:,三者关系:,自由度,SST的自由度:dfTn1SSR的自由度:dfR1SSe的自由度:dfen2三者关系:dfT dfR dfe均方,F检验,F服从自由度为(1,n2)的F分布给定的显著性水平下,查得临界值:F(1,n2)若F F(1,n2),则认为x与y有明显的线性关系,所建立的线形回归方程有意义,方差分析表,4.3 多元线性回归分析,(1)多元线性回归形式试验指标(因变量)y与m个试验因素(自变量)xj(j=1,2,m)多元线性回归方程:,4.3.1 多元线性回归方程的建立,偏回归系数:,(2)回归系数的确定,根据最小二乘法原理:求偏差平方和最小时的回归系数偏差平方和:,根据:,得到正规方程组,正规方程组的解即为回归系数。,4.3.2 多元线性回归方程显著性检验,(1)F检验法 总平方和:,回归平方和:,残差平方和:,F服从自由度为(m,nm1)的分布 给定的显著性水平下,若FF(m,nm1),则y与x1,x2,xm间有显著的线性关系,方差分析表:,(2)相关系数检验法,复相关系数(multiple correlation coefficient)R:反映了一个变量y与多个变量(x1,x2,xm)之间线性相关程度 计算式:,R1时,y与变量x1,x2,xm之间存在严格的线性关系R0时,y与变量x1,x2,xm之间不存在线性相关关系 当0R1时,变量之间存在一定程度的线性相关关系 RRmin时,y与x1,x2,xm之间存在密切的线性关系,R一般取正值,0R1,4.3.3 因素主次的判断,(1)偏回归系数的标准化 设偏回归系数bj的标准化回归系数为Pj:,Pj越大,则对应的因素(xj)越重要,(2)偏回归系数的显著性检验,计算每个偏回归系数的偏回归平方和SSj:SSjbjLjy SSj的大小表示了因素xj对试验指标y影响程度,对应的自由度dfj1,服从自由度为(1,nm1)的F分布,如果若F F(1,nm1),则说明xj对y的影响是不显著的,这时可将它从回归方程中去掉,变成(m1)元线性方程,(3)偏回归系数的t检验,t值的计算:,单侧t分布表,检验:,如果,说明xj对y的影响显著,否则影响不显著,,4.4.1 一元非线性回归分析,通过线性变换,将其转化为一元线性回归问题:直角坐标中画出散点图;推测y与x之间的函数关系;线性变换;用线性回归方法求出线性回归方程;返回到原来的函数关系,得到要求的回归方程,4.4 非线性回归分析,4.4.2 一元多项式回归,任何复杂的一元连续函数都可用高阶多项式近似表达:,可以转化为多元线性方程:,4.4.3 多元非线性回归,如果试验指标y与多个试验因素xj之间存在非线性关系,如二次回归模型:,4.5 Excel在回归分析中的应用,4.5.1“规划求解”在回归分析中应用解方程组 最优化 4.5.2 Excel内置函数在回归分析中应用4.5.3 Excel图表功能在回归分析中的应用4.5.4 分析工具库在回归分析中应用,第5章 优选法,优选法:根据生产和科研中的不同问题,利用数学原理,合理地安排试验点,减少试验次数,以求迅速地找到最佳点的一类科学方法。适用于:试验指标与因素间不能用数学形式表达表达式很复杂,x3,5.1 单因素优选法,基本命题试验指标f(x)是定义区间(a,b)的单峰函数用尽量少的试验次数,来确定f(x)的最大值的近似位置 5.1.1 来回调试方法,若f(x1)f(x2),若f(x2)f(x3),x4,x3,5.1.2 黄金分割法(0.618法),黄金分割:,优选步骤:,0.618,0.382,5.1.3 分数法,菲波那契数列:F01,F11,FnFn-1Fn-2(n2)1,1,2,3,5,8,13,21,34,55,89,144,分数:,x4,2/5,x3,分数法优选方法:,适用于:试验值只能取整数的情况试验次数有限时,x1,x2,5/8,3/8,3/5,2/3,1/3,分数法试验次数:,B(无电),A(有电),5.1.4 对分法,特点:每次只做1次试验每次试验区间可以缩小一半适用条件:要有一个标准(或具体指标)要预知该因素对指标的影响规律,优选方法:,5.1.5 抛物线法,在三个试验点x1,x2,x3,且x1x2x3,分别得试验值y1,y2,y3,根据Lagrange插值法可以得到一个二次函数:,设二次函数在x4取得最大值:,在x x4处做试验,得试验结果y4假定y1,y2,y3,y4中的最大值是由xi给出除xi之外,在x1,x2,x3和x4中取较靠近xi的左右两点,将这三点记为 x1,x2,x3此处x1x2x3,,若在处的函数值分别为 y1,y2,y3,5.1.6 分批试验法,(1)均分法 每批做2n个试验 先把试验范围等分为(2n+1)段,在2n个分点上作第一批试验比较结果,留下较好的点,及其左右一段,然后把这两段都等分为(n+1)段 分点处做第二批试验,*,*,(2)比例分割法,每一批做2n1个试验 把试验范围划分为2n+2段,相邻两段长度为a和b(ab)在(2n1)个分点上做第一批试验,比较结果,在好试验点左右留下一长一短,把a分成2n2段,相邻两段为a1,b1(a1b1),且a1b,长短段的比例:,当n=0时,=0.618,5.1.7 逐步提高法(爬山法),方法:找一个起点寻找方向 注意:起点步距:“两头小,中间大”,A,BA,CA,DC,ED,F,5.1.8 多峰情况,(1)不论“单峰”还是“多峰”,按前述方法优选(2)先做一批分布得比较均匀、疏松的试验,看是否有“多峰”现象,分别找出这些“峰”,5.2 双因素优选法,命题迅速地找到二元函数zf(x,y)的最大值,及其对应的(x,y)点的问题 假定是单峰问题 双因素优选法的几何意义,Q,5.2.1 对开法,优选范围:axb,cyd优选方法:,P,R,P2,P1,5.2.2 旋升法(从好点出发法),优选范围:axb,cyd优选方法:,P3,R,P,Q,5.2.3 平行线法,两个因素:一个易调整,另一个不易调整时优选范围:axb,cyd优选方法:(设:x易调整,y不易调整),0.382,0.618,5.2.4 按格上升法,将试验区域画上格子 将分数法与上述方法结合起来,5.2.5 翻筋斗法,A,C,B,D,E,F,G,F,G,优选法在因素主次判断中的应用:,在因素的试验范围内做两个试验(可选0.618和0.382两点)如果这两点的效果差别显著,则为主要因素 如果这两点效果差别不大 在(0.3820.618)、(00.382)和(0.6181)三段的中点分别再做一次试验 如果仍然差别不大,则此因素为非主要因素可将该因素固定在0.3820.618间的任一点 当对某因素做了五点以上试验后,如果各点效果差别不明显,则该因素为次要因素,第6章 正交试验设计,6.1 概述,适合多因素试验全面试验:每个因素的每个水平都相互搭配进行试验 例:3因素4水平的全面试验次数43=64次正交试验设计(orthogonal design):利用正交表科学地安排与分析多因素试验的方法 例:3因素4水平的正交试验次数:16,6.1.1 正交表(orthogonal table),(1)等水平正交表:各因素水平数相等的正交表记号:Ln(r m)L正交表代号n正交表横行数(试验次数)r因素水平数m正交表纵列数(最多能安排的因数个数),等水平正交表特点,表中任一列,不同的数字出现的次数相同 表中任意两列,各种同行数字对(或称水平搭配)出现的次数相同 两性质合称为“正交性”:使试验点在试验范围内排列整齐、规律,也使试验点在试验范围内散布均匀,(2)混合水平正交表,各因素的水平数不完全相同的正交表,混合水平正交表性质:(1)表中任一列,不同数字出现次数相同(2)每两列,同行两个数字组成的各种不同的水平搭配出现的次数是相同的,但不同的两列间所组成的水平搭配种类及出现次数是不完全相同,6.1.2 正交试验设计的优点,能均匀地挑选出代表性强的少数试验方案由少数试验结果,可以推出较优的方案 可以得到试验结果之外的更多信息,6.2.1 单指标正交试验设计及其结果的直观分析,例:单指标:乳化能力 因素水平:3因素3水平(假定因素间无交互作用),6.2 正交试验设计结果的直观分析法,(1)选正交表,要求:因素数正交表列数因素水平数与正交表对应的水平数一致选较小的表选L9(34),(2)表头设计,将试验因素安排到所选正交表相应