试验设计和数据统计分析.ppt
试验设计和数据统计分析(第一部分),技术培训资料徐泽平2011年6月17日,试验设计,引言科学研究调查研究发现新物种,新机制,发现新原理达尔文,鸟喙,环境导致变化,生物进化,物竞天择;同一器官不同生物的比较研究,物种起源比较的是差异技术系统进化科学实验新元素、新物质,居里夫人新工艺、新装备,航空动力燃料、催化剂新功能,新用途,阿司匹林,试验设计,实验-试验,课题-小项目,大问题-具体内容方法广义的:研究课题设计立题依据/目的、研究进展、技术路线、试验方案措施、进度安排(年度计划)、设备材料、经费预算侠义的:统计设计试验材料选择处理的分配:因素、水平重复数确定分组方法,试验设计,试验设计三阶段拟定试验设计:合理、周密按设计实施试验对试验结果统计分析设计正确就奠定了基础:较少的人力物力时间,获得丰富可靠的资料实验设计的目的避免系统误差,减少实验误差,提高精确度不影响结果精确性前提下,减少试验次数。,试验设计,试验指标:衡量试验效果的量数量指标(得率/产量、含量/吸光度)发酵过程中菌丝体产量/得率多糖产量/得率质量:能感觉(颜色、形态、分级指数)葡聚糖的性状无定形粉末,晶体有机溶剂:分析纯、化学纯、色谱纯食品级、饲料级、肥料级,试验设计,试验因素:影响试验指标的条件物料的粒度溶剂种类(极性、非极性)比例(固体液体比例)提取时间温度次数搅拌速度,试验设计,水平:因素根据质或量所处的状态或等级一个因素取M水平,则该因素为M水平因素因素A温度:30、40、50,则A为3水平因素因素B浓度:20%、50%,则B为2水平因素处理:各因素不同水平间的搭配,即同一条件下所做的试验个数。如上述,6个处理单因素试验中处理和水平是一致的,试验设计,效应:试验因素对试验指标所起的作用,简单效应:某因素在同一水平基础上,比较另一因素不同水平间对试验指标的影响 单因素试验主效应:各因素的简单效应的平均互作效应:某因素各水平下对另一因素简单效应的差的平均值,试验设计,试验设计的基本要求代表性:样本数、条件正确性:准确性、精确性重演性/重复性:条件、措施试验类型一般调查:全面调查(总体)、抽样调查控制试验:一定数量、有代表性、一定试验条件单因素试验:阐明因素的简单效应,探索适宜水平多因素试验:可分析简单效应、主效应、互作效应,2-3个因素正交设计、均匀设计,试验设计,试验计划拟定课题研究目标试验预期效果确定试验指标结合试验条件选择试验设计方法试验记录项目:表格形式,主要指标辅助指标结果分析方法:明确采用的统计方法,提出应收集的必要数据明确试验条件:材料、药品、设备、经费时间地点人员,试验设计,试验方案拟定试验设计的关键试验方案是整个试验处理的总称单因素试验:考察因素的水平多因素试验:各因素的水平组合确定试验因素:单因素还是多因素确定因素水平:间隔恰当;等间隔原则设置对照组(Control):其他条件一致空白对照、标准对照、相互对照、自身对照处理间遵循唯一差异原则:其他条件一致设置预试验,试验设计,试验设计基本原则1重复:2个以上实验单位,相同条件,实验重复2次以上作用:消除偶然误差,消除实验外条件因素影响意义:通过重复,方差分析时,定量地将误差计算出来,定量的评价误差的大小;重复可使个因素和水平均有机会组合搭配到。,试验设计,试验设计基本原则2随机化:实验配置和顺序,无主观意愿,完全随机安排,包括个方面:因素水平随即化实验顺序随机化随机化方法:抽签、抓阄、随机数表目的:避免主观偏差,消除系统误差统计分析的基础,只有随即数据才符合统计分布规律,试验设计,试验设计基本原则3局部控制:实验条件局部一致按照一定标准将实验对象和实验环境等实验条件,如日期、地区、装置、原材料等分成部分或区、组,以实现局部控制;例:肥效实验,分季节、分地区(土壤)、分作物进行分批实验,几种统计比较,得出结论。,试验设计,试验设计,试验设计方法调查设计:原料检测抽样原则:样本来自总体;有代表性抽样方法:随机、顺序、群组、分层抽样误差:抽样得到的样本可计算统计量:平均数、标准差,统计量和参数的差值由抽样产生抽样误差用“标准误”衡量样本含量:小样本6,大样本30,试验设计,试验设计方法完全随机设计,动物试验完全随机的分配处理,每一动物具有相等的机会接受任意处理分组方法:抽签、抓阄、随机数表试验结果的统计分析方法单因素试验:2水平,分析2处理平均数的差异显著性非配对试验t检验;多水平的采用单因素方差分析两因素试验:每处理1试验单位无重复方差分析,2个以上实验单位有重复方差分析优缺点:处理数与重复数不受限制,统计分析容易;精密度较低,降低了检验灵敏度。,试验设计,试验设计方法交叉设计个体差异难以消除时大动物,牛,难以找到12个一样的;生产设备,难以同时开3套试验对象分期接受不同处理交叉设计成立条件:无互作、无残效、样本一定统计分析方法:统计假设检验,t检验,检验,试验设计,试验设计基本程序实验目的:深入了解,认真分析因素水平的确定:首先了解哪些因素可能对试验结果产生影响指标确定:必须考虑指标对所研究问题提供什么信息,如何测定该指标实验计划的确定:分辨试验处理间最小差异程度和允许冒多大的风险,以据顶重复次数。如何收集数据,如何随即排列;试验设计实施:采集数据的过程数据分析:统计分析,平均差异、统计显著性结论与应用,试验设计,试验设计种类正交试验设计安排多因素试验、寻求最优水平组合的一种高效率试验设计方法利用正交表安排与分析多因素试验特点:部分试验代替全面试验原理:从优选区挑选有代表性的部分试验点。用正交表进行挑选L9(34):27个试验点选9个,试验设计种类均匀试验设计只考虑试验点在试验范围内均匀分布的试验设计方法,适于多因素多水平5因素31水平,只试验31次,相当于2800万次与正交设计相比,大幅度减少试验次数1978年,方开泰、王元原理:方差分析:均匀分散、整齐可比,均匀设计提高均匀分散,使试验点更具代表性;回归设计和黑箱原则均匀设计表,U7*(74)4因素7水平,试验设计种类拉丁方设计希腊拉丁方设计回归正交设计一次回归正交设计、二次回归正交设计回归旋转设计二次旋转组合设计、通用旋转组合设计,试验设计,正交试验设计因素水平越多所得结论越可靠。34=81,25=32正交设计,多因素水平,压缩试验规模适于多因素水平、误差大、周期长的试验适于筛选出主要因素及最优水平的试验正交表,规格化表格,N行k列组合的矩阵LN(mk),L正交,N试验次数,k因素数,m水平数L4(23),3因素2水平4次试验L9(34),4因素3水平9次试验,试验设计,试验设计,正交表,试验设计,正交表的性质:正交性任一列中不同数字出现次数相等,任意因素不同水平的试验次数相等任两列间同横行的有序数对出现次数相等,两因素间的水平搭配相等代表性(均衡分散性)包括所有因素的所有水平;任意两因素的试验组合为全面试验;试验点均匀分布综合可比性:水平次数相等,因素试验条件相等,试验设计,正交设计特点均衡分散性,处理均匀分布,代表性强整齐可比性,各水平间的比较条件相同试验次数少,试验设计,正交表的类别等水平正交表水平数相同的正交表L4(23)、L8(27)2水平正交表L9(34)、L27(313)3水平正交表混合水平正交表水平数不完全相同L8(4x24)表中,有一列的水平数为4,有4列的水平数为2。该表可安排1个4水平因素和4个2水平因素。,试验设计,正交试验设计步骤试验目的与要求本次试验要解决什么问题确定试验指标试验结果如何衡量,定出试验指标定量指标:强度、硬度、产量、得率、成本定性指标:颜色、口感、光泽定性指标定量化:相关标准打分;模糊数学处理量化,试验设计,正交试验设计步骤确定考察的因素水平根据预实验、以往经验、前人研究结果设立,影响大的、未试验过的、尚未掌握规律的优先考虑2-4水平水平间距合理,尽可能理想水平列出因素水平表,试验设计,试验设计,正交试验设计步骤选择合适的正交表选择原则:能够安排下试验的因素和交互作用,尽可能用小表选择依据:列:正交表列数c因素所占列数+交互作用所占列数+空列自由度:正交表的总自由度(a-1)因素自由度+交互作用自由度+误差自由度4个3水平因素,可选L9(34)(无交互选),L27(313)(有交互选),试验设计,试验设计,正交试验设计步骤做表头设计把试验因素和亚考察的交互作用安排到正交表各列的过程不考察交互作用,可随机安排考察交互作用,按所选交互列表安排列出试验方案把正交表中各因素的列(不包含交互作用列)的每个水平数字换成该因素的实际水平值,便形成了试验方案。,试验设计,试验设计,试验结果统计分析直观分析、级差分析、多因素方差分析目的分清因素主次顺序判断因素对试验指标影响的显著程度找出试验最优组合,即什么因素什么水平组合是指标最好分析因素与指标的关系,因素变化指标如何变化了解交互作用情况估计试验误差大小,试验设计,试验设计,插入程序表,试验设计和数据统计分析(第二部分),技术培训资料2011年6月17日,数据统计,统计术语计量资料与技术资料前者用定量方法测定获得的连续性资料,有度量衡单位,如含量;后者,按属性的不同程度分组计数的等级资料,如疗效,数据统计,统计术语同质与变异:同一观察指标据同质性;同指标的不同观测值有差异如反应温度,同单位衡量,每次观测值不同总体和样本:观察对象全部和抽取的部分个体原料,总量500袋石灰氮;抽取3%袋检查含氮量,15袋为样本,数据统计,统计术语随机抽样与随机样本:不参杂主观愿望,样本被抽取的机会均等粉状料,堆积,1/4量,再1/4变量和常数:表现事物差异特征的数据为变量,如体重;代表事物特征的数据为常数,通常由变量计算得来,如样本平均数、标准差、变异系数,数据统计,统计术语参数和统计量:从总体中计算所得的特征数值为参数,如总体平均数、总体标准差;从样本中计算所得的特征数值为统计量,是总体参数的估计值。一般用统计量估计参数值一个来源于总体,一个来源于样本准确性与精确性:准确性是测量值对真值的符合程度,如加样回收率;精确性是样本各变异数间的变异程度大小,是多次侧量值的接近程度,如变异系数。,数据统计,统计的主要内容-按统计分析方法分描述性统计:原始资料基本分析3个主要统计量:平均值、标准差、标准误了解资料的集中趋势和变异程度显著性检验(假设检验)平均数间差异的比较:两组数据平均数有无显著性差异,用均数差异显著性检验属性资料的检验:不能用测量方法衡量-属性形状,如毛色、药物试验的治愈或无效,用X2检验方差分析:变异量分析,主要进行多个平均数间的比较。,数据统计,统计的主要内容-按统计分析方法分相关与回归分析相关:平行关系的变异量之间的密切程度,相关系数表示回归:两个以上变量存在从属关系,一个变量(x)变化时引起另一个变量(y)相应变化的估计从属关系用回归分析方法进行研究,从属关系式称回归方程用回归方程对指标进行预测和预报,数据统计,标准曲线原理:发现相关,原创物质反应,颜色;颜色深浅,浓度设定系列浓度,测出系列光密度计算回归方程从样本,到总体用统计量,估计参数值用相关系数估计误差再从标准曲线计算浓度,数据统计,描述统计-集中趋势度量-平均数成组数据的代表,是观察值的中心位置算术平均数 加权平均数几何平均数G:观测值相乘之积开n 次方的方根用于增长率、药物效价、疾病潜伏期等。邻数成正比,更能代表平均水平。,数据统计,平均数中位数Md,观测值从小到大排列,中间值偏态分布时更有代表性众数M0出现次数最多的值;出现次数最多一组的组中值调和平均数H,观测值倒数的算术平均数的倒数速度资料,反映平均增长率或增长的平均规模,试验设计和数据统计分析(第三部分)实例分析,技术培训资料2011年6月17日,实例分析,例1为提高某化工产品的转化率,选择了三个有关因素进行条件试验,反应温度(A),反应时间(B),用碱量(C),并确定了它们的试验范围:A:80-90B:90-150分钟C:5-7,实例分析,试验目的搞清楚因子A、B、C对转化率有什么影响,哪些是主要的,哪些是次要的,确定最适生产条件,即温度、时间及用碱量各为多少才能使转化率高。制定试验方案。这里,对因子A,在试验范围内选了三个水平;因子B和C也都取三个水平:A:A180,A285,A3=90B:B190分,B2120分,B3=150分C:C15,C26%,C37%,实例分析,三因子三水平的条件试验,通常有两种试验进行方法:()取三因子所有水平之间的组合,即AlBlC1,A1BlC2,A1B2C1,A3B3C3,共有33=27次试验。全面试验,实例分析,()简单对比法,即变化一个因素而固定其他因素,如首先固定B、C于Bl、Cl,使A变化:A1B1C1 A2 A3(好结果)如结果A3最好,则固定A于A3,C还是C1,使B变化:B1A3C1 B2(好结果)B3得出结果以B2为最好,则固定B于B2,A于A3,使C变化:C1A3B2C2(好结果)C3试验结果以C2最好。于是认为最好的工艺条件是A3B2C2。,实例分析,简单比较优点:试验次数少缺点:试验点不具代表性,未兼顾所有组合无法分清主次因素不重复则无法估计实验误差无法利用数理统计方法进行分析正交试验的优点代表性,主次因,不重复,利用统计提出最优条件,实例分析,正交表,实例分析,实例分析,三个3水平的因子,做全面试验需要3327次试验现用L9(34)来设计试验方案,只要做9次工作量减少了23在一定意义上代表了27次试验,直观分析,实例分析,正交试验的方差分析假设检验在数理统计中假设检验的思想方法是:提出一个假设,把它与数据进行对照,判断是否舍弃它。其判断步骤如下:(1)设假设H0正确,可导出一个理论结论,设此结论为R0;(2)再根据试验得出一个试验结论,与理论结论相对应,设为R1;,实例分析,(3)比较R0与Rl,若R0与R1没有大的差异,则没有理由怀疑H0,从而判定为:“不舍弃H0”(采用H0);若R0与R1有较大差异,则可以怀疑H0,此时判定为:舍弃H0。但是,R1R0比l大多少才能舍弃H0呢?为确定这个量的界限,需要利用数理统计中关于F分布的理论。,实例分析,方差分析表,实例分析,再看一个用L9(34)安排四个3水平因子的例子例2某矿物气体还原试验中,要考虑还原时间(A)、还原温度(B)、还原气体比例(D)、气体流速(C)这四个因子对全铁合量X越高越好)、金属化率Y(越高越好)、二氧化钛含量Z(越低越好)这三项指标的影响。希望通过试验找出主要影响因素,确定最适工艺条件。,实例分析,首先根据专业知以确定各因子的水平:时间:A13(小时),A24(小时),A35(小时)温度:B11000(),B21100(),B31200()流速:C1600(毫升分),C2400(毫升分),C3800(毫升分)CO:H2:D11:2,D22:1,D31:1,实例分析,这是四因子3水平的多指标(X、Y、Z)问题如果做全面试验需3481次试验用L9(34)来做只要9次。,实例分析,统计软件,下期内容介绍EXCEL正交设计助手SPSS,谢谢大家!,