《实验数据处理》PPT课件.ppt
西安理工大学理学院应用化学系,第10章实验数据处理,1、掌握有效数字及其运算规则;掌握误差概念及其有关计算:误差、偏差、平均值、中位数、(相对)平均偏差、(相对)标准偏差,平均值与真实值的比较、平均值间的比较;了解随机误差的正态分布、t分布;2、了解系统误差、随机误差的概念及误差的传递;3、掌握置信度、置信区间概念,了解实验数据的统计处理、t检验法、F检验法;4、了解实验数据的优化,掌握回归分析法。,本章教学目的和要求,10.1 有效数字 重点(概念、运算规则)10.2 误差与偏差 重点(概念、误差及传递)10.3 实验数据的统计分析 难点(t分布曲线、平均值的置信区间、t检验法、F检验法)10.4 实验数据优化(回归分析、正交试验设计),第10章 实验数据处理,如:1.0g与1.00g的测量精度分别为0.1g、0.01g。两者有不同含义,1.0g表示被测物质的质量为1.00.1g,1.00g表示被测物质的质量为1.000.01g。,因此,在实验数据的记录和结果的计算中,保留几位数字不是任意的,而是根据测量仪器、分析方法的准确性决定的。这就涉及到有效数字的概念:,10.1.1 有效数字的概念,在分析测试工作中实际能测量到的数字为有效数字。,10.1 有效数字,在分测试析中,为了得到准确的分析结果,不仅要准确地进行各种测量,而且还要正确地记录和计算。分析结果所表达的不仅仅是试样中待测组分的含量,而且反映了测量方法、仪器的准确度。,a.用万分之一分析天平:10.2345g,实验数据的准确性与分析测试仪器的测量精度有关:,同一试样采用不同测量精度的仪器测量,所得数据的有效数字位数不同,其中有效数字位数多的测量更精确。,准确数字,可疑数字,都是有效数字,准确数字,可疑数字,b.用精度为0.01g的天平:10.23g,如称量某一试样的质量,6位,4位,(1)记录测量值时必须且只能保留一位不确定的数字(2)非零数字都是有效数字(3)非零数字前的0不是有效数字:0.00268 3位 非零数字之间的0是有效数字:0.20068 5位 对小数,非零数字后的0是有效数字:0.26800 5位(4)数字后的0含义不清楚时,最好用指数形式表示:如整数末位或末几位的0含义不明:26800?2.68104 3位;2.680104 4位;2.6800104 5位(5)常数、e及倍数、分数的有效数字位数可认为没有限制(6)首位数字大于等于8,可多计一位有效数字:95.2%4位(7)对数的有效数字位数以小数部分计:pH=10.28 2位,有效数字位数的确定:,有效数字位数的确定,0.1000 20.78%0.0526 3.5910-60.02 1103 100 1000,练习,4 位3 位1 位位数不确定,10.1.2 有效数字的运算规则,1修约规则,各测量值的有效数字位数确定之后,就要将它后面多余的数字舍弃。舍弃多余数字的过程,叫做“数字修约”;所遵循的规则称为“数字修约规则”(GB8170-1987)。,口诀:四要舍,六要入,五后有数要进位,五后无数(包括 零)看前方,前方奇数就进位,前方偶数全舍光。,四舍六入五成双,将下列数据修约为四位有效数字 2.4374 2.4376 2.4365 2.4375 2.43651,2.437,2.438,2.436,2.438,2.437,练习,10.1 有效数字,一次修约到位,禁止分次修约,4.146,4.1,4.15,4.2,注意,2位,(1)加减运算:以各项中绝对误差最大的数为准,和或差只保留一位可疑数字,即与小数点后位数最少的数取得一致。,先修约,后计算,2运算规则,每个数据的最后一位都存在1的绝对误差,(2)乘除法:以相对误差最大的数为准,积或商只保留一位可 疑数字,即按有效数字位数最少的数进行修约和计算。,解:三个数的最后一位都存在1的绝对误差,相对误差各为:,(131816)100=0.003,计算:0.0235 20.03 3.1816=0.147946002?,(12003)100=0.05,(1235)100=0.4,0.0235相对误差最大,修约时按3位有效数字计算,0.0235 20.0 3.18=0.148,注意:首位数字为8或9,可 多保留一位有效数字。,9.35 0.1856=1.736,如,(3)乘方或开方运算 原数据有几位有效数字,结果就可保留几位,若一个数的乘方或开方结果,还将参加下面的运算,则乘方或开方后的结果可多保留一位有效数字。,3.142=9.860=9.86,(4)对数运算 在对数运算中,所取对数的有效数字位数应与真数的有效数字位数相等。,例:,例:,精密度高准确度高,精密度低准确度低,精密度高准确度低,在分析测试中,用误差反映准确度,用偏差反映精密度。,精密度与准确度的形象化图示,10.2 误差与偏差,1.在分析测试中,分析结果应具有一定的准确度。不准确的结果会导致产品的报废,资源的浪费,甚至在科学上会得出错误的结论。但是在世界上没有绝对准确的分析结果。2.误差是客观存在的。有系统误差和随机误差之分。,与误差有关的术语:,误差的引入:,10.2.1 误差与偏差的概念,1误差,(2)误差的表示方法:,(1)误差:测定结果(x)与真实值(xT)之间的差值。,(3)误差的物理意义:表示测定结果与真实值接近的程度。反映准确度大小。误差越小,准确度越高。,铝合金中含Al 82.03%(真实值),实验测得值为81.95%,则,误差为负值,表示测定值小于真实值,测定结果偏低。误差为正值,表示测定值大于真实值,测定结果偏高。,例,2偏差,(2)偏差的表示方法:,注意:单次测量结果的偏差之和为零。精密度不能用偏差之和来表示,常用平均偏差、标准偏差表示。,(2)偏差的表示方法:a.绝对偏差、b.平均偏差、c.标准偏差,标准偏差,相对标准偏差RSD:,m-总体平均值,若校正了系统误差,m代表真值。,n-1-自由度,具独立偏差的数目。,(3)偏差的物理意义:表示测定结果与平均值接近的程度。反映精密度大小。偏差越小,精密度越高。,引入标准偏差的目的:充分反映测定数据的分散程度,表示一组平行测定值的精密度。,用标准偏差来表示精密度较平均偏差好。,例,对同一样品,有两组测定数据,其单次测定偏差分别为:第一批:-0.2-0.1-0.1 0 0.1 0.1 0.2第二批:-0.2-0.2 0 0 0 0.1 0.3,标准偏差:s1=0.02 s2=0.03说明第一批数据的精密度较高。,例如,测定维生素丸剂中铁的含量,计算测定结果的平均值、平均偏差、相对平均偏差、标准偏差及相对标准偏差。已知5次测定值为:,含量(%)4.047 4.042 4.049 4.035 4.032,偏差di(%)0.006 0.001 0.008-0.006-0.009,36 1 64 36 81,测量结果总有不确定性,任何测量都有误差。为了获得可靠数据,应分析误差产生的原因、了解误差的传递规律。,系统误差,随机误差,+,10.2.2 系统误差及其传递,1.系统误差(可测误差),在分析测试中由一些固定因素造成的误差。,产生原因:方法误差 仪器和试剂误差 操作误差 主观误差,特征:单向性、重现性、可校正、可测定(大小和正负),服从某种函数规律。,标准溶液,待测溶液,(1)方法误差:由分析方法本身造成的误差。,1.系统误差(可测误差),a.反应不能定量完成或有副反应b.干扰离子的存在c.沉淀溶解损失、共沉淀和后沉淀现象、灼烧时沉淀挥发损失、或称量时吸潮d.滴定分析中滴定终点和计量点不吻合,仪器误差:来源于仪器本身不够精确。如砝码重量、容量器皿刻度、仪表刻度不准确。试剂误差:来源于试剂不纯。如试剂或蒸馏水中含被测组分或干扰物质。,(2)仪器和试剂误差,如终点颜色的辨别、读数的方式、沉淀洗涤过分、称量时坩埚及沉淀未完全冷却、称样时未注意试样的吸潮。,(4)主观误差:由分析人员主观因素造成的误差,有时列入操作误差。,(3)操作误差:由操作不当引起的误差。,如判断颜色偏深或偏浅、读取刻度偏高或偏低、第二次测定尽可能与第一次测定读数接近,即“先入为主”。,2.系统误差的传递,(1)加减法:分析结果R的绝对误差是各测量值 绝对误差的代数和。,若R是A、B、C三个测量值相加减的结果:,则分析结果R的误差ER为:,(2)乘除法:分析结果R的相对误差是各测量值 相对误差的代数和。,若R是A、B、C三个测量值相乘除的结果:,则分析结果R的相对误差为:,R=A+BC,ER=EA+EB-EC,特征:(1)对称性,有界性,服从统计规律。(2)不可校正,无法避免。(3)部分抵消,增加平行测定次数,可减小测量结果 的随机误差。一般平行测定4-6次。,10.2.3 随机误差及其传递,1.随机误差(偶然误差),如环境的温度、湿度发生微小波动,或仪器状态发生微小变化、分析人员对各份样品处理时的微小差别。这些不可避免偶然原因使分析结果在一定范围内产生波动。,由一些随机或偶然的不确定因素所造成的误差。,2.随机误差的传递,(1)加减法:分析结果的标准偏差的平方等于各测量值 标准偏差的平方总和。,(2)乘除法:分析结果的相对标准偏差的平方等于各测量值相对标准偏差的平方总和。,若分析结果R:,则:,R=aA+bBcC,若分析结果R:,则:,注意事项,不按操作规程、由工作中的差错所造成的过失,属责任事故,是不允许的。如读错刻度、记录错误、计算错误、加错试剂。,减小随机误差检验和消除系统误差避免操作过失,获得可靠数据,实验数据的统计分析解决两类问题:,10.3 实验数据的统计分析,显著性检验:利用统计学的方法,检验被处理的问题是否 存在统计上的显著性差异。方法:t 检验法和F 检验法目的:确定某个实验方法是否可靠,检验分析结果的准确 度、测定数据的精密度。,(1)分析方法的准确性 系统误差及偶然误差的判断,(2)可疑数据的取舍 过失的判断,总体:考察对象的某特征值的全体样本:从总体中随机抽取的一组测量值 例 对黄河某断面进行水质分析:采集该断面有代表性的水样1500mL 分析总体 测6份平行水样,得到一组分析结果 随机样本总体平均值m:n,测定结果平均值 无系统误差时趋于真值总体标准偏差s:n,单次偏差均方根,基本概念,10.3.1 随机误差的统计分布,右图为标准正态分布曲线横坐标纵坐标(概率密度),右图为t分布曲线纵坐标 y 概率密度横坐标 t分母平均值的标准偏差,t 分布曲线下一定区间内的积分面积,代表该区间内测量值、随机误差出现的概率。t 分布曲线形状与统计量t、自由度f=n-1 的取值有关。3.当f时,由于 xm,ss,使t 分布曲线趋近正态分布曲线。4.不同f 值下的t 值可查t,f 表得到。显著性水准,P置信度,a+P=1。含义:在某一t 值时,测量值落在(ts)范围内的概率为P,落在此范围之外的概率为1P 即a。,讨论:,表10-1 ta,f值表(双边)P282,P=1-,置信度,,显著性水平,平均值的置信区间对的区间的估计,把握程度多大,把握区间多宽,置信度,置信区间,问题的提出:,对有限次测量,在 的某个范围内包含 的把握有多大?,10.3.2 平均值的置信区间,若s未知,对总体平均值区间的估计,解:,分析结果:,置信度90%时,t0.10,4=2.13,f=5-1=4,置信度95%时,t0.05,4=2.78,例,测某铜矿中的含铜量,五次测定结果分别为:48.40%,48.35%,48.30%,48.20%,48.15%,计算置信度分别为90%和95%的置信区间。,置信度越低,同一体系的置信区间越窄,表明测定结果的准确性越高。,讨论,结论,问题的提出:,(1)真值,测定值,但?,随机误差?系统误差?,显著性差异,无显著性差异,校正,正常,显著性检验,显著性检验t 检验法、F 检验法,(2)用两种不同的方法、或两台不同的仪器、或两个不同 的实验室、或两个不同的分析人员对同一样品进行分析,得到平均值,但?,c.比较查表及计算 t 值:t计 t表 有显著性差异 存在系统误差 需改进被检验方法 t计 t表 无显著性差异 可采用被检验方法,t 检验法系统误差的检测,显著性检验t 检验法,b.由置信度P和测定次数 n,查 ta,f 表得 t表 值,a.计算合并标准偏差,b.计算值,c.自由度 f=n1+n2 2,查 ta,f 表得 t表 值,d.比较查表及计算 t 值:t合 t表 没有显著性差异,解:,比较,查表,ta,f=t0.05,4=2.78,计算,f=5-1=4,b.按照置信度 P 和自由度 f大、f小,查F表 值,a.计算 F 值,F 检验法精密度的检测,比较两组数据的方差、,以确定它们的精密度是否存在显著性差异,c.比较 F计算 和 F表,F计算 F表,两组数据的精密度之间不存在统计学上的显著性差异,表10-2 置信度95%时F值(单边)P285,用两种不同方法测定合金中铬的质量分数,所得结果如下:方法1:=1.06%S1=0.018%n1=6方法2:=1.08%S2=0.026%n2=4评价用何种方法好(置信度90%)?,例,解:,查F 值(P285,表10-2),f大=3,f小=5,P=0.90,F0.10(3,5)=5.41。F F表,说明两组数据的精密度间无显著性差异。,查 ta,f 表10-1,P=0.90,f=n1+n2-2=8,t0.10,8=1.86,计算合并标准偏差:,比较 t t0.10,8,两种方法都可使用,不存在显著性差异。,计算 t 值,1.F 检验,2.t 检验,10.4 实验数据的优化,处理实验数据,使测量中的误差相互抵消或减小到最低程度,获得可靠的实验结果,得出可靠的分析结论。,实验数据的优化,正交试验设计,其它方法,回归分析,目的:,1.回归分析的模型,10.4.1 回归分析,通过对随机变量与非随机变量之间进行回归分析,建立起两者之间关系的数学模型,即回归模型。,2.一元线性回归,通过实验数据,找出两个变量x、y之间存在的线形关系:,最小二乘法。,确定a、b方法:,回归系数的确定:,通过实验得到一系列实验点(x1,y1)、(x2,y2)、(xn,yn),,用残差平方和Q,可表示任一实验点偏离回归直线的程度:,由于测量误差的存在,任一实验点(xi,yi)并不都能刚好落在按上式确定的回归直线上。任一实验点的残差:,为求出Q的最小值,将上式对a、b求偏微分,并使之为零:,确定a,b值,一元线性回归方程,相关系数 R 的确定:,为反映变量x,y之间线性相关的程度,引入相关系数R,R的意义,用某方法测定稻米中Cd含量的工作曲线,实验数据如下:,计算回归方程和相关系数。,假设Cd浓度为x(10-12mol/L),吸光度为y,例,Cd浓度(10-12mol/L):0 2.00 4.00 6.00 8.00 吸光度A:0.003 0.195 0.428 0.627 0.832,解:,回归方程,A=0.001+0.104CCd(10-12mol/L)R=0.9996,Cd分析的工作曲线,3.多元线性回归,特点:在方法原理和结论上与一元线性回归相比没有实质性的差异,只是变量数目比一元线性回归的多。,应用:研究复杂体系的性质受多个因素的影响,如中药的药性受产地、生长季节、加工工艺等多因素的影响;人体血液、组织中的多种微量元素的含量与疾病或健康的关系;物质的分子结构与其物理化学性质的关系。,10.4.2 正交试验设计,目的:通过合理安排多因素试验,寻求最优水平组合,可以较少的试验次数,获得比较全面的信息和较可靠的结论。,步骤:1.选因素、定水平,列出各因素水平;2.选正交表,安排试验;3.结果分析:如直观分析、方差分析;4.确定主要因素、次要因素和最佳实验条件。,表10-3 选择的因素和水平 P290,某化工厂为了提高某化工产品的转化率,选择了3个主要因素,即反应温度A、反应时间B、用碱量C,每个因素取3个水平,如下表所示:,例,3因素3水平,若逐一考察:需安排33=27次实验。正交试验?,La(bc),正交设计,试验总次数行数,因素水平数,因素个数列数,等水平正交表,3因素3水平,若不考虑因素间的交互作用,选用L9(34)正交表,实验次数仅9次,试验设计表9行3列,因仅有3因素,故第4列为空白列。,利用正交表L9(34),从27个试验点中挑选出9个试验点,即:,按此组合安排以下试验:,(1)A1B1C1(2)A1B2C2(3)A1B3C3(4)A2B1C2(5)A2B2C3(6)A2B3C1(7)A3B1C3(8)A3B2C1(9)A3B3C2,表10-4 正交试验设计表 P290,最佳实验条件,水平组合A2B2C3,A因素优水平A2,表10-4 正交试验结果分析表 P290,根据极差的大小,可以判断各因素对试验指标的影响主次。极差小的为次要影响因素,极差大的为重要影响因素。本例极差 C A B,所以各因素的重要性依次为:用碱量反应温度 反应时间。,a.确定因素的主次顺序,以各因素水平为横坐标,试验指标的平均值为纵坐标,绘制因素与指标趋势图,为进一步试验指明方向。,b.绘制因素与指标趋势图,正交试验极差分析的应用,小 结,2.误差概念、术语及有关计算:误差、偏差、平均值、(相对)平均偏差、(相对)标准偏差、系统误差、随机误差及传递,平均值与标准值比较两组平均值的比较,3.试验数据的统计分析,1.有效数字及数字修约规则,精密度检验,四舍六入五成双,3.平均值的置信区间,s未知,4.实验数据优化:一元线性回归方程、相关系数、正交试验设计。,s已知,本 章 结 束,