误差与数据处理.ppt
第 3 章 分析化学中的误差与数据处理,在定量分析中,由于受分析方法、测量仪器、所用试剂和分析工作者主观条件等方面的限制,使测得的结果不可能和真实含量完全一致;即使是技术很熟练的分析工作者,用最完善的分析方法和最精密的仪器,对同一样品进行多次测定,其结果也不会完全一样。这说明客观上就存在着难于避免的误差。,3.1 分析化学中的误差(error),定义:分析结果与真实值之间的差值称为误差,名词术语,真实值平均值中位数误差偏差极差:又叫全距,是一组测量数据中最大与最小值之差公差:生产部门对分析结果误差允许的一种限量,1.误差(E)与偏差(d),误差:分析结果与真实值之间的差值 偏差:测量值与平均值之间的差值,误差的表示,绝对误差 E=X-XT相对误差,偏差的表示,绝对偏差相对偏差平均偏差相对平均偏差标准偏差相对标准偏差,2.准确度和精密度,分析结果的衡量指标一、误差和准确度 二、偏差和精密度,准确度和精密度的关系,精密度高不一定准确度高;精密度高是保证准确度的先决条件;精密度和准确度都高的分析结果才是可靠的。,3.系统误差和随机误差,系统误差:由某种固定的原因造成的,具有重复行、单向性。理论上它的大小、正负可以测定,又称可测误差。又分为:方法误差;仪器试剂误差;操作误差和主观误差随机误差:亦称偶然误差,它有某些难以控制的、无法避免的偶然因素造成。如:环境条件(温度、湿度、气压)等的微小变化,使分析结果在一定的范围内波动引起随机误差。,系统误差减免的措施,根据产生的原因采取措施减免,如:1.方法误差采用标准方法作对照试验 2.仪器误差校准仪器 3.试剂误差作空白试验,随机误差(偶然误差)减免措施:特点:影响精密度(1)时大,时小,时正,时负(不恒定,无法校正)(2)数据的分布符合统计学规律(正态分布)(3)影响精密度(4)大小相近的正误差和 负误差出现的几率机等;小误差出现的频率较高,而大误差出现的频率较低,很大误差出现的几率近于零。减免措施:增加平行测定次数,取其平均值。,3.2 有效数字及运算规则,有效数字定义:记录的数字不仅表示数量的大小,还要正确地反映测量的精确程度。结果 绝对误差 相对误差 有效数字位数 0.49400 0.00001 0.002%5 0.4940 0.0001 0.02%4 0.494 0.001 0.2%3,1.有效数字的位数 数字零在数据中具有双重作用(1)若作为普通数定使用,是有效数字 如 0.3180 4位有效数字 3.18010-1(2)若只起定位作用,不是有效数字。如 0.0318 3位有效数字 3.1810-2 改变单位不改变有效数字的位数 如 19.02 mL 为 19.0210-3 L pH,pM,lgC,lgK等,有效数字位数只取决于小数部分 如 pH11.20 是2位有效数字,换算成H+浓度时为:H+6.31012 mol/L,分析化学中正确记录有效数字1正确地记录测试数据(25mL,25.00mL)反映出测量仪器精度 容量量器:滴定管、移液管、容量瓶,体积取4位有效数字。分析天平(万分之一)称取样品,质量取4位有效数字。标准溶液的浓度,用4位有效数字表示。有关化学平衡计算中的浓度,一般保留二位或三位有效数字。2按有效数字的运算规则正确地计算数据报出合理的测试结果。,如:只能 0.5749 0.57 不能 0.5749 0.575 0.58,2.数字修约规则,修约:处理数据时,各测量值的有效数字位数不同,因此需要按规则,确定个测量值位数。在位数确定以后,将它后面的多余数字舍弃,这个过程就叫数字修约。“四舍六入五成双”规则如:3.1483.1;7.3652 7.4 75.5 76;0.245 0.24 1.0251 1.03 一次修约到位,禁止分次,3.运算规则,加减法:有效数字位数的保留,取决于绝对误差最大的那个数,即以小数点后位数最少的数据为准。如 0.012125.641.05782=?0.0121 0.0001;25.64 0.01;1.05782 0.00001运算时,先修约,后计算 0.0125.641.0626.71,乘除法:有效数字的位数应以几个数据中相对误差最大的那个为依据,即根据有效数字位数最少的数据位数来进行修约。如 0.012125.641.05782=?三个数的相对误差:1/121 100%=0.8%1/2564 100%=0.4%1/105782 100%=0.009%可见以0.121的相对误差最大,故以它为标准都修约为三位有效数字再来进行相乘 0.012125.61.06=0.328,3.3 分析化学中的数据处理,同一方法的多次测量,结果会不一样问题(1)如何表达分析结果(2)如何处理可疑值或离群值(3)如何比较不同人、不同室、不同方法所得结果数理统计的方法解决以上问题,总体(母体):考察对象某特性值的全体样本(子样):自总体中随机抽取的一组测量值样本容量 n:样本中所含测量值的数目样本平均值 总体平均值 m真值 xT,术语(统计学),例如:分析某矿石中的铁含量,经取样、细碎、缩分后,得到一定数量(如500g)的试样,这500 g 试样就是供分析用的总体,如果从中取出8份试样进行平行分析,就得到8个分析结果,则这一组分析结果就是总体的一个随机样本,样本容量为8。,举例,平均值:设样本容量为n,则其平均值为:总体平均值:无限多次测定的平均值,总体平均值 确认消除系统误差,则总体平均值就是真值,此时,总体平均偏差为:分析化学中,测量次数一般较少(20),故涉及到的是 测量值较少时的平均偏差,频数分布(frequency distribution)正态分布(normal distribution)随机误差的区间概率,1.随机误差的正态分布,频数分布,相同条件下对样品中铁含量进行测定,得到100个测定值:1.36 1.49 1.43 1.41 1.37 1.40 1.32 1.42 1.47 1.39 1.41 1.36 1.40 1.34 1.42 1.42 1.45 1.35 1.42 1.39 1.44 1.42 1.39 1.42 1.42 1.30 1.34 1.42 1.37 1.36 1.37 1.34 1.37 1.46 1.44 1.45 1.32 1.48 1.40 1.45 1.39 1.46 1.39 1.53 1.36 1.48 1.40 1.39 1.38 1.40 1.46 1.45 1.50 1.43 1.45 1.43 1.41 1.48 1.39 1.45 1.37 1.46 1.39 1.45 1.31 1.41 1.44 1.44 1.42 1.47 1.35 1.36 1.39 1.40 1.38 1.35 1.42 1.43 1.42 1.42 1.42 1.40 1.41 1.37 1.46 1.36 1.37 1.27 1.47 1.38 1.42 1.34 1.43 1.41 1.41 1.41 1.44 1.48 1.57 1.37,观察这100个数据,看出:分析结果高高低低,参差不齐测量数据分散性;仔细观察,中间数据多,两头少测量数据的集中趋势。把100个数据按最大最小的差值,平均分成10等份(区间),计算每一个区间内测量值出现的次数及占总次数的比率频数:是指每一范围内测量值出现的次数相对频数:指频数在测定总次数中占的比率,分组(%)频数 相对频数(频率)1.2651.295 1 0.01 1.2951.325 4 0.04 1.3251.355 7 0.07 1.3551.385 17 0.17 1.3851.415 24 0.24 1.4151.445 24 0.24 1.4451.475 15 0.15 1.4751.505 6 0.06 1.5051.535 1 0.01 1.5351.565 1 0.01 100 1.00,相对频数分布直方图,正态分布曲线,左图是相对频数分布直方图;当测量数据再增多,组(区间)划分再细,直方图形式逐渐趋于 一条直线,即正态分布曲线,它表示出了来自同一总体的无限多次测定的各种可能结果(或随机误差)的分布。横坐标:测定值x或x-;纵坐标:测定值的概率密度,正态分布,正态分布:即高斯分布,正态分布曲线数学表达式为:y:概率密度;x:测量值:总体平均值,即无限次测定数据的平均值,无系统误差时即为真值;反映测量值分布的集中趋势。:标准偏差,反映测量值分布的分散程度;x-:误差,两组精密度不同的测量值的正态分布曲线,正态分布曲线规律:x=时,y值最大,体现了测量值的集中趋势。大多数测量值集中在算术平均值的附近,算术平均值是最可信赖值,能很好反映测量值的集中趋势。反映测量值分布集中趋势。曲线以x=这一直线为其对称轴,说明正误差和负误差出现的概率相等。当x趋于或时,曲线以轴为渐近线。即小误差出现概率大,大误差出现概率小,出现很大误差概率极小,趋于零。越大,测量值落在附近的概率越小。即精密度越差时,测量值的分布就越分散,正态分布曲线也就越平坦。反之,越小,测量值的分散程度就越小,正态分布曲线也就越尖锐。反映测量值分布分散程度。,0,正态分布曲线 N(,2)表示 曲线的形状取决于,2,当,确定后,N(,2)也就定了。积分的计算同与有关,计算相当麻烦。数学上解决方法:坐标变换。,令:,可变为:,式:,标准正态分布曲线,标准正态分布曲线N(0,1)是以u为单位的曲线,它对于不同的和的任何测量值都是通用的。,随机误差的区间概率 标准正态分布曲线与横坐标-到+之间所夹的面积,代表所有数据出现概率的总和,其值为1,即概率P为:,对于N(0,1),测量值的随机误差在某一区间内出现的概率(不同u值所占的面积)已用积分法求得,列于书P57页表3-2。表中所列之值为单边值。,随机误差出现的区间 测量值出现的区间 概率(以为单位)u=1 x=1 68.3%u=1.96 x=1.96 95.0%u=2 x=2 95.5%u=2.58 x=2.58 99.0%u=3 x=3 99.7%,关注以下区间,例题:已知某试样中Co质量分数的标准值为1.75%,=0.10%,又已知测量时没有系统误差存在,求:(1)分析结果落在(1.750.15)%范围内的概率。(2)分析结果大于2.00%的概率。解(1)查表:u=1.5 时,概率为:2 0.4332=0.866=86.6%,解(2)属于单边检验问题。查表:u 2.5 时,概率为:0.4938。整个正态分布曲线右侧的概率为1/2,即为0.5000,故u 2.5的概率为0.5000 0.4938=0.62%,即分析结果大于2.00%的概率为0.62%。,2.总体平均值的估计,用数理统计的方法来处理分析测定所得到结果,目的是将这些结果作一个科学的表达,使人们能够认识到它的精密度、准确度、可信度如何。最好的方法是对总体平均值进行估计,在一定的置信度下给出一个包含总体平均值的范围。,总体标准偏差 样本标准偏差 相对标准偏差 标准偏差与平均偏差 平均值的标准偏差,关于标准偏差的术语,总体标准偏差 当测定次数为无限多次时,各测量值对总体平均值的偏离,用总体标准偏差表示:,样本标准偏差,当测量值不多,总体平均值又不知道时,用样本的标准偏差s来衡量该组数据的分散程度。数学表达式为:式中(n-1)称为自由度,以f表示,是指独立偏差的个数。当测量次数非常多时,测量次数n与自由度(n-1)的 区 别就很小了,此时,同时,相对标准偏差,相对标准偏差(又称变异系数)为,标准偏差与平均偏差,用统计学方法可以证明,当测定次数非常多(例如大于20)时,标准偏差与平均偏差有下列关系:=0.7970.80但应当指出:当测定次数较少时,与S之间的关系就可能与此式相差颇大了。,平均值的标准偏差,何谓平均值的标准偏差?从总体中分别抽出m个样本,每个样本各进行n次测定(通常分析只是从总体中抽出一个样本进行n 次平行测定)。因为有m个样本,也就有m个平均值,由m个样本平均值再得到的平均值比只用一个样本的平均值来估算总体平均值要好。用m 个样本平均值再计算标准偏差,就是平均值的标准偏差。,平均值的标准偏差与单次结果标准偏差,数理统计证明:多个样本平均值的标准偏差与单个样本测量结果的标准偏差之间有下列关系:无限次测量 有限次测量,显然,平均值的标准偏差比单次测定结果的标准偏差要小。,平均值标准偏差与测定次数关系:平均值的标准偏差与测定次数的 平方根成反比。,平均值的平均偏差与单个平均偏差:平均值的平均偏差与单个样本测量的平均偏差之间有如下关系:,结论:适当地增加测定次数可提高结果的精密度。在日常分析中,一般平行测定:34次。较高要求:59次 最多:1012次,少量数据的统计处理,用 t 分布曲线来处理,t 分布可说明当n不大时(n20)随机误差分布的规律性。,正态分布是无数次测量数据的随机误差分布规律。而实际中,测量次数有限,故随机误差分布不服从正态分布。,t 分布曲线 用s代替,纵坐标仍为概率密度,但横坐标则为统计量 t。t 定义为:,自由度f degree of freedom(f=n-1)t分布曲线与正态分布曲线相似,只是t分布曲线随 自由度 f 而改变。当 f 趋近时,t 分布就趋近正态分布。置信度Pconfidence degree 在某一 t 值时,测定值落在(+t s)范围内的概率。显著性水准confidence level 在某一t值时,测定值落在(+ts)范围以外的概率(lP)ta,f:t 值与置信度P及自由度f关系。例:t005,10 表示置信度为95%,自由度为10时的t值。t001,5 表示置信度为99%,自由度为5时的t值。,单样本测量结果以多样本平均值来估计总体平均值可能存在的区间:,对于少量测量数据,即当 n有限时,必须根据t分布进行统计处理:它表示在一定置信度下,以平均值为中心,包括总体平均值的范围。这就叫平均值的置信区间。,平均值的置信区间(confidence interval),置信度:某一区间包含真值(总体平均值)的概率(可能性)置信区间:一定置信度下,以平均值为中心,能够包含真值的区间(范围)置信度越高,置信区间越大,置信度和置信区间,例10 测定某铜矿中铜含量四次结果分别40.53%,40.48%,40.57%,40.42%。计算置信度为90,95和99时,总体平均值的置信区间。,P62,解:,置信度90,查表t0.10,3=2.35置信度95,查表t0.10,3=3.18置信度99%,查表t0.10,3=5.84,3.4 显著性检验分析方法准确性的检验,遇到的“不一样”问题:(1)对标准样品分析,所得平均值与标准值不一样(2)不同人员/科室,所得分析结果的不一样(3)新旧方法,所得结果的不一样 上述问题间的差异是系统误差还是随机误差?属于“假设检验”存在“显著性差异”认为有系统误差存在,否则,纯属随机误差。,显著性检验:利用统计学的方法,检验被处理的问题是否 存在统计上的显著性差异。方法:t 检验法和F 检验法 确定某种方法是否可用,判断实验室测定结果准确性,t 检验法-系统误差的检测 平均值与标准值()的比较 a.计算t 值,b.由要求的置信度和测定次数,查表,得:t表 c.比较 若 t计 t表,表示有显著性差异,存在系统误差,被检验方法需要改进 若 t计 t表,表示无显著性差异,被检验方法可以采用。,P63例题11,查表(自由度 f f 1 f 2n1n22),比较:t计 t表,表示有显著性差异,两组数据的平均值比较(同一试样),计算值:,新方法-经典方法(标准方法)两个分析人员测定的两组数据 两个实验室测定的两组数据 a 求合并的标准偏差:,检验法两组数据间偶然误差的检测,按照置信度和自由度查表表(p64 表3-4)比较 F计算和F表,计算值:,F检验是通过比较两组数据的方差,以确定它们的精密度是否有显著性差异的方法,p65例题 12,13,14,表3-4所列F值是单边值,可以直接用于单侧检验,即检验某组数据的精密度是大于、等于(或小于、等于)另一组的精密度时,此时置信度为95%;而进行双边检验时,如判断两组数据的精密度是否存在显著性差异时,即一组数据可能等于、等于,也可能小于、等于另一组数据的精密度时,显著性水平为单侧的两倍。此时置信度为90%。,说明,3.5 可疑数据的取舍,4d法 偏差大于4d 的测定值可以舍弃 步骤:求异常值(Qu)以外数据的平均值和平均偏差 如果,舍去,方法:4d法、Q检验法、格鲁布斯(Grubbs)检验法 确定某个数据是否可用。4d法的依据是=0.80,3 4,格鲁布斯(Grubbs)检验法,(4)由测定次数和要求的置信度,查表得G 表(5)比较 若G计算 G 表,弃去可疑值,反之保留。由于格鲁布斯(Grubbs)检验法引入了标准偏差,故准确性比Q 检验法高。,基本步骤:(1)排序:1,2,3,4(2)求平均值和标准偏差s(3)计算G值:,Q 检验法步骤:(1)数据排列 X1 X2 Xn(2)求极差 Xn-X1(3)求可疑数据与相邻数据之差 Xn-Xn-1 或 X2-X1(4)计算:(5)根据测定次数和要求的置信度,查表:(6)将Q与QX 相比,若Q QX 舍弃该数据,若Q QX 保留该数据。,不同置信度下,舍弃可疑数据的Q值表 测定次数 Q90 Q95 Q99 3 0.94 0.98 0.99 4 0.76 0.85 0.93 8 0.47 0.54 0.63,p66,p67,p68 例题15,1617,3.6 回归分析法,分析化学中,经常使用标准曲线(工作曲线)来获得未知溶液的浓度。,相关系数R=(xi-xA)(yi-yA)/(xi-xA)2(yi-yA)2)0.5,在以上的吸光度A与浓度C的工作曲线绘制中,各测量点对于所建立的直线有一定偏离;这就需要我们用数理统计的方法找到一条最接近于各测量点的直线,它对所有测量点来说,误差是最小的。如何得到这条直线?方法就是数据进行回归分析。,一元线性回归方程及回归直线,回归直线用如下方程表示:,设做标准曲线时取n个实验点(x1,y1;x2,y2;.xn,yn)每个点于回归直线的误差可用以下来描述,回归直线与所有点的误差,要让所确定的回归直线最接近实验点的真实分布状态,则Q必然应取极小值。分析校正时,可取不同的xi测量yi,用最小二乘法估计a和b,使Q值达到极小值。数学上求极值的方法,即,可推出a 和b的计算式,继而得出回归方程,相关系数,实际中,当两个变量间并不是严格的线性关系,数据有偏离,这样得到的回归直线是否有意义,可用相关系数来检验。相关系数定义:,相关系数物理意义,两个变量之间存在完全线性关系,r=1两个变量之间完全不存在线性关系,r=0r在01之间时,表示两变量存在相关关系。r值越接近于1,线性关系越好。,作业,P75 1,3,4,5,8,11,13,16,20,22,第 3 章 分析化学中的误差与数据处理,在定量分析中,由于受分析方法、测量仪器、所用试剂和分析工作者主观条件等方面的限制,使测得的结果不可能和真实含量完全一致;即使是技术很熟练的分析工作者,用最完善的分析方法和最精密的仪器,对同一样品进行多次测定,其结果也不会完全一样。这说明客观上就存在着难于避免的误差。,3.1 分析化学中的误差(error),定义:分析结果与真实值之间的差值称为误差,名词术语,真实值平均值中位数误差偏差极差:又叫全距,是一组测量数据中最大与最小值之差公差:生产部门对分析结果误差允许的一种限量,1.误差(E)与偏差(d),误差:分析结果与真实值之间的差值 偏差:测量值与平均值之间的差值,误差的表示,绝对误差 E=X-XT相对误差,偏差的表示,绝对偏差相对偏差平均偏差相对平均偏差标准偏差相对标准偏差,2.准确度和精密度,分析结果的衡量指标一、误差和准确度 二、偏差和精密度,准确度和精密度的关系,精密度高不一定准确度高;精密度高是保证准确度的先决条件;精密度和准确度都高的分析结果才是可靠的。,3.系统误差和随机误差,系统误差:由某种固定的原因造成的,具有重复行、单向性。理论上它的大小、正负可以测定,又称可测误差。又分为:方法误差;仪器试剂误差;操作误差和主观误差随机误差:亦称偶然误差,它有某些难以控制的、无法避免的偶然因素造成。如:环境条件(温度、湿度、气压)等的微小变化,使分析结果在一定的范围内波动引起随机误差。,系统误差减免的措施,根据产生的原因采取措施减免,如:1.方法误差采用标准方法作对照试验 2.仪器误差校准仪器 3.试剂误差作空白试验,随机误差(偶然误差)减免措施:特点:影响精密度(1)时大,时小,时正,时负(不恒定,无法校正)(2)数据的分布符合统计学规律(正态分布)(3)影响精密度(4)大小相近的正误差和 负误差出现的几率机等;小误差出现的频率较高,而大误差出现的频率较低,很大误差出现的几率近于零。减免措施:增加平行测定次数,取其平均值。,3.2 有效数字及运算规则,有效数字定义:记录的数字不仅表示数量的大小,还要正确地反映测量的精确程度。结果 绝对误差 相对误差 有效数字位数 0.49400 0.00001 0.002%5 0.4940 0.0001 0.02%4 0.494 0.001 0.2%3,1.有效数字的位数 数字零在数据中具有双重作用(1)若作为普通数定使用,是有效数字 如 0.3180 4位有效数字 3.18010-1(2)若只起定位作用,不是有效数字。如 0.0318 3位有效数字 3.1810-2 改变单位不改变有效数字的位数 如 19.02 mL 为 19.0210-3 L pH,pM,lgC,lgK等,有效数字位数只取决于小数部分 如 pH11.20 是2位有效数字,换算成H+浓度时为:H+6.31012 mol/L,分析化学中正确记录有效数字1正确地记录测试数据(25mL,25.00mL)反映出测量仪器精度 容量量器:滴定管、移液管、容量瓶,体积取4位有效数字。分析天平(万分之一)称取样品,质量取4位有效数字。标准溶液的浓度,用4位有效数字表示。有关化学平衡计算中的浓度,一般保留二位或三位有效数字。2按有效数字的运算规则正确地计算数据报出合理的测试结果。,如:只能 0.5749 0.57 不能 0.5749 0.575 0.58,2.数字修约规则,修约:处理数据时,各测量值的有效数字位数不同,因此需要按规则,确定个测量值位数。在位数确定以后,将它后面的多余数字舍弃,这个过程就叫数字修约。“四舍六入五成双”规则如:3.1483.1;7.3652 7.4 75.5 76;0.245 0.24 1.0251 1.03 一次修约到位,禁止分次,3.运算规则,加减法:有效数字位数的保留,取决于绝对误差最大的那个数,即以小数点后位数最少的数据为准。如 0.012125.641.05782=?0.0121 0.0001;25.64 0.01;1.05782 0.00001运算时,先修约,后计算 0.0125.641.0626.71,乘除法:有效数字的位数应以几个数据中相对误差最大的那个为依据,即根据有效数字位数最少的数据位数来进行修约。如 0.012125.641.05782=?三个数的相对误差:1/121 100%=0.8%1/2564 100%=0.4%1/105782 100%=0.009%可见以0.121的相对误差最大,故以它为标准都修约为三位有效数字再来进行相乘 0.012125.61.06=0.328,3.3 分析化学中的数据处理,同一方法的多次测量,结果会不一样问题(1)如何表达分析结果(2)如何处理可疑值或离群值(3)如何比较不同人、不同室、不同方法所得结果数理统计的方法解决以上问题,总体(母体):考察对象某特性值的全体样本(子样):自总体中随机抽取的一组测量值样本容量 n:样本中所含测量值的数目样本平均值 总体平均值 m真值 xT,术语(统计学),例如:分析某矿石中的铁含量,经取样、细碎、缩分后,得到一定数量(如500g)的试样,这500 g 试样就是供分析用的总体,如果从中取出8份试样进行平行分析,就得到8个分析结果,则这一组分析结果就是总体的一个随机样本,样本容量为8。,举例,平均值:设样本容量为n,则其平均值为:总体平均值:无限多次测定的平均值,总体平均值 确认消除系统误差,则总体平均值就是真值,此时,总体平均偏差为:分析化学中,测量次数一般较少(20),故涉及到的是 测量值较少时的平均偏差,频数分布(frequency distribution)正态分布(normal distribution)随机误差的区间概率,1.随机误差的正态分布,频数分布,相同条件下对样品中铁含量进行测定,得到100个测定值:1.36 1.49 1.43 1.41 1.37 1.40 1.32 1.42 1.47 1.39 1.41 1.36 1.40 1.34 1.42 1.42 1.45 1.35 1.42 1.39 1.44 1.42 1.39 1.42 1.42 1.30 1.34 1.42 1.37 1.36 1.37 1.34 1.37 1.46 1.44 1.45 1.32 1.48 1.40 1.45 1.39 1.46 1.39 1.53 1.36 1.48 1.40 1.39 1.38 1.40 1.46 1.45 1.50 1.43 1.45 1.43 1.41 1.48 1.39 1.45 1.37 1.46 1.39 1.45 1.31 1.41 1.44 1.44 1.42 1.47 1.35 1.36 1.39 1.40 1.38 1.35 1.42 1.43 1.42 1.42 1.42 1.40 1.41 1.37 1.46 1.36 1.37 1.27 1.47 1.38 1.42 1.34 1.43 1.41 1.41 1.41 1.44 1.48 1.57 1.37,观察这100个数据,看出:分析结果高高低低,参差不齐测量数据分散性;仔细观察,中间数据多,两头少测量数据的集中趋势。把100个数据按最大最小的差值,平均分成10等份(区间),计算每一个区间内测量值出现的次数及占总次数的比率频数:是指每一范围内测量值出现的次数相对频数:指频数在测定总次数中占的比率,分组(%)频数 相对频数(频率)1.2651.295 1 0.01 1.2951.325 4 0.04 1.3251.355 7 0.07 1.3551.385 17 0.17 1.3851.415 24 0.24 1.4151.445 24 0.24 1.4451.475 15 0.15 1.4751.505 6 0.06 1.5051.535 1 0.01 1.5351.565 1 0.01 100 1.00,相对频数分布直方图,正态分布曲线,左图是相对频数分布直方图;当测量数据再增多,组(区间)划分再细,直方图形式逐渐趋于 一条直线,即正态分布曲线,它表示出了来自同一总体的无限多次测定的各种可能结果(或随机误差)的分布。横坐标:测定值x或x-;纵坐标:测定值的概率密度,正态分布,正态分布:即高斯分布,正态分布曲线数学表达式为:y:概率密度;x:测量值:总体平均值,即无限次测定数据的平均值,无系统误差时即为真值;反映测量值分布的集中趋势。:标准偏差,反映测量值分布的分散程度;x-:误差,两组精密度不同的测量值的正态分布曲线,正态分布曲线规律:x=时,y值最大,体现了测量值的集中趋势。大多数测量值集中在算术平均值的附近,算术平均值是最可信赖值,能很好反映测量值的集中趋势。反映测量值分布集中趋势。曲线以x=这一直线为其对称轴,说明正误差和负误差出现的概率相等。当x趋于或时,曲线以轴为渐近线。即小误差出现概率大,大误差出现概率小,出现很大误差概率极小,趋于零。越大,测量值落在附近的概率越小。即精密度越差时,测量值的分布就越分散,正态分布曲线也就越平坦。反之,越小,测量值的分散程度就越小,正态分布曲线也就越尖锐。反映测量值分布分散程度。,0,正态分布曲线 N(,2)表示 曲线的形状取决于,2,当,确定后,N(,2)也就定了。积分的计算同与有关,计算相当麻烦。数学上解决方法:坐标变换。,令:,可变为:,式:,标准正态分布曲线,标准正态分布曲线N(0,1)是以u为单位的曲线,它对于不同的和的任何测量值都是通用的。,随机误差的区间概率 标准正态分布曲线与横坐标-到+之间所夹的面积,代表所有数据出现概率的总和,其值为1,即概率P为:,对于N(0,1),测量值的随机误差在某一区间内出现的概率(不同u值所占的面积)已用积分法求得,列于书P57页表3-2。表中所列之值为单边值。,随机误差出现的区间 测量值出现的区间 概率(以为单位)u=1 x=1 68.3%u=1.96 x=1.96 95.0%u=2 x=2 95.5%u=2.58 x=2.58 99.0%u=3 x=3 99.7%,关注以下区间,例题:已知某试样中Co质量分数的标准值为1.75%,=0.10%,又已知测量时没有系统误差存在,求:(1)分析结果落在(1.750.15)%范围内的概率。(2)分析结果大于2.00%的概率。解(1)查表:u=1.5 时,概率为:2 0.4332=0.866=86.6%,解(2)属于单边检验问题。查表:u 2.5 时,概率为:0.4938。整个正态分布曲线右侧的概率为1/2,即为0.5000,故u 2.5的概率为0.5000 0.4938=0.62%,即分析结果大于2.00%的概率为0.62%。,2.总体平均值的估计,用数理统计的方法来处理分析测定所得到结果,目的是将这些结果作一个科学的表达,使人们能够认识到它的精密度、准确度、可信度如何。最好的方法是对总体平均值进行估计,在一定的置信度下给出一个包含总体平均值的范围。,总体标准偏差 样本标准偏差 相对标准偏差 标准偏差与平均偏差 平均值的标准偏差,关于标准偏差的术语,总体标准偏差 当测定次数为无限多次时,各测量值对总体平均值的偏离,用总体标准偏差表示:,样本标准偏差,当测量值不多,总体平均值又不知道时,用样本的标准偏差s来衡量该组数据的分散程度。数学表达式为:式中(n-1)称为自由度,以f表示,是指独立偏差的个数。当测量次数非常多时,测量次数n与自由度(n-1)的 区 别就很小了,此时,同时,相对标准偏差,相对标准偏差(又称变异系数)为,标准偏差与平均偏差,用统计学方法可以证明,当测定次数非常多(例如大于20)时,标准偏差与平均偏差有下列关系:=0.7970.80但应当指出:当测定次数较少时,与S之间的关系就可能与此式相差颇大了。,平均值的标准偏差,何谓平均值的标准偏差?从总体中分别抽出m个样本,每个样本各进行n次测定(通常分析只是从总体中抽出一个样本进行n 次平行测定)。因为有m个样本,也就有m个平均值,由m个样本平均值再得到的平均值比只用一个样本的平均值来估算总体平均值要好。用m 个样本平均值再计算标准偏差,就是平均值的标准偏差。,平均值的标准偏差与单次结果标准偏差,数理统计证明:多个样本平均值的标准偏差与单个样本测量结果的标准偏差之间有下列关系:无限次测量 有限次测量,显然,平均值的标准偏差比单次测定结果的标准偏差要小。,平均值标准偏差与测定次数关系:平均值的标准偏差与测定次数的 平方根成反比。,平均值的平均偏差与单个平均偏差:平均值的平均偏差与单个样本测量的平均偏差之间有如下关系:,结论:适当地增加测定次数可提高结果的精密度。在日常分析中,一般平行测定:34次。较高要求:59次 最多:1012次,少量数据的统计处理,用 t 分布曲线来处理,t 分布可说明当n不大时(n20)随机误差分布的规律性。,正态分布是无数次测量数据的随机误差分布规律。而实际中,测量次数有限,故随机误差分布不服从正态分布。,t 分布曲线 用s代替,纵坐标仍为概率密度,但横坐标则为统计量 t。t 定义为:,自由度f degree of freedom(f=n-1)t分布曲线与正态分布曲线相似,只是t分布曲线随 自由度 f 而改变。当 f 趋近时,t 分布就趋近正态分布。置信度Pconfidence degree 在某一 t 值时,测定值落在(+t s)范围内的概率。显著性水准confidence level 在某一t值时,测定值落在(+ts)范围以外的概率(lP)ta,f:t 值与置信度P及自由度f关系。例:t005,10 表示置信度为95%,自由度为10时的t值。t001,5 表示置信度为99%,自由度为5时的t值。,单样本测量结果以多样本平均值来估计总体平均值可能存在的区间:,对于少量测量数据,即当 n有限时,必须根据t分布进行统计处理:它表示在一定置信度下,以平均值为中心,包括总体平均值的范围。这就叫平均值的置信区间。,平均值的置信区间(confidence interval),置信度:某一区间包含真值(总体平均值)的概率(可能性)置信区间:一定置信度下,以平均值为中心,能够包含真值的区间(范围)置信度越高,置信区间越大,置信度和置信区间,例10 测定某铜矿中铜含量四次结果分别40.53%,40.48%,40.57%,40.42%。计算置信度为90,95和99时,总体平均值的置信区间。,P62,解:,置信度90,查表t0.10,3=2.35置信度95,查表t0.10,3=3.18置信度99%,查表t0.10,3=5.84,3.4 显著性检验分析方法准确性的检验,遇到的“不一样”问题:(1)对标准样品分析,所得平均值与标准值不一样(2)不同人员/科室,所得分析结果的不一样(3)新旧方法,所得结果的不一样 上述问题间的差异是系统误差还是随机误差?属于“假设检验”存在“显著性差异”认为有系统误差存在,否则,纯属随机误差。,显著性检验:利用统计学的方法,检验被处理的问题是否 存在统计上的显著性差异。方法:t 检验法和F 检验法 确定某种方法是否可用,判断实验室测定结果准确性,t 检验法-系统误差的检测 平均值与标准值()的比较 a.计算t 值,b.由要求的置信度和测定次数,查表,得:t表 c.比较 若 t计 t表,表示有显著性差异,存在系统误差,被检验方法需要改进 若 t计 t表,表示无显著性差异,被检验方法可以采用。,P63例题11,查表(自由度 f f 1 f 2n1n22),比较:t计 t表,表示有显著性差异,两组数据的平均值比较(同一试样),计算值:,新方法-经典方法(标准方法)两个分析人员测定的两组数据 两个实验室测定的两组数据 a 求合并的标准偏差:,检验法两组数据间偶然误差的检测,按照置信度和自由度查表表(p64 表3-4)比较 F计算和F表,计算值:,F检验是通过比较两组数据的方差,以确定它们的精密度是否有显著性差异的方法,p65例题 12,13,14,表3-4所列F值是单边值,可以直接用于单侧检验,即检验某组数据的精密度是大于、等于(或小于、等于)另一组的精密度时,此时置信度为95%;而进行双边检验时,如判断两组数据的精密度是否存在显著性差异时,即一组数据可能等于、等于,也可能小于、等于另一组数据的精密度时,显著性水平为单侧的两倍。此时置信度为90%。,说明,3.5 可疑数据的取舍,4d法 偏差大于4d 的测定值可以舍弃 步骤:求异常值(Qu)以外数据的平均值和平均偏差 如果,舍去,方法:4d法、Q检验法、格鲁布斯(Grubbs)检验法 确定某个数据是否可用。4d法的依据是=0.80,3 4,格鲁布斯(Grubbs)检验法,(4)由测定次数和要求的置信度,查表得G 表(5)比较 若G计算 G 表,弃去可疑值,反之保留。由于格鲁布斯(Grubbs)检验法引入了标准偏差,故准确性比Q 检验法高。,基本步骤:(1)排序:1,2,3,4(2)求平均值和标准偏差s(3)计算G值:,Q 检验法步骤:(1)数据排列 X1 X2 Xn(2)求极差 Xn-X1(3)求可疑数据与相邻数据之差 Xn-Xn-1 或 X2-X1(4)计算:(5)根据测定次数和要求的置信度,查表:(6)将