模式识别(PatternRecognition).ppt
,模式识别(PatternRecognition)模式识别的目的是未知样品的分类与归属。借助化学计量学方法,模式识别应能实现对无法直接量测的物质隐含性质的辨识。模式识别、定量构效关系及人工智能使分析化学在化学舞台上扮演的角色从单纯提供分析数据上升为提供化学新兴并参与实际问题的解决。如从波谱数据解析化学结构、对化工产品、药品、食品、商品的真伪辨识、环境污染源寻找污染分类以及产品质量控制等等。,模式识别根据模式之间属性的关系进行分类,包括有监督与无监督的学习,如聚类分析、统计模式识别、句法模式识别、用于分类的人工神经网络技术。,模式识别是在60年代末被引进化学领域,基于性质相近的样本在多维空间中的位置是相近的,也就是说它可把相似的样本“聚”在一起。模式识别有统计模式识别、句法模式识别,而统计模式识别又分为有管理方法、无管理方法。其中无管理方法中又以聚类分析最为常见。,化学模式识别是根据化学测量矩阵,自动将样本集按样本的某种性质(通常是隐含的)进行分类及特征选取的方法,化学模式识别从化学测量数据出发,进一步揭示样本的隐含性质,提供十分有用的决策性信息。,近年来模式识别在化学、生物、医学、食品、环境科学、电子等学科中得到了迅速发展及广泛应用,特别是聚类分析,它可以解决样品的分类、方法的选择及分析过程优化等问题,因而越来越受到人们的重视,并渗透到分析化学领域中。,利用统计学方法研究化合物的分子结构信息(如各种取代基参数,拓扑指数以及量子化学与分子力学计算参数)与各种性能(包括生物活性)参数之间的相互关系,然后根据这种关系及未知化合物的结构参数预测未知化合物的性能参数,利用这一方法可以设计出具有所期望性能的化合物分子结构。,不确定度简介,科学实验总要伴随有一系列的测量过程。测量,就是按照即定的、或由文件规定的步骤,对一个被研究对象所进行的一系列操作,其目的就是要确定该对象的某些物理特性。由于人的认识能力的不足和科学水平的限制,实验中测得的值和它的真值之间总会存在着不一致,这种差别就叫做实验误差。,误差公理指出:测量结果都具有误差,误差是自始至终地存在于一切科学实验和测量的过程之中的。,测量误差可以定义为:在进行了所有的修正之后,测量结果与被测量的真值之差,即=x-xi式中:测量误差,简称为误差;x 测量结果值;xi被测量的真值但真值实际上仅是一理想的概念,按其本性,真值是无法测定的,因为量子效应的存在已排除了唯一真值的存在。在实际工作中,通常也总是在不知道被测量的真值情况下,才进行测量的。因而误差仅只是一个理论上的定性的概念。,一般情况下是无法用测量误差来表征测量结果的可靠程度的,要解决这个问题,就只能用不确定度来表述。,尽管存在着各种各样的误差,但通常测量误差可分为系统误差和随机误差两大类。随机误差是由于测量过程中的随机因素所造成的,是一种不可预测的误差,而系统误差则常是由于测量系统的不理想性而产生的,常常是某些可以测量的效应所引起的结果。,系统误差在重复性实验条件下,对同一被测量进行无限多次测量所得结果的平均值和其真值之差就是系统误差。可表示为下式:系统误差=式中为重复性条件下无限多次的测量结果的平均值减去被测量的真值,。一般说来,系统误差是在一定的实验条件下由某种固定的效应或确定的原因所造成的,因此如果这一效应可以给出估计值的话,那就可以用来进行修正,修正值即是与估计值符号相反的值,只要与未修正的测量结果相加,即可使系统误差减小。,对于系统误差来说,可以运用消除误差源、改变测量方法、寻求修正值等方法来使其减小。在分析化学中,常用以下一些方法来进行:1.空白试验空白试验就是用纯试剂、纯样品来对照,或者用不含对象的样品来对照,最终用测得值扣去空白值。.2.对照试验凡由方法引起的误差,都应该用标准方法或公认的准确的方法来进行对照试验。3.回收试验试验中样品的损失是取样和处理样品的难题。通常是在被测样品中加入已知量的被测组分,然后看其能否定量回收。,4.校正仪器和提纯试剂5.改变测量方法例如在分析化学中,可以采用标准加入法。,随机误差 测量结果与在重复性实验条件下,对同一被测量进行无限多次测量所得结果的平均值之差即是随机误差,可表示为下式:随机误差=一般而言,引起随机误差的因素是不能加以控制的,它们的变化时大时小、时正时负,因此是无法加以修正的。它们是一种不可预测的、随机的差值,可以把它们看成是测量过程中的“随机噪声”。但是随机误差也有着它自己的规律,那就是:无限多个随机误差的代数和必相互抵消成为零,用统计的话来说,即是:随机误差的期望为零。,对于随机误差来说,在了解了样本的特性和差异性的基础上,可以根据统计的原理采取以下一些措施:1.调整样本的大小2.正确地进行抽样3.进行良好的实验设计4.进行假设检验和区间估计。,在化学测量中,常有着对测量仪器、实验方法和实验结果的评估,在分析化学中就有准确度、精密度这些直接与误差的类别相关联的评定,,准确度准确度指的是测量结果与被测量真值之间的一致程度,根据该定义可知,准确度仅是指“一致的程度”,并未用量值来表示。由于它与真值相连,因此它也只是一个定性描述的概念。对于任一次测量,我们都希望了解测量的最终结果与真实值之间的一致程度,但根据定义要计算准确度是不可能的,而误差又不能用来对测量结果的可靠程度来进行定量的表述。国际计量学界经过多年的研究后决定:表征测量结果的可靠程度应采用不确定度。,精密度 精密度指的是在重复性规定条件下,所得独立测量结果间充分靠近的程度。与准确度相类似,精密度也只是一个定性的概念。由于实验标准偏差已能很好地表征数据间充分靠近的程度(即精密度的含义),在国际通用计量学基本名词(VIM)中,已不再出现“精密度”这一名词。(VIM是由7个国际组织联合发布的,由ISO出版。)当然,在评价一组数据的测量的质量时,准确度和精密度的描述是有助于我们对测量结果好坏的定性了解的。一般来说,准确度是较多地是与系统误差相关联的,而精密度则与随机误差有较多地关联。,测量不确定度及其表示实验结果的表达,必须完整、正确地反映出实验中进行测量的全过程及其研究的结论,特别是测量结果的不确定程度的表征。但是由于与真值相联系的误差概念不可能用于对测量结果的可靠程度的表征,这就使得各种国际组织都建议,应当使用测量不确定度的概念。,经过许多国际组织多年的研究和讨论,1993年终于制定了测量不确定度表示指南(Guide to the Expression of Uncertainty in Measurement)得到了包括IUPAC在内的七个国际组织的批准,并由国际标准化组织(ISO)出版。目前GUM的执行已得到了包括中国在内的许多国家政府机构的批准。,不确定度的概念在科学研究、工业生产、商业贸易、质量检验等各个领域都在进行着大量的测量工作,由于测量的局限性,测量结果必有不确定度,也就是测量结果具有不确定、不肯定的程度。测量不确定度是测量质量的定量表征,测量必须有不确定度说明才是完整和有意义的。根据不确定度存在原理:任何测量都存在不确定度,按照GUM的最新定义:不确定度是测量结果所含有的一个参数,它用以表征合理赋予被测量的值的分散性。,在不确定度的传统的定义中,不确定度被认为是一个以被测值为中心的一个数值范围,这个数值范围以一定的概率包含着真值。不确定度与误差的关系可以用下面正态分布的曲线图来表示:,从图中可以看出,真值被包含在一个以测量值为中心的99%的置信区间内,它可能处在该区间内的任一位置。同时还可以知道,不确定度是与分布有关的,而误差却是与分布无关的。不确定度与误差也有着相同的地方,那就是它们的来源是相同的,不确定度也来自于测量器具、测量环境、测量方法、测量对象和校正方法等方面。,一般来说,测量结果只能是被测量值的估计值或近似值,在分析化学中 一般的测量往往也只要求有一个被测量的估计值。但是,只有在这一估计值附有不确定度时,它才是完整的,特别是在一些重要的分析测定中,例如产品的质量鉴定,标准器的校准等,尤其是牵涉到鉴定时,不确定度的表达就更为重要,当然在重要的物理量的测量时也是如此。,不确定度的分类和表达不确定度通常可以分为两大类,即标准不确定度和扩展(展伸)不确定度,前者是以标准偏差来给出的不确定度,后者则用来表达测量值的一个合理的分布区间,又称范围不确定度,它特别适用于涉及到健康、安全及法规的应用时,此时常需提供一个合理的分布区间。,一.标准不确定度标准不确定度又可分成三类:A类标准不确定度,B类标准不确定度和合成标准不确定度。1.A类标准不确定度指的是用统计方法评定的标准不确定度,它是建立在观察数据的概率分布的基础上的。常用的就是标准偏差法,还有极差法。,极差R和标准偏差S一样,也可用来表征测量值的离散特性,它们之间存在着一定的关系,因此在样本测定中,可以用极差来估算标准偏差:S=R/dn 是与测量次数有关的系数,在重复或复现性条件下,单次测量结果的标准差可以用R/dn来估算,取的数值如下表:,如标准偏差为S,则A类标准不确定度为:uA=S,2.B类标准不确定度指的是用非统计方法评定的标准不确定度。如果测量不是在统计控制状态下所进行的重复观察,也就得不到实验的标准偏差,因此就只能根据非统计方法所得到的信息来估计出“近似标准偏差”或“等价标准偏差”。这些信息有:,(1)以前的观察数据;(2)对有关技术资料及测量仪器特性的了解和经验;(3)生产部门提供的技术文件;(4)校准证书、检定证书或其它文件提供的数据,准确度的级别;(5)手册或某些资料给出的参考数据及其不确定度;(6)技术规范中对某些测量方法所规定的重复性限r或复现性R。根据这些信息,按照一定的方法来估计标准偏差,如估得的标准偏差为,则uB=S,应该指出的是,在分析化学中,是较少应用B类标准不确定度的,因为分析测定通常总是在重复测量的状态下进行的。当然,B类标准不确定度与A类标准不确定度同样是可信的。,3.合成标准不确定度合成标准不确定度指的是:当测量结果的不确定度由若干标准不确定度分量构成时,按各分量的方差或协方差算得的标准不确定度。,4.扩展不确定度扩展不确定度是一个确定测量结果区间的量,有时也称为范围不确定度,是将合成不确定度乘以包含因子k而得到该区间的。即:U=k uc,包含因子k是所乘的数学因子,通常取2 3,以保证应有的置信概率。扩展不确定度的定义应是:合理赋予被测量之值分布的大部分可望包含于此区间,其概率应超过90%。,5.不确定度的报告在科学研究、工农业生产和商业贸易中,应用测量不确定度来表征基准试剂、检定测试的水平、检定仪器设备的质量等等,已为国际上所公认。随着GUM的制定,可以说,已形成了测量不确定度表达的世界的统一趋势。,在分析化学中,分析测量的最终结果采用不确定度的报告,应视为不可缺少的部分。不仅如此,还应认识到测量不确定度的表达并不只是局限于某几个分析数据误差的表征或仅仅是误差概念的讨论,更重要的是它其实关系到所有化学测量的科学性和正确性。国际ISO技术局已将GUM作为ISO国际标准起草和提出时应执行的方针文件,因而在工业、商业乃至商检、环境监测等各部门,不确定度表达规范的执行已是十分重要的事情。这当然也表明,分析化学更应重视对不确定度表达的研究和推广。,凡测量结果,原则上都应该给出不确定度的报告,尤其是牵涉到制定标准、技术鉴定、科学发现时,除非该结果并不被具体应用。报告测量结果的不确定度,还必须完善地提供评定不确定度的所有信息,诸如分析测试方法、仪器、各种标准乃至使用的常数,和其它资料的来源。,不确定度的报告还应该注意正确的表达方式:一.用合成不确定度来表征时,常可采用以下几种表达形式:例如报告一标准砝码的标准不确定度,砝码的标称值为100克。1.=100.02147g u=0.35mg 这种表达简单清楚。2.=100.02147(35)g 括号里的两位数字,就是,它是与测量结果 的最后两位数对齐的。3.=100.02147(0.00035)g 括号里的就是。,用扩展不确定度来表征,通常可直接用Y=yU的形式来给出最终的分析测试的结果,但必须要加以说明。例如=100.021470.0079g 0.0079g即为扩展不确定度U=kuc,除了这样表示外,还需指出=0.35mg,t分布,k=2.26,自由度为9。当然,也可以表达为U95=k95uc,通常不确定度的报告,还应给出自由度,如无法获得时,也应说明它据以计算的合成标准不确定度及包含因子,有关自由度的计算,请参考专门文献,这里就不再介绍了。不确定度的有效数字,一般取两位,进行中间计算时,可多保留一位。在修约时,应只入不舍为好。,