化学计量学课件.ppt
化学计量学怎样解决问题?,化学计量学有什么特点?,化学计量学解决什么问题?,化学计量学,分析化学的发展, 20世纪初,四大溶液平衡理论使分析化学从一门技术发展成一门科学 。 20世纪70年代以来,以计算机应用为主要标志的信息时代的来临,使分析化学经历了仪器化、计算机化、智能化、信息化等各个阶段,发展成为一门建立在化学、物理学、数学、计算机、精密仪器制造科学等学科之上的综合性的边缘学科。,现代分析化学的特征,测试数据的多维化、海量化;分析软件固化在分析仪器中,使得分析仪器高度智能化,提高了对仪器使用者的要求;目前分析化学工作者面临的难题是如何从大量的数据中提取有用的化学信息以解决相关的实际问题。,化学计量学与分析化学,化学计量学先驱B.R.Kowalski宣称:分析化学已由单纯地提供数据上升到从分析数据中获取有用的信息和知识,成为实际问题的解决者,发展成为工业过程控制和生命过程控制的重要组成部分。化学计量学中的很多问题是分析化学的基础性问题,它构成分析化学第二层次的基础理论的重要组成部分 。,化学计量学解决什么问题?,方法选择 预处理 实验 传统化学 数据处理 结果解释 化学计量学化学计量学研究化学量测过程中的共性问题(如实验设计、优化;数据分析、信息提取等),化学计量学怎样解决问题?,利用近代数学理论、统计学方法建立信息挖掘和数据处理方法;利用计算机技术处理信息;利用相关的背景知识抽提有用的、重要的信息或特征。,化学计量学定义,化学计量学(chemometrics)是一门新的化学分支学科,它应用数学、统计学、计算机及其他相关学科的理论和方法去优化化学测量过程,并从化学量测数据中最大限度地获取有用的化学信息。,Brown(1995)指出: 化学家习惯于将99的精力与资源用在数据的收集上,只余下1%用于将数据转化为信息。这种与信息时代的观念相悖的习惯应通过化学教育加以改变。,(1)化学计量学带来思维方式的革命;(2)实验员 实验设计者、问题分析和解决者;(3)有利于作好化学信息的服务;(4)为智能分析仪器的设计提供新的思路。(5)便于快速理解、掌握现代分析仪器(如GC、HPLC、IR、NIR、电子鼻、电子舌等等)的使用与功能开发。,学习化学计量学的益处,化学计量学发展简史,瑞典Svanto Wold于1970年首次应用它解决科研课题; 1974年Wold与Kowalski成立国际化学计量学学会,学会刊物J. Chem. Inf. & Comput. Sci.;1978年国际分析学会每两年发表关于“Chemometrics”的特别综述; 1987年美国与欧洲同时出现两个国际化学计量学刊物:“J. Chemom”与“ChemLab”;国内从80年代初起,以俞汝勤院士为首的分析化学工作者开始这方面研究;化学计量学的方法与理论应用到现代分析仪器。,国内化学计量学研究,湖南大学俞汝勤院士、湖南大学化学生物传感与计量学国家重点实验室主任吴海龙中南大学中药现代化研究中心粱逸曾中国科技大学化学系邵学广同济大学化学系李通化长春应用化学研究所许禄兰州大学化学系刘满仓等,化学计量学内容,化学计量学构成了化学量测的基础与方法学,化学计量学的特点,多学科的“接口”;理论与方法高度抽象、而要解决的问题是具体的、复杂的且涉及到很多学科;以计算机软件为载体实现其应用。,化学计量学与现代分析仪器,红外仪(IR)专家智能系统的应用近红外(NIR,Near Infrared )校正理论,模式识别理论的应用高效液相色谱(HPLC)、气相色谱化学校正理论的应用,NIR分析软件窗口1定量方法选择分析,NIR分析软件窗口2组分、单位及分析限度确定,NIR分析软件窗口3建立校正表,化学计量学教学及其他,20世纪80年代,化学计量学从学术研究领域发展到进入化学课堂美Duke大学将采样(土壤中镁的离子交换萃取及AA测定)、发现建模及单纯形优化(NMR及中子活化)、重叠峰去卷积及通用秩消去法(HPLC-DAD)与化学模式识别(烷烃及烯烃的GC-MS)等列入主修化学的本科实验大纲。,本课程的目的,掌握实验方案的设计、实验数据处理方法,确定使目标最优的实验条件; 了解数据、信息的解析和抽提方法; 了解化学校正理论与常用方法; 了解模式识别理论与常用方法;具备应用数学理论和计算机技术解决与化学相关问题的能力。,本课程的主要内容,线性代数、数据统计、回归等数学基础各类试验方案的设计与优化方法实验数据的预处理方法及主成分概念介绍化学校正理论与主成分分析应用模式识别及其应用简介,实验设计要求,学会用正交表、均匀设计表及均匀设计使用表安排实验方案;会用直观分析的方法处理正交实验数据,了解均匀设计实验数据的回归处理方法和过程。学会用单纯形法优化实验条件并对最优化理论及应用有初步了解和认识。,主成分分析要求,掌握主成分分析中的基本概念:数据矩阵的预处理(中心化、自标度化)、协方差矩阵、相关矩阵、主成分轴(载荷轴、特征向量)、主成分方差(特征值)、主成分(得分)等。了解主成分的求解过程。学习运用主成分分析方法解决相关问题。,化学校正理论要求,了解常用的化学校正方法及其在现代分析仪器中的运用;掌握其中的基本概念(校正集、检验集、交叉验证、PLS法、PCR法、MLR法等)及各种方法的特点与适用范围。,模式识别要求,掌握评价样本间相似程度的距离指标(绝对距离、欧式距离、马氏距离)、相似系数(夹角余弦、相关系数)的计算公式;了解判别线性学习机法、KNN法判别样本归属的有监督模式识别法;了解基于主成分分析、相似度指标进行无监督聚类分析的方法;了解常用的特征抽提方法。通过实例理解特征抽提对于模式识别分析结果准确度的影响。,主要参考书目,刘树深,易忠胜,基础化学计量学,科学出版社,1999方开泰,均匀设计与均匀设计表,北京:科学出版社,1994陈德钊编著,多元数据处理,北京:化学工业出版社,1998陈念贻,许志宏,刘洪霖,徐桦,王乐珊,计算化学及其应用,上海:上海科技出版社,1987梁逸曾,俞汝勤主编,分析化学手册第十分册,化学计量学,2000,195373,392423,化学计量学的相关基础,线性代数数理统计与回归分析计算机编程及应用最优化理论与算法,数学化学计量学的理论基础,数学将实际问题中的背景省略,抽提其在数字或几何方面的共性特点进行研究。数学虽然抽象但却十分实用:物品个数的统计可以用数字表示、很多学科中的研究对象可以用向量、矩阵表示。利用数学中抽象的符号及其相关理论可以建立描述研究对象的数学模型,从而进一步发现其内在规律。,数学对化学家有用吗?,数据的挖掘数据的处理从测试数据提取化学信息 信息技术的革命计算机的发展与应用,化学中的数据类型,单变量数据一次测量得到一个值(如:温度、压力、单波长的吸光度等)多变量数据分析仪器的高性能化,使得一次测量可以获得多变量、多通道的数据(如:UV-可见分光吸收光谱、IR、NIR、荧光光谱、GC、LC、MS、NMR及联用仪器等),分析化学中的矢量, 任何一个光谱、色谱等谱图可以用一个向量表达; 一组描述研究对象的变量也可用一个向量表达,联用仪器如GC-MS, GC-IR, HPLC-MS,二维数据既含有 色谱信息又含有 光谱信息数据矩阵大于10兆大量化合物数据库,根据Lambert-Beer定律做出的两个不同化合物a与b的混合物光谱,向量加法的几何意义,向量减法的几何意义,向量的方向与长度,向量的方向由构成向量的所有元素所决定,因为任意两元素间的不同比率会确定向量在线性子空间中的方向;向量的长度由构成向量的所有元素的平方和所决定:,向量分量之间的不同比例决定了向量在线性子空间中的方向,两向量间的减法决定了n维空间中两点间的距离,向量的数乘,不同浓度的光谱,向量的内积与外积,向量间的内积或点积生成一个数,两向量间内积的几何意义,两向量外积生成一个双线性矩阵,它在多元分辨中有重要的意义,中药肉桂的一部分二维数据,Lambert-Beer Law的矩阵表达,单组分在某一波长下的LambertBeer定律 AClp个混合物构成的物质在波长j处的吸光度,个混合物构成的物质在n个波长处的吸光度可用一行向量表示:,个混合物构成的m个样本在波长j处的吸光度可用一列向量表示:,个混合物构成的m个样本在n个波长处的吸光度可用一矩阵表示:,思考题,1、什么是化学计量学,它有哪些特点?它主要解决哪类问题?它怎样解决问题? 2、化学计量学与现代分析化学、现代分析仪器的关系? 3、掌握化学计量学有哪些益处?4、学习化学计量学的目的是什么?,分子结构参数化方法,定量构效关系(QSAR-Quantitative Structure Activity Relationships)是一种借助分子的理化性质参数或结构参数,以数学和统计学手段定量研究有机小分子与生物大分子相互作用、有机小分子在生物体内吸收、分布、代谢、排泄等生理相关性质的方法。这种方法广泛应用于药物、农药、化学毒剂等生物活性分子的合理设计,在药物设计中,定量构效关系方法占据主导地位。,分子结构参数化方法,QSAR是指定量的构效关系,是使用书写模型来描述分子结构和分子的某种生物活性之间的关系。其基本假设是化合物的分子结构包含了决定其物理,化学及生物等方面的性质信息,而这些理化性质则进一步决定了该化合物的生物活性。进而,化合物的分子结构性质数据与其生物活性也应该存在某种程度上的相关!,分子结构参数化方法,分子电性距离矢量(MEDV)基于分子二维拓扑结构,以各种非氢原子电负性及各原子之间的相对距离为主要分子结构特征,按4种原子类型划分有机化合物原子种类的分子电性距离矢量,简称分子电距矢量(Molecular Electro-negativity Distance Vector based on 4 atomic types,MEDV),分子电性距离矢量(MEDV),一个分子中各原子按不同连接方式(化学键)构成,该分子的理化性质或生物活性则应是该分子中各连接原子之间相互作用的函数。原子之间的相互作用与原子电性及相隔距离密切相关。一般而言,电性越大、距离越小,相互作用越大。此外,不同类型原子之间的相互作用方式也不同。借鉴库仑定理的形式,将分子中的非氢原子按其所连的非氢原子数分为4 类,各类原子的相互作用按以下方式组合:Mkl (k=1,2, 3, 4; kl4),表示第k 类原子与第l 类原子的作用项。,分子电性距离矢量(MEDV),式中 k 或l 是原子类型(共4 类),原子i 或j 分别属于第k 类原子和第l 类原子;qi 和qj 指原子i 和j 的相对电性;dij 表示原子i 和j 之间的距离(以相对键长表示),是从原子i 通过一个或多个化学键连接到原子j 的所有路径中各个相对键长加和的最小值。这样就得到10 个变量:M11,M12,M13,M14,M22,M23,M24,M33,M34,M44,即为MEDV。,分子电性距离矢量(MEDV),碳原子和氧原子的相对电负性分别为1.0000 和1.3490,碳-碳单键和碳-氧单键的键长分别为1.0000 和0.9286。2,4,4-三甲基-1-戊醇的10 个MEDV变量的计算如下。,分子电性距离矢量(MEDV),分子电性距离矢量(MEDV),分子电性距离矢量(MEDV)采用10 个元素表达4 种不同类型的非氢原子在分子环境中不同电性和不同连接方式的结构特征,可以分辨多种异构体,适用于含多个杂原子、饱和键与不饱和键、单和多环等结构特征。,在量子化学计算中指基于量子力学基本原理直接求解薛定谔方程的量子化学计算方法。从头计算法的特点是没有经验参数,并且对体系不作过多的简化。对各种不同的化学体系采用基本相同的方法进行计算。目前的从头计算法包括基于哈特里福克方程的哈特里福克方法、在哈特里福克基础上引入电子相关作用校正而发展起来的后哈特里福克方法,以及多组态多参考态方法等。与半经验方法相比,从头计算法精度高,但耗时长。,原子电距矢量(Atomic electro-negativity distance vector,AEDV),MEDV 是表征分子整体结构的结构描述子,为表征分子局部微环境,可以利用能反映原子在分子中所处化学环境的拓扑指数即原子电性距离矢量,同分子电距矢量一样,在原子电距矢量中,将C、O 等非氢原子根据与其相连的非氢原子数目分为4 种原子类型,以Ak 表示(k =1, 2, 3, 4),表示该类原子与k 个非氢原子相连,则该类原子属于第k 类原子。以碳原子的电负性和碳-碳单键的键长为标准,定义其它非氢原子的相对电负性和相对键长(分别见表2.2 和表2.3)。第i 个等价原子与第k 类非氢原子的相互作用表示为,式中,qi 是第i 个非氢原子的相对电负性, qi是与第i 个非氢原子相连的第j 个非氢原子的相对电负性,采用Pauling 电负性标度;dij 表示第i 个原子到第j 个原子之间的距离(以相对键长之和表示),是从原子i 通过一个或多个化学键连接到原子j 的所有路径中各个相对键长加和的最小值。显然,式中定义的AEDV 由4 个元素组成,即对每一个等价原子,均有ai1,ai2,ai3,ai4 这样4 个元素分别表征其与每一类原子相互作用的大小。,2,4,4-三甲基-1-戊醇中的第1 号碳原子为例,说明AEDV 的计算过程。与第1 号碳原子相连的原子共有8 个,第1 类非氢原子有5 个:标号为5,6,7,8,9;第2、3、4 类非氢原子都只有1 个,分别是第3、第2 和第4 号原子。第1 号碳原子的4 个AEDV 计算方法如下所示:,偏最小二乘回归(partial least squares regression,PLS),在20 世纪60 年代末由Wold 提出的,90年代后期引起国内外医学界人士的兴趣,将之应用到相关研究中,被许多统计学家称为“第2代多元统计分析技术”。,偏最小二乘回归(partial least squares regression,PLS),PLS 是对一般最小二乘回归(ordinary leastsquares regression ,OLS) 的扩展,是集多因变量对多自变量的回归建模以及主成分分析为一体的多元数据分析方法,在一次计算之后即可同时实现预测建模以及多变量系统的综合简化。与OL S 或其他建模方法相比,具有简单稳健、计算量小、预测精度高、无需剔除任何解释变量或样本点、所构造的潜变量较确定、易于定性解释等优点。PL S 通常用于数据的“软”建模,建立因变量关于自变量的线形甚至非线形回归预测方程,特别是在自变量大于观察个数的情况下,相当有效。,