绪论(化学信息学相关概念).ppt
化学信息和化学信息学,自从化学学科出现以来,信息的记载、组织与交流对化学学科的发展起了重要的作用,同时也成为化学学科的一个重要组成部分。这是因为化学实验的记录资料具有长远的时间意义。在化学学科中,化学家根据百年以前的记录资料从事科学研究的例子并不罕见。另外,化学物质结构的记录与检索需要建立独特的记录系统。随着计算机技术的发展,化学家必须建立自己的信息表示、记录与管理系统,以适应时代的要求。,化学信息化学信息可分为两大组成部分:化学物质的化学信息:利用科学的原理和方法通过测量得到的化学成分的相关信息,如物质的物理、化学性质,物质中各成分的定性、定量以及结构信息,分子间的相互作用信息,化学反应的信息等。媒体形式的化学信息:化学信息的记录形式,如图书、期刊、专刊、专利、数据库以及音像资料等,通过化学信息的传播使化学家们共享测量的原理、方法及测量结果。化学信息学是近年来发展起来的新学科,它的产生与发展是基于化学信息量指数般增长,特别是组合化学及高通量筛选的迅速发展。化学信息学的产生与发展是与药物研究与开发息息相关的,但它的应用却覆盖化学学科的各个领域,如农业化学、分析化学、合成化学、物理化学等。近年来,国际上已出版与化学信息学有关的杂志,出现众多的化学信息学公司,许多大学纷纷开设化学信息学课程,培养化学信息学人才。,1.1 化学信息学的起源及历史1.1.1 信息学的起源上世纪40年代,以申农(CEShannon)通讯的数学理论、维纳(NWeiner)控制论动物和机器中的通讯与控制问题问世为标志,信息论诞生了,它是科学发展史上的里程碑,其伟大贡献和深远影响是前所未有的。1959年,美国宾夕法尼亚大学莫尔电子工程学院首先应用了“信息科学”的概念,这一概念既包括了信息理论又包括了信息技术。出现了:以计算机为代表的“计算机信息科学”;以文献处理自动化为代表的“图书馆信息科学”和以申农通讯信号计量理论为核心的“全信息信息科学”。三者的共同特征是:仅研究特定领域中的某些信息,对其它领域中的信息不予充分的关注与考虑。上世纪60年代初,以申农信息论为基础的信息科学得到了一定的发展,新概念和新理论不断涌现。,20世纪80年代以来,在申农原有信息论的基础上分别在模糊信息、概率与非概率信息、语法信息、语义信息、语用信息等方面做了大量的工作。在此基础上,人们提出了广义信息论。1982年美国普林斯顿大学的马克卢普(FMchlup)在美国聚集了当时不同信息研究领域的众多学者发起了一个信息的多学科交叉的研究运动,信息理论的研究开始向其它科学领域渗透和扩展,诞生了40多种部门信息学,并发表了继申农、维纳之后的又一本经典著作信息研究:学科之间的通讯。1994年,德国一批学者又发起了一个新的交叉信息科学的研究运动,开拓了部门信息学的一些新领域。虽然,研究的范围更加广泛,但是,并没有做出实质性的评论与创新性的理论。90年代后期,部门信息学得到了蓬勃的发展,除了增加了新成员,而且,关涉到了自然科学和社会科学的众多前沿问题。其中较有影响的部门学科是:生物信息学,物理信息学,还有经济信息学,人类信息学等等。据统计目前大概已有50余种部门信息学。,1.1.2 化学信息学的起源与历史,20世纪60年代以来,计算机与化学结合形成了计算机化学。经过近40年的发展,计算机化学几乎在化学的每一分支领域都获得了丰硕的成果,计算机已成为化学研究的重要工具之一。20世纪80年代以来,Internet飞速发展,逐步成为各种信息资源传递的重要载体,包括基于的化学信息网站、化学信息数据库、远程化学教学等内容的化学信息网络化趋势也日趋形成。化学与internet成为一个非常活跃、进展惊人的新兴交叉领域。随着计算机化学的不断发展和化学信息网络化的不断普及,一个崭新的化学分支学科“化学信息学(Chemoinfiormatics)”应运而生。“化学信息学”首次出现于1987年诺贝尔化学奖获得者J.M.Lehn教授的获奖报告中。JMLehn在研究复杂分子的反应过程中发现分子具有自组织、自识别的化学智能反应现象,识别的概念包含着信息的展示、传递、鉴别和响应等过程,这就是化学信息学研究的开始。,化学界的专家学者们正试图以新的方式和方法建立化学信息周期表。国外一些大学开设了化学信息学课程并确定为研究生的研究方向,从事研究、管理和开发化学信息的团体、机构和公司也相继出现。美国化学会化学信息分会和图书馆协会在Indiana大学成立了化学信息教学资料交换中心(The Clearinghouse for Chemical Information Instructional Materials(CCIIM)),负责收集、发布和分发化学信息源。美国化学会还设立了化学信息教育委员会(American Chemical Society Division of Chemical Information Education Committee)。美国、欧洲、澳大利亚的很多大学开设了化学信息学类的课程。在国内,化学教学指导委员会已将化学信息学列入化学教学的基本内容,北京大学化学学院已设置课程并编写了讲义,南京大学、复旦大学及我校等高校也相继开设了该课程。,1.2 化学信息学的概念及研究内容1.2.1 化学信息学的概念,1987年J.M.Lehn教授首次提出化学信息学的概念以后并没有进一步深入研究这一概念的本质,但我们可以看出,当时化学信息的内在含义应为分子间的相互作用或相互识别的有关信息,而化学信息学应为研究分子间相互作用实质或识别机理的一个学科,主要目的是为解释超分子的形成过程提供依据。目前化学信息学的内容更加强调了化学文献、化学信息数据库、特别是Internet中的化学资源等内容。,化学信息学还没有统一的被广泛接受的定义及英文名称。目前最通用的为Chemoinformatics及Chemical informatics。也有用Cheminformatics,Chemi informatics。也有人把Chemical information Science及Molecular Informatics称为化学信息学。与化学信息学有关的术语有 chemi-informatics,chemometrics,computational chemistry,chemical informatics,chemical information management/science,和cheminformatics等等。美国印第安那大学(Indiana University)在国际上最早在化学图书馆科学的基础上开设化学信息课程及培养化学信息学研究生,他们把化学信息学定义为:化学信息学包括从利用传统的图书馆科学方法组织化学信息到利用现代计算机技术产生、存储、检索及可视化化学信息。,定义1:Frank Brown于1998年把化学信息学定义为:应用信息技术和信息处理方法已成为药物发现过程中的一个很重要的部分,化学信息学实际上是一种信息源的混合体。把各种化学数据转化为信息,把信息提升为知识,其主要目的是在药物先导化合物的发现及组织过程变得更有效。这个定义太偏重于药物化学,事实上,化学信息学在其他领域如农业化学也有广泛的应用。(“The use of information technology and management has become a critical part of the drug discovery process.Chemoinformatics is the mixing of those information resources to transform data into information and information into knowledge for the intended purpose of making better decisions faster in the area of drug lead identification and organization”F.Brown,Annual Reports in Medicinal Chemistry,33,375-384(1998),定义2:M.Hann 和R.Green 认为化学信息学是处理化学老问题的一种新名称(“Chemoinformatics-a new name for an old problem”,Current Opinion in Chemical Biology,3,379-383(1999))。定义3:Greg Paris在1999年8月的ACS会议上提出了一个更一般性的定义,他认为:化学信息学是个一般的术语,它包括化学信息的设计、建立、组织、管理、检索、分析、判别、可视化及使用。(“Chem(o)informatics is a generic term that encompasses the design,creation,organization,management,retrieval,analysis,dissemination,visualization and use of chemical information”G.Paris(August 1999 ACS meeting)。,定义4:将计算机技术应用到化学中的一门组合技术,利用统计模型、计算和分析科学来理解化学数据的重要性(“Chemoinformatics is the application of computer technology to chemistry;a combination of techniques and models in statistical,computational,and analytical sciences to understand the significance of chemical data.”)。定义5:“化学信息学是近几年发展起来的一个新的化学分支,它利用计算机和计算机网络技术,对化学信息进行表示、管理、分析、模拟和传播,以实现化学信息的提取、转化与共享,揭示化学信息的内在实质与内在联系,促进化学学科的知识创新。”化学信息学是化学学科的分支学科,其研究对象和研究目的均属于化学的学科领域。它的研究手段为计算机技术和计算机网络技术,研究内容则包括如何利用计算机和计算机网络技术对化学信息进行表示、管理、分析、模拟和传播等。同时,化学信息学的目的是为了实现化学信息的提取、转化以及化学家之间的资源共享,从而为促进化学学科的发展与知识创新做出贡献。,1.2.2 化学信息学的研究内容(1)化学信息的组织、管理、检索和使用:化学信息可分为与传媒有关的信息(如文献、图书资料、网络信息等)及与物质有关的信息(各种实验数据,包括化学反应有关数据,谱学数据,射线晶体学数据,化学与物理性质数据,毒性及生物活性数据,与环境有关的数据等)。化学信息的形式包括:文字、符号、数字、形貌、图形及表格等。这些化学信息最主要的组织、管理形式是形成数据库。最早的化学数据库是各种谱学数据库及剑桥晶体结构数据库。目前最完善的化学信息系统是MDL系统、Beilstein系统及CA系统。据统计目前化学信息中58%已经组织为各种数据库系统,但其中只有12%可以相互转换,而化学信息常常是需要结合使用的,要完成一项化学研究工作需要调用多种有关的数据库。,化学信息学的重要内容之一是如何实现化学信息间的关联及转化。化学信息的管理、检索及使用包括化学信息的快速有效的检索及推理、判断。主要涉及人工智能方法,最重要的是化学专家系统。一个专家系统包括化学知识信息处理,化学知识利用系统、知识的推理能力及咨询解释能力。20世纪60年代开发的化学专家系统DENDRAL系统是最早的专家系统。目前已有多种化学专家系统用于不同的目的,如图谱解析专家系统、反应路线设计专家系统等。(2)分子结构的编码、描述、三维结构的构建:巨大数目分子结构编码及三维结构模型的构建及各种形式的结构表达,并能快速连接到合成路线,谱学数据,纯化技术等是化学信息学的基础工作。,(3)化学信息的加工、处理及深化:化学信息的加工处理包括数据的预处理,回归分析,主成分分析,偏最小二乘,信号分析,模式识别,神经网络,遗传算法,模糊及随机算法等。它们可以帮助化学家正确分析、评价、利用现有的化学信息并从中获取最大量的有用结果,实现从数据到信息,从信息到知识的转换。计算机模拟技术包括量子化学、分子动力学、蒙特卡罗方法及各种优化技术,近年来已取得重大进展,在药物开发,功能材料的研制及生命科学领域都取得许多突破性的成果。化学体系涉及分子、超分子、超分子聚集体及聚集态等。在不同尺度及层次的化学体系会表现出不同的性质,称尺度效应。过去化学家主要着眼于微观体系,化学工程学家主要关注宏观体系,对于联系宏观与微观的介观体系没有受到应有的重视,因此有关介观体系的信息及多尺度研究也应是化学信息学关注的重要问题。,(4)计算组合化学:组合化学是当前化学家关注的热门领域。它的特点是以比较短的时间及较少的经费为快速合成大量的化合物提供大量的化学信息。但它面临组合的数目过大,所谓组合爆炸,如此巨大数目的组合化学合成仍需要消耗大量的人力与物力,万一失败就造成巨大的浪费,因此需要通过计算组合化学方法建立虚拟的组合化学库,然后在计算机上进行筛选,选择较少数目的化合物进行组合化学合成。虚拟库的构建要考虑分子的相似性及差异性。虚拟库的筛选包括基于靶酶结构利用分子对接方法进行筛选,或利用神经网络方法把已成药的化合物作为训练集,把虚拟组合化学库作为预测集,把化合物区分为类药分子(Drug Like)及非成药分子(Non Drug compounds)。一个组合化学计算机系统应包括组合合成库的设计,高维化学空间差异性质计算及影射,化学反应数据库系统和知识库系统,综合性化学多样性信息及生物实验数据管理系统,分子对接及构效关系研究等。,(5)化学体系中信息的交换及传递:诺贝尔奖金获得者Lehn在1987年诺贝尔获奖演说中提出信息化学(Semiochemistry)的概念。他认为化学信息寓于分子中,在分子间相互作用时读出化学信息,这些化学信息对于化学反应及性能起着调控的作用。这方面的研究涉及分子识别、超分子建筑、分子构造学、晶体工程、分子器件等方面的内容。但目前在国外的文献中较少有人把这方面的内容纳入化学信息学的范畴。,(6)分子的物理化学性质预测:目前已合成的化合物的数目已超过5107个,而虚拟的组合化学库的化合物数目可达亿万个。如此巨大数目的化合物无法全部完成它们的物理化学性质的实验测定,因此根据化合物的结构预测化合物的性质有重要的意义和价值。利用量子化学及分子力学方法可预测许多重要的分子性质,如:键长、键角、二面角、三维结构、药效构象、反应中间体、过渡态、电子性质、电荷分布、偶极矩、离子化势、电子亲和性、质子亲和性、极化、静电势、分子间相互作用、Wood World Hoffman规则、结合能、大分子间的结合位点、pKa、分子能量、生成热、焓、活化能、势能面、反应途径、溶剂化能、光谱性质、振动频率、红外及拉曼强度、ESR常数、激活能、消光系数、传输性质、亲脂性、分子体积、分子表面积等等。,1.3 化学信息学常用方法,最早的化学信息学的方法和应用都是发表在美国的Journal of Chemical Information&Computer Science(Journal of Chemical Information and modeling)杂志上。化学信息学研究的最早内容之一是象结构描述符一类的化学结构的计算机表示。1.3.1 描述符和化学结构数据库的获取 20世纪80年代以前,计算机的速度较慢,对化合物的结构和子结构的搜寻是一个很难的问题,因为它们的计算量都很大。为了找到在较慢的计算机上能够进行化合物的结构和子结构搜索的非常切实可行的办法,化学家们尝试了许多方法以便能够找到一个简洁的结构表示方法,如结构的线性表示等。这种方法将化合物的结构图转化成计算机很容易识别和搜索的字符串。数据搜索的方法可以过滤掉许多不符合条件的化合物,然后在小范围里再根据逐个原子搜索的方法就会将搜寻的化合物缩小到一定的范围。,1.3.1.1 线性符号 结构线性符号在一系列的规则下将化学结构的连接表转化为具有一定序列的字符串。最早的线性符号是Wiswesser 线性符号(WLN)。在上世纪60年代中期到80年代,WLN被认为是最好的表示化学结构的工具。虽然WLN很有效的压缩了化学结构数据,并且非常适合低性能的计算机的存储和搜索,但是,它的编码让非专业人员很难看懂。后来Weininger又提出了一个新的线性符号编码系统SMILES。由于SMILES和自然语言很接近,因此有机化学家广泛的应用该方法建立化学结构数据库。要想成功地表示化学结构,线性符号必须具有唯一性,即线性符号和化学结构之间必须是一一对应的关系,WLN和SMILES就具有这样的特点。,1.3.1.2 规范化 WLN和SMILES都能够通过字符串匹配的方法解决结构搜索的问题。一个分子的2D结构图可以通过数学算法规范化地变成一个实数,这些实数就被称为分子的拓扑指数。但是两个不同的分子可能具有相同的拓扑指数,因此,拓扑指数只能用于对分子的筛选。拓扑指数的概念最早是在QSAR和QSPR研究中提出的。Wiener在1947年第一个报导了分子的拓扑指数。如果分子和拓扑指数之间是一一对应的关系,那么结构搜索就可以通过数据的比较来完成。但是,子结构的搜索仍然要通过一个一个原子匹配的算法来进行,这样就非常耗时。为了增强化学数据库的搜索功能,必须要找到较好的结构筛选技术。,1.3.1.3 筛选与搜索 为了避免使用逐个原子匹配,目前大都使用筛选的方法。这种方法的思路是先定义一组子结构(官能团),用来过滤掉一些不可能的结构。这些预先定义的结构叫做搜索关键词。目前这些关键词都被MDL结构数据库系统收集采用,在MDL结构数据库系统中,有166个搜索关键词和960个扩展搜索关键词。开始这166个搜索关键词是用166个字符串来表示的,后来发现使用166个二进制位比使用166个字符串更有效,因为计算机处理逻辑位操作要比处理字符串快的多。,1.3.1.4 指纹 这种方法的思想是用一些二进制位来表示指定的子结构,如果有这种子结构该位置的二进制数据为1,它表示相应的子结构在此位置,0代表此位置没有指定的子结构。这种二进制映射被称指纹。有许多类型的分子指纹,其类型依靠使用的是一套什么样的子结构,例如:Daylight 使用的指纹表示的是由Daylight Fingerprint 软件包产生出来的子结构,而MDL指纹表示的是MACCS搜索关键词定义出来的子结构。指纹的方法大大地提高了化学结构数据库的搜索性能。从线性符号字符串到指纹的转变是化学信息学的具有重要意义的发展,有了指纹技术之后,我们可以计算两个不同大小的分子结构的相似性。尽管两个分子可能具有不同的原子数和键数,它们有可能有相同数目的指纹,占用相同的存储空间。,1.3.1.5 结构描述符及化合物结构库 制药公司在上世纪90年带开始采用高通量筛选技术。快速构造出包含数千个化合物结构的数据库已经成为一个重要的课题,构造这样数据库的目的是为了解决下列问题:(1)一个数据库里有多少种各类化合物?(2)在数据库中的化合物和市场的化合物相比有多少相似性?(3)应该怎样选择出一个子库,使其在结构上能表示整个库?(4)外来的数据库能否作为该库在结构上的补充?早期的化学信息学使用了化学数据库的概念,例如MACCS基于指纹的搜索关键词和Daylight指纹,这些工具都能进行化学结构的差异性分析。目前,子结构的二进制映射不仅可以表示结构描述符,也可以表示任何的结构性质:如拓扑性质和3D性质的各种分子指数、分子量和H-给体数等,现在有许多的计算各种各样结构描述符的免费和商业工具。结构描述符是概括化学结构数据库的最基本的工具,而差异性则是现代化学信息学的主要内容。,1.3.2 降维和描述符的选择(Dimension reduction and descriptor selection)从数学角度而言,一个数据库若有n个化合物,而每个化合物用m(m 3)个描述符来表示,那么该库就是一个nm的矩阵。虽然我们都喜欢从各种各样的图上来分析数据,但我们没有办法用图形来表示它们。为了解决这个问题,我们必须使用降维技术将数据转化为2D或3D。目前有许多的降维方法,下面作一个介绍。1.3.2.1 多维规范化处理(MDS)多维规范化处理(MDS)或人工神经网络(ANN)方法都是传统的用于绛维的方法。MDS是一种非线性的映射方法。它不是一种精确的方法,实际上是将研究的对象移到一个指定维数的定义的空间上,然后检查对象之间在新的空间中表示距离能否和原空间的顺序一致。换句话说,MDS使用函数最小化算法计算具有最大拟合目的不同空间中的数据。,1.3.2.2 自组织映射(SOM)自组织映射(SOM)是人工神经网络的一种。它是一种有效的向量定量化算法,在高维输入空间中建立参考向量,并用一种规则的方式在影射空间中用该参考向量近似输入模式。定义参考向量间的局部顺序关系使得它们之间互相依赖,这样它们近邻的值好象都落在一个假设“弹性面”上。SOM 通过保留输入数据的局部本质特征能够将复杂的高维空间的数据压缩或影射到二维空间上。,1.3.2.3 主成分分析与因子分析(PCA,FA)主成分分析(PCA)与因子分析(FA)在定量分析中通常用于过滤多余描述符、排除包含信息量很少的描述符。PCA能将大量的具有潜在相关性的变量(描述符)转变成一些相对独立变量,并且可以根据这些变量所包含信息量的多少进行排列。经过变换的变量包含了所有变量的绝大部分信息,因此被称为主成分。第一个主成分包含的信息最多,接下来的每一个主成分都包含有一定的信息,后面的成分所包含的信息往往很少,可以舍掉而不会失去多少信息。因子分析(FA)是通过对一数据矩阵进行特征分析、旋转变换等操作,以获得有关信息的数学方法。所获得的因子是原始变量的线性组合,其数目总是比原始变量的数目少。如果在PCA中的主成分数和FA中的因子数少于4,那么多维的数据就可以在2D或3D空间中用图形表示了。虽然PCA和FA都可以用于数据的降维,但这种降维方法并不是适用于任何情况,因此我们需要一种方法能将数据点和化学结构之间对应起来,这就是所谓的化学结构相关数据的可视化。,1.3.2.4 可视化化学结构 化学结构图是化学家们的自然语言。由于将数据库里的每一个化合物影射二维平面中的一个点,因此很有必要找到一种容易的方法来识别每一个点所对应的化合物的结构。这种方法已经被一些软件如Spotfire 解决。1.3.2.5 描述符的选择(Descriptor selection)成功的数据挖掘往往是建立在选择良好的能反映分子结构和性质特征的描述符的基础之上的。如果用一些不合适的描述符来表示分子,就不可能得到一个合理可靠的预测结果。要想正确的选择描述符,必须要求对所要解决的问题中的一些计算关系有足够的理解,通常相关性分析(Correlation analysis)及有关的分析方法能够帮助我们对问题的理解。选择描述符时应遵循以下原则:,(1)所选择的描述符应该与生物活性有关(通常要进行相关性分析);(2)所选择的描述符应该覆盖面较广(即数据集有各种各样的分布);(3)所选择的描述符相互之间应该是相对独立的(如果有两个描述符之间具有很好的相关性,建立的模型所预测的性质就会出现偏差)(4)所选择的描述符应该是比较容易获得,且易于化学家解释,不会发生变化或不相关转换的,对噪音不太敏感的,同时该描述符还应该在不同种类的模式(模型)中起不同的作用。一些研究表明,2D描述符有时比3D描述符在建模时更有效。数据挖掘的目的就是建立与活性或性质有关的模式。在分析数据的时候,我们会把化合物库里的化合物分成几组,在同一组里的化合物应具有共同的特征。这就要求分类,而模式识别算法就是用于分类。,1.3.3 分类和模式识别(Classifications and pattern recognition)数据挖掘的核心技术是模式识别。在化学信息学中,回归分析和分类是最常用的模式识别技术。回归分析通常用于具有连续数据的变量中,但是多数的结构描述符都是离散的或是布尔(Boolean)变量,因此就不得不采用分类的方法来解决,如有指导的和无指导的学习算法。下面我们先来了解什么是模式(patterns)。1.3.3.1 模式 研究人员要想从众多的数据挖掘工具中找出合适的模式,必须先对所研究的问题有足够的了解,即研究者应该事先知道他们研究问题的模式类型。,1.3.3.2 相似或距离矩阵(Similarity or Distance metrics)许多的模式识别技术需要距离或相似性度量方法来定量地衡量两个研究对象(象化学中常常研究的分子)的相似性。一般而言,Euclidean 距离,Mahalanobis 距离和相关系数是最常用的距离度量方法,Tanimoto系数常用于计算布尔逻辑型(Boolean logic)数据之间的相似性,它们的计算方法如下:(1.1)(1.2)(1.3)(1.4),1.3.3.3 聚类(Clustering)聚类分析(CA)是由Tryon在1939第一个使用,事实上CA 包含了大量的分类算法。一个最普通的是如何使用分类学将实验数据分成有意义的不同类别。CA的方法就是为了解决这个问题。目前,已有许多的CA算法,总的可以分成两类:即分级聚类和不分级聚类。分级聚类将研究的对象按树状结构进行重新安排。Javis-Patrick是最早使用CA对化学结构进行聚类的。正确的聚类分析要依靠下面三点:(1)选用适当的结构表示;(2)选用合适的数据标准化方法;(3)选择合适的聚类分析算法和适当的参数设置。当大量的实验数据的实验条件和量刚不一样时,数据标准化是这些数据能够进行比较的基础。,线性标准化:,比例标准化:,Z-score标准化:,一般地,线性标准化使用的较多,Z-score标准化必须要求xi 符合Gaussian 分布。聚类分析的一个缺点是在进行聚类分析之前必须先确定数据应该分成几类,并且不容许出现奇异数据。,1.3.3.4 分割聚类(Partition clustering)分割算法也有许多种,如二杈树,非参数法等。由于很难使用回归或参数分类法对奇异数据类型进行分类,过多的描述符也使得聚类分析无法进行,一般就用二杈树方法解决这类问题。目前最常用的二杈树算法是递归分割(recursive partitioning,RP)。有文章报道使用递归分割算法在一个小时内能将超过100,000 化合物和2,000,000 描述符进行分类。递归分割算法也可用于建立多元回归模型。一个最大的优点就是分割算法和和聚类分析算法一样能够解决许多分类问题。,1.4 化学信息学软件开发及常用软件 计算机与化学的结合在上世纪60年代就开始为人们所重视,80年代以来得到快速发展。近二十多年来,由于计算机及网络技术的不断发展,计算机技术与化学之间的相互渗透已成为化学和计算机科学工作者的研究热点,从而形成了一门新兴的分支学科化学信息学。利用Internet这种全球化的工具,化学工作者在自己的办公室或家中就可以快速地获取过去难于获得或者需要通过许多方法和渠道才能获得的信息,也可以通过Internet网快速地发表自己的观点、研究成果等。计算机技术在化学中的应用对化学工作者的传统工作方法及思维模式产生了很大的冲击,改变了化学工作者的研究手段及工作环境,使得原来难以解决的问题变得更加容易,如结构化学中的许多计算。如今计算机技术在化学中已得到广泛的应用,各种应用软件的大量出现使得化学工作者愈来愈依靠这种技术来解决化学中的问题。总的来分,目前化学信息学应用软件的主要包括为以下两个方面:,计算机开始用于处理化学中的复杂计算将计算机技术与化学仪器相结合从而到分析测试的自动化、智能化是当前新仪器、新设备的设计与制造的重要发展趋势。随着计算机技术的不断发展与功能的完善,计算机不再是一种简单的计算工具,它正向智能化、网络化方向发展,这使得应用计算机技术能解决的化学问题也愈来愈多。由于计算机主要是用数学的方法通过计算来解决问题,其特点是能快速地进行大量复杂、繁琐的数学计算,而化学是对化学物质进行认识、分析、合成及利用。因此,要想将计算机技术应用到化学中就必须解决化学与计算机的结合问题。这方面的研究包括两方面的内容,即计算机与化学仪器的接口、化学类应用软件程序包的开发。,(1)计算机与化学仪器的接口。其任务是研制计算机与化学仪器相接时的软硬件运行环境,它包括实验数据的采集与处理两方面的内容。其方法是使用A/D或D/A转化技术将化学测量中的模拟信号转化为计算机可识别的数字信号或将计算机发出的数字信号转化为化学仪器可识别的模拟信号,进而实现对测试及工艺过程的控制。测试仪器接口系统今后向模块式、智能化测试系统方向发展将是一种必然趋势。,(2)对采集数据的处理,是通过不同目的的化学类应用软件程序包系统实现。化学信息学类应用软件程序包,主要是设计具有工具性的应用软件程序包和处理化学问题的数学程序。这方面国外有很多,如Chemoffice、ChemWindow、ChemSketch、Scivision、Chemdraw、ISIS Draw系列化学办公软件、HyperChem系列程序、Tripos公司的Sybyl系列程序、Caussian系列程序、Mopac系列程序、DENDRAL、CHEMICS、CASE、EXSPEC、PARIS等。由加拿大的Advanced Chemistry Development Inc.公司制作Chem Sketch软件,其1.0版已作为免费软件向大众推出,该软件可以从Internet上免费下载:http:/,主要用化学结构的二维及三维显示。更多的软件及介绍可参见:http:/,我国在这方面起步较晚,唐敖庆等编制的结构化学软件是我国较早自己设计的化学类工具软件。清华大学CAI中心实验室开发的写作系统THCAI,可以用它开发包括化学类的CAI课件;安登魁等设计的计算药物分析程序包,它包含35个常用方法,可用于各种类型的化学统计分析、分光光度分析、最优化、因子分析、聚类分析及模式识别的计算。目前,在量子化学研究中用得最广泛的计算程序是由1998年Noble化学奖获得者之一Pople设计的Gaussian系列程序.。,1.5 化学信息学的应用 1.5.1 化学信息学在化学的应用 就其研究内容看来,化学信息学在化学研究中的应用一般可分为四个方面,即,计算机与计算化学、计算机与应用化学、计算机与化学工程、化学数据库与专家系统。1.5.2 药物设计中的应用(Applications in drug discovery)化合物的选择(Compound selection),虚拟库的建立(Virtual library generation),虚拟筛选(Virtual screening)。,1.6 化学信息学的现状及未来 化学信息学是用计算机研究化学反应和物质变化规律,实现化学知识创新的科学。以计算机及其网络系统为工具,建立由化学化工信息发现新知识和实现知识传播的理论和方法;认识物质、改造物质、创造新物质和认识反应、控制反应过程和创造新反应、新过程是化学信息学研究的主体。化学数据挖掘和知识发现、计算机辅助结构解析、分子设计和合成路线设计等是当前化学信息学的主要研究方向。1.6.1 计算机和信息技术大量用于药物筛选 传统的药物筛选过程是先对动物进行多种指标的试验,再进入人体临床试验,过程长,组合种类少,效率低。现在计算机技术甚至大型计算机应用于药物筛选,分子设计和建立基因图谱库等,大大提高了效率。上海药物所采用神威2号超大型计算机用于药物筛选,原来需要几年的计算量,现在仅用几周时间。大量基因药物用计算机与基因图谱做对比,便于分析、基因修复和分子设计。因此,信息技术手段的广泛采用将是医药产业未来发展的重点。,1.6.2 生物学为化学信息学带来新的机遇 生物基因工程特别是人类基因组计划的完成为化学信息学带来新的机遇。许多化学信息学公司,已经开始了药物开发信息学平台的研究,但是 很难得到生物信息学方面的合作伙伴。目前这个领域的竞争非常的激烈,真正的胜出者将是那些能够快速消除生物信息学和化学信息学鸿沟的企业。1.7 化学信息学的发展方向1.7.1 并行优化技术 在过去的十年中,化学信息学在化学差异性分析方面已经取得了许多成就,如结构活性关系,虚拟药物筛选等。面临的新挑战将是具有潜在的和选择性的并行优化以及通过建立的预测模型对ADMET性质的预测等问题。目前,仍然没有一个综合的并行优化处理系统。In silico ADMET 模型还不能被广泛接受和应用,因为该模型还不是十分地成熟,并且也没能完全覆盖医学化学家们考虑的化合物的范围。目前具有良好性能的模型还只是集中在药物的类似物、溶解性以及疏水性参数(logP)等方面。,1.7.2 化合物的多样性和预测性之间矛盾 大多数ADMET(Adsorption,Distribution,Metabolism,Elimination,and Toxicity 吸收、分布、代谢、排泄 和毒性)、QSAR/QSPR模型都是建立在少量化合物数据集的基础之上的(化合物从几十到几百个)。这些模型经常被一些潜在的使用者不太经意的引用。所建立的模型数据量如此之小的一个很重要的原因是在制药公司工作的员工往往不愿将他们内部的实验数据提供给大家让大家共享使用,而反过来他们往往又是这些模型的潜在的用户,这样就产生了一个矛盾。然而,结构活性关系(SAR)研究中一个更一般的问题导致了一个更大的矛盾,即模型的预测性和化合物的多样性之间的矛盾。矛盾主要在于我们研究的化合物的种类和数量在不断地增加,而建立的SAR模型所能包含的化合物的机会却越来越少。另一方面,当研究的化合物的种类和数量在不断地增加时,我们建立的SAR模型中所包含的信息内容应该随着增加。,1.7.3 从数据挖掘到知识发现(From data mining to knowledge discovery)高通量筛选技术(High Throughput Screening HTS),组合化学(CC)和其他一些新技术的出现在化学领域产生了十分庞大的数据,而且这些数据的总量还在不断地以幂级数的形式增长。当前药物设计就是在在这样庞大的数据中寻找目标。因而,我们最重要的目的就是能够从这些未经加工整理的数据获得有用的知识或信息。知识发现(Knowledge discovery)的定义为:通过非实验的方法从大量的数据中提取出化合物本身固有的、未知的以及潜在的有用信息。在高通量筛选数据研究中就能够发现如与上午活性有关的结构模式。知识发现的过程就是通过数据挖掘即使获得未被加工处理的实验结果,然后将其转换成有用的且容易理解的信息。然而,许多信息使用标准的技术和方法是很难获得的。知识搜索一般应该包括下面几个阶段:,数据分析的探索,这个阶段的目的是从分子中提取有用的特征信息(描述符),特别是挑选出相关的特征信息(如生物活性相关的描述符),并且能够系统地识别这些特征之间的关系。模式搜索,这个阶段主要是用各种各样的化学信息学技术和方法如多变量分类技术、一元或多元的线性或非线性回归技术、专家系统方法以及各种网络模型来对各个化学信息之间建立一个适当的模式,该模式应该能够尽量精确地表示各因素之间的关系。,模式解释,所建立的任何模式都应该让化学家或生物学家能够解释。一些数据挖掘的结果甚至可以直接提供给化学家使用,象拓扑结构参数的一些模式。然而象某些统计学方法和神经网络方法的结果很难让化学家解释和明白,因此许多模式,如去卷积技术和数据可视化技术等这些抽象的模式必须得到进一步解释,从而使化学家能更好的使用它。新技术,化学信息学的新技术的发现和使用,如支撑向量机(support vector machines,SVM)。SVM 解决了其它