绪论(化学信息学相关概念).ppt
《绪论(化学信息学相关概念).ppt》由会员分享,可在线阅读,更多相关《绪论(化学信息学相关概念).ppt(46页珍藏版)》请在三一办公上搜索。
1、化学信息和化学信息学,自从化学学科出现以来,信息的记载、组织与交流对化学学科的发展起了重要的作用,同时也成为化学学科的一个重要组成部分。这是因为化学实验的记录资料具有长远的时间意义。在化学学科中,化学家根据百年以前的记录资料从事科学研究的例子并不罕见。另外,化学物质结构的记录与检索需要建立独特的记录系统。随着计算机技术的发展,化学家必须建立自己的信息表示、记录与管理系统,以适应时代的要求。,化学信息化学信息可分为两大组成部分:化学物质的化学信息:利用科学的原理和方法通过测量得到的化学成分的相关信息,如物质的物理、化学性质,物质中各成分的定性、定量以及结构信息,分子间的相互作用信息,化学反应的信
2、息等。媒体形式的化学信息:化学信息的记录形式,如图书、期刊、专刊、专利、数据库以及音像资料等,通过化学信息的传播使化学家们共享测量的原理、方法及测量结果。化学信息学是近年来发展起来的新学科,它的产生与发展是基于化学信息量指数般增长,特别是组合化学及高通量筛选的迅速发展。化学信息学的产生与发展是与药物研究与开发息息相关的,但它的应用却覆盖化学学科的各个领域,如农业化学、分析化学、合成化学、物理化学等。近年来,国际上已出版与化学信息学有关的杂志,出现众多的化学信息学公司,许多大学纷纷开设化学信息学课程,培养化学信息学人才。,1.1 化学信息学的起源及历史1.1.1 信息学的起源上世纪40年代,以申
3、农(CEShannon)通讯的数学理论、维纳(NWeiner)控制论动物和机器中的通讯与控制问题问世为标志,信息论诞生了,它是科学发展史上的里程碑,其伟大贡献和深远影响是前所未有的。1959年,美国宾夕法尼亚大学莫尔电子工程学院首先应用了“信息科学”的概念,这一概念既包括了信息理论又包括了信息技术。出现了:以计算机为代表的“计算机信息科学”;以文献处理自动化为代表的“图书馆信息科学”和以申农通讯信号计量理论为核心的“全信息信息科学”。三者的共同特征是:仅研究特定领域中的某些信息,对其它领域中的信息不予充分的关注与考虑。上世纪60年代初,以申农信息论为基础的信息科学得到了一定的发展,新概念和新理
4、论不断涌现。,20世纪80年代以来,在申农原有信息论的基础上分别在模糊信息、概率与非概率信息、语法信息、语义信息、语用信息等方面做了大量的工作。在此基础上,人们提出了广义信息论。1982年美国普林斯顿大学的马克卢普(FMchlup)在美国聚集了当时不同信息研究领域的众多学者发起了一个信息的多学科交叉的研究运动,信息理论的研究开始向其它科学领域渗透和扩展,诞生了40多种部门信息学,并发表了继申农、维纳之后的又一本经典著作信息研究:学科之间的通讯。1994年,德国一批学者又发起了一个新的交叉信息科学的研究运动,开拓了部门信息学的一些新领域。虽然,研究的范围更加广泛,但是,并没有做出实质性的评论与创
5、新性的理论。90年代后期,部门信息学得到了蓬勃的发展,除了增加了新成员,而且,关涉到了自然科学和社会科学的众多前沿问题。其中较有影响的部门学科是:生物信息学,物理信息学,还有经济信息学,人类信息学等等。据统计目前大概已有50余种部门信息学。,1.1.2 化学信息学的起源与历史,20世纪60年代以来,计算机与化学结合形成了计算机化学。经过近40年的发展,计算机化学几乎在化学的每一分支领域都获得了丰硕的成果,计算机已成为化学研究的重要工具之一。20世纪80年代以来,Internet飞速发展,逐步成为各种信息资源传递的重要载体,包括基于的化学信息网站、化学信息数据库、远程化学教学等内容的化学信息网络
6、化趋势也日趋形成。化学与internet成为一个非常活跃、进展惊人的新兴交叉领域。随着计算机化学的不断发展和化学信息网络化的不断普及,一个崭新的化学分支学科“化学信息学(Chemoinfiormatics)”应运而生。“化学信息学”首次出现于1987年诺贝尔化学奖获得者J.M.Lehn教授的获奖报告中。JMLehn在研究复杂分子的反应过程中发现分子具有自组织、自识别的化学智能反应现象,识别的概念包含着信息的展示、传递、鉴别和响应等过程,这就是化学信息学研究的开始。,化学界的专家学者们正试图以新的方式和方法建立化学信息周期表。国外一些大学开设了化学信息学课程并确定为研究生的研究方向,从事研究、管
7、理和开发化学信息的团体、机构和公司也相继出现。美国化学会化学信息分会和图书馆协会在Indiana大学成立了化学信息教学资料交换中心(The Clearinghouse for Chemical Information Instructional Materials(CCIIM)),负责收集、发布和分发化学信息源。美国化学会还设立了化学信息教育委员会(American Chemical Society Division of Chemical Information Education Committee)。美国、欧洲、澳大利亚的很多大学开设了化学信息学类的课程。在国内,化学教学指导委员会已将化
8、学信息学列入化学教学的基本内容,北京大学化学学院已设置课程并编写了讲义,南京大学、复旦大学及我校等高校也相继开设了该课程。,1.2 化学信息学的概念及研究内容1.2.1 化学信息学的概念,1987年J.M.Lehn教授首次提出化学信息学的概念以后并没有进一步深入研究这一概念的本质,但我们可以看出,当时化学信息的内在含义应为分子间的相互作用或相互识别的有关信息,而化学信息学应为研究分子间相互作用实质或识别机理的一个学科,主要目的是为解释超分子的形成过程提供依据。目前化学信息学的内容更加强调了化学文献、化学信息数据库、特别是Internet中的化学资源等内容。,化学信息学还没有统一的被广泛接受的定
9、义及英文名称。目前最通用的为Chemoinformatics及Chemical informatics。也有用Cheminformatics,Chemi informatics。也有人把Chemical information Science及Molecular Informatics称为化学信息学。与化学信息学有关的术语有 chemi-informatics,chemometrics,computational chemistry,chemical informatics,chemical information management/science,和cheminformatics等等。美
10、国印第安那大学(Indiana University)在国际上最早在化学图书馆科学的基础上开设化学信息课程及培养化学信息学研究生,他们把化学信息学定义为:化学信息学包括从利用传统的图书馆科学方法组织化学信息到利用现代计算机技术产生、存储、检索及可视化化学信息。,定义1:Frank Brown于1998年把化学信息学定义为:应用信息技术和信息处理方法已成为药物发现过程中的一个很重要的部分,化学信息学实际上是一种信息源的混合体。把各种化学数据转化为信息,把信息提升为知识,其主要目的是在药物先导化合物的发现及组织过程变得更有效。这个定义太偏重于药物化学,事实上,化学信息学在其他领域如农业化学也有广泛
11、的应用。(“The use of information technology and management has become a critical part of the drug discovery process.Chemoinformatics is the mixing of those information resources to transform data into information and information into knowledge for the intended purpose of making better decisions faster i
12、n the area of drug lead identification and organization”F.Brown,Annual Reports in Medicinal Chemistry,33,375-384(1998),定义2:M.Hann 和R.Green 认为化学信息学是处理化学老问题的一种新名称(“Chemoinformatics-a new name for an old problem”,Current Opinion in Chemical Biology,3,379-383(1999))。定义3:Greg Paris在1999年8月的ACS会议上提出了一个更一般
13、性的定义,他认为:化学信息学是个一般的术语,它包括化学信息的设计、建立、组织、管理、检索、分析、判别、可视化及使用。(“Chem(o)informatics is a generic term that encompasses the design,creation,organization,management,retrieval,analysis,dissemination,visualization and use of chemical information”G.Paris(August 1999 ACS meeting)。,定义4:将计算机技术应用到化学中的一门组合技术,利用统计模
14、型、计算和分析科学来理解化学数据的重要性(“Chemoinformatics is the application of computer technology to chemistry;a combination of techniques and models in statistical,computational,and analytical sciences to understand the significance of chemical data.”)。定义5:“化学信息学是近几年发展起来的一个新的化学分支,它利用计算机和计算机网络技术,对化学信息进行表示、管理、分析、模拟和传
15、播,以实现化学信息的提取、转化与共享,揭示化学信息的内在实质与内在联系,促进化学学科的知识创新。”化学信息学是化学学科的分支学科,其研究对象和研究目的均属于化学的学科领域。它的研究手段为计算机技术和计算机网络技术,研究内容则包括如何利用计算机和计算机网络技术对化学信息进行表示、管理、分析、模拟和传播等。同时,化学信息学的目的是为了实现化学信息的提取、转化以及化学家之间的资源共享,从而为促进化学学科的发展与知识创新做出贡献。,1.2.2 化学信息学的研究内容(1)化学信息的组织、管理、检索和使用:化学信息可分为与传媒有关的信息(如文献、图书资料、网络信息等)及与物质有关的信息(各种实验数据,包括
16、化学反应有关数据,谱学数据,射线晶体学数据,化学与物理性质数据,毒性及生物活性数据,与环境有关的数据等)。化学信息的形式包括:文字、符号、数字、形貌、图形及表格等。这些化学信息最主要的组织、管理形式是形成数据库。最早的化学数据库是各种谱学数据库及剑桥晶体结构数据库。目前最完善的化学信息系统是MDL系统、Beilstein系统及CA系统。据统计目前化学信息中58%已经组织为各种数据库系统,但其中只有12%可以相互转换,而化学信息常常是需要结合使用的,要完成一项化学研究工作需要调用多种有关的数据库。,化学信息学的重要内容之一是如何实现化学信息间的关联及转化。化学信息的管理、检索及使用包括化学信息的
17、快速有效的检索及推理、判断。主要涉及人工智能方法,最重要的是化学专家系统。一个专家系统包括化学知识信息处理,化学知识利用系统、知识的推理能力及咨询解释能力。20世纪60年代开发的化学专家系统DENDRAL系统是最早的专家系统。目前已有多种化学专家系统用于不同的目的,如图谱解析专家系统、反应路线设计专家系统等。(2)分子结构的编码、描述、三维结构的构建:巨大数目分子结构编码及三维结构模型的构建及各种形式的结构表达,并能快速连接到合成路线,谱学数据,纯化技术等是化学信息学的基础工作。,(3)化学信息的加工、处理及深化:化学信息的加工处理包括数据的预处理,回归分析,主成分分析,偏最小二乘,信号分析,
18、模式识别,神经网络,遗传算法,模糊及随机算法等。它们可以帮助化学家正确分析、评价、利用现有的化学信息并从中获取最大量的有用结果,实现从数据到信息,从信息到知识的转换。计算机模拟技术包括量子化学、分子动力学、蒙特卡罗方法及各种优化技术,近年来已取得重大进展,在药物开发,功能材料的研制及生命科学领域都取得许多突破性的成果。化学体系涉及分子、超分子、超分子聚集体及聚集态等。在不同尺度及层次的化学体系会表现出不同的性质,称尺度效应。过去化学家主要着眼于微观体系,化学工程学家主要关注宏观体系,对于联系宏观与微观的介观体系没有受到应有的重视,因此有关介观体系的信息及多尺度研究也应是化学信息学关注的重要问题
19、。,(4)计算组合化学:组合化学是当前化学家关注的热门领域。它的特点是以比较短的时间及较少的经费为快速合成大量的化合物提供大量的化学信息。但它面临组合的数目过大,所谓组合爆炸,如此巨大数目的组合化学合成仍需要消耗大量的人力与物力,万一失败就造成巨大的浪费,因此需要通过计算组合化学方法建立虚拟的组合化学库,然后在计算机上进行筛选,选择较少数目的化合物进行组合化学合成。虚拟库的构建要考虑分子的相似性及差异性。虚拟库的筛选包括基于靶酶结构利用分子对接方法进行筛选,或利用神经网络方法把已成药的化合物作为训练集,把虚拟组合化学库作为预测集,把化合物区分为类药分子(Drug Like)及非成药分子(Non
20、 Drug compounds)。一个组合化学计算机系统应包括组合合成库的设计,高维化学空间差异性质计算及影射,化学反应数据库系统和知识库系统,综合性化学多样性信息及生物实验数据管理系统,分子对接及构效关系研究等。,(5)化学体系中信息的交换及传递:诺贝尔奖金获得者Lehn在1987年诺贝尔获奖演说中提出信息化学(Semiochemistry)的概念。他认为化学信息寓于分子中,在分子间相互作用时读出化学信息,这些化学信息对于化学反应及性能起着调控的作用。这方面的研究涉及分子识别、超分子建筑、分子构造学、晶体工程、分子器件等方面的内容。但目前在国外的文献中较少有人把这方面的内容纳入化学信息学的范
21、畴。,(6)分子的物理化学性质预测:目前已合成的化合物的数目已超过5107个,而虚拟的组合化学库的化合物数目可达亿万个。如此巨大数目的化合物无法全部完成它们的物理化学性质的实验测定,因此根据化合物的结构预测化合物的性质有重要的意义和价值。利用量子化学及分子力学方法可预测许多重要的分子性质,如:键长、键角、二面角、三维结构、药效构象、反应中间体、过渡态、电子性质、电荷分布、偶极矩、离子化势、电子亲和性、质子亲和性、极化、静电势、分子间相互作用、Wood World Hoffman规则、结合能、大分子间的结合位点、pKa、分子能量、生成热、焓、活化能、势能面、反应途径、溶剂化能、光谱性质、振动频率
22、、红外及拉曼强度、ESR常数、激活能、消光系数、传输性质、亲脂性、分子体积、分子表面积等等。,1.3 化学信息学常用方法,最早的化学信息学的方法和应用都是发表在美国的Journal of Chemical Information&Computer Science(Journal of Chemical Information and modeling)杂志上。化学信息学研究的最早内容之一是象结构描述符一类的化学结构的计算机表示。1.3.1 描述符和化学结构数据库的获取 20世纪80年代以前,计算机的速度较慢,对化合物的结构和子结构的搜寻是一个很难的问题,因为它们的计算量都很大。为了找到在较慢的
23、计算机上能够进行化合物的结构和子结构搜索的非常切实可行的办法,化学家们尝试了许多方法以便能够找到一个简洁的结构表示方法,如结构的线性表示等。这种方法将化合物的结构图转化成计算机很容易识别和搜索的字符串。数据搜索的方法可以过滤掉许多不符合条件的化合物,然后在小范围里再根据逐个原子搜索的方法就会将搜寻的化合物缩小到一定的范围。,1.3.1.1 线性符号 结构线性符号在一系列的规则下将化学结构的连接表转化为具有一定序列的字符串。最早的线性符号是Wiswesser 线性符号(WLN)。在上世纪60年代中期到80年代,WLN被认为是最好的表示化学结构的工具。虽然WLN很有效的压缩了化学结构数据,并且非常
24、适合低性能的计算机的存储和搜索,但是,它的编码让非专业人员很难看懂。后来Weininger又提出了一个新的线性符号编码系统SMILES。由于SMILES和自然语言很接近,因此有机化学家广泛的应用该方法建立化学结构数据库。要想成功地表示化学结构,线性符号必须具有唯一性,即线性符号和化学结构之间必须是一一对应的关系,WLN和SMILES就具有这样的特点。,1.3.1.2 规范化 WLN和SMILES都能够通过字符串匹配的方法解决结构搜索的问题。一个分子的2D结构图可以通过数学算法规范化地变成一个实数,这些实数就被称为分子的拓扑指数。但是两个不同的分子可能具有相同的拓扑指数,因此,拓扑指数只能用于对
25、分子的筛选。拓扑指数的概念最早是在QSAR和QSPR研究中提出的。Wiener在1947年第一个报导了分子的拓扑指数。如果分子和拓扑指数之间是一一对应的关系,那么结构搜索就可以通过数据的比较来完成。但是,子结构的搜索仍然要通过一个一个原子匹配的算法来进行,这样就非常耗时。为了增强化学数据库的搜索功能,必须要找到较好的结构筛选技术。,1.3.1.3 筛选与搜索 为了避免使用逐个原子匹配,目前大都使用筛选的方法。这种方法的思路是先定义一组子结构(官能团),用来过滤掉一些不可能的结构。这些预先定义的结构叫做搜索关键词。目前这些关键词都被MDL结构数据库系统收集采用,在MDL结构数据库系统中,有166
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 绪论 化学 信息学 相关 概念
链接地址:https://www.31ppt.com/p-5375232.html