生物信息学引论.ppt
生物信息学概论,第一节 概念 第二节 生物信息学的发展历史 第三节 生物信息学主要研究内容 第四节 生物信息学的研究意义,第一节 概念,生命信息的组织、传递、表达,天文技术空间技术,物理化学,分子生物学,遗传学,信息技术,生物不是物质的简单堆积,生物体的生长发育是生命信息控制之下的复杂而有序的过程。,信息科学?,1、生物信息学概念,HGP生物数据的激增(每12个月翻一番),生物学家,数学家,计算机科学家,生物信息学(bioinfomatics)的诞生,概念(广义),生物体系和生物过程中信息的存贮、传递和表达,细胞、组织、器官的生理、病理和药理过程的中各种生物信息,信息科学,生命科学中的信息科 学,概念(狭义),生物分子数据,深层次生物学知识,分子生物信息学Molecular Bioinformatics,挖掘,获取,管理、分析和利用生物分子数据,提高研究的科学性及效率,生物体是一个复杂的系统 物理、化学和生物学方法生物体也是一个信息系统 信息科学方法,2、生物分子信息,生物信息学主要研究两种信息载体DNA分子蛋白质分子,From the Cell to Protein Machines,生物分子至少携带着三种信息遗传信息与功能相关的结构信息进化信息,(1)遗传信息的载体DNA,遗传信息的载体主要是DNA 存储氨基酸序列编码信息、基因表达调控信息及 遗传信息生物体生长发育的本质就是遗传信息的传递和表达,DNA通过自我复制,在生物体的繁衍过程中传递遗传信息,基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。,基因控制着蛋白质的合成,DNA,RNA,蛋白质,转录,翻译,基因的DNA序列,蛋白质序列,对应关系,遗传密码,(2)蛋白质的结构决定其功能,蛋白质功能取决于蛋白质的空间结构 蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列中。,(3)DNA和蛋白质都含有进化信息,通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。(或基因组),生物分子信息,DNA序列数据,蛋白质序列数据,生物分子结构数据,生物分子功能数据,最基本,直观,复杂,生物分子数据类型,生物分子数据及其关系,第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少 对于第二部密码,目前则只能用统计学的方法进行分析无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。,生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。,生物分子信息的特征,生物分子信息数据量大 生物分子信息复杂 生物分子信息之间存在密切联系,研究目标:揭示生物分子数据的内涵 生物分子数据具有深刻的内涵,数据之间存在着复杂的联系,丰富的生物学知识和规律。,3、生物信息学的目标和任务,研究任务,收集和管理生物分子数据,使研究人员能方便地使用这些数据,并为信息分析和数据挖掘打下基础。数据来自于生物学实验,应用信息学技术收集和管理数据,建立数据库,并提供数据查询、搜索等工具。,数据分析和挖掘 发现数据间的关系,认识数据的本质,上升为生物学知识 解释与生物分子信息复制、传递和表达有关的生物过程解释生物过程中出现的信息变化与疾病的关系,帮助设计新的药物分子,生物分子信息处理流程,目前生物信息学主要研究对象是DNA和蛋白质。DNA分析方面:分析DNA序列中的基因信息及基因表达调控信息、基因表达数据、基因间的相互作用关系蛋白质分析方面:分析蛋白质序列与蛋白质结构、功能间的关系,预测蛋白质的结构和功能,研究蛋白质的进化关系,开发分析工具和实用软件生物分子序列比较工具基因识别工具生物分子结构预测工具基因表达数据分析工具,分子生物学的三大核心数据库,GenBank核酸序列数据库 SWISS-PROT蛋白质序列数据库 PDB生物大分子结构数据库,第二节 生物信息学的发展历史,20世纪50年代,生物信息学开始孕育 1956年 在美国首次召开了“生物学中的信息理论研讨会”,20世纪60年代,生物信息学形成雏形 一些计算生物学家开始进行相关研究,生物分子信息在概念上将计算生物学和计算机科学联系起来。1962年,Zucherkandl和Pauling研究了序列变化与进化间的关系分子进化 1967年,Dayhoff研制出蛋白质序列图集(氨基酸序列的收集),20世纪7080年代初期,许多生物分子序列数据产生,一部分计算机科学家应用计算机技术解决生物学问题,尤其与生物分子序列相关的问题。序列比较方法 1970年,Needleman和Wunsch提出序列比对算法 Gibbs和McIntyre发表矩阵打点作图法 Dayhoff提出PAM矩阵 1981年,Smith和Waterman提出公共子序列识别法 1983年,Wilbur和Lipman发表了数据库相似序列搜索法 1985年,蛋白质序列搜索法FASTP/FASTN出现 1988年,Pearson和Lipman发表著名的序列比较法FASTA 1990年,快速相似序列搜索法BLAST问世,生物信息分析方法 1972年,Gatlin证实自然的生物分子序列是高度非随机 1975年,Pipas和McMahon提出计算机预测RNA二级结构 1977年,DNA序列翻译成蛋白质序列法出现 1978年,Gingeras研制出核酸序列中限制性酶切位点的识 别软件,20世纪80年代后 1982年,核酸序列数据库GenBank公开发行 1986年,日本核酸序列数据库DDBJ诞生 蛋白质序列数据库SWISS-PROT出现 1988年,NCBI生物信息中心成立 欧洲分子生物学网络(EMBnet)成立,20世纪90年代后 1990年,HGP计划启动 1995年,第一个细菌基因组被完全测序 1996年,酿酒酵母基因组被完全测序 Affymetrix生产出第一块芯片 1998年,线虫的基因组被完全测序 1999年,果蝇的基因组被完全测序 获得人类第22对染色体的遗传序列 2000年6月24日,完成人类基因组的工作框架图,关于生物信息学发展历程中的重要大事,请参见下面两个网站的介绍:http:/bioinformatics/,PubMed中与生物信息学相关论文统计,生物信息学国内发展概况,20世纪80年代初,个别单位开展计算分子生物学的工作1993年,参与HGP,列入生物信息学的相关研究内容19951996 年 开始发展 1997年,香山会议召开,专题讨论生物信息学的发展 1999年,北京召开生命科学中的信息科学问题 近几年,成立了一些生物信息学服务机构,如北京大学、中科院上海生命科学研究院分别成立了生物信息中心。,第三节 生物信息学主要研究内容,1、生物分子数据的收集与管理2、数据库搜索及序列比较 3、基因组序列分析 4、蛋白质结构预测,100万多个蛋白质序列,2万多个蛋白质空间结构,核酸序列呈指数级增长,1、生物分子数据的收集与管理,收集和管理数据的具体工作,构建数据库系统建立网络服务器开发数据查询和搜索工具设计数据分析软件和数据可视化软件,交叉索引:数据库中的每一条数据应尽可能地与其它数据库中的相关数据链接起来。,DAN序列 蛋白质序列 蛋白质结构,核酸序列数据库,蛋白质序列数据库,蛋白质结构数据库,DDBJ,EMBL,GenBank,SWISS-PROT,PDB,PIR,2、数据库搜索及序列比较,搜索同源序列在一定程度上就是通过序列比较寻找相似序列 一个普遍规律:序列决定结构,结构决定功能,新序列已知序列功能预测,对于DNA序列,同源搜索有助于确定功能、编码区及基因 对于蛋白质序列,有助于预测蛋白质的结构、功能及进化信息,序列的比较可以同类,也可以不同类,但比较前需转换成相同类型的序列。,两序列比较数据库中某个序列或每个序列,BLAST和FASTA,数据库搜索的 序列比较法,多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。,发现同源分子,在蛋白质研究方面,通过结构数据库的搜索,能发现蛋白质间更深层的关系。,3、基因组序列分析,在DNA序列分析方面,识别蛋白质编码区或识别基因是最关键的。如发现一个新基因,通过实验了解与其相关的生理功能或疾病的本质实验测定的编码区域不一定完整,需结合计算找到并证实所有的外显子大量DNA序列数据的存在促使发展识别编码区和基因算法,蛋白质序列测定麻烦 蛋白质序列预测并非容易:非编码区域存在,编码区基因结构和蛋白质序列,蛋白质编码区的统计特征、基因结构中一些特殊信号位点、基因转录调控区的蛋白质结合位点等都有助于识别基因。预测蛋白质的编码区 利用相关的数据以提高基因识别的准确性 理论识别与分子生物学实验结合,基 因 识 别,分析与基因表达调控相关的信息、各种功能位点及基因转录调控元件。DNA序列上特殊的片段,是蛋白质因子作用的位点,是与基因转录、翻译有关的信号序列 通过模式识别及生物信息软件分析,非编码区的分析,分析基因组的结构和信息,发现与功能密切相关的保守序列研究物种间的进化关系,基因组比较,4、蛋白质结构预测,蛋白质是生物体的基本物质,一切生命活动都与蛋白质有关。蛋白质的结构由蛋白质的序列决定?蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径。,蛋白质结构预测的基础:蛋白质的变性及重折叠实验蛋白质结构预测分为:二级结构预测空间结构预测,蛋白质折叠,二级结构预测,不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性预测某一个片段中心的残基是处于a-螺旋,还是B-折叠,或其它结构。在二级结构预测方面主要方法有:立体化学方法图论方法统计方法最邻近决策方法基于规则的专家系统方法分子动力学方法人工神经网络方法 预测准确率不超过65%,空间结构预测,同源模型法:相似序列的蛋白质倾向折叠成相似的空间结构 运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作,第四节 生物信息学的研究意义,认识生物本质了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。基因调控序列与基因表达间的关系、蛋白质序列与蛋白质结构间的关系是未知的,也是非常复杂的。,改变生物学的研究方式 高通量实验的出现 分子数据间存在着密切的关系 大量的核酸序列和蛋白质序列,在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据,揭示人类及重要动植物种类的基因信息,不仅对认识生物起源,对认识生物遗传、发育进化的本质有重要意义,而且为人类疾病的科学诊断和合理治疗开辟全新的途径,还为动植物的物种改良提供理论基础。,生物信息学是21世纪生物学的核心!,The end,