生物信息学导论.ppt
《生物信息学导论.ppt》由会员分享,可在线阅读,更多相关《生物信息学导论.ppt(265页珍藏版)》请在三一办公上搜索。
1、2023/6/30,1,生物信息学导论Introduction to Bioinformatics,张举华Email:Tel:010-68944927,2023/6/302003年8月,2,张举华,北京理工大学生命科学与技术学院,生物信息学导论,2023/6/30,3,主要内容,生物信息学概述基因组信息学,2023/6/30,4,生物信息学概述,本节主要内容 什么是生物信息学 基因组、转录组、蛋白质组 生物信息学有什么用 生物信息学的起源 生物信息学往哪里去,2023/6/30,5,概述,什么是生物信息学 生物信息学是生物学和信息科学与技术的结合所派生出来的一门新兴学科,包括了用来管理、分析和
2、操作大规模生物数据集的任何计算方法和工具,也就是说生物信息学是一个为现代生物学的各个分支,如生物学、分子生物学、生物化学、生物物理学等,服务的数学和计算机科学与技术的整合平台。,2023/6/30,6,概述,基因组、转录组、蛋白质组 现在,生物学研究的范式已经发生了变化,生物学家已经不像上世纪6080年代的同行那样满足于研究单个基因和蛋白质,而是对一类细胞或组织中的所有基因和蛋白质同时感兴趣,希望了解这些生物分子之间是通过什么样的途径实现生命过程的。,2023/6/30,7,概述,基因组、转录组、蛋白质组 基因组是一个细胞或组织内全部基因的集合;转录组是一个细胞或组织内全部RNA(核糖核酸)的
3、集合;蛋白质组是一个细胞或组织内所有类型蛋白质的集合。以此类推,我们还可以定义其它的“组”,例如蛋白质相互作用组就是一个细胞或组织内蛋白质间所有相互作用的集合。,2023/6/30,8,概述,基因组、转录组、蛋白质组 各种组学的发展与高通量检测与测量方法密切关联。“高通量”就是大量的信息或样本在同一时间内通过系统的任何过程。目前,这一概念被广泛应用于计算系统、药物发现、组合化学以及基因组和蛋白组学。,2023/6/30,9,概述,生物信息学有什么用 自1990年以来,在生物医学科学领域,生物信息学已经成为生命科学研究和发展整体中的一个重要组成部分。无论是处理由高通量实验技术产生的基因组、转录组
4、和蛋白质组数据,还是组织、分析和管理由传统的生物技术收集到的数据,生物信息学都扮演着极其重要的角色。,2023/6/30,10,概述,生物信息学有什么用 上世纪8090年代建立的,以核苷酸或氨基酸序列为基础的,分析单个基因和蛋白质的方法被用于分析大量的基因和蛋白质,例如用于关联基因簇的分析和蛋白质相互作用网络的鉴定。当我们手中完整的基因组序列越来越多时,生物信息学就能够为探索细胞和组织的系统功能与行为提供原理基础和常用方法。,2023/6/30,11,概述,生物信息学的起源 分子序列数据的指数性增长始于20世纪80年代。当时,DNA测序技术已趋完善,并作为常规实验手段得到广泛的应用,测序得到的
5、数据被收集到数据库中。比如目前仍有广泛影响力的三个生物信息学一级数据库GenBank,EMBL(欧洲分子生物学实验室核苷酸序列数据库),和DDBJ(日本DNA数据银行)。另外PIR(蛋白信息资源)和SWISS-PROT是蛋白质方面非常重要的数据库。数据的提取与分析的计算方法的发展是并行的。计算方法包括序列相似性比较与搜寻算法、结构与功能预测方法等等。,2023/6/30,12,概述,生物信息学的起源 现今的“生物信息学”始于上世纪80年代计算生物学。后者主要包括DNA和蛋白质的序列分析以及蛋白质的三维结构分析。上世纪最后十年的基因组计划所形成的冲击不仅是序列数据的增加,还包括了分子生物数据的多
6、样性。一个基因组序列所展示的不仅是一个完整的基因集合和它们在染色体中的精确定位,而且包括基因组和跨物种间的基因相似性关联。,2023/6/30,13,概述,生物信息学的起源 DNA自动测序构成过巨大的冲击,因为它曾经是各种生物学数据高通量产出的前沿阵地。像表达序列标签(ESTs),单核苷多态性(SNPs)都和基因序列密切相关。随后发展的研究基因表达模式(profile)的DNA微阵列技术、用于探测蛋白质相互作用的酵母双杂交系统、以及质谱技术极大地让生命科学类数据库飞速膨胀。结构基因组学方面的新技术还不能大规模地产生数据,但它们正在导致蛋白质三维结构数据的增加。,2023/6/30,14,概述,
7、生物信息学的起源 除了积累各种生物化学与分子生物学数据的实验技术的不断发展,二十世纪后十年同样见证了信息技术的发展。单项最重要的事件是互联网时代的到来。人们用它来传递、访问数据,浏览公共出版物等。生物信息学的兴起很大程度上归功于需要用复杂的方法处理与分析大规模生物学数据,但是互联网也是功臣,因为它的发明使得用户访问数据与软件的开发比过去容易了许多。,2023/6/30,15,概述,生物信息学往哪里去 尽管最近十年来,高通量检测技术与信息技术的结合让人们认识了大量的基因和蛋白质,但是和物理学、化学相比较,生物学仍旧是一门不成熟的学科,因为对于生命过程,我们无法根据一般性原理做出像卫星轨道那样精确
8、的预测。随着数据的不断膨胀和知识的积累,也借助于生物信息学,这种情形很有可能发生改变。,2023/6/30,16,概述,生物信息学往哪里去 生物信息学正在逐渐演变成为一门基础学科。生物信息学的最终目标是从大规模数据中抽象出知识与原理;提出细胞以至于整个生物体的完整数学与计算机表示;进而预测高度复杂的生物系统的行为,例如,预测在细胞过程中相互作用网络和整个生物体的表型。表18-1简要概括了生物信息学的过去,现在和将来。,2023/6/30,17,概述,生物信息学往哪里去 表18-1生物信息学的过去、现在和将来,2023/6/30,18,主要内容,概述基因组信息学,2023/6/30,19,基因组
9、信息学,基因组信息学是生物信息学的源头,是到目前为止发展得比较完善的部分,也是应用最为广泛的部分。本节内容将重点概述基因组生物信息学的主要特征。,2023/6/30,20,基因组信息学,本节主要内容 了不起的BLAST BLAST已经不够用了 相互作用网络具有更高阶功能 生物信息数据库 序列比对的动态程序算法 复杂生物系统,2023/6/30,21,基因组信息学,了不起的BLAST 在二十世纪后十年,生物信息学的第一个大突破是序列数据库快速搜寻工具BLAST的引入。这个搜寻工具不仅比80年代发展起来的FASTA更有效,而且以不同的原理为基础。数据库搜寻就是将查询的系列与序列数据库中的每一个序列
10、作两两比对。美国国家生物科技信息中心,提供了BLAST链接。,2023/6/30,22,基因组信息学,了不起的BLAS 传统上,比对通过优化查询进行。即通过相同字母数目的最大化,或者采用氨基酸突变矩阵,使相似分数最大化,得出优化系列比对。当允许间隙时,对于做比对的两个序列,具有可能性的比对数量巨大。然而,通过“动态程序”算法,总能找到优化的比对。动态程序算法系统地修剪含有各种可能比队的搜寻树的数枝,不幸的是,这种算法十分耗时,不适合大规模数据库。所以,FASTA的策略是采用一个被称之为“hash”的数据结构,对两个系列的匹配区域先做一个快速、粗略的搜寻,然后再对该区域的近邻起用动态程序算法。,
11、2023/6/30,23,基因组信息学,了不起的BLAST 不同于FASTA遵循结合优化的传统,BLAST之于数学统计与人类直觉的耦合。例如,当人用肉眼对两个系列作比较时,我们绝对不会检查所有可能的细节,而是寻找两个系列共同的特征,然后再尝试扩展这些特征得到更长的匹配,因为我们知道关联的系列倾向于含有保守的系列模体(motifs)。这就是BLAST所采取的策略。它以可靠的数学基础为依据,计算高分片段对(HSPs)的统计。高分片段对指的是分数不可能由系列的扩充或剪除改善的无间隙序列的局部比对。对于给定的查询序列的组合、被搜寻的数据库和打分系统,可以估计打分为s的高分片段对的概率极值(Extrem
12、e value),及所谓的E值。目前,E值已经广泛用来作为系列相似性统计显著性估计的标准度量。,2023/6/30,24,基因组信息学,了不起的BLAST 大约在BLAST发展的同一时期,研究人员开始收集一种不同类型的数据以基因为基础的表达序列标签位点或ESTs。该数据的收集对数据库特征产生了非常大的影响。对于捕获具体细胞或组织中表达基因的完整序列,低质量和碎块序列的大量收集是一条捷径。在此方案中,无论对于在已存在的数据库中搜寻相似性,还是对数据库中所有的序列进行比较以建立相似序列的簇(cluster),BLAST都是一个可选的工具。,2023/6/30,25,基因组信息学,BLAST已经不够
13、用了 二十世纪90年代中期,人们看到了完全不同类型的大量序列数据的收集,也就是为细胞生物体的全基因组建立数据库。目前已有100多种生物体的完全基因组序列已经通过实验测定。更多生物体全基因组序列的测定正在进行中。,2023/6/30,26,基因组信息学,BLAST已经不够用了 如果系列分析的工具不更新与改进,大规模序列数据的增加并不必然导致生物学知识的增加。为了增加相似序列搜寻的灵敏度,人们已经精心设计了相应的方法。其中最成功的有PSI-BLAST和隐马尔柯夫模型(HMMs)。对于搜寻微弱的相似性,PSI-BLAST是极其灵敏的方法。PSI-BLAST的核心是迭代算法,从而在程序运行过程中由标准
14、BLAST搜寻产生的位置特异性打分矩阵不断地得到改善。,2023/6/30,27,基因组信息学,BLAST已经不够用了 隐马尔柯夫模型根据多重序列比对构建。多重序列比对的结果可能是由ClustalW或者ClustalX产生的,但是它们显含插入或删除概率,并且能够搜寻HMM库以探测微妙的序列特征。另外一些成功的序列分析方法是建立在神经网络基础上,它极大的改善了诸如蛋白质二级结构预测;或建立在以规则为基础的系统上,例如用于蛋白质定位的PSORT,并被用来预测蛋白质的各种功能特征。,2023/6/30,28,基因组信息学,BLAST已经不够用了 尤其是,HMMs和PSI-BLAST为蛋白质域数据库的
15、发展提供了便利。该数据库可以用来对蛋白质的分子结构和相应的功能单元进行识别。通过一级数据库所做的相似性搜寻能够用来预测基因或蛋白质的功能,只要该数据库被充分注释。由于日益增加的序列数据库,为维持数据库的先进性和对数据进行充分的注释越来越困难,从而,就顾客来说,对二级数据库的依赖程度越来越高。二级数据库含有蛋白质域和功能位点,就这一点来说,这些二级库颇像是含有“序列语言”词汇与句子的词典。,2023/6/30,29,基因组信息学,BLAST已经不够用了 随着可以用作比较研究的基因组全序列数目的增加,人们发展了不同类型的功能预测概念与方法。著名的有“基因语境”(gene context)和“基因内
16、容”(content)分析。如果将基因组看成是一串基因,那么基因语境就相当于基因的位置关联。基因语境分析,包括基因顺序的比较和正常基因组的基因融合(Fusion),可探测蛋白质的功能关联,例如探测物理相互作用亚单元、相同通路、酶、和它的调控子(regulator)的数目。,2023/6/30,30,基因组信息学,BLAST已经不够用了 与基因语境分析相反,基因内容分析是跨基因组间基因指令系统的比较。当不同生物体之间两个基因的某种相互关联的方式出现或消失时,这两个基因之间或许有某种功能上的联系。对于这种分析的一个预先要求是建立直向同源关系,即起源于共同祖先的功能相同的基因。实际上,直向同源由序列
17、的相似性定义。常常,在基因组两两比对中,直向同源内双向最好打击(bidirectional best hits)准确定义。在完全测序的基因组中,对于直向同源组,在知识组织方面,COG是较早的和取得最突出成就的数据库之一。,2023/6/30,31,基因组信息学,相互作用网络具有更高阶功能 如果将人类基因组图谱主要工作的完成作为后基因组时代开始的标志,那么后基因组信息学还处在幼年期。但是这是一个具有旺盛生命力的超级婴儿。本节将重点概述后基因组生物信息学的相关发展。本节会提到生物分子网络,下一节将对网络生物学作更详细的论述。,2023/6/30,32,基因组信息学,相互作用网络具有更高阶功能 基因
18、调控与微阵列技术 蛋白质相互作用 Go,KEGG 生物信息学家都是网虫 从数据驱动到原理驱动,2023/6/30,33,基因组信息学,基因调控与微阵列技术 二十世纪90年代后期,各种类型高通量实验数据的获得已经丰富了生物信息学的角色,使分析涉及各种各样细胞过程的高阶功能更加方便。例如,大名鼎鼎的寡核苷酸微阵列或包含全基因组中每个基因的cDNA微阵列,对于测量不同条件下,整个细胞或组织的基因表达是一个非常强有力的工具。除了染色体中序列的相似性和相近性,两个基因由于它们在某个特殊的时间点或某一特别受控条件下表达模式的相似性而相互关联。根据基因表达数据,共调控(co-regulated)基因簇能被探
19、测到,其过程在本质上类似于COG中探测直向同源基因簇,或基因语境分析中位置关联基因簇。这些基因表达簇可用来鉴别特殊生理过程中潜在基因组的数目。从复杂的基因表达数据中提取生物学本质特征也促进了自组织图谱、支持向量机等信息技术在生物学领域中的应用。,2023/6/30,34,基因组信息学,蛋白质相互作用 蛋白质-蛋白质相互作用代表了另外一类实验数据。高通量双杂交系统分析已用来检测酵母基因组编码的所有蛋白质对之间的相互作用。质谱技术已被用来系统地鉴别分离纯化了的蛋白质复合体的成分。这些数据集为已有的基因组(序列相似性和基因语境)、转录组(表达相似性)数据集赋予有关蛋白质(相互作用)方面的附加信息层。
20、所有这些数据集可以看成是二进制关系,即两个个体之间的关系,这就是允许整合分析,从而更加精确地抽象出生物学特征。当酵母的不同数据集结合在一起时,通常会发现成对的东西更具生物学意义。具有更高阶功能的数据通常有更高的误差率,注释可能含有许多缺陷,从而要求更加严格的标准。,2023/6/30,35,基因组信息学,Go,KEGG 直到最近,对于不同的功能还没有一个共同的术语。对于蛋白质功能,走向共同词汇的第一步已经由基因本体论协会(Gene ontology consortium)迈出,从而可以更准确地比较与描述基因与蛋白质的功能特征。基因本体论协会将目前收集到的动态变化中的知识归类为三个系统术语或“本
21、体”,分别是单个蛋白质的“分子功能”、介入蛋白的“生物学过程”和使蛋白质在其中发挥功能的“细胞组分”。,2023/6/30,36,基因组信息学,Go,KEGG 为增加对来自于基因组信息的细胞过程的了解,途径(pathway)数据库,例如KEGG和EcoCyc,已经在过去的十年中建立起来。当大多数数据库集中了分子特性(例如,序列、三维结构、模块和基因表达)的时候,这些数据库侧重于细胞的特性,例如代谢、信号传导和细胞周期。这类库以路径图形式储存相应的分子相互作用网络。,2023/6/30,37,基因组信息学,Go,KEGG 为增加对来自于基因组信息的细胞过程的了解,途径(pathway)数据库,例
22、如KEGG和EcoCyc,已经在过去的十年中建立起来。当大多数数据库集中了分子特性(例如,序列、三维结构、模块和基因表达)的时候,这些数据库侧重于细胞的特性,例如代谢、信号传导和细胞周期。这类库以路径图形式储存相应的分子相互作用网络。毋庸质疑,从过去许多年出版的文献中收集由生物学传统研究所获得的知识是十分必要的。至少,就代谢途径来说,这些已经有的知识被较好地组织成数据库中的数据,也为注释基因组,筛选微阵列与其他高通量实验数据提供了参考数据。,2023/6/30,38,基因组信息学,Go,KEGG 序列只是简单的一维对象,与此相反,相互作用的分子网络是由一些复杂的图对象表示的。数学上,图是节点与
23、边的集合。根据节点所代表的事物的不同,所定义的图的对象的类型也不同。例如,蛋白质系列是由肽键(边)连接在一起的氨基酸(节点)的图对象。为了解更高阶功能,必须考虑更高的图的对象。KEGG含有3个这样的图对象,分别是“蛋白质网络”,“基因世界”和“化学世界”,其节点也就分别对应于蛋白质,基因和化学对象。,2023/6/30,39,基因组信息学,Go,KEGG 这些数据库为发展图算法铺平了道路。算法包括在途径、表达模式和基因语境中探测局域图相似性。在BLAST搜寻中,E值的概念建立在数据库是独立的对象(序列)的集合这一观念基础上,与此相关,KEGG数据库或其它任何相互作用网络数据库含有图对象,它们是
24、节点(蛋白质,基因或化合物)以及把这些节点关联在一起的不同类型的边的集合。因此,相似性统计和图的其它特征必须被注解,并被转换成新的E值,以使得网络分析更加聪明有效。这有些类似于FASTA向BLAST的转变。,2023/6/30,40,基因组信息学,生物信息学家都是网虫 后基因组生物医学研究的一个关键目标是对活体细胞内的所有分子和它们之间的相互作用进行系统地归类,了解这些分子以及它们之间的相互作用是怎样决定细胞这一极其复杂的机器的功能。细胞可能是孤立的,也可能被其他细胞包围着,研究结果表明细胞网络被普适的定律所控制。飞速发展的网络细胞生物学已经有了一个全新的概念框架,它可能革新我们对生物学和病理
25、学的观念。,2023/6/30,41,基因组信息学,生物信息学家都是网虫 统治生物学研究长达一个世纪的简化论为我们提供了单细胞组分与它们的功能方面的极其丰富的知识。尽管简化论取得了巨大的成功,但是越来越清楚地看到多样化的生物学功能几乎不可能归功于单一的分子。相反,大多数生物学的特性起源于细胞众多要素之间的复杂的相互作用,这些要素包括DNA、RNA和小分子。因此在21世纪,生物学所面临的关键挑战是了解决定活体细胞结构与功能的细胞内复杂相互作用网络的结构与动力学。,2023/6/30,42,基因组信息学,生物信息学家都是网虫 高通量数据聚集技术的发展,例如微阵列芯片的广泛应用,允许人们随时对细胞组
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 导论

链接地址:https://www.31ppt.com/p-5368461.html