第十章 蛋白质组研究中的生物信息学课件.ppt
《第十章 蛋白质组研究中的生物信息学课件.ppt》由会员分享,可在线阅读,更多相关《第十章 蛋白质组研究中的生物信息学课件.ppt(69页珍藏版)》请在三一办公上搜索。
1、第十章 蛋白质组研究中的 生物信息学,一、生物信息学概述 1、什么是生物信息学?,Bioinformatics: 一门新兴的交叉学科,包含信息的获取、处理、存储、分配 、分析和解释等在内的所有方面。它综合应用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。Bioinformatics encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation.,研究范围: 确定DNA中的编码区; 阐明
2、非编码区的信息实质,破译遗传语言规律; 归纳整理相关数据,认识代谢、发育、分化、进化规律; 蛋白质空间结构模拟; 蛋白质功能预测; 蛋白质、核酸分子设计; 药物设计; 个体化医疗保健设计.,重点发展方向: 人类基因组序列信息分析; 基因组结构与遗传语言: 语法和词法分析; 大规模基因表达谱分析、相关算法、 软件研究、基因表达调控网络研究; 基因组信息相关的蛋白质功能分析; 新理论、新方法、新技术、新软件研究。,计算机运算速度:18个月增长一倍DNA序列数据:14个月增长一倍,研究状况: 近年来GenBank中的DNA碱基数目呈指数增加,大约每14个月增加一倍。到1999年12月其数目已达30亿
3、,它们来自47000种生物。2000年4月DNA碱基数目是60亿。2001年初这一数目已达110亿。 各种生物的EST序列已达600多万条,其中人类的EST序列已超过300 万条,估计覆盖人类基因90以上;UniGene的数目约达7万个;自1999年初单核苷酸多态性( SNPs,Single Nucleotide Polymorphisms )数据库出现以来,到2000年3月20日SNP的总数是26569,现在已超过350万;,自全长1.8Mb的嗜血流感杆菌(Haemophilus influenzae Rd)基因组序列于1995年发表(Fleischmann et al.,1995)以来,已
4、有54个模式生物的完整基因组被测序完成,它们中有9个古细菌、31个原核真细菌、14个真核生物的完整基因组或它们的完整染色体,其中包括酿酒酵母和线虫。 还有另外的70余个微生物基因组正在测试当中。,相关文献: 分子生物学和遗传学的文献积累从60年代中期的接近10万篇迅速增长至60年代末期的20多万篇,即在3-4年间,翻了一番。此后,至80年代中期,上升至约30万篇,即平均每年增长6-7千篇。至90年代中,文献数已上升至40多万篇;即在10年中,平均每年增长1万篇。到2000年,则增长至约50万篇,即在约5年间,又增长了10万篇(根据http:/www.ncbi.nlm.nih.gov有关PubM
5、ed数据整理)。,美国的核酸数据库GenBankBanson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7从1979年开始建设,1982年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务;日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。,基因组学的研究内容,基因组组分动力学。基因组组分的变化与基因变异、基因功能、基因进化、基因组重复序列变迁等,以及它们
6、的相互关系。基因产物系统生物学。基因产物(RNA和蛋白质)的功能和相互作用,基因产物所构成的细胞分子机制,生命过程与生化途径的系统关系等。基因组多态性。基因和基因组在物种内的变化与物种的性状或基因表型的关系。由于物种内各亚种间的差别较小,在基因组水平上也属于多态性研究的范畴。基因组多态性在群体水平的研究,是超越传统遗传学的一个飞越。基因组的进化。物种间基因组在自然选择下变化的比较研究。,2、生物信息学的研究内容 生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。,生物信息学的研究目标是
7、揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。,生物信息学的研究内容: ( 1)序列比对(alignment)。 基本问题是比较两个或两个以上符号序列的相似性或不相似性。 对比软件包:BLAST、FASTA 局部对比:Smith-Waterman 算法。(2)发现新基因和新的单核苷酸多态性 发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。,(3)蛋白质结构对比与预测 包括2级和3级结构预测,是最重要的课题之一。 从方法上来看有演绎法和归纳法两种途径。前者主要是
8、从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。,(4)计算机辅助基因识别(仅指蛋白质编码基因) 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子
9、的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。,(5)非编码区分析和DNA语言研究 在人类基因组中,编码部分进展总序列的3-5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。,(6)分子进化和比较基因组学 早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于
10、可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。,(7)从功能基因组到系统生物学 无论是生物芯片还是蛋白质组技术的发展,都更强烈地依赖于生物信息学的理论、技术与数据库。下一步,功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。,(8)序列重叠群(contigs)装配 (9)遗传密码的起源,(10)基于结构的药物设计 人类基因组计划的目的之一在于阐明人的约10万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求
11、各种治疗和预防方法,包括药物治疗。基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其3级结构的基础上,可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。这种发现新药物的方法有强大的生命力,也有着巨大的经济效益。,(11)生物信息处理并行算法的研究 由于生物信息数据的规模极其巨大, 因此国内外都开展了生物信息处理算法并行化方向的研究。国外还开展了特殊生物信息处理中算法的研究以及在硬件基础上的并行化方向的研究,主要是研究生物信息学中的一些关键的算法,研究其中的可并行性,然后将其固化到硬件芯片中,从而提高整个计算系统的性能。,(12)其
12、他 如基因表达谱分析,代谢网络分析;基因芯片设计等,逐渐成为生物信息学中新兴的重要研究领域。随着蛋白质组学研究的迅猛发展,蛋白质组学数据分析、计算蛋白质组学等领域的地位将越发重要。,3、生物信息学的特点 它是一门基于数据积累,尤其是原始数据积累的科学。 数据的获取是学科发展的保障和本源。生物信息学研究首先也是基于实验数据的生产、管理和分析。因此,生物信息领域的特点首要特点是生物学基本数据收集的规模化,数据处理的程序化,数据分析的专门化。谁生产数据,谁首先占有数据,谁有机会分析数据,谁就有主动权。谁开发出新的分析工具,谁就有能力分析数据,谁就有新发现可能性。,科学研究以数据导向为主 先获取数据,
13、后有分析,再建立假说来指导新一轮的数据获取和实验研究。研究的启动不完全取决于科学知识的前期积累。比如,河豚鱼基因组测序计划的启动就是为了配合和补足人类基因组计划的可能弱点。,超学科性 它是在学科的交叉和交流中生成和成长的。紧紧抓住这个特点,积极在组织上和机制上创造学科交叉的条件是科学成功的关键。极强的竞争性 不仅科研对失败者来说是无情的,而且用户对失败者也是不同情的。被遗弃的算法、工具和不完整的数据库比比皆是。,4、生物信息学领域的重要科学问题,包括从单细胞到多细胞生物的真核生物是在生物进化上复杂性渐进的生命群。真核生物基因组在进化过程中发生了从DNA组分到基因结构的阶段性变化。这些变化为Ab
14、 inito基因识别提出不同的挑战。目前的基因识别步骤和软件都不能满足生物学研究日新月异的需要。以实验数据为基础,以相近(如亚种间)和同类(如温血动物间)基因组间的比较为手段,建立基因组(或物种)特异和多用途基因识别软件包和系统,揭示真核生物基因组进化的分子机制。,核苷酸多态性的研究是以发现和分析群体(包括相近亚种间)DNA顺序上的差别为基础,揭示这些多态性与基因表达和基因功能的关系,基因型和表现型的内在联系。为我们绘制人类基因组单倍体图和以后绘制其他物种的遗传图谱奠定基础。,RNA水平基因表达研究的基本方法有EST、SAGE以及Micro-array,所产生的数据量也非常巨大。但是目前的分析
15、方法和手段都有很多潜力可以挖掘,尤其是数学模型的建立,与基因组数据的整合,对数据真实性的评估等。,研究物种全部蛋白质结构与功能以及它们相关性的学问称为蛋白质组学。蛋白质间的识别、相互作用、细胞学机制的形成、功能网络的相关性等都需要海量的数据积累、处理、显示、模拟和实验验证。建立一个系统的、有普遍性的信息体系是必不可少的。,生命存在、生长和繁衍的动态基础是新陈代谢。新陈代谢是由错综复杂的生化代谢途径所构成的动态网络组成。要揭示代谢的本质是一个长期的目标。但是,我们可以从现有数据出发建立主要或特定代谢途径的模型,如植物光合作用、家猪重要经济性状、影响人类健康的常见代谢疾病等。,基因功能研究的瓶颈是
16、实验的证明。运用信息学的方法来预测基因产物的功能为基因功能的规模化验证开辟了一条必要途径。这些方法包括,蛋白质功能域的识别,启动子识别、RNA协同表达模型,蛋白质三维结构预测等。整合这些体系,建立系统软件,发展新的算法等是重要的科学命题。,基因组学和信息学研究都有其特定的、不断创新的方法学。以系统优化、软件并行化和数据处理技术为主体的海量生物学数据处理体系的建立将基于新的思路和设想。,5、生命科学信息的算法和工具,基因识别与预测软件由于生物学基本数据形态各异,因此涉及的算法和数理知识面很广。以隐马为基础的ab inito的预测方法是大多数现有基因识别软件的主要方法。在此基础上,人们已开始注意到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十章 蛋白质组研究中的生物信息学课件 第十 蛋白质 研究 中的 生物 信息学 课件

链接地址:https://www.31ppt.com/p-1800019.html