生物信息学1导论课件.ppt
《生物信息学1导论课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学1导论课件.ppt(93页珍藏版)》请在三一办公上搜索。
1、生物信息学,教材,赵国屏 生物信息学 科学出版社,考核方法,平时成绩作业考试,Introduction to Bioinformatics,生物科学的发展阶段,描述生物学阶段(19世纪中期以前)主要从形态特征观察描述、记载各种类型生物,寻找他们之间的异同和进化脉络代表人物,达尔文1859年,物种起源,实验生物学阶段(19世纪中20世纪中),利用各种仪器工具,通过实验过程探索生命活动的内在规律代表人物, 孟德尔1866年,植物杂交试验,分子生物学阶段(20世纪中期以后),代表人物, 沃森和克里克DNA双螺旋模型1962年,诺贝尔生理学奖,整个生物界是一个多层次的有序结构: 细胞 组织 器官 系统
2、 个体 生态系统 群落 种群,引自J Postlethwait & J Hopson著The Nature of Life,1989,从基本粒子到生物圈,Half day on the web,half month in the lab.,saves you,- Alan Bleasby,2000年2月2日,北京大学燕北园300多位教师的家用计算机接入Internet;2001年2月12日,北京大学2000多个本科生宿舍的计算机接入Internet.,2022/11/11,一、概述,二十一世纪是生命科学的时代,也是信息时代 近年来,随着现代分子生物学的发展,特别是人类基组计划的实施,不断产生出
3、巨量的分子生物学数据,这些数据有着数量巨大、关系复杂,以至于不利用计算机根本无法实现数据的存储和分析。这样,生物信息学最终形成一门独立的学科并被推上了生物科学发展的最前沿。,Bioinformatics: 科技界一颗耀眼的新星,在BIOINFORMATICS 没有诞生之前, 一个新药的问世需要十年时间,数亿美元的R&D,而BIOINFORMATICS已将这个过程减少三分之二,R&D的费用也相应大大减少。许多中小BIOTECH 公司也看到了BIOINFORMATICS 的巨大作用和潜在的商机,纷纷投资BIOINFORMATICS 研究项目。,生物信息学,一、什么是生物信息学?二、生物信息学门户网
4、站三、生物信息数据库四、数据库查询和数据库搜索五、序列的同源比较六、生物信息学应用,生 物 信 息 学 概 论,主要介绍的内容:什么是生物信息学?生物信息学的研究内容和科学目标。生物信息学的发展历史国内外生物信息学的研究历史和现状。,一. 什么是生物信息学?,Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretat
5、ion. 它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。 (The U.S. Human Genome Project: The First Five Years FY 1991-1995, by NIH and DOE),早在1956年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上,便产生了生物信息学的概念。1987年,林华安博士正式把这一学科命名为“生物信息学”(Bioinformatics)。被尊称为“生物信息学之父”。,生物信息学的诞生和发展,生物信息学的诞生和发展,随着人类基因计划过程中出现的爆炸性增长的序列信息加速了生物信息学
6、的发展,促进了生物信息学这一门学科的发展。,分子生物学和遗传学的文献积累从60年代中期的接近10万篇迅速增长至60年代末期的20多万篇,即在3-4年间,翻了一番。此后,至80年代中期,上升至约30万篇,即平均每年增长6-7千篇。至90年代中期,文献数已上升至40多万篇;即在10年中,平均每年增长1万篇。到2000年,则增长至约50万篇,即在约5年间,又增长了10万篇(根据http:/www.ncbi.nlm.nih.gov有关PubMed数据整理)。,美国的核酸数据库GenBankBanson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7从1979
7、年开始建设,1982年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务;日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。,近年来GenBank中的DNA碱基数目呈指数增加,大约每14个月增加一倍。到1999年12月其数目已达30亿,它们来自47000种生物。2000年4月DNA碱基数目是60亿。2001年初这一数目已达110亿。,计算机运算速度: 18个月增长一倍;DNA序列数据: 14个月增长一
8、倍;,分析、筛选大量新数据,理论生物学,计算生物学,传统生物学:实验科学现代生物学的发展:海量数据 难以完全依赖实验手段对新数据进行分析,必须借助计算机实现分析和筛选,生物信息学是一门新兴的、正在迅速发展的交叉学科,国内外对生物信息学的定义众说纷纭。美国国家基因组研究中心Bioinformatics is an emerging scientific discipline representing the combined power of biology, mathematics, and computers.美国乔治亚理工大学Bioinformatics is an integration
9、 of mathematical, statistical and computer methods to analyze biological, biochemical and biophysical data.,生物信息学的概念,美国密苏里大学Bioinformatics is the science and technology about learning, managing and processing biological information.美国加利福尼亚大学洛杉矶分校Bioinformatics is the study of the inherent structure
10、of biological information and biological systems. It brings together the avalanche of systematic biological data with the analytic theory and practical tools of mathematics and computer science.,生物信息学(bioinformatics)是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。,生
11、物信息学的概念,生物信息学是多学科交叉产生的一门新兴学科,生物信息学的概念,在推动生物信息学发展的各种动力中,人类基因组计划(HGP)和生物医药工业是其中的两个主要力量。现代分子生物学的发展,特别是人基因组计划的实施,使生物学家所面对的数据不再是实验记录本上或文献上的几行简单数字,而是公共数据库中数以千兆计的记录。由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉
12、学科。,生物信息学的概念,生物信息学(Bioinformatics)是一门新兴的交叉学科。很多人会认为:生物信息学既涉及生物又涉及计算机科学,一定是一个内容十分广泛的学科领域。其实它的内涵十分具体,范围非常明确。,生物信息学的概念,生物信息学是伴随基因组研究而产生的,因此它的研究内容就紧随着基因组研究而发展。广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释,并综合运用数学、计算机科学和生物学工具,以达到理解数据中的生物学含义的目标。这一定义包括了两层含义一是对海量数据的收集、整理与服务,也就是管好这些数据;另一个是从中发现新的规律,也就是用好这些数据。,生物
13、信息学的概念,具体地说,生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。,生物信息学的研究内容,1、 获取人和各种生物的完整基因组2 、发现新基因和新的单核苷酸多态性3 、基因组中非编码区信息结构分析4 、在基因组水平研究生物进化5 、完整基因组的比较研究6 、从功能基因组到系统生物学7 、蛋白质结构模拟与药物设计,主要研究内容,一获取人和各种生
14、物的完整基因组 基因组研究的首要目标是获得人的整套遗传密码。,在自然、科学两杂志上公布的人类基因组工作草图报道,它含有约29亿碱基,其序列覆盖率为94。有大于90的连续序列群已大于10万碱基;有约25的连续序列群已等于或大于千万碱基。在这些序列中发现了34万个编码蛋白质的基因。得到这样的图就是相当于把人类基因组测了大约5遍才实现的。要作到这一点就需要把几千万个小片段通过比对再连接起来,这就是常说的基因组序列数据的拼接和组装。,在基因组大规模测序的每一个环节都与信息分析紧密相关。序列拼接和填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据,而且在于它含有高度重复的序列。为此,这一过
15、程特别需要把实验设计和信息分析时刻联系在一起。另一方面,必须按照不同步骤的要求,发展适当的算法及相应的软件,以应对各种复杂的问题。国际上很多著名的基因组研究中心,都有自己的拼接和组装策略,并且这样的工作都是在超级计算机上完成的。,有了完整基因组,人类对自身的认识就更为细致、更为精确。比如:发现在我们的基因组中真正编码蛋白质(称为外显子)的部分很少,只占11;外显子与外显子之间的区域(称为内含子)占了24;也就是说在人类基因组中不编码蛋白质的区域占了绝大部分。发现人类编码蛋白的基因较之其它生物体的基因更为复杂,有更为丰富的剪接方式。发现基因组中片段重复现象很普遍,这反映了人类复杂的进化历史。发现
16、人的第13号染色体比较稳定,而男性的第12号染色体和女性的第16号染色体是易变的,等等。,二发现新基因和新的单核苷酸多态性,发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。,发现单核苷酸多态性(SNP)现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。SNP在基因组中分布相当广泛。大量存在的SNP位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看,通过SNP发现疾病相关基因突变要比通过家系来得容易;有些SNP并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。,三基因组中非编码蛋白质区域的结构与功能研究,
17、近年来的研究表明,在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的10到20。随着生物的进化,非编码区越来越多,在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。这表明:这些非编码序列必定具有重要的生物功能。普遍的认识是,它们与基因的表达调控有关。,对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上的编码蛋白质的区域(基因)95-97非编码区蕴含的成果数量将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题,是取得重要成果的源泉。,非蛋白编码区约占人类基因组的95-97%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中
18、必然蕴含着重要的生物学功能。对非蛋白编码区进行生物学意义分析的策略有两种,一种是基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;另一种则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。,四在基因组水平研究生物进化,自20世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。相似性”和“同源性”是两个不同的概念。相似性只反映两者类似,并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。,五完整基因
19、组的比较研究,在后基因组时代,完整基因组数据越来越多,有了这些资料人们就能对若干重大生物学问题进行分析研究,如: 生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物体至少需要多少基因?这些基因是如何使生物体活起来的?等等。这些重大的问题只有在基因组水平上才能回答。,开创了比较基因组学科学家们发现:全部基因可以按照功能和系统发生分为若干类,其中包括与复制、转录、翻译、能量产生、离子转运、各种代谢相关的基因。这一工作也为蛋白质分类提供了新的途径。,六从功能基因组到系统生物学,同一组织在不同的个体生长发育阶段,表达基因的种类、数量也是不同的,有些基因是在幼年时期表达的
20、,有些是中年阶段表达的,有些要到老年时期才表达。我们不仅需要了解基因的序列,还要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱。这就是通常所说的功能基因组研究。 功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。,七蛋白质结构模拟与药物设计,预测蛋白的空间结构,进而实现针对性的药物设计,这也是大规模的计算问题。,近期任务,大规模基因组测序中的信息分析新基因和新SNPS(单核苷酸多态性)的发现与鉴定完整基因组的比较研究大规模基因功能表达谱的分析生物大分子的结构模拟与药物设计,远期任务,读懂人类基因组,发现人类遗传语言
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 导论 课件

链接地址:https://www.31ppt.com/p-1344460.html