生物信息学1导论课件.ppt
生物信息学,教材,赵国屏 生物信息学 科学出版社,考核方法,平时成绩作业考试,Introduction to Bioinformatics,生物科学的发展阶段,描述生物学阶段(19世纪中期以前)主要从形态特征观察描述、记载各种类型生物,寻找他们之间的异同和进化脉络代表人物,达尔文1859年,物种起源,实验生物学阶段(19世纪中20世纪中),利用各种仪器工具,通过实验过程探索生命活动的内在规律代表人物, 孟德尔1866年,植物杂交试验,分子生物学阶段(20世纪中期以后),代表人物, 沃森和克里克DNA双螺旋模型1962年,诺贝尔生理学奖,整个生物界是一个多层次的有序结构: 细胞 组织 器官 系统 个体 生态系统 群落 种群,引自J Postlethwait & J Hopson著The Nature of Life,1989,从基本粒子到生物圈,Half day on the web,half month in the lab.,saves you,- Alan Bleasby,2000年2月2日,北京大学燕北园300多位教师的家用计算机接入Internet;2001年2月12日,北京大学2000多个本科生宿舍的计算机接入Internet.,2022/11/11,一、概述,二十一世纪是生命科学的时代,也是信息时代 近年来,随着现代分子生物学的发展,特别是人类基组计划的实施,不断产生出巨量的分子生物学数据,这些数据有着数量巨大、关系复杂,以至于不利用计算机根本无法实现数据的存储和分析。这样,生物信息学最终形成一门独立的学科并被推上了生物科学发展的最前沿。,Bioinformatics: 科技界一颗耀眼的新星,在BIOINFORMATICS 没有诞生之前, 一个新药的问世需要十年时间,数亿美元的R&D,而BIOINFORMATICS已将这个过程减少三分之二,R&D的费用也相应大大减少。许多中小BIOTECH 公司也看到了BIOINFORMATICS 的巨大作用和潜在的商机,纷纷投资BIOINFORMATICS 研究项目。,生物信息学,一、什么是生物信息学?二、生物信息学门户网站三、生物信息数据库四、数据库查询和数据库搜索五、序列的同源比较六、生物信息学应用,生 物 信 息 学 概 论,主要介绍的内容:什么是生物信息学?生物信息学的研究内容和科学目标。生物信息学的发展历史国内外生物信息学的研究历史和现状。,一. 什么是生物信息学?,Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. 它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。 (The U.S. Human Genome Project: The First Five Years FY 1991-1995, by NIH and DOE),早在1956年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上,便产生了生物信息学的概念。1987年,林华安博士正式把这一学科命名为“生物信息学”(Bioinformatics)。被尊称为“生物信息学之父”。,生物信息学的诞生和发展,生物信息学的诞生和发展,随着人类基因计划过程中出现的爆炸性增长的序列信息加速了生物信息学的发展,促进了生物信息学这一门学科的发展。,分子生物学和遗传学的文献积累从60年代中期的接近10万篇迅速增长至60年代末期的20多万篇,即在3-4年间,翻了一番。此后,至80年代中期,上升至约30万篇,即平均每年增长6-7千篇。至90年代中期,文献数已上升至40多万篇;即在10年中,平均每年增长1万篇。到2000年,则增长至约50万篇,即在约5年间,又增长了10万篇(根据http:/www.ncbi.nlm.nih.gov有关PubMed数据整理)。,美国的核酸数据库GenBankBanson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7从1979年开始建设,1982年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务;日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。,近年来GenBank中的DNA碱基数目呈指数增加,大约每14个月增加一倍。到1999年12月其数目已达30亿,它们来自47000种生物。2000年4月DNA碱基数目是60亿。2001年初这一数目已达110亿。,计算机运算速度: 18个月增长一倍;DNA序列数据: 14个月增长一倍;,分析、筛选大量新数据,理论生物学,计算生物学,传统生物学:实验科学现代生物学的发展:海量数据 难以完全依赖实验手段对新数据进行分析,必须借助计算机实现分析和筛选,生物信息学是一门新兴的、正在迅速发展的交叉学科,国内外对生物信息学的定义众说纷纭。美国国家基因组研究中心Bioinformatics is an emerging scientific discipline representing the combined power of biology, mathematics, and computers.美国乔治亚理工大学Bioinformatics is an integration of mathematical, statistical and computer methods to analyze biological, biochemical and biophysical data.,生物信息学的概念,美国密苏里大学Bioinformatics is the science and technology about learning, managing and processing biological information.美国加利福尼亚大学洛杉矶分校Bioinformatics is the study of the inherent structure of biological information and biological systems. It brings together the avalanche of systematic biological data with the analytic theory and practical tools of mathematics and computer science.,生物信息学(bioinformatics)是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。,生物信息学的概念,生物信息学是多学科交叉产生的一门新兴学科,生物信息学的概念,在推动生物信息学发展的各种动力中,人类基因组计划(HGP)和生物医药工业是其中的两个主要力量。现代分子生物学的发展,特别是人基因组计划的实施,使生物学家所面对的数据不再是实验记录本上或文献上的几行简单数字,而是公共数据库中数以千兆计的记录。由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。,生物信息学的概念,生物信息学(Bioinformatics)是一门新兴的交叉学科。很多人会认为:生物信息学既涉及生物又涉及计算机科学,一定是一个内容十分广泛的学科领域。其实它的内涵十分具体,范围非常明确。,生物信息学的概念,生物信息学是伴随基因组研究而产生的,因此它的研究内容就紧随着基因组研究而发展。广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释,并综合运用数学、计算机科学和生物学工具,以达到理解数据中的生物学含义的目标。这一定义包括了两层含义一是对海量数据的收集、整理与服务,也就是管好这些数据;另一个是从中发现新的规律,也就是用好这些数据。,生物信息学的概念,具体地说,生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。,生物信息学的研究内容,1、 获取人和各种生物的完整基因组2 、发现新基因和新的单核苷酸多态性3 、基因组中非编码区信息结构分析4 、在基因组水平研究生物进化5 、完整基因组的比较研究6 、从功能基因组到系统生物学7 、蛋白质结构模拟与药物设计,主要研究内容,一获取人和各种生物的完整基因组 基因组研究的首要目标是获得人的整套遗传密码。,在自然、科学两杂志上公布的人类基因组工作草图报道,它含有约29亿碱基,其序列覆盖率为94。有大于90的连续序列群已大于10万碱基;有约25的连续序列群已等于或大于千万碱基。在这些序列中发现了34万个编码蛋白质的基因。得到这样的图就是相当于把人类基因组测了大约5遍才实现的。要作到这一点就需要把几千万个小片段通过比对再连接起来,这就是常说的基因组序列数据的拼接和组装。,在基因组大规模测序的每一个环节都与信息分析紧密相关。序列拼接和填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据,而且在于它含有高度重复的序列。为此,这一过程特别需要把实验设计和信息分析时刻联系在一起。另一方面,必须按照不同步骤的要求,发展适当的算法及相应的软件,以应对各种复杂的问题。国际上很多著名的基因组研究中心,都有自己的拼接和组装策略,并且这样的工作都是在超级计算机上完成的。,有了完整基因组,人类对自身的认识就更为细致、更为精确。比如:发现在我们的基因组中真正编码蛋白质(称为外显子)的部分很少,只占11;外显子与外显子之间的区域(称为内含子)占了24;也就是说在人类基因组中不编码蛋白质的区域占了绝大部分。发现人类编码蛋白的基因较之其它生物体的基因更为复杂,有更为丰富的剪接方式。发现基因组中片段重复现象很普遍,这反映了人类复杂的进化历史。发现人的第13号染色体比较稳定,而男性的第12号染色体和女性的第16号染色体是易变的,等等。,二发现新基因和新的单核苷酸多态性,发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。,发现单核苷酸多态性(SNP)现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。SNP在基因组中分布相当广泛。大量存在的SNP位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看,通过SNP发现疾病相关基因突变要比通过家系来得容易;有些SNP并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。,三基因组中非编码蛋白质区域的结构与功能研究,近年来的研究表明,在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的10到20。随着生物的进化,非编码区越来越多,在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。这表明:这些非编码序列必定具有重要的生物功能。普遍的认识是,它们与基因的表达调控有关。,对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上的编码蛋白质的区域(基因)95-97非编码区蕴含的成果数量将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题,是取得重要成果的源泉。,非蛋白编码区约占人类基因组的95-97%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能。对非蛋白编码区进行生物学意义分析的策略有两种,一种是基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;另一种则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。,四在基因组水平研究生物进化,自20世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。相似性”和“同源性”是两个不同的概念。相似性只反映两者类似,并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。,五完整基因组的比较研究,在后基因组时代,完整基因组数据越来越多,有了这些资料人们就能对若干重大生物学问题进行分析研究,如: 生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物体至少需要多少基因?这些基因是如何使生物体活起来的?等等。这些重大的问题只有在基因组水平上才能回答。,开创了比较基因组学科学家们发现:全部基因可以按照功能和系统发生分为若干类,其中包括与复制、转录、翻译、能量产生、离子转运、各种代谢相关的基因。这一工作也为蛋白质分类提供了新的途径。,六从功能基因组到系统生物学,同一组织在不同的个体生长发育阶段,表达基因的种类、数量也是不同的,有些基因是在幼年时期表达的,有些是中年阶段表达的,有些要到老年时期才表达。我们不仅需要了解基因的序列,还要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱。这就是通常所说的功能基因组研究。 功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。,七蛋白质结构模拟与药物设计,预测蛋白的空间结构,进而实现针对性的药物设计,这也是大规模的计算问题。,近期任务,大规模基因组测序中的信息分析新基因和新SNPS(单核苷酸多态性)的发现与鉴定完整基因组的比较研究大规模基因功能表达谱的分析生物大分子的结构模拟与药物设计,远期任务,读懂人类基因组,发现人类遗传语言的根本规律,从而阐明若干生 物学中的重大自然哲学问题,像生命的起源与进化等。这一研究的关键和核心是了解非编码区非编码区信息结构分析遗传密码起源和生物进化的研究,近期任务,由于未来几年蛋白质和核酸的测序数据将以指数方式增加,近期生物信息学将在以下几方面迅速发展,大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。,1、大规模基因组测序中的信息分析,凭借基因组序列可以通过理论方法寻找新基因和SNPs。当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。”这就是通常所说的SNPs(单核苷酸多态性)。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。,2、新基因和新SNPs(单核苷酸多态性)的发现与鉴定,尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有98%-99%的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们联想到形形色色千差万别的建筑楼群,它们的外观如此不同,但基础的部件组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种演化历史中的重要作用。由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,从基因组整体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。 由完整基因组研究所导致的比较基因组学必将为基因组研究开辟新的领域。,3、完整基因组的比较研究,随着人类基因组测序完成、一些学者就提出如下的问题:即使我们已经获得了人的完整基因图谱,那我们对人的生命活动能说明到什么程度呢?一系列由上述数据所不能说明的问题,例如:基因表达的产物是否出现与何时出现;基因表达产物的浓度是多少;是否存在翻译后的修饰过程等。概括这些问题,其实质应该是:我们虽然知道了基因,知道了核酸序列,但我们不知道它们是如何发挥功能的,或者说它们是如何按照特定的时间、空间进行基因表达的,表达量有多少。,4、大规模基因功能表达谱的分析,随着人类基因组计划的执行,可找到人类的一级序列。然而要了解他们的功能、要找到这些蛋白质功能的分子基础,必须进一步知道它们的三维结构。与此同时,要设计药物也需要了解相应的蛋白质受体的三维结构。这是摆在科学家面前的紧迫任务。,5、生物大分子的结构模拟与药物设计,近几年来,随着基因组序列数据的大量增加,对序列差异和进化关系的争论也越来越激烈。特别是:在分子进化分析中,“相似性”和“同源性”是两个不同的概念。相似性只反映两者类似,并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。,6、在基因组水平研究生物进化,在不同的组织中表达基因的数目差别是很大的,脑中基因表达的数目最多,有的组织中只有几十或几百个基因表达。同一组织在不同的个体生长发育阶段,表达基因的种类、数量也是不同的,有些基因是在幼年时期表达的,有些是中年阶段表达的,有些要到老年时期才表达。我们不仅需要了解基因的序列,还要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱。这就是通常所说的功能基因组研究。 功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。,7、从功能基因组到系统生物学,远期任务,生物信息学的远期任务是读懂人类基因组,发现人类遗传语言的根本规律。从而阐明若干生物学中的重大自然哲学问题,像生命的起源与进化等。这一研究的关键和核心是了解非编码区。,从生物进化的观点看来,随着生物体功能的完善和复杂化,非编码区序列明显增加的趋势表明:这部分序列必定具有重要的生物功能。因此寻找这些区域的编码特征以及信息调节与表达规律是未来相当长时间内的热点课题。 对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上的编码蛋白质的区域(基因),这部分序列只占基因组的3到5,也就是说,人类基因组中多达 95到97是非编码区。如何深人了解这些非编码区序列的功能是当前科学家们面临的一个真正的挑战。,1、非编码区信息结构分析,自 1859年Darwin的物种起源发表以来,进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。进化论研究的核心是描述生物进化的历史和探索进化过程的机制。自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。当前分子进化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。,2、遗传密码起源和生物进化的研究,近年来,随着序列数据的大量增加,对序列差异和进化关系的争论也越来越激烈。我们要彻底了解进化的规律必须使用整个基因组的信息。相应地必须发展新的理论方法。,总之,当前是生物信息学研究的一个有活力的新时代。不少科学家还说它是人类基因组研究的收获时代,它不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。DNA序列数据正以意想不到的速度增长,这是一个难得的机会,我国应尽早利用这些数据就可能走在国际科学界的最前沿。,生物信息学的研究目标,以核酸、蛋白质等生物大分子数据库为主要对象,以数学、信息学、计算机科学为主要手段,以计算机硬件、软件和计算机网络为主要工具,对浩如烟海的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等理性知识。,生物信息学的发展历史,生物信息学基本思想的产生,生物信息学 的迅速发展,二十世纪50年代,二十世纪80-90年代,生物科学和技术的发展,人类基因组计划的推动,生物信息学的发展过程,生物信息学的诞生及其重要性:早在1956年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上,便产生了生物信息学的概念。但是,就生物信息学的发展而言,它还是一门相当年轻的学科。直到20世纪8090年代,伴随着计算机科学技术的进步,生物信息学才获得突破性进展。1987年,林华安博士正式把这一学科命名为“生物信息学”(Bioinformatics)。此后,其内涵随着研究的深入和现实需要的变化而几经更迭。1995年,在美国人类基因组计划第一个五年总结报告中,给出了一个较为完整的生物信息学定义:生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。,生物信息学的发展过程,世纪后期,生物科学技术迅猛发展,无论从数量上还是从质量上都极大地丰富了生物科学的数据资源。数据资源的急剧膨胀迫使人们寻求一种强有力的工具去组织这些数据,以利于储存、加工和进一步利用。而海量的生物学数据中必然蕴含着重要的生物学规律,这些规律将是解释生命之谜的关键,人们同样需要一种强有力的工具来协助人脑完成对这些数据的分析工作。另一方面,以数据分析、处理为本质的计算机科学技术和网络技术迅猛发展,并日益渗透到生物科学的各个领域。于是,一门崭新的、拥有巨大发展潜力的新学科生物信息学悄然兴起。,20世纪50年代,生物信息学开始孕育20世纪60年代,生物分子信息在概念上将计算 生物学和计算机科学联系起来20世纪70年代,生物信息学的真正开端20世纪70年代到80年代初期 ,出现了一系列著 名的序列比较方法和生物信息分析方法 20世纪80年代以后,出现一批生物信息服务机 构和生物信息数据库20世纪90年代后 ,HGP促进生物信息学的迅速 发展,生物信息学的发展历程,生物信息学自诞生以来,经历了三个阶段:基因组前期的生物信息学基因组年代的生物信息学后基因组年代的生物信息学,人类基因组计划时代的生物信息学,生物信息数据库的建立及基因组信息学传输网络的形成基因组序列信息的提取及分析,后基因组时代的生物信息学,后基因组时代,(post-genome era) 主要揭示基因组及其包含的全部基因的功能,以及对基因产物-蛋白质结构和功能的研究和语。 后基因组时代,生物学家们的研究重心已经从揭示生命的所有遗传信息转移到在整体水平上对生物功能的研究。标志, 功能基因组学,生物信息学的应用与发展研究,生物信息学的研究结果不仅具有重要的理论价值,也可直接应用到工农业生产和医疗实践当中去。因此,生物信息学相关的分析与应用算法、软件和数据库,都具有重要的经济价值,最终都会形成商品,提供经济和社会效益。,很多疾病与基因突变或基因多态有关,有人估计与癌症相关的原癌基因约有1000个,抑癌基因约有100个。约有6000种以上的人类疾患与各种人类基因的变化相关联。更多的疾病是环境(包括致病微生物)与人类基因(基因产物)相互作用的结果。,随着人类基因组计划的深入,当我们知道了人类全部基因在染色体上的位置、它们的序列特征以及它们表达规律和产物(RNA和蛋白质)特征以后,人们就可以有效地判定各种疾患的分子机制,进而发展合适的诊断和治疗手段。,1、 疾病相关的基因信息及相关算法和软件开发,根据不同物种间的进化距离和功能基因的同源性,可以比较容易地找到各种家畜、经济作物与其经济效益相关的基因,并进一步认识它们发育、生长和抗逆的各种途径和机制。,2、 建立与动、植物良种繁育相关的基因组数据库,人类基因组信息为药物发展提供了新的候选分子和新的候选药靶基因。同时,分子生物学常用的表达载体、PCR和杂交引物以及各种试剂盒(包括DNA芯片)的设计必须依赖于核酸的序列信息。基因组信息学提供的大量信息为这类技术的发展提供了广阔的天地。,3、 研究与发展药物设计软件和基于生物信息的分子生物学技术,美国一些最著名的大学,如哈佛大学、普林斯顿大学、斯坦福大学、伯克利加州大学等都投资几千万到一亿多美元成立了生物学、物理学、数学等学科交叉的新中心,诺贝尔奖获得者朱棣文领导的斯坦福大学的中心还命名为BioX。1999年6月3日,美国NIH的一个顾问小组建议在生物计算领域设立总额为数亿美元的重大科研基金,并成立5到20个计算中心以处理海量的基因组相关信息。,生物信息学的发展,不仅导致生物学、物理学、数学、计算机科学等多种科学文化的融合,也必将造就一批新的从事交叉学科研究的科学工作者。科学家们普遍相信本世纪是人类基因组研究取得辉煌成果的时代,也是它创造巨大的经济效益和社会效益的时代。让我们作为见证人欣赏生物信息学的蓬勃发展吧!,发展现状,生物信息学的发展将会对生命科学带来革命性的变革。它的成果不仅对相关基础学科起巨大的推动作用,而且还将对医药、卫生、食品、农业等产业产生巨大的影响,甚至引发新的产业革命。,国外发展现状,各国政府和工业界对此极为重视,投入了大量资金。欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心(National Center for Biotechnology Informatics,NCBI)、欧洲生物信息学研究所 (European Bioinformatic Institute,EBI)、日本信息生物学中心(Center for Information Biology,CIB)等。NCBI、EBI和CIB相互合作,共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。它们每天通过计算机网络互相交换数据,使得三个数据库能同时获得最新数据。此外,他们每年召开两个年会讨论合作事宜。,国内发展现状,国内的一些科研单位清华大学在基因调控及基因功能分析、蛋白质二级结构预测方面、天津大学物理系和中科院理论物理所在相关算法方面、中科院生物物理所在基因组大规模测序数据的组装和标识方面、北京大学化学学院物理化学研究所在蛋白质分子设计方面、,华大基因组研究中心(中科院遗传所人类基因组研究中心)在大规模测序数据处理自动化流程体系及数据库系统建立方面均已展开相关研究。北京大学已建立了EMBL中国镜像数据库,将该数据库移植到中国本地,并提供部分的检索服务。复旦大学遗传学研究所为克隆新基因而建立的一整套生物信息系统也已初具规模;中科院上海生化所、生物物理所等单位在结构生物学和基因预测研究方面也有相当的基础。,我国主要研究单位,中科院遗传所人类基因组中心北京大学联合基因集团有限公司我国第一家批量生产基因 芯片拥有近2千条基因药物发明专利东南大学吴健雄实验室中科院计算所生物信息学实验室上海生科院,我国生物信息学科研,与Sun联姻华大“如虎添翼”,我国生物信息学研究的主要方向,1、建立国家生物医学数据库与服务系统2、人类基因组的信息结构分析3、功能基因组相关信息分析4、遗传密码起源于生物进化5、非编码区分析和DNA 语言研究6、基于结构的药物设计,任务,1、收集和管理生物分子数据2、进行数据处理和分析3、开发分析工具和实用软件,生物信息学的意义,在实际的研究中,生物信息学不仅是一门前沿的理论学科,它目前已融入到实验室的具体实践方法(lab-on-web);研究者可以通过生物信息学对将要开展的实验研究作出更周密的设计、预测实验结果和对实验结果进行规律性分析。从而减少实验失败率、缩短实验周期。通过生物信息学可以获得从传统的实验方法中无法获得的信息。,生物信息学的意义,在信息时代,失去信息的利用,将失去重要的一切。生物信息学实质就是加速对生物信息的利用。1991年诺贝尔奖获得者W.Gilbert所指出的:“传统生物学解决问题的方式是实验的,现在,基于全部基因都将知晓,并已电子的方式储存在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中,追踪或验证这些理论假设。”,生物信息学与生物实验的关系,作为生物信息学基础和出发点的核酸与蛋白质序列都来自实验不可能用实验办法逐一确定它们的结构和功能越来越多物种的基因组将被基本上完全测定,新的生物学研究模式的出发点应该是理论的。科学家将从理论推测出发,然后再返回到实验中去,追踪或验证这些理论假设。生物学家不仅必须成为计算机学者,而且也要改变他们研究生命现象的途径。W. Gilbert, Towards A Paradigm Shift in Biology, Nature, 349(1991)99,传统生物学:实验科学现代生物学的发展:1、高通量数据获取日益实现自动化、半工业化 从数据库中实现数据挖掘、知识发现2、海量数据 难以完全依赖实验手段对新数据进行分析,必须借助计算机实现分析和筛选3、更复杂层次的生物学问题 复杂的基因调控网络、代谢网络;细胞间信号转导过程;生物个体全部基因表达变化,分析、筛选大量新数据生物中的复杂网络、复杂过程、复杂现象,理论生物学,生物信息学,实验永远起着决定作用 计算/理论生物学的发展离不开实验生物学的贡献 实验生物学日益依赖计算/理论生物学的指导,21世纪生命科学,理论,计算,实验,数学与物理科学,生物信息学展望,尚需做以下几方面的努力:理论研究生物数据的质量监控加强生物学家和计算机科学家以及数学家之间的沟通,跨越整个生命科学的大科学,生物分子信息的特征,生物分子信息数据量大 生物分子信息复杂 生物分子信息之间存在着密切的联系,复习题,生物信息学概念生物信息学的研究任务我国生物信息学的研究方向,