《生物信息学概论.ppt》由会员分享,可在线阅读,更多相关《生物信息学概论.ppt(64页珍藏版)》请在三一办公上搜索。
1、生 物 信 息 学Bioinformatics(BF035018),15:52,2,主要学习内容,生物信息学总体印象(第一章)生物信息学用到什么?(第二章)生物信息学能做什么及怎么做?(第三、四、五章)生物信息学的实际应用(第六章),生物信息学的定义、发展史、相关概念、重要性、研究内容及发展方向,生物知识、计算机知识、网络资源、数据库资源和软件资源,双序列比对、多序列比对、核酸分析、蛋白质分析,另外还有分子模建、活性预测、药物设计等等,基因组计划、蛋白质组、代谢组等等,15:52,3,教学目的,掌握生物信息学的基本理论和专门知识;掌握生物信息学数据库的查询、检索和利用;掌握核酸及蛋白质序列比对
2、方法;了解人类基因组计划意义及应用前景。,15:52,4,参考教材,罗静初等译,生物信息学概论,北京大学出版社赵国屏 等,生物信息学,科学出版社,2002李衍达 孙之荣 等译,生物信息学基因和蛋白质分析的实用指南,清华大学出版社,2000 张成岗 等,生物信息学方法与实践、科学出版社,2002D.R.Wedthead 等,Bioinformatics,科学出版社,2003,15:52,5,考核方法,理论考试(闭卷,占80)随堂提示重点难点知识,及课后练习题课堂成绩(占20)出勤率,课堂表现,随堂练习成绩,15:52,6,第一章 概论,近年来,随着现代分子生物学的发展,特别是人类基因组计划的实施
3、,不断产生出海量的分子生物学数据,这些数据数量巨大、关系复杂,以至于不利用计算机根本无法实现数据的存储和分析。这样,生物信息学最终形成一门独立的学科并被推上了生物科学发展的最前沿。,15:52,7,15:52,8,一、生物信息学定义,1995年,在美国人类基因组计划第一个五年总结报告中,给出了一个较为完整的生物信息学定义:生物信息学(Bioinformatics)是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。,15:52,9,生物信息学(Bioinformatics)这
4、个名词有许多不同的定义。从字面上来看,生物信息学是将信息科学和技术应用于生物学。一般提到的生物信息学是就指这个狭义的概念,准确地说应该是分子生物信息学(Molecular Bioinformatics)。,15:52,10,广义概念,生命科学与数学、计算机科学和信息科学交汇融合形成的一门交叉学科,应用先进的数据管理技术、数学分析模型和计算软件对各种生物信息进行提取、储存处理和分析,旨在掌握复杂生命现象的形成模式与演化规律。,15:52,11,具体地说,生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,
5、破译隐藏在DNA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。,15:52,12,生物信息学主要研究两种信息载体核酸分子(DNA、RNA)蛋白质分子生物分子至少携带着三种信息遗传信息与功能相关的结构信息进化信息,15:52,13,二、生物信息学发展史,1866年孟德尔从实验上提出了假设:基因是以生物成分存在。1953年James Watson 和Francis Crick推测出DNA的三维结构(双螺旋).他们的理论奠定了分子生物学的基础。Crick于1954年提出了遗传信息传递的规律,DNA是合成RN
6、A的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma)。2001年,人类基因组工程测序的完成,使生物信息学走向了一个高潮。,15:52,14,生物信息学的产生,20世纪后期,生物科学技术迅猛发展,无论从数量上还是从质量上都极大地丰富了生物科学的数据资源。寻求一种强有力的工具去组织这些数据,以利于储存、加工和进一步利用。另一方面,以数据分析、处理为本质的计算机科学技术和网络技术迅猛发展,并日益渗透到生物科学的各个领域。于是,一门崭新的、拥有巨大发展潜力的新学科生物信息学悄然兴起。,15:52,15,生物信息学经历三个阶段,基因组前期:主要是序列分析、数据库的查询、计算
7、机操作;基因组年代:主要是基因的寻找、数据与数据之间的比较、网络相互界面(Interface);后基因组年代:主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与分析。其研究的内容不仅包括基因的查寻和同源性分析;而且进一步到基因和基因组的功能分析,即所谓的功能基因组学研究。,15:52,16,20世纪50年代,生物信息学开始孕育。20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来。20世纪70年代,生物信息学的真正开端。20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方法。20世纪80年代以后,出现一批生物信息服务机构和生物信息数据
8、库。20世纪90年代后,人类基因组计划促进生物信息学的迅速发展。,15:52,17,三 与生物信息学相关的概念,序列测定基因组计划模式识别和结构功能预测蛋白质折叠同源性与相似性,15:52,18,序列测定,是获得序列数据的基本方法,分为蛋白质序列测定和核酸序列测定。第一个完整多肽(胰岛素)于1955年ryle等人完成。埃德曼降解环甲基化方法;自动测序仪;质谱技术的发展大大提高了蛋白质测序技术。核酸测序,由于基因克隆和多聚酶链式反应的快速发展,为核酸的快速测序提供了良好的基础,这也就促使了现阶段大量核酸序列的测序完成。,15:52,19,基因组计划:80年代美国能源部开始启动一系列研究项目,旨在
9、构建人类基因组详尽图谱和物理图谱,测定人类基因组的全部核苷酸序列,并将人类十万个左右的基因定位于染色体。在2000年,人类全基因组测序完成并正式公布,这就是著名的人类基因组计划。,15:52,20,另外一些模式生物的基因组计划也先后在世界各地启动。它们包括大肠杆菌,啤酒酵母,线虫,果蝇,拟南芥,狗,小鼠等。这是1998年公布的一个数据,而现在由于测序技术的不断成熟,获得的动植物的全基因组序列越来越多。像国内的华大基因研究院,每年就要完成很多种生物的测序。,15:52,21,模式识别利用已知的蛋白序列或结构中的某些特征模式来识别未知蛋白质的一些性质结构功能预测通过蛋白质序列特征来直接预测其结构或
10、功能,而不依靠于其它已知蛋白信息。,15:52,22,蛋白质折叠蛋白质折叠问题是分子生物学研究的中心问题。它所要解决的是蛋白质一级结构中的氨基酸序列最终怎样折叠成三维空间结构。研究蛋白质折叠的过程,可以说是破译“第二遗传密码”折叠密码(folding code)的过程。,15:52,23,蛋白质的基本单位为氨基酸,而蛋白质的一级结构指的就是其氨基酸序列,蛋白质会由所含氨基酸残基的亲水性、疏水性、带正电、带负电等等特性通过残基间的相互作用而折叠成一立体的三级结构。虽然蛋白质可在短时间中从一级结构折叠至立体结构,研究者却无法在短时间中从氨基酸序列计算出蛋白质结构,甚至无法得到准确的三维结构。,15
11、:52,24,同源性,也可以说同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。相似性,有两层含义:1,指那些折叠方式相似却没有明显的序列相似性的蛋白质;2,指蛋白质中一组具有相同催化活性和空间构像的氨基酸残基,但分子间整体上的序列和结构却不具有相似性。指不同祖先经趋同进化而形成相似功能或结构。,15:52,25,三 生物信息学重要性,认识生物本质了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。改变生物学的研究方式 改变传统研究方式,引进现代信息学方法在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据,15:52,26,四 生物信息学研究内容,生物信息学
12、的研究内容是伴随着基因组研究而发展的。广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、存储、分配、分析和解释。这个定义的含义是双重的:一是对海量数据的收集、整理与服务,即管理好这些数据;二是从中发现新的规律,也就是使用好这些数据。,15:52,27,获取人和各种生物的完整基因组发现新基因和新的单核苷酸多态性(1)基因的电脑克隆(2)从基因组DNA序列中预测新基因(3)发现单核苷酸多态(SNP)基因组中非编码区信息结构分析在基因组水平研究生物进化完整基因组的比较研究功能基因组研究生物大分子结构模拟与药物设计生物信息学的发展与应用研究,15:52,28,获取人和各种生物的完整基因组
13、基因组研究的首要目标是获得人的整套遗传密码。随着科学技术的飞速发展,科学家于1985年提出了旨在阐明人类46条染色体上30亿个脱氧核苷酸的排列顺序,这就是规模空前的人类基因组计划(HGP),已于1990年启动,至今已取得巨大成就,使人类第一次在分子水平上全面认识自我。,15:52,29,2000年6月26日,是人类科学史上值得纪念的日子。由美、英、法、德、日、中等6国合作,公众支持的国际人类基因组计划协作组织在全球同一时间联合宣布:人类生命蓝图人类基因组“工作框架图”已经完成。这是人类基因组计划取得的重大成果,也是自然科学史上最重要的里程碑。,15:52,30,15:52,31,自1995年科
14、学家破译了全长为180万核苷酸的流感嗜血杆菌基因组。目前已完成完整基因组测序生物,有:小鼠、酵母、线虫、果蝇、拟南芥、水稻、马、短尾负鼠、猫、伊蚊、葡萄、恒河猴、海鞘、蜜蜂、白蚁、牛、衣藻、狗、鸡,15:52,32,15:52,33,15:52,34,海鞘(ciona intestinalis)是人类的一种无脊椎近亲,它们的心脏、神经系统就像是人类的简化版。,15:52,35,发现新基因和新的单核苷酸多态性发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。,15:52,36,卷舌 V形发际线 大拇指弯曲 长睫毛,我们身体中常见的单基因控制的性状,15:52,3
15、7,基因组中非编码区信息结构分析近年来的研究表明,在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的10%到20%。随着生物的进化,非编码区越来越多,在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。这表明:这些非编码序列必定具有重要的生物功能。普遍的认识是它们与基因的表达调控有关。,15:52,38,完整基因组的比较研究研究发现:全部基因可以按照功能和系统发生分为若干类,其中包括与复制、转录、翻译、分子伴侣、能量产生、离子转运、各种代谢相关的基因。这一工作也为蛋白质分类提供了新的途径。同时,科学家们通过几个完整基因组的比较,统计出维持生命活动所需要的最少基因的个数为26
16、5350个左右。研究表明在同一生物中,某些核糖体蛋白排列顺序的差异能反映出物种间的亲缘关系,亲缘关系越近,基因排列顺序越接近。这样就可以通过比较基因的排列顺序来研究物种间的系统发育关系。,15:52,39,功能基因组研究在不同的组织中表达基因的数目差别是很大的,同一组织在不同的个体生长发育阶段,表达基因的种类、数量也是不同的。因此我们不仅需要了解基因的序列,还要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱。这就是通常所说的功能基因组研究。,15:52,40,生物大分子结构模拟与药物设计包括RNA(核糖核酸)的结构模拟和反义RNA的分子设计;蛋白质空间结构模拟和分子设计;具
17、有不同功能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于DNA结构的药物设计等。,15:52,41,15:52,42,15:52,43,生物信息学的发展与应用研究发展有效的软件、数据库以及若干数据库工具,诸如电子网络等远程通讯工具;改进现有的理论分析方法,如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等;创建一切适用于基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等;建立严格的多序列比较方法;发展研究
18、基因组完整信息结构和信息网络的研究方法等;发展生物大分子空间结构模拟和药物设计的新方法与新技术。,15:52,44,五 国外发展现状,各国政府和业界对生物信息学的发展极为重视,投入了大量资金。欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)、日本国家遗传学研究所(NIG)等。NCBI、EBI和NIG相互合作,共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。它们每天通过计算机网络互相交换数据,使得三个数据库能同时获得最新数据。此外,他们每年召开年会讨论合作事宜。,15:52,45,国际著名生物信息中心Bioinform
19、atics Centres,NCBI National Center for Biotechnology Information(US)EBI European Bioinformatics Institute(EU)NIG National Institute of Genetics(Japan)HGMP Human Genome Mapping Project Resource Centre(UK)SIB Swiss Institute of Bioinformatics(Switzerland)CMBI Centre of Molecular and Biomolecule(Nether
20、lands)ANGIS National Genome Information Service(Australia)BIC National Bioinformatics Centre(Singapore),15:52,46,15:52,47,15:52,48,15:52,49,美国核酸数据库GenBank从1979年开始建设,1982年正式运行(NCBI);欧洲分子生物学实验室的EMBL数据库也于1982年开始服务(EBI);日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务(NIG)。,15:52,50,近年来GenBank中的DNA碱基数目呈指数增加,大约每14个
21、月增加一倍。到1999年12月其数目已达30亿,它们来自47000种生物。2000年4月DNA碱基数目是60亿。现在,2001年初这一数目已达110亿。各种生物的EST序列已达600多万条,其中人类的EST序列已超过300万条,估计覆盖人类基因90以上;,15:52,51,分子生物学和遗传学的文献积累从60年代中期的接近10万篇迅速增长至60年代末期的20多万篇,即在3-4年间,翻了一番。此后,至80年代中期,上升至约30万篇,即平均每年增长6-7千篇。至90年代中,文献数已上升至40多万篇;即在10年中,平均每年增长1万篇。到2000年,则增长至约50万篇,即在约5年间,又增长了10万篇。,
22、15:52,52,DNA数据的增长幅度:2004年已有相当于16个人类基因组的完成序列,15:52,53,六 国内发展现状,在我国,生物信息学随着人类基因组研究的展开才起步较迟,但已显露出蓬勃发展的势头。北京大学于1997年3月成立了生物信息学中心,中科院上海生命科学研究院也于2000年3月成立了生物信息学中心。我国首家自主开发的核酸(DNA)序列公共数据库(Biosino Database)于2001年7月3日上午9时正式上网试运行,并同时开始接受我国核酸序列的注册登记。,15:52,54,炎黄计划,“炎黄计划”是以保护、开发和利用中华民族群体遗传资源为目的的长程基因组学研究,主要研究人类基
23、因变异、代谢平衡与健康的关系。中科院基因组学研究所将通过实施该计划,不断对中国的群体遗传学资源加以开发,制作具有更高分辩率的中华民族群体基因组单倍体图(HapMap),定位并普查可能影响人类健康的基因变异,所涉及的疾病主要有传染病、糖尿病、肥胖、心脑血管病、癌症、老年性痴呆和其它慢性疾病。,15:52,55,计划的预期成果,建立东亚人种特异性的高密度、高分辨医学遗传图谱;利用医学遗传图谱,建立包括可用于筛查疾病相关基因的分子标记集,大规模筛查中国(东亚)人群特异性疾病。,15:52,56,神农计划,以保护和开发中医中药相关生物资源并促进中医药科学现代化的基因组研究计划。它以传统医学和药学现代化
24、为目的,从事以基因组研究为出发点的药用生物资源开发与应用研究,聚焦于有明确临床效果的中草药的分子标记,次生代谢物催化酶基因和有机化合物(如次级代谢产物)的开发利用。与“炎黄计划”的科学目标相结合,立足于防治常见疾病和传染性疾病。,15:52,57,计划的预期成果,测定若干中草药的基因组序列(如冬虫夏草、丹参、黄芪、柴胡等)和分子标记物建立中草药数据和资源库分离和鉴定关键催化酶(药用动植物基因库)开发基于中草药的防病健康调节剂和治病药物。,15:52,58,轩辕计划,是以生物资源开发与生态资源保护为目的,科学强国和科学健民的基因组学研究计划。该计划以农业现代化、振兴经济和保护环境为基本内涵,以经
25、济动植物、农作物、生态物种和生物能源为研究对象的基因组学研究计划。,15:52,59,计划的预期成果,在这一计划的框架下,BGI已经阶段性地完成了水稻基因组基因图谱、家蚕基因组“工作框架图”、继续“猪基因组计划”和“鸡基因组多态性计划”等农作物和家养动物的基因组计划。该计划将在资金允许的情况下在5年内测定大豆、马铃薯等重要经济作物的基因组,初步揭示杂交优势、杂种进化、多倍体形成、多倍体进化的分子机制等植物物种的重要基因组学命题。,15:52,60,国内的一些科研单位,清华大学基因调控及基因功能分析、蛋白质二级结构预测方面;天津大学物理系和中科院理论物理所相关算法方面;中科院生物物理所基因组大规
26、模测序数据的组装和标识方面;北京大学化学学院物理化学研究所蛋白质分子设计方面;华大基因组研究中心(中科院遗传所人类基因组研究中心)在大规模测序数据处理自动化流程体系及数据库系统建立方面均已展开相关研究;中科院上海生化所、生物物理所等单位结构生物学和基因预测研究方面;中科院计算所生物信息学实验室。,15:52,61,国内相关领域的著名学者,北京大学的罗静初和顾孝诚教授(主持生物信息学网站建设)北京大学来鲁华教授中科院生物物理所的陈润生院士(EST序列拼接及基因组演化)天津大学的张春霆院士(DNA序列的几何学分析)中科院理论物理所郝柏林院士清华大学的李衍达院士和孙之荣教授内蒙古大学的罗辽复教授 等
27、等;,15:52,62,北京大学已建立了EMBL中国镜像数据库,将该数据库移植到中国本地,并提供部分的检索服务http:/http:/www.biosino.org,15:52,63,生物信息学(Bioinformatics)名词的由来,八十年代末期,美籍华人林华安博士认识到将计算机科学与生物学结合起来的重要意义,开始留意要为这一领域构思一个合适的名称。起初,考虑到与将要支持他主办一系列生物信息学会议的佛罗里达州立大学超型计算机计算研究所的关系,他使用的是“CompBio”;之后,又将其更改为兼具法国风情的“bioinformatique”,看起来似乎有些古怪。因此不久,他便进一步把它更改为“bio-informatics(或bio/informatics)”。但由于当时的电子邮件系统与今日不同,该名称中的-或/符号经常会引起许多系统问题,于是林博士将其去除,就是今天我们所看到的“bioinformatics”,并沿用至今。,15:52,64,生物信息的主要研究内容?,
链接地址:https://www.31ppt.com/p-2720494.html