生物信息学的应用课件.ppt
《生物信息学的应用课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学的应用课件.ppt(140页珍藏版)》请在三一办公上搜索。
1、生物信息学的应用,1,PPT课件,生物信息学(Bioinformatics),2,PPT课件,概念(广义),生物体系和过程中信息的存贮、传递和表达,细胞、组织、器官的生理、病理药理过程的中各种生物信息,信息科学,生命科学中的信息科 学,3,PPT课件,概念(狭义),生物分子数据,深层次生物学知识,分子生物信息学Molecular Bioinformatics,挖掘,获取,生物分子信息的获取、存贮、分析和利用,4,PPT课件,生物信息学主要研究两种信息载体DNA分子蛋白质分子,5,PPT课件,生物分子至少携带着三种信息遗传信息与功能相关的结构信息进化信息,6,PPT课件,第一节 生物信息学与基因
2、组学,一、生物信息学概述(一)生物信息学发展简史生物信息学发展的3个阶段: 前基因组时代 基因组时代 后基因组时代 生物信息学的发展脉络: 1956年,在美国田纳西州盖特林堡(Gatlinburg)召开的首次“生物学中的信息理论研讨会”上,孕育了生物信息学的概念.,1987年,佛罗里达州立大学32岁的林华安(Wa.A.Lim)博士首创“Bioinformatics” 一词,被誉为“世界生物信息之父”。,7,PPT课件,1990年,林华安博士发起第一届国际 Bioinformatics学术会议。 1990年10月,被誉为生命科学“阿波罗登月计划”的国际人类基因组计划(HGP)启动。 1995年,
3、美国人类基因组计划第一个五年总结报告中给出生物信息学一个较为完整的定义。 2000年6月26日,美、英、日、德、法、中等六国科学家共同努力,完成人类基因组工作草图,这是人类科学史上又一个里程碑式的事件。 2003年4月14日,国际人类基因组测序组隆重宣布:美、英、日、德、法和中国科学家历经13年共同努力,人类基因组序列图(“完成图”)提前绘制成功。人类迈入“后基因组时代”(Post-genomic Era)。,8,PPT课件,(二)生物信息学的主要研究内容,1生物信息的收集、存储、管理与提供2基因组序列信息的提取和分析3功能基因组相关信息分析4基因表达数据的分析与处理5 蛋白质结构预测,9,P
4、PT课件,基因组数据库,蛋白质序列数据库,蛋白质结构数据库,DDBJ,EMBL,GenBank,SWISS-PROT,PDB,PIR,1、 生物分子数据的收集与管理,10,PPT课件,2、 数据库搜索及序列比较,搜索同源序列在一定程度上就是通过序列比较寻找相似序列 序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。,11,P
5、PT课件,发现同源分子,12,PPT课件,3、 基因组序列分析,遗传语言分析天书 基因组结构分析基因识别基因功能注释基因调控信息分析基因组比较,13,PPT课件,4、基因表达数据的分析与处理,基因表达数据分析是目前生物信息学研究的热点和重点 目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能,14,PPT课件,基因芯片,15,PPT课件,二维电泳图,16,PPT课件,5、蛋白质结构预测,蛋白质的生物功能由蛋白质的结构所决定 ,蛋白质结构预测成为了解蛋白质功能的重要途径蛋白质结构预测分为:二级结构预测空间结构预测,蛋白质折叠,17,P
6、PT课件,二级结构预测,在一定程度上二级结构的预测可以归结为模式识别问题 在二级结构预测方面主要方法有:立体化学方法图论方法统计方法最邻近决策方法基于规则的专家系统方法分子动力学方法人工神经网络方法 预测准确率超过70%的第一个软件是基于神经网络的PHD系统,18,PPT课件,空间结构预测,在空间结构预测方面,比较成功的理论方法是同源模型法 该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构 运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作,19,PPT课件,(三)生物信息学研究现状与展望,1国外生物信息学研究现状2我国生物信息学研究现状3我国生物信息学研究目标 实
7、现基因组数据、蛋白质组和结构基因组数据、天然及合成化合物数据的计算机处理、分析和可视化,以及生物实验和生物分子的模拟设计,解析蛋白质三维结构和蛋白质组的时空表达关系等,20,PPT课件,蛋白质研究为生物信息学提供了极为丰富的研究数据,极大地推动了生物信息学的发展。生物信息学在蛋白质的序列分析、结构预测、功能预测、分子设计等方面具有重要应用。,二、生物信息学与蛋白质,21,PPT课件,序列比对是生物信息学的基础,通过比较两个或多个蛋白质序列的相似区域和保守性位点,确定相互间具有共同功能的序列模式和分子进化关系,进一步分析其结构和功能。 把未知结构的蛋白质序列与已知具有三维结构的蛋白质序列进行序列
8、比对,有助于进一步了解该未知结构蛋白质的空间折叠信息,(一)蛋白质序列分析,22,PPT课件,(二)蛋白质结构预测,蛋白质结构预测内容 二级结构预测 三维结构预测蛋白质结构预测方法 理论分析方法:是在理论计算的基础上进行结构预测。 统计分析方法:是在对已知结构的蛋白质进行统计分析的基础上,建立由序列到结构的映射模型,对未知结构的蛋白质直接从氨基酸序列预测其结构。,23,PPT课件,(三)蛋白质功能预测,(引自HPDB蛋白质数据库(http:/,24,PPT课件,(四)蛋白质分子设计,蛋白质分子设计类型:按照被改造部位的多少可以分为 “小改”、“中改”和“大改”三种。 “小改”:即通过对目标蛋白
9、质进行定位突变或化学修饰改变其结构和功能。 “中改”:即通过对来源于不同蛋白质的结构域进行拼接和组装,从而较大程度的改变其结构和功能。“大改”:即完全从头设计出一种具有特异结构与功能的全新蛋白质。,25,PPT课件,常用的数据库有: 核酸序列数据库(Nucleotide Sequence Databases) RNA 序列数据库(RNA sequence databases) 蛋白质序列数据库(Protein sequence databases) 结构数据库(Structure Databases) 基因组数据库(Genomics Databases (non-vertebrate)) 代谢
10、酶相关产物(Metabolic and Signaling Pathways) 人类和其他脊椎动物基因组(Human and other Vertebrate Genomes) 人类基因和疾病(Human Genes and Diseases) 芯片和其他基因表达数据库(Microarray Data and other Gene Expression Databases); 蛋白组资源(Proteomics Resources ); 其他分子生物学数据库(Other Molecular Biology Databases) 细胞器官数据库(Organelle databases); 植物数据
11、库(Plant databases); 免疫学数据库(Immunological databases),第二节 常用数据库,26,PPT课件,生物信息学数据库类型一次数据库:数据直接来源于实验获得的原始数据,仅对原始数据进行简单的归类整理和注释。 如Genbank、EMBL和DDBJ等核酸序列数据库;SWISS-PROT、PIR等蛋白质序列数据库;PDB等蛋白质结构数据库。二次数据库:针对不同的研究内容和需要在一次数据库、实验数据和理论分析的基础上对相关生物学知识和信息进行进一步分析和整理。 如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等。,27
12、,PPT课件,图6-2 生物信息学数据库相互关系,生物信息学数据库相互关系,28,PPT课件,常用数据库,29,PPT课件,30,PPT课件,一、核酸数据库,(一)核酸序列数据库 目前,国际上主要有Genbank、EMBL、DDBJ三大核酸序列数据库,三大核酸数据库之间每天相互交换数据,保持数据同步更新。,31,PPT课件,1. GenbankGenbank由美国国立生物技术信息中心(NCBI)建立维护,其主页如图6-3所示。,32,PPT课件,Genbank数据直接来源 测序工作者提交的序列、测序中心提交的大量EST序列、其它测序数据以及与其它数据机构协作交换的数据。Genbank内容 所有
13、已知的核酸序列和蛋白质序列,还包括对序列的简要描述、科学命名、物种分类名称、参考文献、序列特征表等辅助信息。Genbank对数据记录的处理 划分为 细菌类、病毒类、灵长类、啮齿类, EST数据、基因组测序数据、大规模基因组序列数据等16类。,33,PPT课件,()Genbank数据检索,通过NCBI 首页“Search”选项中的“gene”或“Nucleotide”等选项,在检索窗口输入检索词进行直接检索;利用NCBI网站的综合生物信息数据库检索系统Entrez提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能进行精细检索,图6-
14、4 NCBI-Entrz gene检索界面,34,PPT课件,35,PPT课件,Entrez 综合生物信息数据库检索系统将核酸序列、蛋白质序列、基因图谱、蛋白质结构等数据库整合在一起。而且可以通过其生物医学文献摘要数据库(MEDLINE),获取序列相关的文献信息。可以利用Entrez cross-database 数据库进行综合信息检索(图6-5)。,图6-5 NCBI-Entrez cross-database检索界面,36,PPT课件,美国国家生物技术信息中心 (NCBI),Entrez,Entrez ,The Life Sciences Search Engine,37,PPT课件,BL
15、AST ( Basic Local Alignment search Tool) 是 DNA 或氨基酸序列比对分析的重要软件,38,PPT课件,39,PPT课件,TaxBrowser:Taxonomy browser 分类浏览器,Structure:该目录下最重要的资源是分子模型数据库 MMDB 及 Cn3D 生物大分子三维模型查看软件,40,PPT课件,EMBL和GenBank数据库识别标志,41,PPT课件,42,PPT课件,GenBank核酸数据库实例,以人畜共患的病源菌鼠伤寒沙门氏菌(Salmonella typhimurium )H1相抗原基因H-1-i为例,简要说明GenBank核
16、酸数据库的数据格式。,LOCUS STYFLGH1I 1485 bp DNA linear BCT 26-APR-1993DEFINITION Salmonella typhimurium H-1-i gene encoding phase 1 flagellar filament protein (flagellin), complete cds. ACCESSION M11332VERSION M11332.1 GI:153978KEYWORDS flagellin.SOURCE Salmonella typhimurium ORGANISM Salmonella typhimurium
17、Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Salmonella.REFERENCE 1 (bases 1 to 1485) AUTHORS Joys,T.M. TITLE The covalent structure of the phase-1 flagellar filament protein of Salmonella typhimurium and its comparison with other flagellins JOURNAL J. Biol.
18、Chem. 260 (29), 15758-15761 (1985) PUBMED 2999134,序列标识简单描述序列编号版本号关键词物种来源物种分类引文编号引文作者引文标题引文出处,43,PPT课件,44,PPT课件,45,PPT课件,361 acccagcgtc tgaacgaaat cgaccgtgta aatggccaga ctcagttcag cggcgtgaaa421 gtcctggcgc aggacaacac cctgaccatc caggttggtg ccaacgacgg tgaaactatc481 gatatcgatc tgaagcagat caactctcag accct
19、gggtc tggatacgct gaatgtgcaa541 caaaaatata aggtcagcga tacggctgca actgttacag gatatgccga tactacgatt601 gctttagaca atagtacttt taaagcctcg gctactggtc ttggtggtac tgacgagaaa661 attgatggcg atttaaaatt tgatgatacg actggaaaat attacgccaa agttaccgtt721 acggggggaa ctggtaaaga tggctattat gaagtttccg ttgataagac gaacggt
20、gag781 gtgactcttg ctgcggtcac tcccgctaca gtgactactg cgacagcact gagtggaaaa841 atgtacagtg caaatcctga ttctgacata gctaaagccg cattgacagc agcaggtgtt901 accggcacag catctgttgt taagatgtct tatactgata ataacggtaa aactattgat961 ggtggtttag cagttaaggt aggcgatgat tactattctg caactcaaga taaagatggt1021 tccataagta ttgat
21、actac gaaatacact gcagataacg gtacatccaa aactgcacta1081 aacaaactgg gtggcgcaga cggcaaaacc gaagtcgtta ctatcgacgg taaaacctac1141 aatgccagca aagccgctgg tcatgatttc aaagcagaac cagagctggc ggaacaagcc1201 gctaaaacca ccgaaaaccc gctgcagaaa attgatgctg ctttggcaca ggttgacacg1261 ttacgttctg acctgggtgc ggtacagaac cgt
22、ttcaact ccgctattac caacctgggc1321 aacaccgtaa acaacctgtc ttctgcccgt agccgtatcg aagattccga ctacgcgacc1381 gaagtctcca acatgtctcg cgcgcagatt ctgcagcagg ccggtacctc cgttctggcg1441 caggcgaacc aggttccgca aaacgtcctc tctttactgc gttaa/,记录结束,46,PPT课件,少量序列利用BankIt提交,大量序列利用Sequin程序进行提交。NCBI网站提供数据查询、序列相似性搜索等服务,从其F
23、TP服务器上可免费下载Genbank数据。NCBI网址: http:/www.ncbi.nlm.nih.gov/BankIt网址: http:/www.ncbi.nlm.nih.gov/BankIt/ Sequin网址: http:/www.ncbi.nlm.nih.gov/Sequin/ Genebank网址: http:/www.ncbi.nlm.nih.gov/Genbank/ Entrez gene网址: http:/www.ncbi.nlm.nih.gov/sites/entrez?db=gene Entrez cross-database网址:http:/www.ncbi.nlm.
24、nih.gov/sites/gquery/,(2)向Genbank提交序列数据,47,PPT课件,EMBL核酸序列数据库创建于1982年,由欧洲生物信息学研究所(EBI)管理维护。使用序列提取系统(SRS)进行查询检索,利用基于网络的WEBIN工具,或利用Sequin软件向EMBL核酸序列数据库提交序列。 EMBL网址: http:/www.ebi.ac.uk/embl/ SRS的网址: http:/srs.ebi.ac.uk/ WEBIN网址: http:/www.ebi.ac.uk/webin-align/webinalign_help.html/ Sequin网址: http:/www.
25、ebi.ac.uk/Sequin/,2. EMBL核酸序列数据库,48,PPT课件,DDBJ核酸序列数据库创建于1986年,由日本国家遗传学研究所负责维护和管理。使用SRS工具进行数据检索和序列分析,利用Sequin软件向该数据库提交序列。为方便检索DDBJ主页可进行日文和英文互换。DDBJ的日文版网址: http:/www.ddbj.nig.ac.jp/index-j.html/ DDBJ的英文版网址: http:/www.ddbj.nig.ac.jp/index-e.html/,3. DDBJ数据库,49,PPT课件,(二)基因组数据库GDB,基因组数据库(GDB)创建于1990年,是一个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 应用 课件
链接地址:https://www.31ppt.com/p-1576977.html