生物信息学数据库资源.ppt
第二章 生物信息学数据库资源,提纲:,模式生物测序3大核酸数据库蛋白质数据库,提纲:,模式生物测序3大核酸数据库蛋白质数据库,human,Arabidopsis,Thermotoga maritima,Escherichia coli,Buchnerasp.APS,Rickettsia prowazekii,Ureaplasma urealyticum,Bacillus subtilis,Drosophila melanogaster,Thermoplasma acidophilum,Plasmodium falciparum,Helicobacter pylori,mouse,Caenorhabitis elegans,rat,Borrelia burgorferi,Borrelia burgorferi,Aquifex aeolicus,Neisseria meningitidis Z2491,Mycobacterium tuberculosis,一、模式生物,模式生物基因组计划,模式生物基因组计划 酵母、线虫、果蝇、细菌、拟南芥等共约50多种已完成,70余种正在进行。目前总量已达60亿碱基对!,viruses,plasmids,bacteria,fungi,plants,algae,insects,mollusks,reptiles,birds,mammals,Genome sizes in nucleotide pairs(base-pairs),104,108,105,106,107,1011,1010,109,bony fish,amphibians,模式生物(Model Organism),病毒(Virus)不具有细胞形态结构,仅由核酸和蛋白质构成;如:人艾滋病毒HIV、SARS冠状病毒 体积小,10300nm;严格的专性细胞内寄生;对抗生素不敏感。,电子显微镜下的SARS冠状病毒,100nm,Escherichia coli大肠杆菌,大肠杆菌是研究得最为详尽的一个模式生物。这种只有1.6微米长的、可以迅速繁殖的单细胞原核生物,已经成为实验室和基因工程的重要工具。,Escherichia coli O157:H7,Escherichia coli K12,模式生物(Model Organism),Saccharomyces cerevisiae酿酒酵母,真菌界的单细胞真核生物,它的全基因组已在1996年测定。,模式生物(Model Organism),秀丽线虫Caenorhabditis elegans一种透明的、生活在海滩泥沙中的小虫。,细胞数目一定:成虫细胞数目只有959个,其中包括302个神经元;有6条染色体,全基因组于1998年测定,长9.7Mb,模式生物(Model Organism),Drosophila melanogaster果蝇,繁殖很快、容易诱发变异的小昆虫。总长达1.8亿核苷酸。,模式生物(Model Organism),Arabidopsis thaliana拟南芥,个体生活周期只有6周的十字花科小草,是一种理想的模式植物。,模式生物(Model Organism),Oryza sativa水稻,单子叶植物模式植物,390-430MB,模式生物(Model Organism),模式生物(Model Organism),非洲瓜蟾(Xenopus lavias)1个受精卵在24小时内分裂到各种器官初具雏形的程度;,模式生物(Model Organism),斑马鱼(Danio rerio)身体透明的小鱼,生活周期约3个月,是研究脊椎动物发育过程的良好对象。,模式生物(Model Organism),小鼠(Mus musculus)基因组大小与人类相近,约30亿个核苷酸对;,提纲:,模式生物测序3大核酸数据库蛋白质数据库,主要的数据库资源,核酸序列数据库主要有GenBank,EMBL,DDBJ等.蛋白质序列数据库主要有SWISS-PROT,PIR,TrEMBL等,蛋白结构数据库有PDB,MMDB等,与基因组有关的数据库还有dbEST,OMIM等,,3大核酸数据库,基因组数据库的相关背景 主要的基因组数据库资源 重点介绍GenBank,DNA序列数据库最早于1982年在欧洲分子生物学实验室诞生,随即就开始了一个数据库爆炸的时代。此后不久因一项美国国家健康研究中心与洛斯阿拉莫斯国家实验室的合同而诞生了GenBank。日本的DNA数据库(DDBJ),在几年后加入了数据收集的合作。,基因组数据库的发展历史,基因组数据库的发展历史,1988年一次三方会议之后(现在称之为“国际DNA序列数据库合作计划”)达成协议,对数据库的记录采用共同的格式现在三个中心都收集直接提交的数据,并在三者之间发布。,三大基因数据库,GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(The National Center for Biotechnology Information,NCBI)建立和维护的。NCBI的网址是:http:/www.ncbi.nlm.nih.gov。EMBL(The European Molecular Biology Laboratory)核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。数据库网址是:http:/www.ebi.ac.uk/embl/。DDBJ(DNA Data Bank of Japan)数据库日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。使用其主页上提供的SRS工具进行数据检索和序列分析。DDBJ的网址是:http:/www.ddbj.nig.ac.jp/。,GenBank,PublicfreeAvailableviaInternet,EMBL Data Library,DDBJ(DNA Data Bank of Japan),三大基因数据库之间的关系,美国的核酸数据库GenBankBanson,D.A.et al.(1998)Nucleic Acids Res.26,1-7从1979年开始建设,1982年正式运行。,欧洲分子生物学实验室的EMBL数据库也于1982年开始服务。,日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。,提纲:,模式生物测序3大核酸数据库蛋白质数据库,蛋白质数据库,主要的数据库资源,核酸序列数据库主要有GenBank,EMBL,DDBJ等.蛋白质序列数据库主要有SWISS-PROT,PIR,TrEMBL等,蛋白结构数据库有PDB,MMDB等,与基因组有关的数据库还有dbEST,OMIM等,,60年代“蛋白质信息资源”(Protein Information Resource,简称PIR)雏形产生1984年,“蛋白质信息资源”计划正式启动,蛋白质序列数据库PIR也因此而诞生。1988年,美国的NBRF、日本的国际蛋白质信息数据库JIPID和德国的慕尼黑蛋白质序列信息中心MIPS合作成立了国际蛋白质信息中心(PIR-International),共同收集和维护蛋白质序列数据库PIR。,PIR(protein information resource)1.由美国NCBI翻译自GenBank的DNA序列(1984年);2.在EMBL和GenBank数据库上均建立了镜像站点;3.数据依据注释的质量分为4类。网址:http:/www-/,PIR数据库的分类情况(Release 51.03),除了PIR外,另一个重要的蛋白质序列数据库则是SwissProt。该数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所和欧洲生物信息学研究所 EBI共同维护和管理。,SWISSPROT 1.瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护(1986年);2.在EMBL和GenBank数据库上均建立了镜像站点;3.数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释;SWISS-PROT的网址:,PIR和SwissProt是创建最早、使用最为广泛的两个蛋白质数据库。蛋白质序列数据库TrEMBL是从EMBL中的cDNA序列翻译得到的。该数据库采用SwissProt数据库格式,包含EMBL数据库中所有编码序列的翻译。,蛋白质结构数据库,主要的数据库资源,核酸序列数据库主要有GenBank,EMBL,DDBJ等.蛋白质序列数据库主要有SWISS-PROT,PIR,TrEMBL等,蛋白结构数据库有PDB,MMDB等,与基因组有关的数据库还有dbEST,OMIM等,,PDB(protein data bank)1.目前最主要的蛋白质分子结构数据库;2.1970年代建立,美国Brookhaven国家实验室维护管理;3.1988年,由美国RCSB(research collaboratory for structural biology)管理;4.以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等;PDB的网址:http:/(美国),如何 Access PDB记录?,如何 Access PDB记录?,如何 Access PDB记录?,如何 Access PDB记录?,DownloadPDB file,ViewPDB file,Structure viewoptions,如何 Access PDB记录?,如何 Access PDB记录?,Questions:下列数据库分别是什么类型的数据库?GenBank,PIR,DDBJ,SWISS-PROT,PDB,EMBL,TrEMBL,第三章 生物信息学数据库资源-数据库查询,PubMed的特点收录的文献多!大部分与生命科学相关自动词语匹配链接点多,部分在网上免费获得全文也可以直接定购原文,二、检索规则,二、检索规则,复杂检索,限制字段类别 常用的有:Author:Bao YMau Title:stressti Tilte/Abstract:stresstitle/abstract Date:1999:2009dp,复杂检索,布尔逻辑运算:AND、OR、NOT必须大写。逻辑符的运算次序是从左至右,括号内的检索式可作为一个单元,优先运行。布尔逻辑检索允许在检索词后面附加字段标识例如:riceti AND Bao YMau AND 2008:2009dp,Question1:如何查找由Zhu J实验室于2005以后发表的,题目中显示关于水稻的文献?,Question 2:,如:我要查找BaoYM在Nature或Science上发表的论文1 Bao YMau AND(NatureJournal OR ScienceJournal)2 Bao YMau AND Nature OR ScienceJournal 3 Bao YMau AND NatureJournal OR ScienceJournal4 Bao YMau AND(Nature OR Science)Journal哪一个检索语言是正确的?,在PubMed页面上选择Advanced Search:,在PubMed页面上选择Advanced Search:,在PubMed页面上选择Limits:,在PubMed页面上选择Limits:,如何获取GenBank中的序列?,同样存在限制字段:常用的有:Author:Xing JYau title:BMAL1ti organism:pigorganism或者直接输入:Accession:HQ657211Accession Gene Name:BMAL1Gene Name Protein Name:BMAL1 Protein Name如:Xing JYau AND BMAL1ti AND pigorganism如果没有限定,就是任意字段。,如何获取GenBank中的序列?,Question:查找Xing JY发布的DNA序列.,直接录入注册号查询:,查找蛋白质序列:,查找EST序列:,查找Structure:,查找Structure:,查找Unigene,UniGene is an experimental system for automatically partitioning GenBank sequences into a non-redundant set of gene-oriented clusters.Each UniGene cluster contains sequences that represent a unique gene,as well as related information such as the tissue types in which the gene has been expressed and map location.UniGene 是非冗余的某个基因的集合,包含了该基因所有的经过实验证明的转录本及其表达信息.,Questions:什么是UniGene?2.根据目前的内容,GenBank的作用?,