欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    生物学数据库及其检索.ppt

    • 资源ID:5795773       资源大小:2.35MB        全文页数:62页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    生物学数据库及其检索.ppt

    生物信息学 Bioinformatics,第二章 生物学数据库及其检索,王文栋,第一节 生物学数据库简介,一、什么是数据库?,数据库(database)是一类用于存储和管理数据的计算机文档,是统一管理的相关数据的集合,其储存形式有利于数据信息的检索与调用。,二、生物学数据库,在生物信息学者们的努力下,人类基因组序列数据连同其它多种模式生物的序列数据及各自相应的基因结构与功能信息皆可供众多生物学家们免费接入与使用。,human,Arabidopsis,Thermotoga maritima,Escherichia coli,Buchnerasp.APS,Rickettsia prowazekii,Ureaplasma urealyticum,Bacillus subtilis,Drosophila melanogaster,Thermoplasma acidophilum,Plasmodium falciparum,Helicobacter pylori,mouse,Caenorhabitis elegans,rat,Borrelia burgorferi,Borrelia burgorferi,Aquifex aeolicus,Neisseria meningitidis Z2491,Mycobacterium tuberculosis,模式生物,模式生物基因组计划,模式生物基因组计划 酵母、线虫、果蝇、细菌、拟南芥等共约50多种已完成,70余种正在进行。目前总量已达60亿碱基对!,viruses,plasmids,bacteria,fungi,plants,algae,insects,mollusks,reptiles,birds,mammals,Genome sizes in nucleotide pairs(base-pairs),104,108,105,106,107,1011,1010,109,bony fish,amphibians,生物学数据库的分类,根据数据存放类型:,序列(三维)结构文献序列特征基因组图谱表达谱。,根据数据存储的具体内容:,一级数据库二级数据库专用数据库,(一)一级数据库和二级数据库,一级数据库(Primary database):库中的主要内容来源于实验室操作所得到的原始数据(例如:测序得到的序列、X射线晶体衍射所得到的三维结构数据等),也包含一些基本的说明(序列所属的物种、类型、序列发表的文献出处等)。核酸序列数据库GenBank,EMBL,DDBJ及蛋白结构数据库PDB就是典型的一级数据库。,二级数据库(Secondary database):在一级数据库的信息基础上进行计算机加工处理并增加了许多的人为注释而构成的(例如:NCBI的RefSeq数据库等)。,(二)如何查找与研究相关的生物学资源,1 利用公共搜索引擎2 了解重要的生物信息学门户站点3 利用Nucleic Acid Research杂志每年的数据库专辑、网络服务器专辑。,第二节 常用数据库,常用数据库,一、核酸数据库,(一)核酸序列数据库 目前,国际上主要有Genbank、EMBL、DDBJ三大核酸序列数据库,三大核酸数据库之间每天相互交换数据,保持数据同步更新。,GenBank,PublicfreeAvailableviaInternet,EMBL Data Library,DDBJ(DNA Data Bank of Japan),三大基因数据库之间的关系,Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(National Center of Biotechnology Information,NCBI)建立和维护的。Genbank网址:http:/,Genbank,Genbank数据直接来源 测序工作者提交的序列、测序中心提交的大量EST序列、其它测序数据以及与其它数据机构协作交换的数据。Genbank内容 所有已知的核酸序列和蛋白质序列,还包括对序列的简要描述、科学命名、物种分类名称、参考文献、序列特征表等辅助信息。Genbank对数据记录的处理 划分为 细菌类、病毒类、灵长类、啮齿类,EST数据、基因组测序数据、大规模基因组序列数据等16类。,http:/,Genbank由美国国立生物技术信息中心(NCBI)建立维护,其主页如图所示。,NCBI全称National Center of Biotechnology Information(美国国家生物技术信息中心)NCBI是美国国立卫生研究院(NIH)的美国国立医学图书馆(NLM)的一个分支。1988年成立。网址:http:/,NCBI 简介,当今世界最大的基于Internet的用于分子生物学研究的生物医学研究中心,2.EMBL核酸序列数据库,1982年创建,由欧洲生物信息学研究所(European Bioinformaties Institute,EBI)管理维护。使用序列提取系统(SRS)进行查询检索,利用基于网络的WEBIN工具,或利用Sequin软件向EMBL核酸序列数据库提交序列。EMBL网址:http:/SRS的网址:http:/WEBIN网址:/Sequin网址:,1986年创建,由日本国家遗传学研究所(DNA Data Bank of Japan,DDBJ)负责维护和管理。使用SRS工具进行数据检索和序列分析,利用Sequin软件向该数据库提交序列。为方便检索DDBJ主页可进行日文和英文互换。DDBJ的日文版网址:/DDBJ的英文版网址:/,3.DDBJ数据库,国际上最权威的核酸序列数据库,日本国立遗传研究所的DDBJ,(二)基因组数据库GDB,基因组数据库(GDB)创建于1990年,是一个专门汇集人类基因组数据的数据库,为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的网址是:http:/,(一)蛋白质序列数据库 常用的蛋白质序列数据库有SWISS-PROT、PIR、TrEMBL、UniProt、GenPept等,分述如下。1SWISS-PROT SWISS-PROT数据库提供蛋白质序列查询及相似蛋白质序列搜索等服务。,二、蛋白质数据库,Swiss-Prot数据库网站主页,SWISS-PROT数据库内容 核心数据:包括蛋白质序列、引用文献、分类信息等。注 释:包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、与其它蛋白质的相似性等。SWISS-PROT将广泛收集的相关数据进行合并,且与蛋白质三维结构数据库(PDB)等其他数据库交互索引。通过SWISS-PROT数据库可以得到某蛋白质的序列,再通过交互引用从PDB数据库得到其结构。SWISS-PROT数据由数据行排列组成,数据格式与EMBL数据库数据格式基本相同。,2.PIR,PIR的子数据库:蛋白质序列数据库(PIR-PSD)蛋白质分类数据库(iProClass)非冗余的蛋白质参考资料数据库(PIR-NREF)PIR数据库按照数据性质和注释层次分四个部分:PIR1序列已经验证,注释最为详尽;PIR2为尚未确定的冗余序列;PIR3序列既未检验,也未注释;PIR4序列来自其它渠道,既未验证,也无注释。,美国国家生物医学研究基金会与国际蛋白质信息中心(PIR-International)共同维护。PIR是第一个蛋白质分类和功能注释数据库,PIR作用:提供基于文本的交互式检索、序列相似性 搜索以及结合序列相似性、注释信息和蛋白质家族信息的高级检索。PIR网址:http:/,3.TrEMBL,是一个经计算机注释的蛋白质数据库,采用SWISS-PROT数据库格式。主要包含从EMBL/Genbank/DDBJ三大核酸数据库中根据编码序列翻译的、尚未集成到SWISS-PROT数据库中的蛋白质序列。TrEMBL为SWISS-PROT数据库及时提供补充。TrEMBL网址:http:/,4.UniProt,UniProt将SWISS-PROT、PIR、TrEMBL三个数据库合并。通过文本检索、序列相似检索以及UniProt Ftp网站可获得蛋白质序列。,UniProt网站主页,UniProt包含UniProtKB、UniRef 和UniParc 3个部分:(1)UniProtKB数据库(UniProt Knowledgebase):蛋白质序列、功能、分类、交叉引用等信息存取中心;(2)UniRef数据库(UniProt Reference Clusters):为提高检索的速度,将紧密相关的蛋白质序列合并到同一条记录中。目前,根据序列相似程度可将UniRef数据库分为UniRef100、UniRef90和UniRef50 3个子库(3)UniParc(UniProt Archive):储存大量蛋白质研究的历史信息。,UniProt网址:http:/,5.GenPept数据库,GenPept数据库特点 由Genebank数据库的核酸序列经翻译后产生。GenPept数据量大,随核酸数据库的更新而更新,但未经实验证实,也未有详细注释。,(二)蛋白质序列二次数据库,1.PROSITE PROSITE是蛋白质家族保守区域和功能位点数据库,也是第一个蛋白质序列二次数据库,收录蛋白质家族中同源序列多重比对所确定的保守性区域:如酶活性位点、配体结合位点、金属离子结合位点、其它蛋白质结合位点等已知具有重要生物学功能蛋白质位点和序列模式。PROSITE数据库组成 包含Prosite(数据文件)和PrositeDoc(说明文件)两个文件数据库。,PROSITE数据库主页,http:/,PROSITE数据库作用:可确定一段新蛋白质序列中包含的功能位点以及其归属的蛋白质家族。PROSITE的网址:http:/或 http:/PROSITE的中国镜像网址是:http:/,2.PRINTS PRINTS蛋白质指纹图谱数据库将多个保守的序列模式作为识别蛋白质家族的特征,与PROSITE数据库的单个序列模式相比,PRINTS具有更好的识别率。PRINTS 网址:http:/,3.BLOCKS 序列模块(block):是通过序列比对得到的若干蛋白质序列中具有较高相似性的序列片段。BLOCKS由通过自动检测PROSITE数据库和PRINTS蛋白质指纹图谱数据库中蛋白质家族高度保守区域产生的序列模块组成。BLOCKS的网址:http:/,(三)蛋白结构数据库,1.PDBPDB(Protein Data Bank)蛋白质结构数据库是国际上最完整的蛋白质、核酸、糖类、蛋白质-核酸复合物及病毒等生物大分子三维结构数据库。,PDB数据库主页,http:/,PDB数据库作用 提供序列详细信息、原子坐标、三维结构、交叉检索等与结构相关的信息。,2.MMDB(Molecular Modeling Database)是Entrez的组成部分。只收录通过X射线晶体衍射和核磁共振实验测定的生物大分子结构数据。增加了附加信息如:大分子的生物学功能及产生机制、分子进化历史、生物大分子之间关系等。具有生物大分子三维结构模型展示、结构分析和结构比较等功能,(四)蛋白质结构二次数据库,1.DSSP(Database of Secondary Structure of Protein)是一个二级结构推导数据库,用于研究蛋白质序列与蛋白质结构的关系。针对PDB数据库中蛋白质的原子坐标,计算其各个氨基酸残基中氢键、二面角、二级结构类型等二级结构构象参数,从而根据三维结构推导出其对应的二级结构。,2.HSSP(Homology-Derived Secondary Structure of Protein)是一个蛋白质同源序列比对数据库,将相似序列的蛋白质聚集成结构同源的家族,并隐含二级结构和空间结构信息。HSSP用于分析蛋白质保守区域、确定序列模式及蛋白的折叠、进化关系、分子设计等研究。HSSP的网址是:/,(五)蛋白质结构分类数据库,1.SCOP(Structural Classification of Proteins)性质:是一个蛋白质结构分类数据库。功能:提供蛋白质之间的结构和进化关系的信息。提供PDB链接、蛋白质序列、空间结构图像展示、参考文献链接等服务。,2.CATH CATH数据库层次:类型层次:分为主类、主类、-类(/型和+型)、低二级结构类4类。构架层次:依据由螺旋和折叠形成的超二级结构排列方式进行分类,而不考虑它们之间的连接关系。拓扑层次:为二级结构的形状和二级结构间的联系。同源性层次:通过序列比较和结构比较确定。序列层次:根据序列同源性不同分为S、O、L、I、D五种。CATH的网址:http:/,3.PDBsum 通过对PDB数据库中所有蛋白质结构信息进行总结和分析,给出蛋白质的主链数目、配体、金属离子、二级结构、折叠图等相关信息。提供检索蛋白质各级结构信息的统一界面。PDBsum的网址:/,(六)蛋白质分类数据库,ProtoMap蛋白质分类数据库是利用计算机对SWISS-PROT、TrEMBL 和TrEMBL-new数据库中全部蛋白质进行层次分类,将相关的蛋白质聚类分组而成。ProtoMap数据库有助于对已知蛋白质家族进行精细划分,阐释家族间的相互关系。ProtoMap网址:http:/,第三节 Entrez检索实例,Entrez 是美国国家生物技术信息中心NCBI所提供的在线资源检索器。http:/,

    注意事项

    本文(生物学数据库及其检索.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开