欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    生物信息学第三章生物信息数据库.ppt

    • 资源ID:6001804       资源大小:273.61KB        全文页数:7页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    生物信息学第三章生物信息数据库.ppt

    第三章,生物信息数据库与查询,近年来大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。随着因特网的普及,这些数据库大多可以通过网络来访问,或者通过网络下载。一般而言,这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank 数据库、EMBL 核酸库和 DDBJ 库等;蛋白质序列数据库有 SWISS-PROT、PIR 等;蛋白质结构库有 PDB 等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库 GDB、转录因子和结合位点库 TRANSFAC、蛋白质结构家族分类库 SCOP 等等。下面将顺序简要介绍一些著名和有特色的生物信息数据库。3.1 基因和基因组数据库1.GenbankGenbank 库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量 EST 序列和其它测序数据;以及与其它数据机构协作交换数据而来。Genbank 每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的 DNA 数据库(DDBJ)交换数据,使这三个数据库的数据同步。到 1999 年 8 月,Genbank 中收集的序列数量达到 460 万条,34 亿个碱基,而且数据增长的速度还在不断加快。Genbank 的数据可以从 NCBI 的 FTP 服务器上免费下载完整的库,或下载积累的新数据。NCBI 还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从 NCBI 的主页上找到这些服务。Genbank 库里的数据按来源于约 55,000 个物种,其中 56%是人类的基因组序列(所有序列中的 34%是人类的EST 序列)。每条 Genbank 数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及 EST 数据、基因组测序数据、大规模基因组序列数据等 16 类,其中 EST 数据等又被各自分成若干个文件。(1)Genbank 数据检索NCBI 的数据库检索查询系统是 Entrez。Entrez 是基于 Web 界面的综合生物信息数据库检索系统。利用Entrez 系统,用户不仅可以方便地检索 Genbank 的核酸数据,还可以检索来自 Genbank 和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由 PubMed 获得 Medline 的文献数据。Entrez 提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成。用户可以利用 Entrez 界面上提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能来实现复杂的检,索查询工作。对于检索获得的记录,用户可以选择需要显示的数据,保存查询结果,甚至以图形方式观看检索获得的序列。更详细的 Entrez 使用说明可以在该主页上获得。,(2)向 Genbank 提交序列数据,测序工作者可以把自己工作中获得的新序列提交给 NCBI,添加到 Genbank 数据库。这个任务可以由基于 Web界面的 BankIt 或独立程序 Sequin 来完成。,BankIt 是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后,会从电子邮件收到自动生成的数据条目,Genbank 的新序列编号,以及完成注释后的完整的数据记录。用户还可以在 BankIt 页面下修改已经发布序列的信息。BankIt 适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,EST 序列和 GSS 序列也不应用 BankIt提交。BankIt 使用说明和对序列的要求可详见其主页面。,大量的序列提交可以由 Sequin 程序完成。Sequin 程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。Sequin 除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以 FASTA 或 ASN.1格式序列为输入数据的序列分析程序都可以整合到 Sequin 程序下。在不同操作系统下运行的 Sequin 程序都可以在 下找到,Sequin 的使用说明可详见其网页。,NCBI的网址是:。,Entrez的网址是:。,BankIt的网址是:。,Sequin的相关网址是:。,2.EMBL 核酸序列数据库,EMBL 核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与 Genbank 和 DDBJ 的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由 Oracal 数据库系统管理维护,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。向 EMBL 核酸序列数据库提交序列可以通过基于 Web的 WEBIN 工具,也可以用 Sequin 软件来完成。,数据库网址是:。,SRS的网址是:。,WEBIN 的网址是:。,3.DDBJ 数据库,日本 DNA 数据仓库(DDBJ)也是一个全面的核酸序列数据库,与 Genbank 和 EMBL 核酸库合作交换数据。可以使用其主页上提供的 SRS 工具进行数据检索和序列分析。可以用 Sequin 软件向该数据库提交序列。,DDBJ的网址是:。,4.GDB,基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB 的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。目前 GDB 中有:人类基因组区域(包括基因、克隆、amplimers PCR 标记、断点breakpoints、细胞遗传标记 cytogenetic markers、易碎位点 fragile sites、EST 序列、综合区域 syndromicregions、contigs 和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、contentcontig 图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上等位基因频率数据)。GDB 数据库以对象模型来保存数据,提供基于 Web 的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式观看基因组图谱。,GDB的网址是:。,GDB的国内镜像是:。,3.2 蛋白质数据库,1.PIR 和 PSD,PIR 国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过 142,000 条蛋白质序列(至 99 年 9 月),其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过 99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD 的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。,PSD 数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR 提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括 BLAST、FASTA 等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索 GeneFIND 等。,PIR和PSD的网址是:。,数据库下载地址是:。,2.SWISS-PROT,SWISS-PROT 是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT 中尽可能减少了冗余序列,并与其它 30 多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。,利用序列提取系统(SRS)可以方便地检索 SWISS-PROT 和其它 EBI 的数据库。,SWISS-PROT 只接受直接测序获得的蛋白质序列,序列提交可以在其 Web 页面上完成。,SWISS-PROT的网址是:。,3.PROSITE,PROSITE 数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过 PROSITE的搜索找到隐含的功能 motif,因此是序列分析的有效工具。PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE 还包括由多序列比对构建的 profile,能更敏感地发现序列与 profile 的相似性。PROSITE 的主页上提供各种相关检索服务。,PROSITE的网址是:。,4.PDB,蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国 Brookhaven 国家实验室建立。PDB 收集的数据来源于 X 光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前 PDB 数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB 的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于 PDB 数据文件格式和其它文档的说明,PDB 数据还可以从发行的光盘获得。使用 Rasmol 等软件可以在计算机上按 PDB 文件显示生物大分子的三维结构。,RCSB的PDB数据库网址是:。,5.SCOP,蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全、全、/、和多结构域等几个大类。SCOP 还提供一个非冗余的ASTRAIL 序列库,这个库通常被用来评估各种序列比对算法。此外,SCOP 还提供一个 PDB-ISL 中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。,SCOP 的网址是:。,6.COG,蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的 21 个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG 库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR 程序,可以把某个蛋白质与所有 COGs 中的蛋白质进行比对,并把它归入适当的 COG 簇。COG 库提供了对 COG 分类数据的检索和查询,基于 Web 的 COGNITOR 服务,系统进化模式的查询服务等。,COG库的网址是:。,下载COG库和COGNITOR程序在:。,3.3 功能数据库,1.KEGG,京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信息存储在 GENES 数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在 PATHWAY 数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG 的另一个数据库是 LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG 提供了 Java 的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。,KEGG的网址是:。,2.DIP,相互作用的蛋白质数据库(DIP)收集了由实验验证的蛋白质蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询 DIP 数据库。,DIP的网址是:。,3.ASDB,可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB(蛋白质)部分来源于 SWISS-PROT 蛋白质序列库,通过选取有可变剪接注释的序列,搜索相关可变剪接的序列,经过序列比对、筛选和分类构建而成。ASDB(核酸)部分来自 Genbank 中提及和注释的可变剪接的完整基因构成。数据库提供了方便的搜索服务。,ASDB的网址是:。,4.TRRD,转录调控区数据库(TRRD)是在不断积累的真核生物基因调控区结构功能特性信息基础上构建的。每一个TRRD 的条目里包含特定基因各种结构功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。TRRD 包括五个相关的数据表:TRRDGENES(包含所有 TRRD 库基因的基本信息和调控单元信息);TRRDSITES(包括调控因子结合位点的具体信息);TRRDFACTORS(包括 TRRD 中与各个位点结合的调控因子的具体信息);TRRDEXP(包括对基因表达模式的具体描述);TRRDBIB(包括所有注释涉及的参考文献)。TRRD 主页提供了对这几个数据表的检索服务。,TRRD的网址是:。,5.TRANSFAC,TRANSFAC 数据库是关于转录因子、它们在基因组上的结合位点和与 DNA 结合的 profiles 的数据库。由 SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD 和 REFERENCE 等数据表构成。此外,还有几个与 TRANSFAC密切相关的扩展库:PATHODB 库收集了可能导致病态的突变的转录因子和结合位点;S/MART DB 收集了与染色体结构变化相关的蛋白因子和位点的信息;TRANSPATH 库用于描述与转录因子调控相关的信号传递的网,络;CYTOMER 库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。TRANSFAC及其相关数据库可以免费下载,也可以通过 Web 进行检索和查询。,TRANSFAC的网址是:。,3.4 其它数据库资源,1.DBCat,DBCat 是生物信息数据库的目录数据库,它收集了 500 多个生物信息学数据库的信息,并根据它们的应用领域进行了分类。包括 DNA、RNA、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型。数据库可以免费下载或在网络上检索查询。,DBCat 的网址是:。,下载 DBCat 在:。,2.PubMed,PubMed 是 NCBI 维护的文献引用数据库,提供对 MEDLINE、Pre-MEDLINE 等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用 Entrez 系统可以对 PubMed 进行方便的查询检索。,PubMed 的网址是:。,除了以上提及的数据之外,还有许许多多的专门生物信息数据库,涉及了目前生物学研究的各个层面和领域,由于篇幅所限无法一一详述。国内也有一些大数据库的镜像站点和自己开发的有特色的数据库,如欧洲分子生物学网络组织 EMBNet 中国节点北京大学分子生物信息镜像系统,上海博容基因公司与上海嘉瑞软件公司合作开发的国产汉化基因数据库及分析管理系统,同时国家级的生物信息学中心也在筹建之中。我们期待国内能有更多高质量和使用便利的数据库资源,推动我国生物信息学和整个生命科学的发展。,清华大学生物信息学研究所网址:,北京大学生物信息镜像系统网址:,3 序列比对和数据库搜索,比较是科学研究中最常见的方法,通过将研究对象相互比较来寻找对象可能具备的特性。在生物信息学研究中,比对是最常用和最经典的研究手段。,最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和 profile,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。,比对还是数据库搜索算法的基础,将查询序列与整个数据库的所有序列进行比对,从数据库中获得与其最,相似序列的已有的数据,能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。近年来随着生物信息学数据大量积累和生物学知识的整理,通过比对方法可以有效地分析和预测一些新发现基因的功能。,

    注意事项

    本文(生物信息学第三章生物信息数据库.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开