UniProt类数据库简介.doc
《UniProt类数据库简介.doc》由会员分享,可在线阅读,更多相关《UniProt类数据库简介.doc(4页珍藏版)》请在三一办公上搜索。
1、UniProt类数据库简介1 UniProt全球蛋白质资源(Universal Protein Resource,UniProt)是全球有关蛋白质方面信息最伞面的资源库。是蛋白质序列以及功能信息的集中资源,且其具有最小的冗余。UniProt是对PIR、TrEMBL以及SwissProt的信息进行组合而构成的。UniProt提供了完全分类的、有丰富且准确注释信息的基于知识的蛋白质序列信息,且有广泛的交叉引用以及多种查询界向。出于方便序列查询,UniProt同样提供了多个非冗余序列数据库。UniProt由三部分内容组成,分别是UniProtKB、UniRef和UniParc,每个部分偏向于不同的用
2、途。1、UniProtKB(the UniProt knowledgebase)是基于知识的UniProt,通常也简称为UniProt,它汇聚了蛋白质的主要信息,包括蛋白质功能、分类以及交叉引用。UniProtKB包含两个部分:一部分是人工注释的记录,这部分注释信息是来自于文献信息和在专家监督下进行计算机分析而得到的(记为UniProt,SwissProt);另外一部分是直接利用计算机程序获得的记录信息。此类信息尚未有手工注释(记为UniProtTrEMBL)。在SwissProt或TrEMBL中没有找到的PIRPSD记录也被存放到UniProtKB中,并且与SwissProt或TrEMBI有
3、一个双向交叉引用。UniProtKB还提供与其他数据广泛的交叉引用, 比如说DDBJEMBLGenBank核酸数据库、蛋白质结构数据库、蛋白质结构域和蛋白质家族数据库、翻译后加工数据库、种属特异性数据库,以及疾病数据库等的交叉引用。事实上,这样一个广泛的文叉引用,使得这样一个数据库成了蛋白质分子生物学信息的情报中心。2、UniRef即UniProt非冗余参考数据库,它把紧密相关的序列信息进行组合并记录到一个记录条目中去,这样一来便于加速序列搜索。前面提到的UniProtKB中的数据是严格根据某一物种的可靠而又稳定的序列信息资料而得到的,而UniRef100则是将UniProtKB中不同物种的序
4、列信息进行交叉合并处理后的条目,它包含了UniProtKB中的所有记录信息。UniRefl00还包含了UniParc的记录,UniParc中的序列被认为是过度表达的以及不包含在一些已知数据库中的序列信息,比如说DDBJEMBI,GenBank中的全基因组短枪法数据(WGS)编码蛋白的翻译产物,Ensembl中从不同生物体内翻译得到的蛋白质以及国际蛋白质索引(International Protein index,IPI)数据。UniRef100中的数据首先将同一序列的所有记录进行聚类,相同序列以及子片段被记录为一条UniRef100条目。包含所有合并条目的接收号、蛋白质序列,以及与已知数据库和
5、它们档案记录相关的链接。UniRef90和UniRef50是由UniRefioo数据开发得到的,旨在提供非冗余序列信息,以便于科研组织进行更快的同源搜索。所有同源性大于90或大于50的记录合并到一起。分别形成了UniRef90或UniRe50条目。3、UniParc即UniProt档案库(UniProt Archive),它广泛存储所有公开发表过的蛋白质序列。 只包含唯一的标识符和序列。大多数蛋白质序列数据是从DDBJEMBLGeni3ank中的核酸序列翻译过来的,而大量由蛋白质测序实验直接得到的初级蛋白质序列数据又直接上传到其他资源库中去。 比如说SwissProt、TrEMBL以及PIRP
6、SD:另外,PDB中的有一部分蛋白质序列记录是专利产品。考虑到蛋白质初级资源的种类繁多以及注释信息的注释程度与质量的参差不齐,于是建立了UniParc,它是用来从其他的资源库收集所有可获得的蛋白质序列数据, 如DDBJEMBIGenBank、 UniProtSwissProt、 UniProtTrEMBL、PIRPSD、Ensemble、IPI,以及欧洲专利局、美国专利局、日本专利局等。对资源进行如此的整合。使得UniParc成为一个广泛的、可公开获得的、非冗余蛋白质序列库。UniParc中每条蛋白质序列出现一次,而且也只出现一次,并用唯一的UniParc标识符进行标注。UniParc交叉引用
7、了其他资源数据库的接收号,并以常用的风格提供序列的版本信息。一些统计标识用来显示该记录在原来资源数据库中的状态,用“active”表示该记录在原来的数据库中仍旧存在,而用“obsolete”表示该记录已经不存在了。UniParc的用途就是记录所有蛋白质序列的当前状态以及历史信息。UniParc记录中不含有注释信息。但此类的注释信息可以在UniProtKB中找到。2 SwissProtSWISSPROT数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所(Swiss institute of Bioinformatics,SIB)和EM共同维护和管理。1994年,SIB创建了蛋白质
8、专家分析系统(ExpenProtein Analysis System,ExPASy)(http:/www.Expasy.ch),除了开发、维护和管理SwISSPROT数据库外,还提供蛋白质序列、结构、功能和蛋白质2DPAGE图谱等蛋白质信息资源,是国际上蛋白质组和蛋白质分子模型研究的主要网站。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,
9、其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实。SIB和 EBI共有70多人的研究队伍,专门从事蛋白质序列数据的搜集、整理、分析、注释、发布,力图提供高质量的蛋白质序列和注释信息。SwissProt数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- UniProt 数据库 简介
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-2395042.html