第八章生物信息学资源检索ppt课件.ppt
《第八章生物信息学资源检索ppt课件.ppt》由会员分享,可在线阅读,更多相关《第八章生物信息学资源检索ppt课件.ppt(92页珍藏版)》请在三一办公上搜索。
1、第八章 生物信息学资源检索,胡德华,2,目录,3,第一节 生物信息学数据库概述,4,一、生物信息学数据库的类型,5,二、生物信息数据收集与存贮,(一)生物信息数据的收集,生物信息数据收集与存贮,(二)生物信息数据的存贮,6,(一)生物信息数据的收集,数据库与数据库合作,数据库与测序中心合作,数据库与期刊合作,建库的初期,7,(二)生物信息数据的存贮,1记录格式主要有:EMBL格式、GenBank格式,存贮格式,2序列格式 又称Pearson格式,三、生物信息学数据库的查找,(一)通过搜索引擎查找 (二)通过专门的生物信息学数据库目录查询从2000年开始,Nucleic Acids Resear
2、ch 设立了一个数据库目录(http:/www.oxfordjournals.org/nar/database/c/)。 (三)通过生物信息学中心资源导航查询一些著名的生物信息学中心不仅自己建立和维护大量的生物信息数据库,而且一般在网上提供资源导航。,9,第二节 核酸序列数据库,10,(一)GenBank概述,一、GenBank,(二)GenBank检索,(一)GenBank概述,是由美国国家生物技术信息中心(NCBI)管理和维护大型、综合性的公共核酸序列数据库,包括所有已知的核酸序列和蛋白质序列,以及与它们相关的文献和生物学注释。 网址: http:/www.ncbi.nlm.nih.gov
3、/Genbank/index.html,12,国际核酸序列数据库协作体,(一)GenBank概述,GenBank的数据来源于约260000个物种,每月新增1700多个物种。大约12%的序列来自于人类,其中8%是人类的EST序列。每条GenBank数据记录包含对序列的简要描述、它的科学命名、物种分类名称、参考文献、序列特征表以及序列本身。序列特征表里包含对序列生物学特征注释,如编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分成若干个子库,如细菌类(BCT)、病毒类(VRL)、灵长类(PRI)、啮齿类(ROD)以及EST数据、基因组序列数据(GSS)、高通量基因组序列数据(HT
4、G)等19类,其中EST数据等又被分成若干子库。,(二)GenBank检索,Entrez是NCBI生物信息学数据库集成检索系统,可以检索以下生物信息学数据库。,例如,查找H1N1流感病毒(H1N1 Flu Virus)的核酸序列。其检索步骤是:,(1)进入Entrez主页(http:/www.ncbi.nlm.nih.gov/gquery/),在提问框输入H1N1 Flu Virus。,(2)点击“GO”,得到各个数据库的检索结果。,(3)点击“Nucleotide: Core subset of nucleotide sequence records”,得到GenBank核酸序列数据库中的4
5、801条记录简要格式(Summary)。,(4)点击记录的标题,即可获取该记录的详细信息。,20,(一)EMBL-Bank概述,二、 EMBL-Bank,(二)EMBL-Bank检索,(一)EMBL-Bank概述,EMBL-Bank(http:/www.ebi.ac.uk/embl/)是国际三大核酸序列数据库之一,创建于1982年。现由欧洲生物信息学研究所(EBI)管理和维护,主要收集欧洲产生的核酸序列数据。到2009年8月,EMBL-Bank(101版)的核酸序列达到163656234条,碱基数达到283748816763个。对于每条核酸序列,相关信息包括序列名称、序列、染色体定位、关键字、
6、来源生物体、参考文献、注释、序列中具有重要生物学意义的位点等。,(二)EMBL-Bank检索,获取EMBL-Bank的核酸序列数据主要是通过SRS(Sequence Retrieval System)序列检索系统由Lion Bioscience公司继续开发,而成为一个商业软件,科研单位只要与它签订协议即可获得该软件的免费使用权。 SRS是一个开放式的,可以根据需要安装不同的数据库。,SRS查询方法,通过EBI的SRS服务器(http:/srs.ebi.ac.uk)进入Quick Search界面。点击“Library Page”,即数据库选择页。选择好要检索的数据库后,SRS提供三种查询方式。
7、 (1)Quick Search (快速查询) (2)Standard Query(标准查询) (3)Extended Query(扩展查询),(1)Quick Search(快速查询),(2)Standard Query(标准查询),(3)Extended Query(扩展查询),标准查询后的结果,CS116935的详细信息,29,(一)DDBJ概述,三、DDBJ,(二)DDBJ检索,(一)DDBJ概述,DDBJ (DNA Data Bank of Japan,日本核酸数据库,http:/www.ddbj.nig.ac.jp/index-e.html)创建于1986年,现由日本国家遗传学研究
8、所的生物信息中心(CIB/DDBJ)管理和维护。截止至2009年9月,DDBJ(79版)共收录108,593,519条序列, 106,684,379,504个碱基。DDBJ 主页除了提供SRS、ARSA、TXSearch 、BLAST等数据检索功能外,还提供SAKURA、MSS、Sequin数据提交工具和CLUSTAL W、FASTA、BLAST等数据分析工具。,(二)DDBJ检索,通过getentry、ARSA、SRS、TXSearch、BLAST、PSI-BLAST、FASTA、SSEARCH等检索工具可以获取DDBJ数据。前四种用于检索DDBJ数据库中的原始数据,其中getentry属于
9、存取号检索,SRS和ARSA属于关键词检索,TXSearch属于分类检索;后4种对用户提供的序列或片断作同源性分析。,32,第三节 蛋白质数据库,33,一、蛋白质序列数据库,(三)TrEMBL,(四)GenPept,(二)SWISS-PROT,(一)PIR,(五)UniProt,(六)OWL,(一)PIR,创建于1984年。 1988年,美国NBRF、日本国际蛋白质信息数据库(Japan International Protein Information Database, JIPID)与德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein
10、 Sequences, MIPS)合作成立国际蛋白质序列信息中心(PIR-International)。第75.03版的PIR数据库按照数据的性质和注释详略分成四个子库:PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的序列尚未加检验,也未加注释;PIR4包括其他渠道获得的序列,既未验证,也无注释。网址:http:/pir.georgetown.edu/,PIR主页,(二)SWISS-PROT,创建于1986年由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,SIB)和欧洲生物
11、信息研究所(EBI)共同维护和管理。 1994年,SIB创建蛋白质专家分析系统(Expert Protein Analysis System,ExPASy) (http:/www.expasy.Ch),除了开发、维护和管理SWISS-PROT数据库外,还提供蛋白质序列、结构、功能和蛋白质2D-PAGE图谱等蛋白质信息资源到2009年10月,SWISS-PROT(57.11版)收录了512994条序列,包含180531504个氨基酸。网址:http:/expasy.org/sprot/,(三)TrEMBL,创建于1996年,意即“Translation of EMBL”,是计算机翻译并注释的蛋白
12、质序列数据库,收录的序列是从EMBL中的cDNA序列翻译得到的。记录采用SWISS-PROT数据库格式。TrEMBL分为两个部分:SP-TrEMBL和REM-TrEMBL。SP-TrEMBL的条目已经专家分类并且给予SWISS-PROT存取号,但尚未通过人工审查,最终将收入SWISS-PROT。REM-TrEMBL包含其他剩余序列,主要是免疫球蛋白、T细胞受体、少于8个氨基酸碱基的多肽、人工合成序列、专利序列等。 http:/www.ebi.ac.uk/trembl/,(四)GenPept,由GenBank中的cDNA序列翻译得到的蛋白质序列数据库。 网址:ftp:/ncbi.nlm.nih.
13、gov/genbank/genpept/),(五)UniProt,将PIR 、SWISS-PROT和TrEMBL3个蛋白质数据库统一起来组建而成,包含3个部分:(1)UniProt Knowledgebase(UniProtKB),这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库,记录经过人工筛选和注释;(2)UniRef (UniProt Non-redundant Reference)数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;(3)UniParc(UniProt Arch
14、ive),是UniProt存档库,收录所有蛋白质序列。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。 网址:http:/www.uniprot.org/,UniProt主页,(六)OWL,1994年由英国里兹(Leeds)大学和Warrington的Daresbury国家实验室合作创建并维护的一个复合型数据库。数据来源于SWISS-PROT、PIR、GenPept、SWISS-PROT、PDB、NRL3D等数据库,去重后整合而成的非冗余蛋白质序列数据库。网址:http:/www.bioinf.manchester.ac.uk/dbbrowser/O
15、WL/index.php,OWL主页,小结:,SWISSPROT的序列经过严格审核,注释完善,但数量仍较少。PIR数据量较大,但包含未经验证的序列,注释也不完善。TrEMBL和GenPept的数据量最大,且随核酸序列数据库的更新而更新,但是由于TrEMBL和GenPept均是由核酸序列经过计算机程序翻译生成的,这两个数据库中的序列错误率较大,并存在较多的冗余序列。OWL中的序列虽具有较好的代表性,但采用某些标准取舍序列,导致某些数据不完整。UniProt中的序列具有较好的代表性,数据较完整。,44,二、蛋白质结构数据库,(三)DSSP,(四)HSSP,(二)MMDB,(一)PDB,(五)SCO
16、P,(六)CATH,(一)PDB,创建于1971年,是国际上最著名、最完整的蛋白质三维结构数据库。最先由美国Brookhaven国家实验室负责维护和管理,从1998年开始,由结构生物信息学合作研究协会(RCSB)负责管理。到2009年12月统计,PDB数据库已经收录了利用X线衍射、NMR、电子显微镜实验数据或理论计算得出的蛋白质、核酸、蛋白质/核酸复合物等结构数据61808条,而且数据增长速度相当快。,PDB数据库以文本文件格式存放数据,每条记录即是一个独立的文件,包括物种来源、化合物名称、原子坐标、结构提交者以及有关文献等基本注释信息。此外,还包括分辨率、结构因子,温度系数、主链数目、配体分
17、子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。网址:http:/www.rcsb.org/pdb/home/home.do,PDB主页,(二)MMDB,MMDB是NCBI的分子模型数据库,收录了由晶体衍射和核磁共振实验研究得到的蛋白质三维结构。MMDB采用ASN.1记录格式,而不是采用PDB记录格式。MMDB结构与原始的PDB结构相比,增加了许多附加信息,如经程序验证的显性化学图像,一致的二级结构衍生定义,与MEDLINE相匹配的引用等。MMDB可利用Entrez进行文本查询。MMDB检索项包含PDB、MMDB的存取号,源自PDB注释记录的自由文本,作者名及其它书目检索项。VAS
18、T(矢量分析检索工具)用于检索三维结构的相似性。它舍弃了序列信息,而单纯依靠由二级结构衍生的三维矢量指标进行检索。Cn3D是一种新的三维结构浏览器,用于浏览MMDB数据记录。,(三) DSSP,DSSP是一个蛋白质二级结构数据库。目前,收录了59474条记录。DSSP对蛋白质二级结构划分得比较详细,共分7种二级结构,其编码含义如下:H代表螺旋,E代表折叠,G和I分别代表3-螺旋和螺旋,B代表孤立的桥,T 代表氢键转折,S代表弯曲。图8-8是一个具体的蛋白质二级结构实例,其上面一行代表蛋白质序列,下面一行是对于各个氨基酸残基所处二级结构的注释。 网址:http:/swift.cmbi.ru.nl
19、/gv/dssp/),(四)HSSP,HSSP是一个基于蛋白质同源的蛋白质结构。目前,收录了58774条记录。对于一个蛋白质,HSSP组合二级结构、三维结构数据和序列数据,其数据主要来源于PDB及其它蛋白质序列数据库,如SWISS-PROT。HSSP不仅是蛋白质家族序列比对数据库,同时该数据库隐含了二级结构和空间结构信息,覆盖了SWISS-PROT中27%的蛋白质。HSSP有助于分析蛋白质的保守区域,确定有意义的序列模式,研究蛋白质的进化关系,研究蛋白的折叠,也有助于蛋白质的分子设计。 网址:http:/swift.cmbi.kun.nl/swift/hssp/,(五)SCOP,SCOP 是英
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 生物 信息学 资源 检索 ppt 课件
链接地址:https://www.31ppt.com/p-1359301.html