生物学数据库及其检索课件.ppt
《生物学数据库及其检索课件.ppt》由会员分享,可在线阅读,更多相关《生物学数据库及其检索课件.ppt(62页珍藏版)》请在三一办公上搜索。
1、生物信息学 Bioinformatics,第二章 生物学数据库及其检索,王文栋,第一节 生物学数据库简介,一、什么是数据库?,数据库(database) 是一类用于存储和管理数据的计算机文档,是统一管理的相关数据的集合,其储存形式有利于数据信息的检索与调用。,二、生物学数据库,在生物信息学者们的努力下,人类基因组序列数据连同其它多种模式生物的序列数据及各自相应的基因结构与功能信息皆可供众多生物学家们免费接入与使用。,human,Arabidopsis,Thermotoga maritima,Escherichia coli,Buchnerasp. APS,Rickettsia prowazek
2、ii,Ureaplasma urealyticum,Bacillus subtilis,Drosophila melanogaster,Thermoplasma acidophilum,Plasmodium falciparum,Helicobacter pylori,mouse,Caenorhabitis elegans,rat,Borrelia burgorferi,Borrelia burgorferi,Aquifex aeolicus,Neisseria meningitidis Z2491,Mycobacterium tuberculosis,模式生物,模式生物基因组计划,模式生物基
3、因组计划 酵母、线虫、果蝇、细菌、拟南芥等共约50多种已完成,70余种正在进行。目前总量已达60亿碱基对!,viruses,plasmids,bacteria,fungi,plants,algae,insects,mollusks,reptiles,birds,mammals,Genome sizes in nucleotide pairs (base-pairs),104,108,105,106,107,1011,1010,109,bony fish,amphibians,生物学数据库的分类,根据数据存放类型:,序列(三维)结构文献序列特征基因组图谱表达谱 。,根据数据存储的具体内容:,一级
4、数据库二级数据库专用数据库,(一)一级数据库和二级数据库,一级数据库(Primary database):库中的主要内容来源于实验室操作所得到的原始数据(例如:测序得到的序列、X射线晶体衍射所得到的三维结构数据等),也包含一些基本的说明(序列所属的物种、类型、序列发表的文献出处等)。核酸序列数据库GenBank, EMBL, DDBJ及蛋白结构数据库PDB就是典型的一级数据库。,二级数据库( Secondary database ):在一级数据库的信息基础上进行计算机加工处理并增加了许多的人为注释而构成的(例如:NCBI的RefSeq数据库等)。,(二)如何查找与研究相关的生物学资源,1 利用
5、公共搜索引擎2 了解重要的生物信息学门户站点3 利用Nucleic Acid Research杂志每年的数据库专辑、网络服务器专辑。,第二节 常用数据库,常用数据库,一、核酸数据库,(一)核酸序列数据库 目前,国际上主要有Genbank、EMBL、DDBJ三大核酸序列数据库,三大核酸数据库之间每天相互交换数据,保持数据同步更新。,GenBank,PublicfreeAvailableviaInternet,EMBL Data Library,DDBJ (DNA Data Bank of Japan),三大基因数据库之间的关系,Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关
6、的文献著作和生物学注释。它是由美国国立生物技术信息中心(National Center of Biotechnology Information,NCBI)建立和维护的。 Genbank网址:http:/www.ncbi.nlm.nih.gov/Genbank/,Genbank,Genbank数据直接来源 测序工作者提交的序列、测序中心提交的大量EST序列、其它测序数据以及与其它数据机构协作交换的数据。Genbank内容 所有已知的核酸序列和蛋白质序列,还包括对序列的简要描述、科学命名、物种分类名称、参考文献、序列特征表等辅助信息。Genbank对数据记录的处理 划分为 细菌类、病毒类、灵长类
7、、啮齿类, EST数据、基因组测序数据、大规模基因组序列数据等16类。,http:/www.ncbi.nlm.nih.gov/Genbank/,Genbank由美国国立生物技术信息中心(NCBI)建立维护,其主页如图所示。,NCBI全称National Center of Biotechnology Information(美国国家生物技术信息中心)NCBI是美国国立卫生研究院(NIH)的美国国立医学图书馆(NLM)的一个分支。1988年成立。网址:http:/www.ncbi.nlm.nih.gov/,NCBI 简介,当今世界最大的基于Internet的用于分子生物学研究的生物医学研究中心,
8、2. EMBL核酸序列数据库,1982年创建,由欧洲生物信息学研究所(European Bioinformaties Institute, EBI)管理维护。使用序列提取系统(SRS)进行查询检索,利用基于网络的WEBIN工具,或利用Sequin软件向EMBL核酸序列数据库提交序列。 EMBL网址: http:/www.ebi.ac.uk/embl/ SRS的网址: http:/srs.ebi.ac.uk/ WEBIN网址: http:/www.ebi.ac.uk/webin-align/webinalign_help.html/ Sequin网址: http:/www.ebi.ac.uk/S
9、equin/,1986年创建,由日本国家遗传学研究所(DNA Data Bank of Japan,DDBJ)负责维护和管理。使用SRS工具进行数据检索和序列分析,利用Sequin软件向该数据库提交序列。为方便检索DDBJ主页可进行日文和英文互换。DDBJ的日文版网址: http:/www.ddbj.nig.ac.jp/index-j.html/ DDBJ的英文版网址: http:/www.ddbj.nig.ac.jp/index-e.html/,3. DDBJ数据库,国际上最权威的核酸序列数据库,日本国立遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/searches
10、-e.html,(二)基因组数据库GDB,基因组数据库(GDB)创建于1990年,是一个专门汇集人类基因组数据的数据库,为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的网址是: http:/www.gdb.org/,(一)蛋白质序列数据库 常用的蛋白质序列数据库有SWISS-PROT、PIR、TrEMBL、UniProt、GenPept等,分述如下。 1SWISS-PROT SWISS-PROT数据库提供蛋白质序列查询及相似蛋白质序列搜索等服务。,二、蛋白质数据库,Swiss-Prot数据库网站主页,SWISS-PROT数据库内容 核心数据:包括蛋白质序列、引用文献、分类信息等。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物学 数据库 及其 检索 课件

链接地址:https://www.31ppt.com/p-1576984.html