生物信息数据库-类型.ppt
《生物信息数据库-类型.ppt》由会员分享,可在线阅读,更多相关《生物信息数据库-类型.ppt(70页珍藏版)》请在三一办公上搜索。
1、生物信息学,曹毅生命科学学院,第二章 生物信息数据库,数据库的类型,*,3,第一节 引言,生物分子数据高速增长,分子生物学及相关领域研究人员迅速获得最新实验数据,建立生物分子数据库,序列数据库,结构数据库,基因组数据库,一次数据库,DNA序列,蛋白质序列,蛋白质结构,人类基因组以及其它生物基因组,生物信息学数据库,序列数据库,结构数据库,基因组数据库,二次数据库,文献数据库,专家,生物信息学数据库,*,6,生物分子数据库应满足5个方面的主要需求(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性,*,7,生物分子数据库几个明显的特征,(1)数据库的更新速度不断加快 数据量呈指数增长趋
2、势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加(4)数据库网络化(5)面向应用(6)先进的软硬件配置,*,8,生物分子数据库 一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。,*,9,第二节 核酸序列数据库,国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL(2)美国生物技术信息中心的GenBank(3)日本遗传研究所的DDBJ,1、核酸序列数据库,1988,由此三家组成了国际核酸序列数据库协作组织(INSDC),规
3、定:数据交换与共享(每24小时进行一次),使用统一的数据记录格式处理提交数据,以保证各数据库相应记录在内容上的一致性,数据的维护与更新。三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。,GenBank:,EMBL,DDBJ,Total nucleotides:301,588,430,608,Number of entries:199,575,971,*,17,*,18,“ID”为序列的标识符行,包括登录号、类型,分子的长度,“AC”为登录号行;
4、“XX”为分隔符号行;“DT”为创建和更新日期行,“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”描述参考文献的出处;“RC”描述参考文献的注解;“RX”、“DR”行描述交叉引用信息;“FH”为特征开始符号;“FT”为特征表行(1)Feature Key,它是描述域生物功能的关键字;(2)Location,指明特征在序列中的特定位置;(3)Qualifiers,描述关于一个特征的辅助信息;,文件体由序列
5、本身所组成,由“SQ”标志的行开始。序列结束的标记是“/”。,EMBL核酸数据库中的每一个序列数据被赋予一个登录号,它是一个永久性的唯一标识,EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分,文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(annotation),*,19,使用EMBL,(1)CD-ROM形式,(2)ftp服务器,(3)Gopher服务器,(4)WWW服务器,这是目前最常用的一种形式,*,20,EMBL提供一些与序列相关的检索操作(基于3W服务器),(1)序列查询,最简单的查询就是通过序列的登录号(如X58929)或
6、序列名称(如SCARGC)直接查询。,(2)核酸同源性搜索3W服务器支持用户使用FastA程序进行核酸同源搜索。FastA根据给定的目标序列在数据库中搜索其同源序列。,*,21,基因组数据库(GDB)人类基因组数据库Ensembl表达序列标记数据库dbEST面向基因聚类数据库UniGene,*,22,2、基因组数据库(GDB),人类基因组计划所得到的图谱数据,目前GDB包含对下述三种对象的描述:,(1)人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;,(2)人类基因组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、con
7、tig 图谱、集成图谱,所有这些图谱都可以被直观地显示出来;,(3)人类基因组中的变化,包括基因突变和基因多态性,加上等位基因频率数据。,*,23,与染色体相关的信息,*,24,其它模式生物基因组数据库如:鼠基因组数据库 MGD()酵母基因组数据库 SGD(),*,25,Ensembl(),3、人类基因组数据库Ensembl,Ensembl包括所有公开的人类基因组DNA序列,通过注释形成的关于序列的特征。现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。例如:基因通过实验发现的或者是通过GenScan程序预测的其他的特征:单核苷酸多态性(SNP)、重复序列等,*,26,Ensembl 数据库结构
8、图,*,27,Ensembl提供多种查询方式 通过关键字查询用BLAST进行相似序列的搜索 另一种更直观的方式是显示各染色体用户可以在染色体水平上选择感兴趣的位点,逐层放大浏览整个基因组,*,28,*,29,人的第9号染色体及大鼠对应的染色体片段,*,30,4、表达序列标记数据库dbEST,EST(Expressed Sequence Tags)方法已被证明是识别转录序列的最有效方法,EST序列大约覆盖了人类基因的90%。,DbEST()是GenBank的一个部分,该数据库包括不同生物的EST序列数据及其它相关信息,主要是从大量不同组织和器官得到的短mRNA片段。,WEB页面或email,FT
9、P,有关EST的数据,dbEST数据库,*,31,5、面向基因聚类数据库UniGene,UniGene(http:/www.ncbi.nlm.nih.gov/UniGene/)数据库将GenBank中的序列进行自动分类,形成面向基因群的非冗余集合。,每个UniGene群包含:代表一个唯一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱除了基因的序列之外,还包括大量的EST序列。,目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的EST数据。,*,32,第三节 蛋白质序列数据库,目的:帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。它
10、是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。,1、PIR(Protein Information Resource),*,33,除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。,*,34,PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、Fa
11、stA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。,*,35,三个子数据库,*,36,2、SWISS-PROT,SWISS-PROT()是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的,SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据,*,37,(1)注释在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包
12、括:(A)蛋白质的功能描述;(B)翻译后修饰;(C)域和功能位点;(D)蛋白质的二级结构;(E)蛋白质的四级结构;(F)与其它蛋白质的相似性;(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。,SWISS-PROT有三个明显的特点:,(2)最小冗余,(3)与其它数据库的连接,*,38,*,39,*,40,提交序列数据(a)编辑电子表格(b)利用Authorin程序(c)WWW服务器 使用SWISS-PROT(a)CD-ROM形式(b)ftp服务器(c)Gopher服务器(d)WWW服务器(SRS)与序列相关的操作(a)序列查询(b)搜索同源蛋白质序列,*,41,TrEMBL()包含
13、从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROT TrEMBL)(2)REM-TrEMBL(REMaining TrEMBL),3、TrEMBL,*,42,第四节 生物大分子结构数据库,1、PDB(Protein Data Bank)蛋白质核酸糖类其它复合物 一种是显式序列信息(explicit sequence)一种是隐式序列信息(implicit sequence),*,43,Current Holding Data,Submit Data,Keyw
14、ord Search,Introduction to selected molecular Data,*,44,Download Data,PDB File Format,Related Software,*,45,HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR,NMR,30 STRUCTURES COMPND MOL_ID:1;COMPND 2 MOLECULE:TISSUE F
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息 数据库 类型

链接地址:https://www.31ppt.com/p-6316347.html