分子生物信息数据库N.ppt
《分子生物信息数据库N.ppt》由会员分享,可在线阅读,更多相关《分子生物信息数据库N.ppt(65页珍藏版)》请在三一办公上搜索。
1、1,第二章 分子生物信息数据库,2,一、分子生物信息数据库简介,(一)诞生背景,生物分子数据高速增长,分子生物学及相关领域研究人员迅速获得最新实验数据,建立分子生物数据库,3,分子生物数据库应满足几个方面的主要需求:(1)时间性(2)注释(3)数据质量(4)集成性,4,分子生物数据库具有几个明显的特征:,(1)数据库的更新速度不断加快 数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加 SWISS-PROT(4)数据库网络化(5)面向应用(6)先进的软硬件配置,5,生物信息 学数据库 工具,染色体,核酸,蛋白质,基因组图谱,DNA序列,蛋白质序列,蛋白质结构,基因组
2、数据库,核酸序列数据库,蛋白质序列数据库,蛋白质结构数据库,二级数据库 复合数据库,基因组作图,序列测定,结构测定,(二)、分子生物信息数据库种类,6,生物信息数据库 一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。,7,二、一级数据库简介,8,(一)、基因组数据库,来源于人类基因组计划及各种模式生物基因组计划1977年,最早获得的生物基因组全序列是噬菌体(53kb),9,10,11,12,GDB(美国、加拿大)1990年,John Hopk
3、ins大学建立,后由加拿大儿童医院生物信息中心管理.数据内容:(1)包括细胞遗传学标记、易碎位点、EST、contigs、重复片段等;(2)包含细胞遗传学图谱、连锁图谱、转录图谱,所有这些图谱都可以被直观地显示出来;(3)包括基因突变和基因多态性等数据;(4)与其它分子生物信息网络资源(EMBL、GenBank)的链接。,http:/www.gdb.org,13,14,AceDB 线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。提供很好的图形界面,用户能够从大到整个基因组、小到单个序列 的各个层次观察和分析基因组数据。http:/数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据
4、,参考文献,15,16,(二)、序列数据库,1.原始序列数据(sequence data)2.描述这些数据生物学信息的注释(annotation),17,1、核酸序列数据库(1)欧洲分子生物学实验室的EMBL(European Molecular Biology Laboratory)(2)美国生物技术信息中心(National Center for Biotechnology Information)的GenBank http:/(3)日本遗传研究所的DDBJ(DNA Data Base of Japan)http:/,18,三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询
5、,三个数据库的响应结果一样。,GenBank,DDBJ,EMBL,19,20,2、EMBL和GenBank数据库格式,序列条目由两部分组成:1.核苷酸碱基排列顺序(sequence data)2.注释(annotation),21,“ID”为序列的标识符行,包括登录号、类型,分子的长度,“AC”为登录号行;“XX”为分隔符号行;“DT”为创建和更新日期行,“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”
6、描述参考文献的出处;“RC”描述参考文献的注解;“RX”、“DR”行描述交叉引用信息;,文件体由序列本身所组成,由“SQ”标志的行开始。序列结束的标记是“/”。,EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分,文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(annotation),22,EMBL和GenBank数据库的行识别标志比较,头部,特性,序列,23,3、蛋白质序列数据库,PIR(美国)SWISSPROT(欧洲),24,PIR(protein information resource)1.1984年“蛋白质信息资源”(pro
7、tein information resource,PIR)计划启动;2.1988年,美国生物医学基金会NBRF、日本的国际蛋白质信息数据库和德国的慕尼黑蛋白质序列信息中心合作成立了国际蛋白质信息中心(PIR-International),共同收集和维护蛋白质序列数据库PIR;网址:http:/www-/,25,26,目的:帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。,PIR(Protein Information Resour
8、ce),27,除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;,28,PIR提供检索服务的类型:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。,29,2、SWISS-PROT,1986年,瑞士日内瓦大学建立;2.瑞士生物信息学研究所(Swiss Institute of Bioinformatics,SIB)和欧洲生物信息学研究所(EBI)维护和管理;3.目前国际上比较权威的蛋白质序列数据
9、库,其中的蛋白质序列是经过注释的。,SWISS-PROT的网址:http:/,30,31,SWISS-PROT中的数据来源于:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。,SWISS-PROT有三个明显的特点:,32,在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述),(1)注释,33,Identification,序列的标识符行;,Accession number,登录号行;,Description,序列描述行;,Orga
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分子 生物 信息 数据库

链接地址:https://www.31ppt.com/p-6094008.html