生物信息学数据库检索.ppt
《生物信息学数据库检索.ppt》由会员分享,可在线阅读,更多相关《生物信息学数据库检索.ppt(100页珍藏版)》请在三一办公上搜索。
1、生物信息学数据库,信息检索教研室薛晓芳2010年11月2日,生物信息学概念,生物信息学是对生物学数据进行收集、处理、存储、检索和分析的一门交叉学科研究生物信息的采集、处理、存储、传布、分析和解释等各个方面,通过综合数学、计算机科学和生物学的工具与技术来揭示大量而复杂的生物数据所赋有的生物学奥秘研究目标是发展和利用先进计算技术解决生物学难题,生物信息学数据库,大量生物学数据的存储和利用离不开数据库用于结构化存储生物数据,以便进一步对数据进行分析和利用,数据库的数据来源,两大主要来源经典的生物医学研究:大量生物医学科研工作者根据自己的兴趣开展的个别研究大规模组学研究:代表性工作是大规模人类基因组学
2、和蛋白质组学研究,经典生物医学研究,针对某较小领域开展深入研究,采集的生物学数据对大量零碎的生物学数据,进一步收集、整理和利用,对推动生物医学的研究有重要意义最具代表性的是KEGG数据库,该数据库整理收录了大量代谢网络(PATHWAY)的研究成果,描绘了生物体内代谢网络涉及的各种分子及关系,大规模组学研究,上世纪90年代初启动人类基因组计划,短时间内产生海量生物学数据随着基因组计划进行,多种相关高通量研究逐渐开展起来基于表达序列标签(EST)和DNA微阵列的高通量转录组研究基于生物质谱的蛋白质组表达谱和修饰谱研究基于酵母双杂交等技术的高通量蛋白质-蛋白质相互作用组研究代谢组等相关的组学研究,组
3、学数据库分类,一级数据库:通过收集组学数据构建的数据库二级和三级数据库:对一级数据库数据进一步分析、归纳和整理,目的性和实用性TRANSFAC:转录因子和结合位点数据库SMART、pFam数据库:收录了可能的蛋白质结构域信息,并提供了特定算法工具,生物信息学数据库的地位和作用,生物信息学数据库类型,核酸研究(Nucleic Acids Research)杂志每年第一期为生物信息学数据库专刊,收录最主要的生物学相关数据库2010年的核酸研究杂志提供的数据库列表将国际上生物学数据库归纳为14类(),核酸研究的14类数据库,Nucleotide Sequence Databases 核酸序列数据库R
4、NA sequence databases RNA序列数据库Protein sequence databases 蛋白质序列数据库Structure Databases 结构数据库Genomics Databases(non-vertebrate)基因组数据库(非脊椎动物)Metabolic and Signaling Pathways 代谢和信号通路Human and other Vertebrate Genomes 人和其他脊椎基因组Human Genes and Diseases 人基因和疾病Microarray Data and other Gene Expression Databa
5、sesProteomics Resources微阵列和其他基因表达数据库蛋白质组资源Other Molecular Biology Databases 其他分子生物学数据库Organelle databases 细胞器数据库Plant databases 植物数据库Immunological databases 免疫学数据库,常用分类类型,序列数据库结构数据库功能数据库其它专业数据库,主要内容,生物信息学数据库类型序列数据库结构数据库 功能数据库其它专业数据库生物信息学数据库的检索检索方法概述检索实践和案例,一、序列数据库,主要收录核酸和蛋白质序列数据包括由基因组计划产生的基因组及其表达序列,
6、由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物学实验中测序获得的核酸和蛋白质序列,一、序列数据库(基因组),Genome Database(GDB)数据库Ensembl,由EMBL-EBI和Sanger研究所联合开发,对后生动物基因组的自动注释和维护包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析,主要依据已测序获得的基因组序列,定位所有已知基因,并预测未知新基因,同时为这些基因提供功能、疾病相关特征等方面的注释信息;Ensembl基因组注释的核心是基因预测,考虑到现有预测方法的限制,该系统整合了多种预测方法,并提供了各种预测方法结果的下载 UCSC Genome Brow
7、ser,加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基因组数据,一、序列数据库(核酸),GenBank、EMBL、DDBJ http:/,http:/,http:/三个数据库每天互相交换数据GenBank可通过NCBI的检索系统Entrez获取,Entrez集成来自主要DNA和蛋白序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息各种专业核酸数据库非冗余参考序列数据库RefSeq 密码子使用数据库Codon Usage Database CUTG基因可变剪接数据库ASDB转录因子数据库TRANSFAC,一、序列数据库(蛋白质),国际主要蛋白质数据库的数据
8、来源及其关系吴松锋等,遗传,2005,27(5):687-693,主要蛋白质序列数据库,UniProthttp:/www.uniprot.org 由Swiss-Prot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功能注释的核心资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考簇(3)UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息 IPI http:/IPI/国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而构建的参考数据库,月更新整合国际上主要的蛋白质数据库(SwissProt,Refseq,PIR,TrEM
9、BL,RefSeq,Ensembl,H-Inv DB翻译的蛋白数据),整合过程中,直接接受手工注释结果NrNCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的gi号,并将序列完全一致的非冗余蛋白质合并成簇,蛋白质功能模体和结构域数据库,功能模体或活性位点数据库(protein domains,families and functional sites)PROSITE http:/,收集了上千个序列模体PRINTS(Protein motif fingerprint database)http:/结构域数据库(families,domains,regions,sites)Pfam
10、 SMART InterPro,二、结构数据库,核酸和蛋白质的空间结构数据库,一般通过X射线衍射和核磁共振获得数据,也有同源建模等计算方法获得,二、结构数据库(核酸),核酸结构数据库(NDB,)收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可通过ADIT(the AutoDep Input Tool)同时将结构存储到NDB和PDB中,提供序列号检索功能,可以用NDB或PDB的ID号检索,结果包含核酸结构的简要信息和图片Rfam数据库,RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非编码RNA家族的变异模式,二、结构数据库(蛋白质),PDB http:/RCSB
11、(Research Collaboratory for Structural Bioinformatics)国际上专门用于处理和发布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据文件格式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物大分子三维结构蛋白质结构分类数据库SCOP/包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系 MMDB NCBI的分子模型数据库包括由x射线衍射和核磁共振实验得到的所有PDB生物分子三维结构,与原始的PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二级结构衍生定义、与MEDLIN
12、E相匹配的引用、基于源自生物实体的蛋白质或核酸链进行分类的分子匹配,三、功能数据库,收录生物分子的功能数据,由ID号与序列和结构数据链接组织表达谱和亚细胞定位根据不同组织中的EST、SAGE或芯片杂交信号,绘制出不同组织中表达基因的图谱:亚细胞定位数据库:膜蛋白质数据库TMPDB http:/bioinfo.si.hirosaki-u.ac.jp/TMPDB/线粒体蛋白质数据库MitoP2 http:/www.mitop.de:8080/mitop2/,三、功能数据库,蛋白翻译后修饰,磷酸化、糖基化和硫修饰,也收录和蛋白质翻译后修饰相关的生物信息,确认的修饰信息、Swiss-Prot蛋白中可能
13、存在的三类修饰信息、部分针对某种修饰的数据库部分某种修饰数据库 O-GlycBase(http:/databases/OGLYCBASE/)只收录O糖基化数据;PhosphoBase(http:/)只收录磷酸化位点的数据;RESID(http:/RESID/)收录蛋白质修饰的注释和结构的数据 蛋白质-蛋白质相互作用数据库DIP,由实验验证的蛋白质-蛋白质相互作用数据,包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术 IntAct,提供用于蛋白质相互作用数据存储、展示和分析的开源数据库和工具包,可对相互作用数据在网页上进行文本和图像的展示,允许用户通过GO注释或InterPro结构域注释
14、进行网络的扩充,三、功能数据库,代谢网络和信号途径 KEGG(Kyoto Encyclopedia of Genes and Genomes)系统分析基因功能、联系基因组信息和功能信息的知识库GENES收录完整和部分测序的基因组序列;PATHWAY数据库存储更高级的功能信息,包括图解的细胞生化过程和同系保守的子通路等信息;LIGAND数据库收录关于化学物质、酶分子和酶反应等信息,四、其它专业数据库,人类基因和疾病数据库 OMIM()收录所有已知的遗传病、遗传性状和基因,除简略描述各种疾病的临床特征、诊断、治疗和预防外,还提供致病基因的连锁关系、染色体定位、组织结构、动物模型及其参考文献等信息d
15、bSNP(SNP)收录已经识别的SNPs的数据库HapMap Project(http:/snp.cshl.org)收录了三大人群(非洲人,高加索人和亚洲人群)主要的变异模式,所选择的SNPs具有相对代表性CGED(http:/lifesciencedb.jp/cged/)收录多种癌症的临床和基因表达数据,更新到2007年,四、其它专业数据库,基于电泳和生物质谱的蛋白质组数据库SWISS-2DPAGE(http:/www.expasy.org/ch2d/)收录各种双向电泳或SDS的电泳图,并提供蛋白在电泳图中的位置及其信息PRIDE()数据库收集国际蛋白质组计划所产出的鉴定结果数据/)收录大规
16、模LC-MS/MS实验鉴定的蛋白信息,并将信息匹配到Ensembl数据库dbLEP()为肝脏蛋白质组计划设计,提供鉴定结果及可追溯的信息,包括可供评估结果质量的鉴定肽段数和质谱图谱等,同时还提供大量的注释信息,更新到2007年,四、其它专业数据库,免疫学数据库IMGT()数据库是关于免疫球蛋白、T细胞受体、主要组织相容性复合体以及人类和哺乳动物免疫系统相关蛋白的综合数据库,由序列数据库、基因组和结构数据库、网站资源数据库和各种研究工具数据库组成dbMHC()提供人类组织相容性抗原(HLA)的序列数据和临床上干细胞移植及风湿性关节炎等数据,也提供全世界90多个人群的HLA位点、等位基因和单倍型频
17、率的遗传检测工具,生物信息学数据库总结,如此多的数据库如何掌握?不用掌握,只需要有印象(某些领域著名数据库),需要时再找相应的数据库:新的或较小的数据库以上所讲数据库皆为各类数据库,多数重要的是数据集本身,对于检索来讲,需要在常用生物信息学系统上进行(如Entrez、SRS和Expasy,大多数据库集成于此)数据库是不断更新和发展的,网址变化、新的数据库出现、旧数据库不再维护数据不存在等等,需要从互联网上不断寻找数据库之间的关系,以及数据库中内容等等需要同学自己在互联网中寻找自己所关心的内容,在数据库网站上看简介和使用方法,搜索引擎查询某些同类数据库的关系,发信询问服务器(如NCBI)等以上所
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 数据库 检索

链接地址:https://www.31ppt.com/p-6316340.html