DNA、RNA和蛋白质序列信息资源.ppt
《DNA、RNA和蛋白质序列信息资源.ppt》由会员分享,可在线阅读,更多相关《DNA、RNA和蛋白质序列信息资源.ppt(66页珍藏版)》请在三一办公上搜索。
1、第一章 DNA、RNA和蛋白质序列信息资源,DNA、RNA And Protein Sequence Information Resources,中国医科大学 赵雨杰,生物信息学(bioinformatics),在生命科学研究中发展起来的一门由分子生物学与计算机信息处理技术相结合,以计算机为研究工具对生物信息进行获取、处理、储存、传播、分析、模拟和解释的交叉学科。,生物信息学研究内容,它利用数据库技术和软件技术对大量积累的生物大分子序列数据进行比较和分析,揭示出生物大分子的分子结构、功能和进化关系以及基因组构成与基因表达等生物学事件对生命活动的影响。,生物信息学研究重点,主要体现在基因组学(g
2、enomics)和蛋白质组学(proteomics)两方面。它从核酸和蛋白质序列出发,分析序列中与结构、功能相关的生物信息的表达。,生物信息学数据库,生物信息学中的各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库,蛋白质序列数据库,蛋白质、核酸、多糖的三维结构数据库,基因组数据库,文献数据库和其他种类数据库。,生物信息学数据库分类,生物信息数据库种类繁多,就目前来看,大体可以分为四个大类:1.基因组数据库;2.核酸和蛋白质一级结构序列数据库;3.生物大分子(主要是蛋白质)三维空间 结构数据库;4.根据以上三类数据库和文献资料为基础构建的二次数据库。也称专门数据库、专业数据库或专用数据库
3、。,一次数据库,第二节 核酸序列数据库Section 2 Nucleic Acid sequence Databases,自20世纪80年代第一个核酸数据库建立以来,核酸数据库迅速发展。在互联网上不仅有核酸序列数据库,还出现了基因组相关数据库、核酸三维结构数据库、基因表达数据库、人类基因突变及疾病相关数据库、进化相关数据库及其他与核酸有关的数据库。,三大核酸序列数据库,GenBankEMBLDDBJ,特殊类型核酸序列数据库:,非编码RNA数据库(ncRNA);表达序列标签数据库(dbEST);序列标签位点数据库(dbSTS);miRBase;tRNAdb等。,基因组相关数据库:,人类基因组数据
4、库(HGD);基因组序列数据库(GSDB);基因组在线数据库(GOLD)等。,核酸三维结构数据库:,核苷酸三维结构数据库(NDB);普纳大学核酸结构数据库(BNASDB)等。,基因表达数据库:,基因表达库(GEO);斯坦福微阵列数据库(SMD);ArrayExpress;CGED;GXD;BodyMap 等。,人类基因突变及疾病相关数据库:,人类基因变异数据库(HMGD)、人类遗传双等位基因序列数据库(HGBASE)、人类孟德尔遗传在线(OMIM)、国际单体型计划(HapMap)、人类单核苷酸多态性数据库(dbSNP)、肿瘤基因数据库(TGDB)、疾病关联数据库(GAD)、癌症基因数据库(CG
5、AP)、人类表观遗传数据库(HEP)、人类DNA甲基化与癌症数据库(MethylCancer)等。,一、GenBank数据库,GenBank()是一个综合数据库,该数据库中包含了已经公开的30万余种不同物种生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目。,GenBank是具有目录和生物学注释的核酸序列综合数据库,由美国国家医学图书馆的国家生物技术信息中心构建、维护和管理。该中心位于美国马里兰国家健康研究所(NIH)。GenBank数据库的序列数据来源于序列发现者提交的序列、批量提交的表达序列标签(expressed sequence tag,EST)、基因组测序序列(g
6、enome survey sequence,GSS)和其他测序中心提供的高通量数据,还包括美国专利商标局提供的已发表专利的序列数据。,GenBank数据库每天与欧洲分子生物学实验室的核酸序列数据库(European Molecular Biology Laboratory Nucleotide Sequence Database,EMBL)和日本的DNA数据库(DNA Data Bank of Japan DDBJ)进行数据交换,以保证数据库内容在全世界范围的同步性。,在NCBI()的主页上提供了进入GenBank的路径、相关检索和分析服务。通过NCBI的检索系统(Entrez)可以进入Gen
7、Bank。Entrez检索程序整合了主要的DNA和蛋白序列数据的分类学、基因组、图谱、蛋白结构和结构(功能)域信息,还包括相关的PubMed的生物医学文献信息。BLAST程序提供GenBank和其他序列数据库中序列相似性搜索服务。,(一)GenBank数据库结构,1.依据序列的物种来源分类 2.Genbank记录和分类 2.1 表达序列标签(EST)2.2 序列标签位点(STS)、基因组勘测序列(GSS)和环境样品序列(ENV)2.3 高通量基因组(HTG)和高通量cDNA(HTC)序列 2.4 全基因组鸟枪测序序列(WGS)2.5 转录组鸟枪组合序列,(一)GenBank数据库结构,3.特殊
8、记录类型3.1 第三方注释(TPA)The third party annotate3.2 GenBank CON记录 较小记录组合记录,(二)构建数据库,1直接电子提交 1.1 使用BankIt(1.射击踏垛;人行道;软长椅;碗橱的搁板或壁架)提交 1.2 使用Sequin和tbl2asn提交 1.3 条形码序列提交 2.序列标识符和记录号,(三)检索GenBank数据,1.Entrez系统()2.与测序计划检索相关的序列记录()3.BLAST 序列相似性搜索(http:/blast.)4.用FTP获取GenBank(http:/ftp),二、EMBL数据库,EMBL建立于1980年,EMB
9、L核苷序列数据库()是欧洲主要的核苷序列收集单位,欧洲生物信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库。核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以及与合作伙伴DDBJ(Japan)和GenBank(USA)交换的数据。,三、DDBJ数据库,日本DNA数据库(DDBJ)是在亚洲唯一的核酸序列数据库,是搜集研究者公认的测定核酸序列的数据库,并且发放给数据提交者国际认证的核酸序列编号。由于DDBJ每天将搜集的数据与EMBL-Bank/EBI和GenBank/NCBI进行交换,使得三个核酸数据库几乎在任何时候都享有相同数据。DDBJ主要收集来自日本研究者获得的序列数据
10、,但也收集数据和发放编号给任何其他国家的研究者。,四、其他重要的核酸序列数据库,dbEST:dbEST是GenBank中的一个子数据库,包含来源于不同物种的表达序列数据和表达序列标签序列的其他信息。ncRNAdb:非编码RNA(non-coding RNA ncRNA)数据库旨在提供非编码RNA的序列和功能信息。miRBase:miRBase序列数据库主要存放已发表的微小RNA(microRNA miRNA)序列和注释的数据库。,第三节 蛋白质序列数据库Section 3 Protein Sequence Database,随着分子生物学的发展,人们获得了越来越多关于蛋白质序列、结构和功能的信
11、息。世界各国的生物学家和计算机科学家合作利用这些信息构建了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据库)、信号传导及蛋白质-蛋白质相互作用相关数据库、DNA和蛋白质相互作用数据库等蛋白质相关数据库。,常用的蛋白质序列数据库:,PIRMIPSSwiss-Prot,蛋白质功能、结构域和蛋白质家族有关的数据库:,PROSITEInterProPfamProDomSMART 等,蛋白质三维结构相关数据库:,PDBBioMagResBankSWISS-MODEL RepositoryModBaseCATHSCOPReLiBaseTOPSSWISS-3DIMAGEBioIma
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DNA RNA 蛋白质 序列 信息资源

链接地址:https://www.31ppt.com/p-5427562.html