序列数据库-核酸序列数据库.ppt
《序列数据库-核酸序列数据库.ppt》由会员分享,可在线阅读,更多相关《序列数据库-核酸序列数据库.ppt(113页珍藏版)》请在三一办公上搜索。
1、4.2 序列数据库,序列数据库,核酸序列数据库蛋白序列数据库,4.2 序列数据库核酸数据库,4.2.1 核酸数据库4.2.2 数据库序列格式4.2.3 数据库的查询4.2.4 数据库搜索4.2.5 数据提交4.2.6 核酸数据库使用实例,4.2.1 核酸数据库,1常用核酸序列数据库,国际上权威的核酸序列数据库 欧洲分子生物学实验室的EMBL 美国生物技术信息中心的GenBank 日本遗传研究所的DDBJ,1988年,EMBL、GenBank 与DDBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。根据协议,这三个数据中心各自搜集世界各国有关实验室和测序机构所发布的序列数据,并通过计算机
2、网络每天都将新发现或更新过的数据进行交换,以保证这三个数据库序列信息的完整性。,三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。,NCBIGenBank,美国国家健康研究院(National Institurte of Health,简称NIH)于80年代初委托洛斯阿拉莫斯(Los Alamos)国家实验室建立GenBank,1982年正式运行后移交给国家生物技术信息中心NCBI,隶属于NIH下设的国家医学图书馆(National Liabra
3、ty of Medicine,简称NLM),EBI EMBL,EMBL是由欧洲分子生物学实验(European Molecular Biology Laboratory)于1982年创建的目前由欧洲生物信息学研究所EBI(European Bioinformatic Institurte)负责管理。,DDBJ,DDBJ是DNA Data Base of Japan的简称,创建于1986年,由日本国家遗传学研究所负责管理。,2其它常用核酸序列数据库,dbEST UniGene dbSNP,3GenBank、EMBL数据库结构,了解序列数据库的格式,有助于更好地使用,提高数据库检索的效率和准确性D
4、DBJ数据库的内容和格式与GenBank相同下面分别介绍EMBL和GenBank的数据库结构,GenBank数据库结构,完整的GenBank数据库包括序列文件索引文件其它有关文件 索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。,GenBank序列文件,GenBank中最常用的是序列文件序列文件的基本单位是序列条目,包括核酸碱基排列顺序和注释两部分。目前,许多生物信息资源中心通过计算机网络提供该数据库文件,GenBank序列文件的结构,GenBank序列文件由单个的序列条目组成序列条目由字段组成每个字段由关键字起始,后面为该字段的具体说明有些字段又分若干子字段,以次关键字或特性表
5、说明符开始每个序列条目以双斜杠“/”作结束标记,序列文件:序列条目 字段 关键字“/”,GenBank序列条目的关键字,LOCUS(序列名称)DEFINITION(说明)ACCESSION(接收编号)NID(核酸标识)KEYWORDS(关键词)SOURCE(数据来源)REFERENCE(文献)FEATURES(特性表)BASE COUNT(碱基组成)ORIGIN(碱基排列顺序),EMBL数据库结构,EMBL数据库的基本单位也是序列条目,包括核甘酸碱基排列顺序和注释两部分序列条目由字段组成每个字段由标识字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次标识字或特性表说明符开始最后以双
6、斜杠“/”作本序列条目结束标记,EMBL条目的关键字,ID(序列名称)DE(序列简单说明)AC(序列编号)SV(序列版本号)KW(与序列相关的关键词)OS(序列来源的物种名),OC(序列来源的物种学名和分类学位置)RN(相关文献编号或递交序列的注册信息),RA(相关文献作者或递交序列的作者),RT(相关文献题目),RL(相关文献杂志名或递交序列的作者单位),RX(相关文献Mediline引文代码),RC(相关文献注释),RP(相关文献其他注释)CC(关于序列的注释信息)DR(相关数据库交叉引用号)FH(序列特征表起始),FT(序列特征表子项)SQ(碱基种类统计数),4.2.2 数据库序列格式,
7、GenBank和EMBL数据结构对比E.coli k-12全基因组序列文件为例,LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998DEFINITION Escherichia coli K-12 MG1655 complete genome.ACCESSION U00096KEYWORDS.SOURCE Escherichia coli.ORGANISM Escherichia coli Bacteria;Proteobacteria;gamma subdivision;Enterobacteriaceae;Escherichia.REFE
8、RENCE 1(bases 1 to 4639221)AUTHORS Blattner,F.R.,Plunkett,G.III,Bloch,C.A.,Perna,N.T.,Burland,V.,TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277(5331),1453-1474(1997)MEDLINE 97426617COMMENT This sequence was determined by the E.coli Genome Project at the University of
9、 Wisconsin-Madison(Frederick R.Blattner,director).Supported by NIH grants HG00301 and HG01428(from Human Genome Project and NCHGR).The entire sequence was independently determined from E.coli K-12 strain MG1655.Predicted open reading frames were determined using GeneMark software,kindly supplied by,
10、GenBank,FEATURES Location/Qualifiers source 1.4639221/organism=Escherichia coli/strain=K-12“/sub_strain=MG1655/db_xref=taxon:562 promoter 71.99/note=factor Sigma70;predicted+1 start at 106 promoter 104.132/note=factor Sigma70;predicted+1 start at 139 promoter 188.212/note=factor Sigma32;predicted+1
11、start at 219 gene 190.255/note=b0001/gene=thrL CDS 190.255/gene=thrL/function=leader;Amino acid biosynthesis:Threonine/note=o21;100 pct identical to LPT_ECOLI SW:P03059/codon_start=1/transl_table=11/product=thr operon leader peptide/db_xref=PID:g1786182/translation=MKRISTTITTTITITTGNGAG“BASE COUNT 1
12、142136 a 1179433 c 1176775 g 1140877 t,ORIGIN 1 agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 61 tgatagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 121 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 181 acaacatcca tgaaacgcat tagcaccacc attaccacca
13、 ccatcaccat taccacaggt 241 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 301 cttttttttt cgaccaaagg taacgaggta acaaccatgc gagtgttgaa gttcggcggt 361 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 421 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctgg
14、tg 4639021 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639081 gcagatgaca taaaactggt cgactggtta caacaacgcc tggggctttt agagcaacga 4639141 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639201 acgccttagt aagtattttt c/,ID U00096 standard;circular genomic DNA;CO
15、N;4639221 BP.AC U00096;SV U00096.1DT 24-JUL-2003(Rel.76,Last updated,Version 3)DE Escherichia coli K-12 MG1655 complete genome.KW.OS Escherichia coli K12OC Bacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;OC Enterobacteriaceae;Escherichia;Escherichia coli.RN 1RP 1-4639221RX MEDLINE;9742
16、6617.RX PUBMED;9278503.RA Blattner F.R.,Plunkett G.III,Bloch C.A.,Perna N.T.,Burland V.,RT The complete genome sequence of Escherichia coli K-12;RL Science 277(5331):1453-1474(1997).DR GOA;O32528.DR REMTREMBL;AAC74436;AAC74436.DR SPTREMBL;O32530;O32530.DR SWISS-PROT;O32528;YPDI_ECOLI.,EMBL,CC This s
17、equence was determined by the E.coli Genome Project at theCC University of Wisconsin-Madison(Frederick R.Blattner,director).CC Supported by NIH grants HG00301 and HG01428(from the Human GenomeCC Project and NCHGR).The entire sequence was independentlyCC determined from E.coli K-12 strain MG1655.Pred
18、icted open readingCC frames were determined using GeneMark software,kindly supplied byFH Key Location/QualifiersFT source 1.4639221FT/db_xref=taxon:83333FT/mol_type=genomic DNAFT/organism=Escherichia coli K12FT/strain=K12FT/sub_strain=MG1655FT promoter 71.99FT/note=factor Sigma70;predicted+1 start a
19、t 106FT CDS 190.255FT/codon_start=1FT/db_xref=GOA:P03059FT/db_xref=SWISS-PROT:P03059FT/note=o21;100 pct identical to LPT_ECOLI SW:P03059FT/transl_table=11FT/gene=thrLFT/function=leader;Amino acid biosynthesis:ThreonineFT/product=thr operon leader peptideFT/protein_id=AAC73112.1FT/translation=MKRISTT
20、ITTTITITTGNGAG“,SQ Sequence 4639221 BP;1142136 A;1179433 C;1176775 G;1140877 T;0 other;agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 60 tgatagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 120 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 180 acaa
21、catcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 240 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 300 cttttttttt cgaccaaagg taacgaggta acaaccatgc gagtgttgaa gttcggcggt 360 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 420 aggcaggggc aggtggccac cg
22、tcctctct gcccccgcca aaatcaccaa ccacctggtg 480 gcgatgattg aaaaaaccat tagcggccag gatgctttac ccaatatcag cgatgccgaa 540 tattgctatc aattagcaac attaatacaa caaccggcga aaagtgatgc aacggcagac 4639020 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639080 gcagatgaca taaaactggt cgactggtta caa
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列 数据库 核酸

链接地址:https://www.31ppt.com/p-6416033.html