关键词或词组为基础的数据库检索(I)课件.ppt
《关键词或词组为基础的数据库检索(I)课件.ppt》由会员分享,可在线阅读,更多相关《关键词或词组为基础的数据库检索(I)课件.ppt(41页珍藏版)》请在三一办公上搜索。
1、第三章 关键词或词组为基础的数据库检索(I),生物信息学,第三章 生物信息学,检索数据库的方法,用关键词或词组进行数据库检索(Text-based database searching),用核苷酸或蛋白质序列进行数据库检索(Sequence-based database searching),检索数据库的方法 用关键词或词组进行数据库检索 用核苷酸或,关键词或词组为基础的数据库检索,检索体系,Trends in Biotechnology 1998,16(supplement 1):3-5.,关键词或词组为基础的数据库检索关键词名词、描述性词、词组检索,检索须知(1),连接词 AND,OR,N
2、OT(Boolean operators),rice AND enzyme(AND为缺省值,可略去),rice AND enzyme NOT kinase,retrotransposon OR retroelement,注意事项:,1、AND,OR,NOT must be entered in UPPERCASE,2、Boolean operators are processed in a left-to-right sequence,rice AND(microarray OR expression profile),rice AND microarray OR expression pro
3、file,3、The order can be changed by enclosing individual concepts in parentheses(processed first),PubMed,27000 records,504 records,检索须知(1)连接词 AND,OR,NOT(Boo,用引号将两个单词组成一个词组,16S rRNA=16S AND rRNA“16S rRNA”,pseudopod*=pseudopod OR pseudopodia OR pseudopodium,检索须知(2),Nucleotide,16S rRNA,“16S rRNA”,380000
4、 sequences,3300000 sequences,exact match,wild card,*,放在单词后使检索范围扩大,但专一性降低,表示范围,:,连接前后关键词,限定范围,110:500Sequence Length 2009/3/1:2009/9/30Publication Date,用引号将两个单词组成一个词组16S rRNA=16S A,1.Entrez,http:/www.ncbi.nlm.nih.gov/gquery/NCBI 的检索体系优点:三种检索体系中最容易操作的体系,帮助文档完备,Entrez Help,1.Entrezhttp:/www.ncbi.nlm.,E
5、ntrez可对6大类40个数据库进行检索,Nucleic Acids Research 2013,41:D8-D20,Entrez可对6大类40个数据库进行检索Nucleic A,Entrez可对6大类40个数据库进行检索,针对基因组已测序完成的物种,针对GenBank中具有大于7万条EST的物种,Prokaryotic,chloroplast,mitochondrial,virus,protist,plant,针对17个广泛研究的模式生物,Entrez可对6大类40个数据库进行检索针对基因组已测序完,Entrez系统中数据库之间的连接,NCBI主页选择“All Databases”或Entr
6、ez主页,输入关键词,各个数据库中检索到的信息数量,点击相应数据库查看信息目录,每一条信息与其它数据库的相关信息链接,检索方法(1):跨库检索(cross-database search),Entrez系统中数据库之间的连接NCBI主页选择“All,检索方法(2):选择数据库检索,NCBI主页选择数据库,输入关键词,检索到的信息目录,每一条信息与其它数据库的相关信息链接,查看信息内容,检索方法(2):选择数据库检索NCBI主页选择数据库,输入关,序列数据库的搜索精简搜索结果,查询insulin基因的序列,不是想要的结果!如何精简?,序列数据库的搜索精简搜索结果查询insulin基因的序列,精简
7、搜索结果的方法1:使用Limits,精简搜索结果的方法1:使用Limits,查询人(human)的insulin基因的序列,关键词 查询范围:insulin title human organism,精简搜索结果的方法2:使用Advanced search,查询人(human)的insulin基因的序列关键词 查询,如何定义查询范围?,LOCUS DQ176424 1980 bp DNA linear PLN 12-MAR-2006DEFINITION Oryza sativa(indica cultivar-group)pathogen-induced defense-responsive
8、protein 8(DR8)gene,complete cds.ACCESSION DQ176424VERSION DQ176424.1 GI:73918052KEYWORDS HTG.SOURCE Oryza sativa Indica Group ORGANISM Oryza sativa Indica Group Eukaryota;Viridiplantae;Streptophyta;Embryophyta;Tracheophyta;Spermatophyta;Magnoliophyta;Liliopsida;Poales;Poaceae;BEP clade;Ehrhartoideae
9、;Oryzeae;Oryza.REFERENCE 1(bases 1 to 1980)AUTHORS Wang,G.,Ding,X.,Yuan,M.,Qiu,D.,Li,X.,Xu,C.and Wang,S.TITLE Dual function of rice OsDR8 gene in disease resistance and thiamine accumulation JOURNAL Plant Mol.Biol.60(3),437-449(2006)PUBMED 16514565,gbdiv_plnProperties,Title,Modification Date,1000:20
10、00Sequence Length,Accession,GI,任意搜索范围:Xa21All Fields,biomol_genomicProperties biomol_mrna:mRNAbiomol crna:cRNA,Publication Date:记录公开日期,Keyword:EST GSS HTG HTC TPA TSA,Organism,Author,Journal,注意:关键词和字段名(field)均不区分大小写,如何定义查询范围?LOCUS DQ176424,ORIGIN 1 ggtacattat atattctgtt tggaatatga tcaggcctag tgggaac
11、tgc tttaagttta 61 cttattcgag ctgagttagg acaacctggg gccctattag gggatgatca attatataat 121 gttattgtta cagcacacgc ttttgtaata atttttttct tagttatacc tataatgatc,FEATURES Location/Qualifiers source 1.646/organism=Dicathais orbita/organelle=mitochondrion/mol_type=mRNA/db_xref=taxon:69583/clone=20006E09/note=
12、mitochondrial and ribosomal sequences produced by suppressive subtractive hybridization CDS 646/gene=COXI/codon_start=1/transl_table=5/product=cytochrome oxidase subunit I/protein_id=ACT34372.1/db_xref=GI:253740054/translation=GTLYILFGMWSGLVGTALSLLIRAELGQPGALLGDDQLYNVIVT AHAFVMIFFLVMPMMIGGFGNWLVPLML
13、GAPDMAFPRLNNMSFWLLPPALLLLLSSAA,第四章讲述使用序列进行检索,Feature Key:promoter,mRNA,CDS,exon,intron,polyA_signal,COXIGene Name,gene_in_mitochondrionProperties,如何定义查询范围?,ORIGIN FEATURES,humanORGN AND 50SLEN:60SLEN AND 1999MDAT,精简搜索结果,Aim:Find all human nucleotide sequences with the poly(A)signal.,不同数据库的Search fie
14、lds不同,详见Limits/Advanced选项!,j mol evolJOUR AND drosophilaORGN,polyA_signal“FKEY AND humanORGN,Aim:Find all human protein sequences with lengths between 50 and 60 amino acids that were entered into the database during 1999.,Aim:Find Drosophila population studies published in the Journal of Molecular E
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关键词 词组 基础 数据库 检索 课件
链接地址:https://www.31ppt.com/p-2055551.html