欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    NCBI获取序列数据ppt课件.ppt

    • 资源ID:2003345       资源大小:8.53MB        全文页数:68页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    NCBI获取序列数据ppt课件.ppt

    ,NCBI:获取核酸和蛋白质序列数据,生物信息学,本课程主要学习的内容,1、获取文献信息和序列数据2、序列比对基础与BLAST入门 3、核酸序列分析4、蛋白质序列分析及结构模拟5、系统发育分析6、基因组分析,NCBI :获取核酸和蛋白质序列数据,要想在 NCBI 中获取核酸和蛋白质的序列有多种路径(殊途同归)。本次课通过一个示例(RBP4)主要介绍一种方法 。,NCBI :获取核酸和蛋白质序列数据,获取序列信息的途径何谓参考序列GenBank 序列格式的读解,示 例,假定我们对人类视黄醇结合蛋白4(retinol-binding protein 4,RBP4)感兴趣,我们可能关心以下几个问题:想获取编码RBP4的mRNA(cDNA)序列 获取RBP4核酸序列想获取RBP4这个蛋白质的氨基酸序列 获取RBP4蛋白质序列想获取编码RBP4的基因信息 获取RBP4基因(DNA),DNA,mRNA,Central dogma of molecular biology,复制,转录,翻译,protein,cDNA,RBP4,路径 1:直接通过 NCBI 主页的 Search下拉条,2、输入查询内容,1、选择数据库GeneNucleotideProtein,Nucleotide 数据库包括了,路径2:搜索所有数据库显示结果会是什么呢?,NCBI的Entrez 检索系统在所有数据库中搜索含有Rbp4的记录,通过 Entrez Gene 获取人类RBP4的参考序列(RefSeq),使用Limits功能限定种属为人类,人类Rbp4基因,HGNC 人类基因命名委员会,HPRD 人类蛋白质参考库,1. 概要,2. 基因区域图,3. 基因定位图,mRNA links,DNA links,Protein links,4. NCBI参考序列,RBP4 蛋白质参考序列的链接,RBP4 mRNA参考序列的链接,NCBI :获取核酸和蛋白质序列数据,获取序列信息的途径何谓参考序列GenBank 序列格式的读解,RefSeq(Reference Sequences, 参考序列),GenBank中对应于某个基因(DNA)、mRNA(cDNA)或蛋白质的序列可能有上百个,但相应的 RefSeq 记录只有一个。RefSeq 是NCBI将 GenBank 的序列再做详细整理的非冗余(non-redundent)序列。RefSeq 对应于最稳定、最被人们承认因而也是最具代表性的序列。,当存在可变剪切的情况下,一个基因的表达产物就会对应不止一个 RefSeq 记录。 例如 :human myoglobin (人类肌红蛋白)有3个 RefSeq 记录:,RefSeq(Reference Sequences, 参考序列),NM_005368 NM_203377 NM_203378,NP_005359 NP_976311 NP_976312,当不同的基因编码的蛋白具有相同的氨基酸序列时,这些蛋白质具有各自不同的 RefSeq 标识符,例如: 人类 alpha-1 globin 和 alpha-2 globin 基因编码的蛋白质其氨基酸序列相同,但分别具有各自的 RefSeq 标识符:NP_000549 和 NP_000508。,RefSeq(Reference Sequences, 参考序列),4. NCBI参考序列,点击RBP4 mRNA参考序列的链接获取序列信息,以GenBank 序列格式显示RBP4mRNA序列的详细信息,NCBI :获取核酸和蛋白质序列数据,获取序列信息的途径何谓参考序列GenBank 序列格式的读解 以rbp4的mRNA(cDNA)参考序列为例,GenBank 序列格式(教材 Page 1318),GenBank 数据库采用的GenBank 序列格式已经成为序列标准格式的一种。GenBank 序列格式中对序列信息分不同的字段进行详细的标注,如序列的名称、性质、种属来源、相应的参考文献等。,LOCUS:该字段所包含的内容从左至右依次为 Locus 名称:NM_006744 序列长度:941 bp 分子类型:mRNA(cDNA) linear(线性) GenBank数据分类:PRI(灵长类序列) 序列最后修改日期:01-MAR-2009,GenBank 数据分类(教材 Page 1314,表 2-3),GenBank 将数据库分成18个部分:1. PRI primate sequences 灵长类序列2. ROD rodent sequences 啮齿类序列3. MAM other mammalian sequences 其他 哺乳类序列,GenBank 数据分类,4. VRT other vertebrate sequences 其他脊椎动物序列5. INV invertebrate sequences 无脊椎动物序列6. PLN plant, fungal, and algal sequences 植物、真菌和藻类序列,GenBank 数据分类,7. BCT bacterial sequences 细菌序列8. VRL viral sequences 病毒序列9. PHG bacteriophage sequences 噬菌体序列,GenBank 数据分类,10. SYN synthetic sequences 人工合成的序列11. UNA unannotated sequences 未经注释的序列12. EST EST sequences (expressed sequence tags) EST序列(表达序列标签),GenBank 数据分类,13. PAT patent sequences 专利序列14. STS STS sequences (sequence-tagged sites) STS序列(序列标签位点)15. GSS GSS sequences (genome survey sequences) GSS序列(基因组调查序列),GenBank 数据分类,16. HTG HTGS sequences (high throughput genomic sequences) HTGS序列(高通量基因组序列)17. HTC HTC sequences (high throughput cDNA sequences) HTC序列(高通量 cDNA 序列)18. ENV environmental sampling sequences 环境采样序列,DEFINITION:简短的序列描述 Homo sapiens retinol binding protein 4, plasma ( RBP4 ), mRNA.,ACCESSION:Accession number(索引号) NM_006744 序列记录的唯一识别码,通常为1个字母后跟5个数字(如 U12345),或2个字母后跟6个数字(如 AF123456) RefSeq(参考序列)的索引号比较特别,索引号(Accession Numbers),在数据库中,为了检索方便,DNA和蛋白质序列都被打上了索引号码作为标签。索引号码是一段由412个数字和/或字符组成的编码。除序列外,索引号码也可用作其他数据记录的标签,如蛋白质结构、基因表达实验的结果等。不同的数据库,索引号码的记录格式不同。,Types of Accession Numbers,Types of Accession Numbers,RefSeq 的索引号,RefSeq 记录的索引号通常由2个字母跟一下划线后再加6个或更多数字组成例如: NC_123456 完整的基因组 NT_123456 基因组重叠群(contig) NM_123456 mRNA(cDNA) NP_123456 蛋白质,The RefSeq accession number format and molecule types,The RefSeq accession number format and molecule types,VERSION:序列版本号及GI号 NM_006744.3 GI:55743121 如果序列有任何改变,则版本号会增加,但前面的索引号不变。 GI是“ Geninfo Identifier ”的缩写,序列的任何改变都会被分配一个新的GI号。,SOURCE:种属来源,学名(或俗名) Homo sapiens ( human )ORGANISM:种属的科学命名 Homo sapiens,链接到 NCBI 的Taxonomy Database,REFERENCE:参考文献 AUTHORS:作者 TITLE:文献标题 JOURNAL :发表的杂志名 PUBMED:PMID REMARK:注释,链接到PubMed,COMMENT:评论,FEATURES:序列信息表(序列特征表) 有关基因和基因产物的信息,以及序列中具有生物学意义的区域,其中包含序列中生成蛋白质和RNA分子的密码区域和一些其他特征。,FEATURES:序列信息表(序列特征表) source:每一条记录必须标注的序列特征,一般包括序列长度、序列来源、序列分子类型、物种分类进化树的位置及染色体定位等。,gene:一段被确认为是基因的区域并且已经命名,内容主要有基因位置、基因名称以及到其他相关数据库的链接。 *国际人类基因命名委员会(Homo sapiens Official Gene Symbol and Name,HGNC),链接到Gene,外显子,CDS:编码区(coding sequence),即在核酸序列中能翻译成蛋白质氨基酸序列的部分(有起始密码子和终止密码子),Protein_id=NP_006735.2编码蛋白的索引号,信号肽成熟肽,外显子,ORIGIN:序列开始标志(该行为空行)/:序列结束标志,选择FASTA格式(教材p11),FASTA格式,示 例,至此,我们从寻找人类RBP4(视黄醇结合蛋白)的基因,顺藤摸瓜获得了它的mRNA(cDNA)序列,并同时获取了与该序列相关的诸多信息。现在,我们顺便也想获取RBP4的蛋白质序列,甚至蛋白质的三级结构,那么我们是否需要重新检索呢?,蛋白质序列链接,核酸序列页面,Links链接,核酸序列页面,蛋白质序列链接,核酸序列页面,蛋白质序列页面,蛋白质序列页面,蛋白质结构链接,示 例,至此,我们从寻找RBP4(人类视黄醇结合蛋白)的基因,顺藤摸瓜获得了它的mRNA(cDNA)序列,并同时获取了与该序列相关的诸多信息。进一步,我们通过相关链接顺便获取了RBP4的蛋白质序列,以及相关的蛋白质高级结构。,Half day on the web,half month in the lab.,saves you,- Alan Bleasby,

    注意事项

    本文(NCBI获取序列数据ppt课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开