欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    基因组序列组装的理论与方法(简介).ppt

    • 资源ID:5952094       资源大小:10.40MB        全文页数:48页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基因组序列组装的理论与方法(简介).ppt

    基因组序列组装-理论与方法,北京大学生物信息中心科学院北京基因组研究所李松岗,两种测序策略,分级鸟枪法(BAC TO BAC)基因组DNA 切成大片段 构建BAC文库挑选 构建小片段shotgun文库 测序 组装BAC序列 组装基因组序列全基因组鸟枪法基因组DNA 构建不同长度shotgun文库 测序 组装基因组序列,基因组测序与组装示意图,基于BAC方法的 优缺点,优点:组装被局限在BAC的范围内,受重复序列影响小,对计算能力要求不高;缺点:需要大量前期生物学研究工作,效率低,成本高。,全基因组鸟枪法优缺点,优点:不需要生物学前期准备,速度快,成本低;缺点:组装是在全基因组范围内进行,数据量大,易产生错拼;对计算机软硬件要求均高。,对拼接软件的要求,能充分利用正反向测序的配对信息,避免重复序列造成的错误拼接能处理数以百万甚至千万计的数据 程序并行化 高效率比对,能够采用全基因组鸟枪法的关键技术进步:毛细管测序仪的普遍使用计算机能力的迅速提高,Hierarchical Shotgun(HS),Whole Genome Shotgun(WGS),the sequencing of the human genome is likely to be the only large sequencing project carried to completion by the methods described in this issue.Maynard V.Olson,The maps:Clone by clone by clone,Nature 409,816-818(2001),Shotgun法序列拼接,Consensus,Mis-Assembly(Inverted),术语鸟枪法测序数据的组装鸟枪法文库:目标基因组一定长度随机片段克隆的集合。正反向测序对:从同一个克隆片段两端分别测序所得到的一对序列。.插入片段长度:克隆载体中插入的外源DNA片段长度。片段连接群(contig):用识别互相重叠的方法对测序数据进行拼接的结果。.Scaffold:用正反向测序对连接的非重叠片段连接群。LW-洞:由于没有测序数据覆盖而在组装结果中留下的洞。,重复序列分析覆盖度:基因组被测序数据覆盖的次数。重复数:一段DNA序列在基因组中出现的次数。深度:一段DNA序列在鸟枪法测序数据集中出现次数。例如一个转座子在基因组中出现N次,测序数据集的覆盖度为C,则这个转座子的平均深度为NC。20-mer 重复序列:任何深度超过为该数据集确定的重复序列标准的20-bpDNA片段。是数学定义的重复序列。重复序列洞:由于屏蔽重复序列而在组装结果中留下的洞。,组装结果的评价标准N50 大小:把组装出的contigs 或 scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度一半时,最后一个contig或scaffold的大小。单碱基错误率:与参考序列比较后发现的小尺度上的不同所占的比例。所谓小尺度,在这里通常指小于标准测序长度,即500bp。实际上常常只是几个碱基。错误组装的Contig:测序数据组装中出现的错误。由定义,它涉及的片段一般大于500-bp。包括与参考序列相比,插入、删除,以及在方向和次序上不同的片段。错误组装的Scaffold:把非重叠contig连接在一起时出现的错误。包括嵌套,错误的方向和顺序等。,Shotgun Sequencing Assembler Concepts,RePS:全基因组鸟枪法测序数据组装软件包,特点:通过屏蔽在鸟枪法测序数据中发现的重复序列来完成组装。,RePS的流程图,RePS2的新流程图,识别重复序列的数学模型,重复序列识别:,若repeat有m个拷贝,且已知随机序列覆盖深度为0,1,2的概率:g0,g1,g2,则一次抽样repeat覆盖深度为0,1,2,的概率P0,P1,P2,为:,n次抽样,其中i次以上深度在j以上的概率Pij,设一次抽样深度在j以上和以下的概率分别为:Pj,Pj+;,n次抽样,其中i次以上深度在j以上则认为是repeat,此时犯两类错误的概率 为:,设repeat在基因组中的比例为b,出现概率为P,非repeat出现概率为P*,则:,Tradeoff between contig size and accuracy of assembly,重复序列识别效率,MDR(数学定义的重复序列)与 BDR(生物定义的重复序列),BDR(25%),BDR(50%?),MDR(42.2%),重复序列的检测与处理,插入片段大小引起的错误组装,人与水稻基因组中重复序列分布的差别,Contigs:127,550(N50=6,688 bp),Scaffolds:102,444(N50=11,764 bp),Quality:546 bp at Q20,插入片段长度的搭配,一般情况下,可采用如下设计:,CAP3(1999),特点:删去read两端低质量部分;利用质量数据,识别重叠序列;进行多序列比对,得到一致序列;利用正反向数据纠正组装错误,构建scaffold。使用情况:仅使用数个BAC进行了测试。,果蝇组装软件(2000),特点:组装前数据预处理;用数据库屏蔽重复序列;采用类似BLAST的方法找出重叠部分;选择不冲突的重叠构建contigs,识别重复序列边界;用正反向信息构建scaffolds,填洞。使用情况:用于果蝇基因组组装。,用于人类基因组组装时的改进(2001),构建contigs后,利用一个统计模型识别低拷贝重复序列;采用两种方式利用已公布的人类基因组计划数据,即1.把人类基因组计划数据分解成“人工reads”,进行组装;2.利用人类基因组计划数据的定位对shotgun数据进行分组,然后组装。,ARACHNE(2002),特点:组装前通过多序列比对纠正测序错误;考虑质量数据,对每对重叠reads打分;通过分析reads重叠情况识别重复序列的边界,组装的contigs避免越过边界;识别重复序列contigs;构建scaffolds,填补空洞。使用情况:使用数个物种,包括人21、22染色体数据进行了检验。,The Phusion Assembler(2003),特点:输入数据包括正反向信息,插入片段长度在2-200kb之间;组装前先对数据进行分组,然后并行处理;使用phrap进行组装,组装过程中利用正反向信息对contig进行延伸或打断;根据重叠合并contigs;利用正反向信息构建scaffolds。使用情况:用于小鼠基因组,7.5x,2.6Gb,479 scaffolds,Table 2.Insert Sizes,Number of Reads and Effective CloneCoverage for the Mouse WGS Data Set,欧拉图方法(2001),特点:放弃传统方法,用图论解决序列组装问题;每个read作为一个顶点,两个reads之间有重叠则有边连接。组装问题就化为找一条仅通过每个顶点一次的通路Hamilton问题。把重复序列视为粘在一起的边,可把上述图简化,问题变为找仅通过每条边一次的通路Euler问题。,具体步骤,纠正测序错误把read分为长为 L 的字。如果一个字属于M个以上reads,称为坚固的;否则称为弱的。纠正错误的算法,就是要通过最少的改变,使弱的字变为坚固的。通过这种方法,纠正了97.7%的测序错误,把每个read的平均错误率从4.8降到了0.11。,构建de Bruijn图顶点:长为L-1的字边:长为L的字,代表一条从前一个L-1字到后一个L-1字的有向边这样,就把测序数据转换成了de Bruijn图,组装问题变成了找Euler路径的问题。这一问题已有解法。使用情况:这一方法成功地用于一个多重复序列的细菌基因组。,

    注意事项

    本文(基因组序列组装的理论与方法(简介).ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开