基因组序列组装的理论与方法简介.ppt
《基因组序列组装的理论与方法简介.ppt》由会员分享,可在线阅读,更多相关《基因组序列组装的理论与方法简介.ppt(48页珍藏版)》请在三一办公上搜索。
1、基因组序列组装-理论与方法,北京大学生物信息中心科学院北京基因组研究所李松岗,两种测序策略,分级鸟枪法(BAC TO BAC)基因组DNA 切成大片段 构建BAC文库挑选 构建小片段shotgun文库 测序 组装BAC序列 组装基因组序列全基因组鸟枪法基因组DNA 构建不同长度shotgun文库 测序 组装基因组序列,基因组测序与组装示意图,基于BAC方法的 优缺点,优点:组装被局限在BAC的范围内,受重复序列影响小,对计算能力要求不高;缺点:需要大量前期生物学研究工作,效率低,成本高。,全基因组鸟枪法优缺点,优点:不需要生物学前期准备,速度快,成本低;缺点:组装是在全基因组范围内进行,数据量
2、大,易产生错拼;对计算机软硬件要求均高。,对拼接软件的要求,能充分利用正反向测序的配对信息,避免重复序列造成的错误拼接能处理数以百万甚至千万计的数据 程序并行化 高效率比对,能够采用全基因组鸟枪法的关键技术进步:毛细管测序仪的普遍使用计算机能力的迅速提高,Hierarchical Shotgun(HS),Whole Genome Shotgun(WGS),the sequencing of the human genome is likely to be the only large sequencing project carried to completion by the methods
3、 described in this issue.Maynard V.Olson,The maps:Clone by clone by clone,Nature 409,816-818(2001),Shotgun法序列拼接,Consensus,Mis-Assembly(Inverted),术语鸟枪法测序数据的组装鸟枪法文库:目标基因组一定长度随机片段克隆的集合。正反向测序对:从同一个克隆片段两端分别测序所得到的一对序列。.插入片段长度:克隆载体中插入的外源DNA片段长度。片段连接群(contig):用识别互相重叠的方法对测序数据进行拼接的结果。.Scaffold:用正反向测序对连接的非重叠片段
4、连接群。LW-洞:由于没有测序数据覆盖而在组装结果中留下的洞。,重复序列分析覆盖度:基因组被测序数据覆盖的次数。重复数:一段DNA序列在基因组中出现的次数。深度:一段DNA序列在鸟枪法测序数据集中出现次数。例如一个转座子在基因组中出现N次,测序数据集的覆盖度为C,则这个转座子的平均深度为NC。20-mer 重复序列:任何深度超过为该数据集确定的重复序列标准的20-bpDNA片段。是数学定义的重复序列。重复序列洞:由于屏蔽重复序列而在组装结果中留下的洞。,组装结果的评价标准N50 大小:把组装出的contigs 或 scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度一半时,最
5、后一个contig或scaffold的大小。单碱基错误率:与参考序列比较后发现的小尺度上的不同所占的比例。所谓小尺度,在这里通常指小于标准测序长度,即500bp。实际上常常只是几个碱基。错误组装的Contig:测序数据组装中出现的错误。由定义,它涉及的片段一般大于500-bp。包括与参考序列相比,插入、删除,以及在方向和次序上不同的片段。错误组装的Scaffold:把非重叠contig连接在一起时出现的错误。包括嵌套,错误的方向和顺序等。,Shotgun Sequencing Assembler Concepts,RePS:全基因组鸟枪法测序数据组装软件包,特点:通过屏蔽在鸟枪法测序数据中发现
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因组 序列 组装 理论 方法 简介
链接地址:https://www.31ppt.com/p-6263065.html