《序列两两比对》PPT课件.ppt
《《序列两两比对》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《序列两两比对》PPT课件.ppt(51页珍藏版)》请在三一办公上搜索。
1、1,第三章 序列两两比对,王红岩,2,主要内容,序言序列比对的方法比对用到的得分矩阵序列比对的统计学显著性总结,3,序 言,序列比较是生物信息分析的基础。它是分析新测定序列结构与功能的第一阶段。随着生物序列以指数级速度被测定出来,通过对新测定序列与数据库中已有的序列进行比较来推断新序列功能和进化关系变的方法变得越来越重要,这种比较最基本的方法是序列比对,也就是比较序列来找出一种共同的字符模式以建立相关序列的残基残基之间的一致性。序列两两比对就是对两条序列的比对,它是数据库相似性搜索的基础。,4,序 言,进化基础 DNA和蛋白质是进化的产物。它们可以被认为是编码数百万年进化史的分子化石。在进化史
2、上,这些分子经历了随机变化过程,期中一些被进化所选择而保留了下来。这些被选择的序列逐渐积累突变和交叉,进化的痕迹在序列的某些部分被保留下来从而可以识别它们共同的祖先。进化痕迹的存在是由于一些对序列结构和功能起关键作用的残基倾向于被自然选择所保留;而另一些不起关键作用的残基倾向于频繁的改变。例如,一个酵母家族的活性位点残基倾向于被保存下来是由于它们对催化功能起作用。所以,通过序列比对,保守的和改变了的序列模式就能被识别出来。在比对中序列的保守度体现了不同序列之间的进化关系。反之,序列之间的差别反映了在进化的过程中序列以替换、插入和删除残基的形式发生了变化。,5,序 言,识别序列的进化关系能帮助我
3、们描绘未知序列的功能。当一组序列的比对显示出了显著的相似性,我们就认为它们属于同一个家族。如果这个家族中一个成员的结构或功能已知,那么它的这些信息就可以推广到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未知结构和功能的序列的结构和功能。序列比对可以用来推断两条序列是否是相关的。如果两条序列显著相似,那么这种相似性是随机产生的可能性非常小,也就是说这两条序列有共同的进化起源。当一个序列比对被正确的做出来,它就反应了两条序列的进化关系:相同位置出现不同残基的区域代表残基替换;一条序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列出现过残基插入或删除。有一种情况也是可能的,
4、那就是来源于同一祖先的两条序列在某种程度上分离以至于它们有共同祖先的关系已经不能从序列的水平上识别了。如果那样的话,它们的进化距离就必须通过其它的方法识别了。,6,序 言,序列同源(homology)与序列相似(similarity)序列同源是序列分析的一个重要概念。当两条序列来源于共同的进化祖先我们就说它们是同源关系。一个相关但不同的术语是序列相似,它是指比对的残基在理化性质,如大小,带电,疏水性等方面相似的程度。序列同源是根据序列比对时两条序列相似性高到一定程度推导出来的两条序列具有共同祖先的一种关系。而序列相似通过观察序列比对结果直接得出的一种结论。序列相似可以用百分比来量化,而序列同源
5、只能取“是“或“不是“。大体说来,如果两条序列的相似性足够高,我们就可以认为它们是同源的。但是在实际问题中,到底多高的相似性才能认为是同源的是不清除的。答案依赖于被处理的序列类型和序列的长度。,7,序 言,序列同源(homology)与序列相似(similarity)对于DNA序列,由于只存在四种碱基,两条不相关的序列同一位置至少有25%的机会相同,而对于蛋白质序列,一共有20中氨基酸,所以不相关的序列中出现同一氨基酸的概率为5%。序列长度也是一个关键因素。序列越短随机出现相同的残基的概率就高,序列越长随机相同的概率就越小。这就要求对短的序列给予高的阈值来判断它们同源。例如,对于有100个氨基
6、酸的蛋白质序列,如果全局比对有30%或更高的残基相同,就认为它们很有可能同源,这个范围被称为“安全范围”;如果有20%30%的氨基酸相同,它们的同源关系就不那么肯定了,这个范围被称为“模糊范围”;如果有低于20%的氨基酸相同,那么就很难认为它们具有同源关系,这个范围被称为“黑暗范围”(P33图3.1)。这是一种不精确的方法,尤其是对模糊范围很难判定是否同源,后面介绍的序列比对的统计学上的显著性将会给出精确的方法判断序列是否同源。,8,序 言,序列相似(similarity)与序列一致(identity)序列比对中用到的另一对相关术语是序列相似与序列一致。这两个概念对于核苷酸序列是同义的。而对于
7、蛋白质序列,这两个概念是非常不同的。在蛋白质序列比对中,序列一致是指待比对的两条序列中相同残基匹配的比例;序列相似是指待比对的两条序列中很容易彼此替换具有相似理化性质残基匹配的比例。有两种方法计算序列相似/一致度。一种方法是用两条序列的全部长度,而另一种是利用较短的序列进行标准化。第一种方法用如下公式计算序列相似度:S=(Ls*2)/(La+Lb)*100其中S是序列相似的百分比,Ls是相似的残基数目,La和Lb分别是两条序列的长度。,9,序 言,序列相似(similarity)与序列一致(identity)第一种方法用如下公式计算序列一致度:I=(Li*2)/(La+Lb)*100其中I是序
8、列一致的百分比,Li是一致的残基数目,La和Lb分别是两条序列的长度。第二种方法利用如下公式计算序列的一致/相似度:I(S)%=Li(S)/La%其中La是较短序列的长度。,10,序列比对的方法,序列两两比对的最终目的是找到两条序列的最佳匹配,也就是找到残基之间的最大相似。为了达到这个目标,一条序列需要相对于另一条序列移动以找到具有最大相似程度的位置。有两种经常用到的不同的比对策略:全局比对和局部比对。全局比对和局部比对 在全局比对中,我们假定两条序列在整个长度上是相似的。全局比对时我们从头到尾的比较两条序列以找到最佳匹配。这种方法很适用于比对两条大体上长度相同且极度相似的序列。对于发散的不同
9、长度的序列,这种方法不能产生最理想的结果因为它不能识别出两条序列中高度相似的局部序列。在局部比对中,我们不假设两条序列全局相似,只是找两条序列中高度相似的局部区域而不考虑其它区域。这种方法能比对比较分散的序列来找出DNA或蛋白质序列中的保守模式。被比对的两条序列可以不等长。这种方法很适合于比对包含相似模块的分散的生物序列,以找出domain或motif。,11,序列比对的方法,比对算法 比对算法,不管是全局比对还是局部比对,基本上是相似的,只是比对相似残基时最优化策略不同。所有比对算法都是基于以下三种方法的:点阵方法,动态规划方法和基于单词的方法。点阵法和动态规划算法在这章讲,而基于单词的方法
10、将在下一章讲。,12,序列比对的方法,点阵方法 最基本的序列比对方法是点阵法,也叫点平面图法。这是一种在二维矩阵中比较两条序列的直观方法。待比较的两条序列被放在矩阵的横轴和纵轴上。我们通过扫描一条序列上的每一个残基与另一条序列的所有残基的相似性来比较两条序列。如果发现了一个残基匹配就在相应位置画一个点。而矩阵的其它位置保持空白。如果两条序列有大量的相似区域,就用直线沿着对角线将连续的点连接起来。如果对角线的中间出现断点,就表明有残基的插入和删除。矩阵中平行的对角线代表序列中的重复区域。,13,序列比对的方法,14,序列比对的方法,15,序列比对的方法,点阵方法 用点阵法比较大序列时存在一个问题
11、,那就是高噪音水平。在大多数点平面上,点被画的到处都是,使真正的比对难以被识别。对于DNA序列,问题尤其严重,因为DNA序列中只有四种字符,所以每一个碱基都有1/4的机会与另一条序列的碱基匹配。为了降低噪音,我们不再直接扫描单个碱基的匹配,而是引进过滤技术。用一个适当长度的“窗口”来覆盖一段连续的残基。当使用过滤器时,窗口沿着两条序列滑动来比较所有可能的连续残基。只有当等于窗口长度的一段连续残基和另一条序列相同长度的残基匹配时才在矩阵中相应位置画点。这种方法在降低噪音水平上是有效的。窗口也被称作“tuple”,其大小是可以被操纵的以使它能识别特定模式的序列。然而,如果窗口被选的很长,比对的敏感
12、性就降低了。,16,序列比对的方法,17,序列比对的方法,18,序列比对的方法,点阵方法 点阵法有许多变形。例如,一条序列可以和它自身比对以识别内部重复元素。在自比对当中会存在一条主对角线以表示其完美匹配。如果内部重复元素存在,会观察到在主对角线的上方或下方有短的对角线。DNA序列的自补(也叫反向重复),例如那些存在发夹结构的家族,也能用点距阵法识别。在这种情况下,一条DNA序列与它的反向补序列进行比较。平行的对角线代表反向重复。为了比较蛋白质序列,必须使用一个权重系统来描述氨基酸残基的相似度。,19,序列比对的方法,自我比较,20,序列比对的方法,点阵方法 点阵法给出了两条序列关系的一种直观
13、描述,它很容易识别出序列中高度相似的区域。这种方法的一个显著的优点是可以基于矩阵中存在的水平方向上或垂直方向上长度相同的对角线来识别序列中的重复区域。因此这种方法在基因组学中有一定应用。它在识别染色体重复和比较两个高度相关的基因组中基因顺序的保守性非常有用。它在通过检测序列的自补性来识别核苷酸序列的二级结构也非常有用。点阵法能显示所有可能的序列匹配。然而,它要求用户将邻近的对角线连接起来来构造带有残基插入和删除的全序列比对。这种方法的另一个缺点是它缺少评价比对质量的统计上的精确性。这种方法在两两比对中也存在局限性。它很难构造多序列比对。下面是几个利用点阵法设计的序列两两比对的工具。Dotmat
14、cher()Dottup()Dothelix(l)MatrixPlot(/),21,序列比对的方法,动态规划方法 动态规划是一种通过匹配两条序列中所有可能的字符对来确定最优比对的方法。它和点阵法基本相似,就是也需要构造一个二维的矩阵。而它确是通过将点阵转换为记录序列间匹配和失配的得分矩阵来找最优比对的定量的方法。通过寻找矩阵中的最高分数集合来精确的找到最佳联配,22,序列比对的方法,动态规划方法 动态规划的第一步是构造两个轴分别是两条待比对的序列的二维矩阵。残基的匹配是根据一个特殊的得分矩阵。每次计算一行分数。这个过程开始于一条序列的第一行,用这行扫描另一条序列的全部残基,紧接着处理第二行。这
15、样匹配分数就被计算出来了。在扫描第二行的时候计算分数依赖于第一轮计算出来的分数。最优分数被放在矩阵的右下角。叠代这一过程直到矩阵的所有元素都被填上。因此,分数是沿着从左上角到右下角的对角线累加的。一但矩阵中的所有分数都被计算出来,下一步就是寻找代表最佳比对的路径。这一过程是沿着矩阵的右下角到左上角的相反的顺序来回溯完成的。最优匹配路径就是总分最高的路径。如果两条或更多的路径得到最高分,就任选一条代表最佳比对。路径也可以在某一点水平或垂直移动,它代表引入空位,也就是在其中一条序列中有残基的插入或删除。,23,序列比对的方法,1,1,0,0,0,0,0,0,0,0,2,2,2,2,3,1,2,3,
16、3,3,3,0,2,2,3,4,5,5,0,2,3,3,4,5,6,最佳比对是:A C T G C C T A-T G-C T,24,序列比对的方法,空位罚分 在寻找最优比对时要用到代表插入和删除的空位。因为在自然进化过程中插入和删除发生的频率要比替换相对少,所以引进空位在计算上应该是比较谨慎的以反映在进化中插入和删除发生的少。然而实际中分配罚分值是比较任意的,因为没有革命性的理论来确定引进插入和删除所付出的精确的代价。如果罚分值设置的过低,空位就会过多以至于无关序列也会得到很高的相似性得分;如果罚分值设置的过高,空位就很难被引进以至于很难找到合理的比对,这也是不切实际的。通过对球状蛋白的经验
17、学习,我们已经得到了一组适合于大部分比对的罚分值。在大多数比对程序中它们可以被用作默认的罚分值。,25,序列比对的方法,空位罚分 另一个要考虑的因素是新开始一个空位和扩展一个已经存在的空位所付出的代价是不同的。众所周知,扩展一个已经开始的空位是相对容易的。因此新开一个空位要比扩展一个空位设置更高的罚分值。这是根据这样一个基本原理,那就是一但插入和删除发生,那么一些临近的残基很可能一起被插入和删除。这种不同的罚分策略已经在纺射型空位罚分中被提到。基本的策略就是根据预先调整好的空位罚分值来引进或扩展空位。例如,可以用-12/-1方案来进行空位罚分,也就是新开一个空位罚12分,扩展一个空位罚1分。总
18、得罚分(W)用下面的公式计算:W=+*(k-1)其中代表开始一个空位的罚分值,代表扩展一个空位的罚分值,k代表空位的长度。除了纺射型空位罚分,固定值空位罚分有时也是很有用的,这种罚分模型为每一个空位分配相同的罚分而不管它是新开空位还是扩展空位。然而,这种罚分模型比纺射型罚分模型不符合实际。,26,序列比对的方法,空位罚分 在序列末尾的空位我们经常不进行罚分,因为在实际中很多同源的序列是不等长的。因此末端的空位是允许自由出现的以避免得到不切实际的比对结果。,27,例:s=AGCACACAt=ACACACTA,得分矩阵D(99),p(a,a)=1p(a,b)=0 a bp(a,-)=p(-,b)=
19、-1,28,初始化,29,计算d(2,2),30,计算d(2,2),31,最终的得分矩阵及最佳序列比对,AGCACACA|ACACACTA,32,序列比对的方法,全局比对的动态规划算法 经典的运用动态规划进行全局两两比对的算法是Needleman-Wunsch算法。在这个算法中,我们会得到一个基于两条序列全长的最佳的比对结果。它必须对序列从头到尾的进行计算以得到最高比对得分。换句话说,比对路径必须是从矩阵的最右下角一直到最左上角的原点。关注序列全长的最大比对得分的缺点是找不到局部的序列相似。这种策略适合于比对高度相关的等长序列。对于发散的序列或具有不同域结构的序列,用这种方法不能得到最理想的比
20、对。一个用于全局两两比对的web程序是GAP。GAP()是一个基于web的序列两两全局比对程序。它比对序列时不进行末尾罚分,所以不同长度的相似序列可以被比对。为了能在比对中引入长的空位,这个程序运用固定罚分模型。这个程序适用于比对包含相同基因的染色体杂交品种中的cDNA。,33,序列比对的方法,局部比对的动态规划算法 在正常的序列比对中,两条被比对序列的分离水平是不容易知道的。两条序列的长度可能也不相同。在这种情况下,识别序列的局部相似性比比对包含所有残基的整个序列更有意义。第一个运用动态规划进行局部序列比对的算法是Smith-Waterman算法。在这个算法中匹配的残基被赋予正的分数而失配的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列两两比对 序列 PPT 课件
链接地址:https://www.31ppt.com/p-5505415.html