双序列比对课件.ppt
《双序列比对课件.ppt》由会员分享,可在线阅读,更多相关《双序列比对课件.ppt(72页珍藏版)》请在三一办公上搜索。
1、课程主线,序列比对基本概念空位罚分相似性与同源性双序列比对方法点阵序列比较(Dot Matrix Sequence Comparison)动态规划算法(Dynamic Programming Algorithm)记分矩阵,1,什么是序列比对?,序列比对(Sequence Alignment)是通过在序列中搜索一系列单个性状或性状模式来比较2个(双序列比对)或更多(多重序列比对)序列的方法按比对序列条数分类双序列比对:两条序列的比对多序列比对:三条或以上序列的比对,2,我们为什么关注序列比对?,相似的序列可能具有相似的功能与结构发现一个基因或蛋白哪些区域容易发生突变,哪些位点突变后对功能没有影响
2、 发现生物进化方面的信息,3,序列比对两种类型,全局序列比对定义:在全局范围内对两条序列进行比对打分的方法适合于非常相似且长度近似相等的序列局部序列比对定义:一种寻找匹配子序列的序列比对方法 适合于一些片段相似而另一些片段相异的序列,4,序列比对两种类型,5,空位罚分(Gap Penalties),空位为了获得两个序列最佳比对,必须使用空位和空位罚分空位罚分分类:空位开放罚分(Gap opening penalty)空位扩展罚分(Gap extension penalty)最优的序列比对通常具有以下两下特征:尽可能多的匹配尽可能少的空位插入任意多的空位会产生较高的分数,但找到的并不一定是真正相
3、似序列,6,1 GTGATAGACAC|1 GTGCATAGACAC,空位罚分,允许空位但不罚分,不允许有空位,match=5mismatch=-4,1 GTG-ATAGACAC|1 GTGCATAGACAC,1 GTG-ATAGACAC|1 GTGC-ATAGACAC,?,Score:-21,Score:55,7,空位罚分公式,Score=4,参数:匹配=1非匹配=0g=3r=0.1x=3,score:8-3.2=4.8,Wx=g+r(x-1)Wx:空位总记分g:空位开放罚分r:空位扩展罚分x:空位长度,Wx=-3-(3-1)0.1=-3.2,8,双序列比对方法,点阵序列比较(Dot Mat
4、rix Sequence Comparison)动态规划算法(Dynamic Programming Algorithm)词或K串方法(Word or K-tuple Methods),9,点阵序列比较,点阵(Dot Matrix)分析是一种简单的图形显示序列相似性的方法沿X轴上序列1中的每一个单元(核苷酸或氨基酸)与沿Y轴的第二个序列中的每一个单元进行比较,相同的区域在点阵图中显示为由点组成的对角线,对角线之外零散的点为背景噪音,10,11,12,点阵分析的应用,自身比对寻找序列中的正向或反向重复序列蛋白质的重复结构域(domain)相同残基重复出现的低复杂区(Low Complexity)
5、RNA二级结构中的互补区域等对两条序列的相似性作整体的估计,13,点阵分析中的插入或删除,TACTGTCAT T A C T G T T C A T,Sequence 1,Sequence 2,T A C T G-T C A T|T A C T G T T C A T,插入空位,14,点阵分析的应用,人类低脂受体(human low-density lipoprotein receptor)自身比对发现正向重复序列,具有连续相似区域的两条DNA序列的简单点阵图,正向重复,15,点阵分析实例,编码噬菌体c(水平轴)和噬菌体P22 c2(垂直轴)的氨基酸序列间的点阵分析相同的点打印全部打印,很难找
6、到有用的信息,16,使用滑动窗口技术降低噪声,T A C G G T A T G A C A G T A T C,T A C G G T A T G A C A G T A T C,T A C G G T A T G A C A G T A T C,T A C G G T A T G A C A G T A T C,C T A T G A C A TACGGTATG,Window=3 Word Size=3,17,ATACTACAAGACACGTACCG,G C G A T G C A T T G A G T A T C A T A,Window size=5Stringency=3,Matc
7、h=1 Mismatch=0,18,ATACTACAAGACACGTACCG,G C G A T G C A T T G A G T A T C A T A,Window size=5Stringency=3,Match=1 Mismatch=0,19,ATACTACAAGACACGTACCG,G C G A T G C A T T G A G T A T C A T A,Window size=5Stringency=3,Match=1 Mismatch=0,20,G C G A T G C A T T G A G T A T C A T A,ATACTACAAGACACGTACCG,Win
8、dow size=5Stringency=3,Match=1 Mismatch=0,21,G C G A T G C A T T G A G T A T C A T A,ATACTACAAGACACGTACCG,22,G C G A T G C A T T G A G T A T C A T A,ATACTACAAGACACGTACCG,23,使用滑动窗口技术降低噪声,(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的球蛋白基因序列进行比较的完整点阵图(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8,即10
9、个核苷酸中有8个相同时就打一个点,a,b,24,点阵分析的优缺点,优点直观性,整体性点阵分析不依赖空位(gap)参数,可寻找两序列间所有可能的残基匹配不依赖任何先决条件,是一种可用于初步分析的理想工具点阵分析允许随时动态地改变最高和最低界限值,可以用来摸索区分信号和背景标准的严格程度,25,点阵分析的优缺点,缺点不能很好地兼容打分矩阵滑动窗口和预值的选择过于经验化信噪比低 不适合进行高通量的数据分析,26,点阵分析程序,DNA Strider(Macintosh)http:/Dotter(Unix/Linux,X-Windows)COMPARE,DOTPLOT(GCG软件)PLALIGN(FA
10、STA)Dotlethttp:/www.isrec.isb-sib.ch/java/dotlet/Dotlet.html,27,28,动态规划算法,动态规划算法(Dynamic Programming Algorithm)是一种计算方法,它的主要思路是把一个问题分成若干个小问题来解决在生物学中应用的两种动态规划算法:Needleman-Wunsch算法(全局比对)和Smith-Waterman算法(局部比对),29,序列比对中某一位点匹配的三种可能性,Eg.匹配=1,非匹配=0,空位罚分=-1Sequence1:CACGASequence2:CGA,30,动态规划算法的正式表述,Si,j这个位
11、置的分数为图中箭头所示三个方向值中最大的一个,31,动态规划算法的数学形式,Sij=maxSi-1,j-1,+s(aibj),maxx1(Si-x,j-wx),maxy 1(Si,j-y-wy),Sij=maxSi-1,j-1,+s(aibj),maxx1(Si-1,j-wx),maxy 1(Si,j-1-wy),公式一的简化,公式一,公式二,说明:Sij是序列a在位置i和序列b在位置j的分值,s(aibj)是位置i 和j上比对分值,wx是在序列a 中长度为x的间隔罚分,wy是序列b中长度为y的间隔罚分,32,动态规划算法实例,匹配3错配-1空位-2,33,动态规划算法实例,匹配3错配-1空位
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列 课件
链接地址:https://www.31ppt.com/p-3676399.html