生物信息学基础-第三章.ppt
《生物信息学基础-第三章.ppt》由会员分享,可在线阅读,更多相关《生物信息学基础-第三章.ppt(145页珍藏版)》请在三一办公上搜索。
1、第三章 序列比对,主讲教师:丁彦蕊单位:信息工程学院,序列比对:寻找两条或者两条以上的序列中各个字符的一一对应关系。序列比对的根本任务:发现序列之间的相似性寻找共同区域辨别序列之间的差异目的:相似序列 相似的结构,相似的功能 判别序列之间的同源性推测序列之间的进化关系,第一节 序列的相似性,同源(homology)-具有共同的祖先(P81)直向同源(Orthologous):共同祖先的直接后代(没有发生基因复制事件)之间的同源基因称为直向同源。共生同源(paralogous):两个物种A和B的同源基因,分别是共同祖先基因组中由复制事件而产生的不同拷贝的后代,这被称为共生同源基因。相似(simi
2、larity)同源序列一般是相似的 相似序列不一定是同源的 进化趋同(同功能),序列比较的基本操作是比对(Alignment)两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的对比排列。,设有两个序列:GACGGATTAG,GATCGGAATAG,Alignment2:GA CGGATTAGGATCGGAATAG,Alignment1:GACGGATTAG GATCGGAATAG,1、字母表和序列,字母表4字符DNA字母表:A,C,G,T扩展的遗传学字母表或IUPAC编码单字母氨基酸编码,扩展的遗传学字母表或IUPAC编码,特定的符号 代表字母表 A*代表由字母表A中字符所形成
3、的一系列有限长度序列或字符串的集合 a、b、c代表单独的字符 s、t、u、v代表A*中的序列|s|代表序列s的长度,为了说明序列s的子序列和s中单个字符,在s中各字符之间用数字标明分割边界例如,设s=ACCACGTA,则s可表示为 0A1C2C3A4C5G6T7A8 i:s:j 指明第i位或第j位之间的子序列,当然,0 i j|s|。子序列0:s:i 称为前缀,即prefix(s,i)子序列 i:s:|s|称为后缀,即suffix(s,|s|-i+1),i:s:i 为空序列j-1:s:j 表示s 中的第j 个字符,简记为sj子序列与子串(p82)子序列:选取s中的某些字符(或删除s中的某些字符
4、)而形成s的子序列例如:TTT 是 ATATAT的子序列。,s的子串:是由s中相继的字符所组成。例如:TAC是AGTACA的子串,但不是TTGAC的子串(是子序列)。子串是子序列子序列不一定是子串,字符串操作,字符串连接操作:两个序列s和t的连接:s+t例如:ACC+CTA=ACCCTA 字符串k操作 删除字符串两端的字符 其定义如下:prefix(s,l)=sk|s|-lsuffix(s,l)=k|s|-ls i:s:j=ki-1sk|s|-j,序列比较可以分为四种基本情况(P83)(1)两条长度相近的序列相似 找出序列的差别(2)判断一条序列的前缀与另一条序列的后缀相似(3)判断一条序列是
5、否是另一条序列的子序列(4)判断两条序列中是否有非常相似的子序列,2、编辑距离(Edit Distance),GCATGACGAATCAG TATGACAAACAGC,GCATGACGAATCAG TATGAC-AAACAGC,说明两条序列的相似程度 定量计算,两条序列的相似程度的定量计算相似度,它是两个序列的函数,其值越大,表示两个序列越相似 两个序列之间的距离。距离越大,则两个序列的相似度就越小,字符编辑操作(Edit Operation),字符编辑操作可将一个序列转化为一个新序列 Match(a,a)Delete(a,-)Replace(a,b)Insert(-,b),直接距离计算的不足
6、,扩展的编辑操作,ACCGACAATATGCATA ATAGGTATAACAGTCA,ACCGACAATATGCATA ACTGACAATATGGATA,第二条序列头尾颠倒,CTAGTCGAGGCAATCTGAACAGCTTCGTTAGT,?,反向互补序列,RNA发夹式二级结构,3、通过点矩阵进行序列比较“矩阵作图法”或“对角线作图”,序列1,序列2,实 例,序列1,序列1,自我比较,滑动窗口技术两条序列中有很多匹配的字符对,因而在点矩阵中会形成很多点标记。,滑动窗口技术 使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。假设窗口大小为10,相似度阈值为8,则每次比较取10个连续的字
7、符,如相同的字符超过8个,则标记 基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域。,(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的球蛋白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8。,(a)(b),具有连续相似区域的两条DNA序列的简单点阵图,4、序列的两两比对,序列的两两比对(Pairwise Sequence Alignment):通过字符匹配和替换,或者插入和删除字符,使两条序列达到一样的长度,并使两条序列
8、中相同的字符尽可能一一对应。,s:AGCACACAAGCACACA t:ACACACTAACACACTA Match(A,A)Match(A,A)Delete(G,-)Replace(G,C)Match(C,C)Insert(-,A)Match(A,A)Match(C,C)Match(C,C)Match(A,A)Match(A,A)Match(C,C)Match(C,C)Replace(A,T)Insert(-,T)Delete(C,-)Match(A,A)Match(A,A)图3.6 序列AGCACACA和ACACACTA的两种比对结果,Alignment-1 Alignment-2,不同编
9、辑操作的代价不同编辑操作定义函数w,它表示“代价(cost)”或“权重(weight)”。对字母表中的任意字符a、b,定义 w(a,a)=0 w(a,b)=1 a b w(a,-)=w(-,b)=1,也可以使用得分(score)函数来评价编辑操作 p(a,a)=1 p(a,b)=0 a b p(a,-)=w(-,b)=-1,概念,两条序列s 和 t 的比对的得分(或代价)等于将s 转化为t 所用的所有编辑操作的得分(或代价)总和;s 和t 的最优比对是所有可能的比对中得分最高(或代价最小)的一个比对;s 和t 的真实距离应该是在得分函数p值(或代价函数w值)最优时的距离。,例如:s:AGCAC
10、ACAt:ACACACTA cost=2 s:AGCACACA t:ACACACTA score(s,t)=5序列比对的目的是寻找一个得分最大(或代价最小)的比对。,5、打分矩阵(Weight Matrices)(P87),(1)核酸打分矩阵设DNA序列所用的字母表为=A,C,G,T a.等价矩阵(相同核苷酸得分为1,不同核苷酸替换得分为0)b.BLAST矩阵(相同核苷酸得分为+5,不同核苷酸得分为-4)c.转移矩阵(transition,transversion)(嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T),表3.1 等价矩阵表,表3.3 转移矩阵,表3.2 BLAST矩阵,(2
11、)蛋白质打分矩阵,(i)等价矩阵,其中Rij代表打分矩阵元素i、j分别代表字母表第i和第j个字符。,(ii)氨基酸突变代价矩阵GCM GCM矩阵通过计算一个氨基酸残基转变到另外一个氨基酸残基所需的密码子变化数目而得到,矩阵元素的值对应于代价。如果变化一个碱基就可以使一个氨基酸的密码子改变为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1,如果需要两个碱基的改变,则替换代价为2,以此类推。GCM矩阵常用于进化距离的计算,其优点是计算结果可以直接用于绘制进化树,但在蛋白质序列比对尤其是相似程度较低的序列比对中很少使用。,(iii)疏水矩阵根据氨基酸残基替换前后疏水性的变化得到的矩阵。如果氨基酸A
12、被氨基酸B替换后,疏水性变化不大则替换得分高,否则替换得分低。,(iv)PAM矩阵(Point Accepted Mutation)统计自然界中各种氨基酸残基的相互替换率。如果两种特定的氨基酸之间替换发生得比较频繁,则这一对氨基酸在得分矩阵中的互换得分就高。PAM矩阵基于进化原理,建立在进化的点接受突变模型基础上,通过统计相似序列中的各种氨基酸替换发生率而得到的矩阵。,PAM矩阵(Point Accepted Mutation)基于进化的点突变模型 一个PAM就是一个进化的变异单位,即1%的氨基酸改变,这类矩阵里列出同源蛋白质在进化过程中氨基酸变化的可能性。这类矩阵式基于进化原理的 证据:编码
13、相同蛋白质的基因随着进化发生分歧,相似度降低。科学 用得多,矩阵集合-PAM-N如,PAM120矩阵用于比较相距120个PAM单位的序列。一个PAM-N矩阵元素(i,j)的值:反应两个相距N个PAM单位的序列中第i种氨基酸替换第j种氨基酸的频率。,针对不同的进化距离采用PAM 矩阵,序列相似度=40%50%60%,|打分矩阵=PAM120 PAM80 PAM 60,PAM250 14%-27%,(v)BLOSUM矩阵(Blocks Amino Acid Substitution Matrices)通过统计相似蛋白质序列的替换率得到的。PAM矩阵是从蛋白质序列的全局比对结果推导出来的,而BLOS
14、UM矩阵是从蛋白质序列块比对而推导出来的。,BLOSUM 62,第二节 两两比对算法,1、序列两两比对基本算法,直接方法 生成两个序列所有可能的比对,分别计算代价函数,然后挑选一个代价最小的比对作为最终结果。本质问题:优化动态规划寻优策略动态规划算法(Dynamic Programming)(P93),最短路经问题,起点,终点,C1,C2,W1,W2,路径1:C1+w1?路径2:C2+w2?取最小值!,算法求解:从起点到终点逐层计算,利用动态规划方法求解序列的两两比对,起点,终点,ATTCCGAAGA AGTCGAAGGT,ATTCCGAAG AGTCGAAGG,AT,+,(1),ATTCCG
15、AAGA AGTCGAAGG,-T,+,(2),ATTCCGAAG AGTCGAAGGT,A-,+,(3),求解过程,起点,终点,ATTCCGAAGA AGTCGAAGGT,从两个序列前端开始 逐步推进 直到两个序列的末端。,序列S:i-1 i i+1,序列t:j-1 j j+1,序列S:i-1 i i+1,序列t:j-1 j j+1,Case1:匹配(si,tj),中间过程:比对0:S:i 与 0:T:j,序列S:i-1 i i+1,序列t:j-1 j j+1,序列S:i-1 i i+1,序列t:j-1 j j+1,Case2:删除(si,-),序列S:i-1 i i+1,序列t:j-1 j
16、 j+1,序列S:i-1 i i+1,序列t:j-1 j j+1,Case3:插入(-,tj),设序列s、t的长度分别为m和n。考虑两个前缀 0:s:i 0:t:j 假如已知序列0:s:i 和0:t:j 所有较短子列的最优比对,即已知:(1)0:s:(i-1)和 0:t:(j-1)的最优比对(2)0:s:(i-1)和 0:t:j 的最优比对(3)0:s:i 和 0:t:(j-1)的最优比对则0:s:i和 0:t:j 的最优比对一定是上述三种情况之一的扩展(1)替换(si,tj)或匹配(si,tj),这取决于si 是否等于tj;(2)删除(si,-);(3)插入(-,tj)。,令:,为序列0:s
17、:i和与序列 0:t:j 比对的得分按下述方法求解,其初值为:,for i=1,2,.,m,for j=1,2,.,n,距离矩阵按照上述方法,对于给定的得分函数p,两个序列所有前缀的得分定义了一个(m+1)(n+1)的距离矩阵D=(d i,j)其中d i,j=S(0:s:i,0:t:j),d i,j的计算公式如下:,d i,j 最小值的三种选择决定了各矩阵元素之间的关系,用下图表示:,di,j,di,j-1,di-1,j,di-1,j-1,S(0:s:i,0:t:j),S(0:s:i-1,0:t:j),S(0:s:i-1,0:t:j-1),S(0:s:i,0:t:j-1),动态规划算法计算过程
18、:计算过程从d 0,0开始 可以是按行计算,每行从左到右,也可以是按列计算,每列从上到下。当然,任何计算过程,只要满足在计算d i,j时 d i-1,j、d i-1,j-1、和d i,j-1都已经被计算这个条件即可。在计算d i,j后,需要保存d i,j是从d i-1,j、d i-1,j-1、或d i,j-1中的哪一个推进的,或保存计算的路径,以便于后续处理。上述计算过程到d m,n结束。,最优路径求解:与计算过程相反 从d m,n开始,反向前推。假设在反推时到达d i,j,根据保存的计算路径判断d i,j究竟是根据d i-1,j、d i-1,j-1、和d i,j-1中的那一个计算而得到的。找
19、到这个点以后,再从此点出发,一直到d 0,0为止。走过的这条路径就是最优路径(即代价最小路径),其对应于两个序列的最优比对。,计算过程:(1)初始化,计算过程:(2)反复计算按列计算,计算过程:(2)反复计算按行计算其他方式,计算过程:(3)求最佳路径,例:s=AGCACACAt=ACACACTA,得分矩阵D(99),初始化,计算d(2,2),最终的得分矩阵及序列比对,AGCACACA|ACACACTA,举例,例 1:Si 和 Tj对齐,S:C A T T C A C T:C-T T C A G,i-1,i,j,j-1,S:C A T T C A-C T:C-T T C A G-,例 2:Si
20、 中加入空位,i-1,i,j,S:C A T T C A C-T:C-T T C A-G,例 3:Tj 是入空位,i,j,j-1,计算过程,C(n,m),C(0,0),C(i,j),C T C G C A G C,A,C,T,T,C,A,C,+10 匹配,-2 不匹配,-5 空位,0-5-10-15-20-25-30-35-40,10,5,C T C G C A G C,A,C,T,T,C,A,C,回溯得到最佳的比对,C-T C G C A G CC A T-T C A-CC-T C G C A G CC A T T-C A-C,第一种比对方式,第二种比对方式,2、子序列与完整序列的比对,-A
21、GCT-ATGCAGCTGCTT,目标:使S(s,i:t:j)最大,序列S:,序列t:,i j,不计前缀0:t:i 的得分,也不计删除后缀的j+1:t:|t|得分,局部序列比对给定两条序列0:s:m和0:t:n,从t中寻找一个子序列i:t:j使得S(s,i:t:j)最大.,不计前缀0:t:i 的得分处理第一行,不计删除后缀的j+1:t:|t|得分 处理最后一行,dm,j,dm,j-1,dm-1,j,dm-1,j-1,S(0:s:i,0:t:j),S(0:s:i-1,0:t:j),S(0:s:i-1,0:t:j-1),S(0:s:i,0:t:j-1),不计代价,距离矩阵初始化时,对第一行进行如下
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 基础 第三

链接地址:https://www.31ppt.com/p-6591752.html