生物信息学第二版序列比对ppt课件.ppt
《生物信息学第二版序列比对ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学第二版序列比对ppt课件.ppt(62页珍藏版)》请在三一办公上搜索。
1、生物信息学,第二章 序列比对,南方医科大学 朱浩吉林大学 李瑛,生物信息学,第一节 引 言,Section 1 Introduction,.,(一)同源,两个序列享有一个共同的进化上的祖先,则这两个序列是同源的。对于两个序列,他们或者同源或者不同源,不能说他们70%或80%同源。,、同源、相似与距离,.,同源可分为垂直同源(ortholog)和水平同源(paralog),垂直同源与水平同源,.,(二)相似性与距离,相似性、距离:是两个定量描述多个序列相似度的度量。相似性:被比对序列之间的相似程度。距离:被比对序列间的差异程度。相似性既可用于全局比对也可用于局部比对,而距离一般仅用于全局比对,因
2、为它反映了把一个序列转换成另一个序列所需字符替换的耗费。,.,二、相似与距离的定量描述,相似性可定量地定义为两个序列的函数,即它可有多个值,值的大小取决于两个序列对应位置上相同字符的个数,值越大则表示两个序列越相似。编辑距离(edit distance)也可定量地定义为两个序列的函数,其值取决于两个序列对应位置上差异字符的个数,值越小则表示两个序列越相似。,.,对于一个比对,不论使用什么计分函数进行计分,相似性被定义为总等值于最大的计分:,对于k个序列,如果用一个函数cost()对每一列的所有替换操作进行计分,则多个序列之间的距离等值于最小的计分:,.,对相似性的计分,.,编辑距离(edit
3、distance):一般用海明距离表示。,.,三、算法实现的比对,用计算机科学的术语来说,比对两个序列就是找出两个序列的最长公共子序列(longest common subsequence,LCS),它反映了两个序列的最高相似度。,.,动态规划法示意,(A)使用动态规划法寻找两个序列的最长公共部分;(B)动态规划表的填写。,.,四、序列比对的作用,获得共性序列序列测序突变分析种系分析保守区段分析基因和蛋白质功能分析,.,第二节 比对算法概要,Section 2 Alignment Algorithms,.,(一)通过点矩阵对序列比较进行计分,A.两条序列完全相同,一、替换计分矩阵,.,B.两条
4、序列有一个共同的子序列,.,C.两条序列反向匹配,.,D.两条序列存在不连续的两条子序列,.,(二)DNA序列比对的替换计分矩阵,等价矩阵(unitary matrix),转换-颠换矩阵(transition-transversion matrix),BLAST矩阵,.,核苷酸转换矩阵,.,(三)蛋白质序列比对的替换计分矩阵,等价矩阵遗传密码矩阵(GCM)疏水性矩阵(hydrophobic matrix)PAM矩阵BLOSUM矩阵,.,PAM矩阵是从蛋白质序列的全局比对结果推导出来的,而BLOSUM 矩阵则是从蛋白质序列块(短序列)比对推导出来的。,PAM/BLOSUM矩阵编号与序列亲缘关系的
5、比较,.,二、双序列全局比对,动态规划算法的思想,a,b是使用某一字符集的序列(DNA 或蛋白质序列);m=a的长度;n=b的长度;S(i,j)是按照某替换计分矩阵得到的前缀a1.i与b1.j最大相似性得分;,.,w(c,d)是字符c和d按照替换计分矩阵计算的得分。可按照规则建立得分矩阵:S(i,0)=0,0 i mS(0,j)=0,0 j n,S(i-1,j-1)+w(ai,bj)匹配或错配S(i,j)=max S(i-1,j)+w(ai,-)插入 S(i,j-1)缺失不罚分,.,例如,对于序列a=ACACACTA,序列b=AGCACACA,计分规则w(匹配)=+2;w(a,-)=w(-,b
6、)=w(失配)=-1,.,得分矩阵,.,三、双序列局部比对,处理子序列与完整序列(或短序列与长序列)比对的一般过程是:设短序列a和长序列b,它们的长度分别为La和Lb,比对是在b序列中寻找La长度的a序列的过程。,.,四、多序列全局比对,多序列比对主要涉及四个要素:选择一组能进行比对的序列(要求是同源序列);选择一个实现比对与计分的算法与软件;确定软件的参数;合理地解释比对的结果;,与双序列比对一样,多序列比对也有全局比对和局部比对。,.,(一)动态规划法进行多序列比对,(A)计算三个序列间的一个比对单元(i,j,k)依赖于其7个前导项;(B)计算u=ATGTTAT,v=ATCGTAC,w=A
7、TGC三序列比对的三维得分矩阵。,计算三序列比对,.,(二)渐进多序列比对,三个序列的配对比对未必能组合成一个多序列比对,.,对于接近或超过100个序列的多序列比对,渐进多序列比对具有较高效率。最流行的渐进多序列比对软件是Clustal家族。,.,ClustalW有以下特点:首先,在比对中对每个序列赋予一个特殊的权值以降低高度近似序列的影响和提高相距遥远的序列的影响(如下图)。,ClustalW中对序列赋权的方法,.,其次,根据序列间进化距离的离异度(divergence)在比对的不同阶段使用不同的氨基酸替换矩阵;第三,采用了与特定氨基酸相关的空缺(gap)罚分函数,对亲水性氨基酸区域中的空缺
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 第二 序列 ppt 课件
链接地址:https://www.31ppt.com/p-2096009.html