《序列比对》PPT课件.ppt
《《序列比对》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《序列比对》PPT课件.ppt(166页珍藏版)》请在三一办公上搜索。
1、第五章 序列比对,2023/7/14,BIOINFORMATICS,1,本章提要:介绍了序列相似性的概念,列举了描述DNA和蛋白质序列相似性的计分矩阵。介绍了序列比较的基本操作“比对”的概念,以双序列比对为例详细学习了序列整体比对的Needleman-Wunsch算法,序列局部比对的Smith-Waterman算法。介绍了多序列比对的概念,简要介绍了几种多序列比对的算法,学习了一个常用的多序列比对软件ClustalW的使用和用途。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,2,序列比较是生物信息学中最基本、最重要的操作,通过序列比较可以发现生物序列中的功能、结构和进
2、化的信息。序列比较的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,3,在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。研究序列相似性的目的之一是,通过相似的序列得到相似的结构或相似的功能。通过比较未知序列与已知序列(尤其是功能和结构已知的序列)之间的相似性,可以很容易地预测未知序列的功能。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,4,这种方法在大多数情况下是成功的,当然,
3、也存在着这样的情况,即两条序列几乎没有相似之处,但分子却折叠成相同的空间形状,并具有相同的功能。这里先不考虑空间结构或功能的相似性,仅研究序列的相似性。研究序列相似性的另一个目的是通过序列的相似性,判别序列之间的同源性,推测序列之间的进化关系。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,5,序列比较可以分为4种情况:(1)、假设有两条长度相近的、来自同一个字母表的序列,它们之间非常相似,仅仅有一些细微的差别,例如字符的插入、字符的删除和字符替换,要求找出这两条序列的差别。这种操作实际应用比较多,例如,有两个实验室同时测定某个基因的DNA序列,其结果可能不一样,需要通
4、过序列比较来比较实验结果。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,6,(2)、假设有两条序列,要求判断是否有一条序列的前缀与另一条序列的后缀相似,如果是,则分别取出前缀和后缀。该操作常用于大规模DNA测序中序列片段的组装。(3)、假设有两条序列,要求判断其中的一条序列是否是另一条序列的子序列。这种操作常用于搜索特定的序列模式。(4)、假设有两条序列,要求判断这两条序列中是否有非常相似的子序列。这种操作可用于分析保守序列。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,7,当然,进行序列比较时,往往还需要说明是采取全局比较,还是采取局部比较
5、。全局比较是比较两条完整的序列,而局部比较是找出最大相似的子序列。本章着重介绍通用的序列比较方法。了解序列比较的原理对于正确、合理、灵活地使用相关生物信息学资源和软件有重要的指导意义。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,8,5.1序列的相似性,5.1.1 几个基本概念,序列的相似性可以是定量的数值,也可以是定性的描述。相似度是一个数值,反映两条序列的相似程度。关于两条序列之间的关系,有许多名词,如相同、相似、同源、同功、直系同源、并系同源等。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,9,在很多时候,往往通过一个简单序列相似性的比
6、较就可以对未知序列进行初步的功能预测,为后续实验确定初步的研究方向。本节将主要讲述如何采用生物信息学技术对核酸序列进行较为全面的分析。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,10,在进行序列比较时经常使用“同源”(homology)和“相似”(similarity)这两个概念,这是两个经常容易被混淆的不同概念。两条序列同源是指它们具有共同的祖先。在这个意义上,无所谓同源的程度,两条序列要么同源,要么不同源。而相似则是有程度的差别,如两条序列的相似程度达到30或60。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,11,一般来说,相似性很高
7、的两条序列往往具有同源关系;但也有例外,即两条序列的相似性很高,但它们可能并不是同源序列,这两条序列的相似性可能是由随机因素所产生的,这在进化上称为“趋同”(convergence),这样一对序列可称为同功序列。直系同源(orthologous)序列是来自于不同种属的同源序列,而并系同源(paralogous)序列则是来自于同一种属的序列,它是由进化过程中的序列复制而产生的。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,12,5.1.2 点标方法分析两序列间的相似性,点标(dot plot)是两序列对位排列中最基本也是最直观的方法。设序列A和B的长度不同,但很接近。我
8、们可以用二维坐标来标定每个位点上的对位情况。如图5-1所示,序列A为X轴,序列B为Y轴。如AiBj,,坐标(i,j)处赋值为“*”,其余赋值为“空白”。逐个比较所有的字符对,最终形成点阵列。,图5-1 序列比对的点阵图方式,2023/7/14,BIOINFORMATICS,数理与生物工程学院,14,显然,如果两条序列完全相同,则在点矩阵主对角线的位置都有标记;如果两条序列存在相同的子串,则对于每一个相同的子串对,有一条与对角线平行的由标记点所组成的斜线,如图5.2中的斜线代表相同的子串“ATCC;而对于两条互为反向的序列,则在反对角线方向上有标记点组成的斜线,如图5.3所示。,图5-2 相同子
9、串点阵图,图5-3 反向序列点阵图,图5-4 多个相同连续子串序列的点阵图,2023/7/14,BIOINFORMATICS,数理与生物工程学院,18,除非已经知道待比较的序列非常相似,一般先用点矩阵方法比较,因为这种方法可以通过观察阵列的对角线迅速发现可能的序列比对。两条序列中有很多匹配的字符对,因而在点矩阵中会形成很多点标记。当对比较长的序列进行比较时,这样的点阵图很快会变得非常复杂和模糊。使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,19,假设窗口大小为10,相似度阈值为8。首先,将X轴序列的第110个
10、字符与Y轴序列的第110个字符进行比较。如果在第一次比较中,这10个字符中有8个或者8个以上相同,那么就在点阵空间(1,1)的位置画上点标记。然后窗口沿X轴向右移动一个字符的位置,比较X轴序列的第2 11个字符与Y轴序列的第110个字符。不断重复这个过程,直到X轴上所有长度为10的子串都与Y轴第110个字符组成的子串比较过为止。然后,将Y轴的窗口向上移动一个字符的位置,重复以上过程,直到两条序列中所有长度为10的子串都被两两比较过为止。基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且可以明确地指出两条序列间具有显著相似性的区域。,2023/7/14,BIOINFORMATICS,数理与
11、生物工程学院,20,以上讨论了如何利用单元矩阵来构建点阵图。更加复杂的点阵图可基于不同的计分规则而构建。这些计分规则规定了不同残基之间相似性程度的分值。例如,可以根据不同残基之间在进化关系、空间结构、理化性质等方面的相似性来规定它们之间的相似性分数值。在这种情况下,由于点阵图不只是简单的稀疏矩阵,那些非主对角线点的信号和噪声同时得到放大,所以噪声过滤就变得十分重要。常用的方法是引入滑动窗口作为平滑函数提高点阵图的信噪比。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,21,5.1.3 描述相似性的记分矩阵,如果序列比较仅仅取决于序列间严格一致的区域,那么我们可以将其转化
12、为一种极为简单的程序。然而,大多数序列对位排列不是仅仅限制在子序列的范围内,而是涉及全长序列的比较。有时,也不能简单理解为如何减少间隔的数目,而要同时考虑对位排列后序列的生物学意义。例如,某些氨基酸有时应放在非严格一致的位置。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,22,记分矩阵方法(scoring matrix)被广泛应用于评价序列对位排列的质量。通常使用得分()、无分(0)或罚分(-)来进行综合评价。考虑未匹配和间隔的罚分以及权重不均衡等因素,记分矩阵就更加复杂。人们已提出各种各样的记分矩阵来进行不同目的序列对位排列。,2023/7/14,BIOINFORM
13、ATICS,数理与生物工程学院,23,不同类型的字符替换,其代价或得分是不一样的,特别是对于蛋白质序列。某些氨基酸可以很容易地相互取代而不用改变它们的理化性质。例如,考虑这样两条蛋白质序列,其中一条在某一位置上是丙氨酸,如果该位点被替换成另一个较小且疏水的氨基酸,比如缬氨酸,那么对蛋白质功能的影响可能较小;如果被替换成较大且带电的残基,比如赖氨酸,那么对蛋白质功能的影响可能就要比前者大。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,24,直观地讲,比较保守的替换比起较随机替换更可能维持蛋白质的功能,且更不容易被淘汰。因此,在为比对打分时,我们可能更倾向对丙氨酸与缬氨酸
14、的比对位点给予一定的奖励,而对于丙氨酸与那些大而带电氨基酸(比如赖氨酸)的比对位点则相反。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,25,理化性质相近的氨基酸残基之间替换的代价显然应该比理化性质相差甚远的氨基酸残基替换得分高,或者代价小。同样,保守的氨基酸替换得分应该高于非保守的氨基酸替换。这样的打分方法在比对非常相近的序列以及差异极大的序列时,会得出不同的分值。这就是提出得分矩阵(或者称为取代矩阵)的原由。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,26,在得分矩阵中,详细地列出各种字符替换的得分,从而使得计算序列之间的相似度更为合理
15、。在比较蛋白质时,我们可以用得分矩阵来增强序列比对的敏感性。得分矩阵是序列比较的基础,选择不同的得分矩阵将得到不同的比较结果,而了解得分矩阵的理论依据将有助于在实际应用中选择合适的得分矩阵。以下介绍一些常用的得分矩阵或代价矩阵。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,27,5.1.3.1 核酸得分矩阵,设核酸序列所用的字母表为A=A,C,G,T。(1)等价矩阵 等价矩阵(见表5-1)是最简单的一种得分矩阵,其中,相同核苷酸匹配的得分为“1”,而不同核苷酸的替换得分为“0”(没有得分)。,2023/7/14,BIOINFORMATICS,28,表5-1 等价矩阵,
16、2023/7/14,BIOINFORMATICS,29,(2)BLAST矩阵 BLAST是目前最流行的核酸序列比较程序,表5-2是其得分矩阵。这也是一个非常简单的矩阵,如果被比较的两个核苷酸相同,则得分为“5”,反之得分为“-4”。,表5-2 BLAST矩阵,2023/7/14,BIOINFORMATICS,数理与生物工程学院,30,(3)转换颠换矩阵 核酸的碱基按照环结构分为两类,一类是嘌呤(腺嘌呤A,鸟嘌呤G),它们有两个环;另一类是嘧啶(胞嘧啶C,胸腺嘧啶T),它们的碱基只有一个环。如果DNA碱基的变化(碱基替换)保持环数不变,则称为转换(transition),如AG,CT;如果环数发
17、生变化,则称为颠换(transversion),如AC,AT等。在进化过程中,转换发生的频率远比颠换高,而表5-3所示的矩阵正好反映了这种情况,其中转换的得分为“-1”,而颠换的得分为“-5”。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,31,表5-3 转移矩阵,2023/7/14,BIOINFORMATICS,32,蛋白质得分矩阵,表5-4给出了20种氨基酸的英文缩写:,表5-4 20种氨基酸的英文缩写,2023/7/14,BIOINFORMATICS,数理与生物工程学院,33,(1)等价矩阵,其中,Rij代表得分矩阵元素,i、j分别代表字母表第i个和第j个字符。
18、,2023/7/14,BIOINFORMATICS,数理与生物工程学院,34,(2)遗传密码矩阵GCM GCM矩阵通过计算一个氨基酸残基转变到另一个氨基酸残基所需的密码子变化数目而得到,矩阵元素的值对应于代价。如果变化一个碱基,就可以使一个氨基酸的密码子改变为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1;,2023/7/14,BIOINFORMATICS,数理与生物工程学院,35,如果需要两个碱基的改变,则替换代价为2;以此类推(见表5-5)。注意Met到Tyr的转变是仅有的密码子三个位置都发生变化的转换。在表5-5中,Glx代表Gly、Gln或Glu,而Asx则代表Asn或Asp,X代
19、表任意氨基酸。GCM矩阵常用于进化距离的计算,其优点是计算结果可以直接用于绘制进化树,但是它在蛋白质序列比对尤其是相似程度很低的序列比对中很少被使用。,表5-5 遗传密码矩阵GCM,2023/7/14,BIOINFORMATICS,数理与生物工程学院,37,(3)疏水矩阵 该矩阵(见表5-6)是根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。若一次氨基酸替换疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低。,表5-6 蛋白质疏水矩阵,2023/7/14,BIOINFORMATICS,数理与生物工程学院,39,(4)PAM矩阵 为了得到得分矩阵,更常用的方法是统计自然界中各种氨基酸残
20、基的相互替换率。如果两种特定的氨基酸之间替换发生得比较频繁,那么这一对氨基酸在得分矩阵中的互换得分就比较高。PAM矩阵就是这样一种得分矩阵。PAM矩阵是第一个广泛使用的最优矩阵,它是基于进化原理的,建立在进化的点接受突变模型PAM(point accepted mutation)基础上,通过统计相似序列比对中的各种氨基酸替换发生率而得到该矩阵。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,40,Dayhoff和她的同事们研究了71个相关蛋白质家族的1572个突变,发现蛋白质家族中氨基酸的替换并不是随机的。由此断言一些氨基酸的替换比其他替换更容易发生,其主要原因是这些替
21、换不会对蛋白质的结构和功能产生太大的影响。如果氨基酸的替换是随机的,那么,每一种可能的取代频率仅仅取决于不同氨基酸出现的背景频率。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,41,然而,在相关蛋白质中,存在取代频率大大地倾向于那些不影响蛋白质功能的取代。换句话说,这些点突变已经被进化所接受。这意味着,在进化历程上,相关的蛋白质在某些位置上可以出现不同的氨基酸。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,42,一个PAM就是一个进化的变异单位,即1的氨基酸改变。但是,这并不意味着经过100次PAM后,每个氨基酸都发生变化,因为其中一些位置可
22、能会经过多次改变,甚至可能变回到原先的氨基酸。因此,另外一些氨基酸可能不发生改变。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,43,PAM有一系列的替换矩阵,每个矩阵用于比较具有特定进化距离的两条序列。例如,PAM-120矩阵用于比较相距120个PAM单位的序列。一个PAM-N矩阵元素(,j)的值反映两条相距N个PAM单位的序列中第i种氨基酸替换第j种氨基酸的概率。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,44,从理论上讲,PAM-0是一个单位矩阵,主对角线上的元素值为1,其他矩阵元素的值为0。其他PAM-N矩阵可以通过统计计算而得到。
23、首先针对那些确信是相距一个PAM单位的序列进行统计分析,得到PAM-1矩阵。PAM-1矩阵对角线上的元素值接近于1,而其他矩阵元素值接近于0。例如,可以按下述方法构建PAM-1矩阵。首先,构建一个序列间相似度很高(通常大于85)的比对。接着,计算每个氨基酸j的相对突变率mj。相对突变率就是某种氨基酸被其他任意氨基酸替换的次数。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,45,比如,丙氨酸的相对突变率是通过计算丙氨酸与非丙氨酸残基比对的次数来得到。然后,针对每个氨基酸对i和j,计算氨基酸j被氨基酸i替换的次数。最后,将以上替换次数除以对应的相对替换率,利用每个氨基酸出
24、现的频度对其进行标准化,并将以上计算结果取常用对数,于是得到了PAM-1矩阵中的元素PAM-1(i,j)。这种矩阵被称作对数几率矩阵(log odds matrix),因为其中的元素是根据每个氨基酸替换率的对数值来得到的。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,46,将PAM-1自乘N次,可以得到矩阵PAM-N。虽然Dayhoff等人只发表了PAM-250,但潜在的突变数据可以外推至其他PAM值,产生一组矩阵。可以根据待比较序列的长度以及序列间的先验相似程度来选用特定的PAM矩阵,以发现最适合的序列比对。一般,在比较差异极大的序列时,通常在较高的PAM值处得到最
25、佳结果,比如在PAM-200到PAM-250之间,而较低值的PAM矩阵一般用于高度相似的序列。实践中用得最多的且比较折中的矩阵是PAM-250。,表5-7 Dayhoff PAM 250记分矩阵,2023/7/14,BIOINFORMATICS,数理与生物工程学院,48,(5)BLOSUM矩阵 不少情况下Dayhoff PAM记分矩阵可能失效,因为其置换速率是通过至少具有85一致性的序列对位排列所获得的。那些进化距离较远的矩阵是推算出来而不是直接计算得到的,其准确率受到一定限制,这就需要使用新的记分矩阵。,2023/7/14,BIOINFORMATICS,数理与生物工程学院,49,BLOSUM
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列比对 序列 PPT 课件
链接地址:https://www.31ppt.com/p-5505418.html