《序列比对》课件.ppt
第三章 序列比对,为什么要序列比对?,基于同源物鉴定的功能预测基本假设:序列的保守性 功能的保守性因为:1.蛋白质一般在三级结构的层面上执行功能;2.蛋白质序列的保守性决定于其编码DNA的保守性。,序列比对中的进化假设,1.所有的生物都起源于同一个祖先;2.序列不是随机产生,而是在进化上,不断发生着演变;3.基本假设:序列保守性 结构保守性注意:反之并不为真。结构保守性 序列保守性,contents,3.1 概述3.2 两条序列比对方法3.3 多条序列比对方法,3.1 概述,3.1.1 序列比对的概念3.1.2 生物序列之间的关系,序列比对(Sequence alignment),序列比对是序列相似性分析的常用方法,又称序列联配。通过将两个或多个核酸序列或蛋白序列进行比对,显示其中相似的结构域,这是进一步相似性分析的基础。通过比较未知序列与已知序列的一致性或相似性,可以预测未知序列功能。,3.1.1 序列比对的概念,两条序列比对(pairwise alignment),通过比较两条序列之间的相似区域和保守性位点,寻找二者之间可能的进化关系。,多重序列比对(multiple alignment),不同物种中,许多基因的功能保守,序列相似性较高,通过多条序列的比较,发现保守与变异的部分2.可构建HMM模型,搜索更多的同源序列3.构建进化的树的必须步骤4.比较基因组学研究5.两类:全局或局部的多序列比对,同源性和相似性,如果两个序列有一个共同的进化祖先,那么它们是同源的。这里不存在同源性的程度问题。这两条序列之间要么是同源的,要么是不同源的。所谓同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。同源蛋白质的氨基酸序列具有明显的相似性,这种相似性称为序列同源性。,同源性(homology),相似性(similarity),相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系的远近、甚至于结构与功能有什么联系。当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。,直系同源和旁系同源,直系同源(orthology)是指不同物种内的同源序列,它们来源于物种形成时的共同祖先基因。(1)在进化上起源于一个始祖基因并垂直传递(vertical descent)的同源基因;(2)分布于两种或两种以上物种的基因组;(3)功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;(4)结构相似;(5)组织特异性与亚细胞分布相似。,旁系同源(paralogy)基因是指同一基因组(或同一物种的基因组)中,由于始祖基因的加倍而横向/水平方向(horizontal)产生的几个同源基因。即:旁系同源是基因复制的结果,两份拷贝在一个物种的历史上时平行演化的。这样的基因就被称为旁系同源基因。,直系同源和旁系同源,直系与旁系的共性是同源,都源于各自的始祖基因。其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。,序列比对的数学模型,对序列从头到尾进行比较,试图使尽可能多的字符在同一列中匹配。适用于相似度较高且长度相近的序列如:Needleman-Wunsch算法,全局比对,局部比对,寻找序列中相似度最高的区域,也就是匹配密度最高的部分。适用于在某些部分相似度较高,而其他部位差异较大的序列。如:Smith-Waterman算法,序列比对的数学模型大体可以分为两类,一类从全长序列出发,考虑序列的整体相似性,即整体比对;第二类考虑序列部分区域的相似性,即局部比对。,局部相似性比对,局部相似性比对的生物学基础是蛋白质功能位点往往是由较短的序列片段组成的,这些部位的序列具有相当大的保守性,尽管在序列的其它部位可能有插入、删除或突变。此时,局部相似性比对往往比整体比对具有更高的灵敏度,其结果更具生物学意义。BLAST和FastA等常用的数据库搜索程序均采用局部相似性比对的方法,具有较快的运行速度,而基于整体相似性比对的数据库搜索程序则需要超级计算机或专用计算机才能实现。,3.2 两条序列比对方法,序列两两比对分析是最简单、最基本的对齐分析。三种方法:点阵分析法动态规划法:Needleman-Wunsch算法、Smith-Waterman算法词或K串法(BLAST or FASTA中应用),3.2.1采用Blast进行序列两两对齐分析3.2.2采用本地化软件进行两条序列比对,3.2.1 采用Blast进行序列两两对齐分析,Blast是一个局部比对搜索工具,用来确定一条查询序列和一个数据库的比对,最早的版本不引入间隙,但现在所用的版本已经允许比对中引入间隙。“Bl2Seq”是NCBI上Blast程序的一部分,允许两条序列之行局部双序列比对,使用这个程序执行蛋白质(或DNA序列)的双序列比对非常容易。,网络服务如NCBI的“bl2seq”程序,地址:http:/blast.ncbi.nlm.nih.gov/Blast.cgi,点!,特殊BLAST,蛋白质序列比对用blastp,DNA序列比对用blastn,例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对,粘贴sequence1,粘贴sequence2,竖线:一致性(identities),缺口(gap):不同之处,双序列比对的显著性:一致性百分比,核酸和蛋白质序列进行对库检索的结果中是否具有生物学意义是一个很重要的问题。蛋白质序列对齐分析得到的结论是:对于有70个氨基酸残基的比对,40%的氨基酸一致性(identities)是一个认为两个蛋白同源的合理阈值,即它们一般具有相类似的生物学性质;在此标准之下,两条蛋白质序列可能具有相似的功能,也可能是性质上完全不同的蛋白质。对于DNA序列需要具有75以上的同源性才可能具有潜在的生物学意义。,3.2.2 采用本地化软件进行两条序列比对,做多重比对分析的本地软件也可以做两两比对分析,如clustalX软件等。Clustal是一个单机版的基于渐进比对的多序列比对工具。其基本思想就是基于相似序列通常具有进化相关性的这一假设。当然,DNAStar、DNAMan等软件也可以进行比对。,生物软件网:http:/bio-,载入的序列必须是fasta格式,存储在记事本(.txt)中。,参数可以选择,或者默认。,Clustal比对后的结果,3.3 多条序列比对方法,3.3.1 序列对数据库的比对检索分析3.3.2 多重序列的本地化软件对齐3.3.3 Clustal比对结果的编辑,多重序列比对:用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。其他应用,如构建profile,打分矩阵等。,3.3.1 序列对数据库的比对检索分析,一条序列对整个数据库进行相似性分析,以发现其同源性是生物信息学分析中一个极重要的方面。本质上,这种分析方法类似于将序列两两对齐重复成百上千次。目前在单条序列对库检索中使用最广泛的程序是FASTA和BLAST。FASTA不会漏检较强的结果,但有时无法检出弱的但是具有显著性的匹配。BLAST(基本局域联配搜索工具,Basic Local Alignment Search Tool)只匹配连续序列,缺失片断将被分段显示。,以BLAST检索为例,BLAST是一个序列数据库搜索程序家族,BLAST检索的网络资源较多:http:/www.ncbi.nlm.nih.gov/BLASThttp:/www.ebi.ac.uk/blast2http:/blast.genome.jp/当然,也可以将数据库下载到本地进行本地Blast。前面讲的两两比对是一种特殊的blast。,基因组BLAST,基本blast,基本BLAST有5种。,粘贴序列,结果显示,结果显示,结果显示,3.3.2 多重序列的本地化软件对齐,例如:可采用ClustalX软件CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反映序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。,Clustal的渐进比对过程,在比对过程中,先对所有的序列进行两两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,并在每组之间进行比对,计算相似性分值。根据相似性分值继续分组比对,直到得到最终比对结果。在比对过程中,相似性程度较高的序列先进行比对而距离较远的序列添加在后面。,Clustal的工作原理,Clustal输入多个序列,快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。,采用邻接法(NJ)构建一个树(引导树),根据引导树,渐进比对多个序列。,Clustal的输入输出格式,输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。,将要比对的多个序列以Fasta格式保存,以多个物种的抗坏血酸过氧化物酶的的蛋白质序列进行比对为例,载入多个序列后,选择输出选项,选择输出格式。或者在比对完成之后,在“文件”中选择“序列另存为”,同样可以选择合适的输出格式。,选择“进行完全比对”,输出的文件路径自动与原始的序列文件的路径一致。,Clustal比对结果,星号:完全一致,峰:表示一致程度高谷:表示一致程度低,3.3.3 Clustal比对结果的编辑,Clustal比对之后的结果,可以采用其他软件进行编辑,如BioEdit软件、GeneDoc软件,但必须注意所用软件的输入文件的格式。BioEdit软件不能识别“.aln”格式,但可识别“.pir”或“.phy”格式文件。也可以采用一些在线的着色软件来编辑Clustal比对结果。如Boxshade软件,网址:http:/www.ch.embnet.org/software/BOX_form.html,本地软件编辑比对结果:以BioEdit软件为例,各种调整图形的参数可选。,相当于“复制”键,可黏贴到其他文件,如“word、PowerPoint”等,这是粘贴后的结果,(2)以GeneDoc为例,选择Clustal比对后的结果,其中的“.aln”文件,将其打开。当然,如果Clustal比对的之后,有将文件另存为其它格式,也可以打开,如“.PIR”、“phy”格式文件。,在“Edit”中选择“Select Blocks for copy”,即:选择某个区域用于复制。,选择了某个block后,再选择“copy selected blocks to”“metflie”等。相当于将所选的block复制了。然后再黏贴到word文件中。,复制到word中的结果。,在线的着色软件编辑clustal比对结果:以Boxshade为例,网址:http:/www.ch.embnet.org/software/BOX_form.html,输出格式:默认为Photoshop格式;可选RFT-New格式便于在word中操作。,一致序列:可选择用字母、符号来表示或者不显示一致序列。,输入格式选择“aln”,将clustal比对后的“.aln”文件用记事本打开,全选后黏贴,点击运行程序,点击下载,即可。,知识点,概念:同源性、相似性、一致性、直系同源、旁系同源、全局比对、局部比对、双序列比对的显著性熟悉BLAST的比对及对结果的解读熟悉ClustalX的使用及结果的编辑熟悉BioEdit等软件,