mega操作过程-多序列比对、进化树.ppt
《mega操作过程-多序列比对、进化树.ppt》由会员分享,可在线阅读,更多相关《mega操作过程-多序列比对、进化树.ppt(173页珍藏版)》请在三一办公上搜索。
1、基础生物信息学及应用,王兴平,多序列比对分子进化分析系统发生树构建核酸序列的预测与鉴定酶切图谱制作引物设计,内 容,多序列比对,内容:多序列比对多序列比对程序及应用,第一节、多序列比对(Multiple sequence alignment),概念多序列比对的意义多序列比对的打分函数多序列比对的方法,1、概念,多序列比对(Multiple sequence alignment)align multiple related sequences to achieve optimal matching of the sequences.为了便于描述,对多序列比对过程可以给出下面的定义:把多序列比对看
2、作一张二维表,表中每一行代表一个序列,每一列代表一个残基的位置。将序列依照下列规则填入表中:(a)一个序列所有残基的相对位置保持不变;(b)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐(下表)。,表1 多序列比对的定义,表示五个短序列(I-V)的比对结果。通过插入空位,使5个序列中大多数相同或相似残基放入同一列,并保持每个序列残基顺序不变,2、多序列比对的意义,用于描述一组序列之间的相似性关系,以便了解一个分子家族的基本特征,寻找motif,保守区域等。用于描述一组同源序列之间的亲缘关系的远近,应用到分子进化分析中。序列同源性分析:是将待研究序列加入到一组与之
3、同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。其他应用,如构建profile,打分矩阵等,手工比对在运行经过测试并具有比较高的可信度的计算机程序(辅助编辑软件如bioedit,seaview,Genedoc等)基础上,结合实验结果或文献资料,对多序列比对结果进行手工修饰,应该说是非常必要的。为了便于进行交互式手工比对,通常使用不同颜色表示具有不同特性的残基,以帮助判别序列之间的相似性。计算机程序自动比对通过特定的算法(如穷举法,启发式算法等),由计算机程序自动搜索最佳的多序列比对状态。,3、多序列比对的方法,穷举法,穷举法(exhaustive alig
4、nment method)将序列两两比对时的二维动态规划矩阵扩展到多维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,对于计算机系统的资源要求比较高,一般只有在进行少数的较短的序列的比对的时候才会用到这个方法DCA(Divide-and-Conquer Alignment):a web-based program that is semiexhaustive/,启发式算法,启发式算法(heuristic algorithms):大多数实用的多序列比对程序采用启发式算法(heuristic algorithms),以降低运算复杂度。随着序列数量的增加,算法复杂性也不断增加。用O(
5、m1m2m3mn)表示对n个序列进行比对时的算法复杂性,其中mn是最后一条序列的长度。若序列长度相差不大,则可简化成O(mn),其中n表示序列的数目,m表示序列的长度。显然,随着序列数量的增加,序列比对的算法复杂性按指数规律增长。,第二节 多序列比对程序及应用,Progressive Alignment MethodIterative AlignmentBlock-Based AlignmentDNASTARDNAMAN,1、Progressive Alignment Method,Clustal:Clustal,是由Feng和Doolittle于1987年提出的。Clustal程序有许多版本
6、ClustalW(Thompson等,1994)是目前使用最广泛的多序列比对程序它的PC版本是ClustalX作为程序的一部分,Clustal 可以输出用于构建进化树的数据。,ClustalW 程序:ClustalW 程序可以自由使用在NCBI/EBI的FTP服务器上可以找到下载的软件包。ClustalW 程序用选项单逐步指导用户进行操作,用户可根据需要选择打分矩阵、设置空位罚分等。ftp:/pub/software/EBI的主页还提供了基于Web的ClustalW服务,用户可以把序列和各种要求通过表单提交到服务器上,服务器把计算的结果用Email返回用户(或在线交互使用)。http:/,Pr
7、ogressive Alignment Method,ClustalW 程序ClustalW对输入序列的格式比较灵活,可以是FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和GDE等,用户可以根据自己的需要选择合适的输出格式。用ClustalW得到的多序列比对结果中,所有序列排列在一起,并以特定的符号代表各个位点上残基的保守性,“*”号表示保守性极高的残基位点;“.”号代表保守性略低的残基位点。,Progressive Alignment Method,Clustal W 使用输入地址
8、:设置选项(next),Progressive Alignment Method,Clustal W 使用一些选项说明PHYLOGENETIC TREE有三个选项 TREE TYPE:构建系统发育树的算法,有四个个选择none、nj(neighbour joining)、phylip、distCORRECT DIST:决定是否做距离修正。对于小的序列歧异(10),选择与否不会产生差异;对于大的序列歧异,需做出修正。因为观察到的距离要比真实的进化距离低。IGNORE GAPS:选择on,序列中的任何空位将被忽视。详细说明参见 http:/,Progressive Alignment Method
9、,Clustal W 使用输入5个16S RNA 基因序列AF310602AF308147AF283499AF012090AF447394点击“RUN”,Progressive Alignment Method,Progressive Alignment Method,T-Coffee(Tree-based Consistency Objective Function for alignment Evaluation):Progressive alignment method In processing a query,T-Coffee performs both global and loc
10、al pairwise alignment for all possible pairs involved.A distance matrix is built to derive a guide tree,which is then used to direct a full multiple alignment using the progressive approach.Outperforms Clustal when aligning moderately divergent sequencesSlower than Clustal,Progressive Alignment Meth
11、od,PRALINE:web-based:First build profiles for each sequence using PSI-BLAST database searching.Each profile is then used for multiple alignment using the progressive approach.the closest neighbor to be joined to a larger alignment by comparing the profile scoresdoes not use a guide treeIncorporate p
12、rotein secondary structure information to modify the profile scores.Perhaps the most sophisticated and accurate alignment program available.Extremely slow computation.,Progressive Alignment Method,DbClustal:http:/igbmc.u-strasbg.fr:8080/DbClustal/dbclustal.htmlPoa(Partial order alignments):,2、Iterat
13、ive Alignment,PRRN:web-based program/Uses a double nested iterative strategy for multiple alignment.Based on the idea that an optimal solution can be found by repeatedly modifying existing suboptimal solutions,Block-Based Alignment,DIALIGN2:a web based program It places emphasis on block-to-block co
14、mparison rather than residue-to-residue comparison.The sequence regions between the blocks are left unaligned.The program has been shown to be especially suitable for aligning divergent sequences with only local similarity.,Block-Based Alignment,Match-Box:web-based server Aims to identify conserved
15、blocks(or boxes)among sequences.The server requires the user to submit a set of sequences in the FASTA format and the results are returned by e-mail.,DNASTARDNAMAN,软件:,分子进化分析系统发生树构建,本章内容:分子进化分析介绍系统发生树构建方法系统发生树构建实例,第一节 分子进化分析介绍,基本概念:系统发生(phylogeny)是指生物形成或进化的历史系统发生学(phylogenetics)研究物种之间的进化关系 系统发生树(phy
16、logenetic tree)表示形式,描述物种之间进化关系,分子进化研究的目的从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。蛋白和核酸序列通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律,分子进化分析介绍,分子进化分析介绍,分子进化研究的基础基本理论:在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论,Molecular clock 1965),实际情况:虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律,分子进化分析介绍,直系同源与旁系同源Orthologs(直系同源):Homologou
17、s sequences in different species that arose from a common ancestral gene during speciation;may or may not be responsible for a similar function.Paralogs(旁系同源):Homologous sequences within a single species that arose by gene duplication.。以上两个概念代表了两个不同的进化事件。用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。,分子进化分析介绍,分子进
18、化分析介绍,系统发生树(phylogenetic tree):又名进化树(evolutionary tree)已发展成为多学科交叉形成的一个边缘领域。包括生命科学中的进化论、遗传学、分类学、分子生物学、生物化学、生物物理学和生态学,又包括数学中的概率统计、图论、计算机科学和群论。闻名国际生物学界的美国冷泉港定量生物学会议于1987年特辟出进化树专栏进行学术讨论,标志着该领域已成为现代生物学的前沿之一,迄今仍很活跃。,分子进化分析介绍,分子进化分析介绍,系统发生树结构The lines in the tree are called branches(分支).At the tips of the
19、branches are present-day species or sequences known as taxa(分类,the singular form is taxon)or operational taxonomic units(运筹分类单位).The connecting point where two adjacent branches join is called a node(节点),which represents an inferred ancestor of extant taxa.The bifurcating point at the very bottom of
20、 the tree is the root node(根节),which represents the common ancestor of all members of the tree.A group of taxa descended from a single common ancestor is defined as a clade or monophyletic group(单源群).The branching pattern in a tree is called tree topology(拓扑结构).,分子进化分析介绍,有根树与无根树树根代表一组分类的共同祖先,分子进化分析介
21、绍,如何确定树根根据外围群:One is to use an outgroup(外围群),which is a sequence that is homologous to the sequences under consideration,but separated from those sequences at an early evolutionary time.根据中点:In the absence of a good outgroup,a tree can be rooted using the midpoint rooting approach,in which the midpo
22、int of the two most divergent groups judged by overall branch lengths is assigned as the root.,Rooted by outgroup,分子进化分析介绍,分子进化分析介绍,树形系统发生图(Phylograms):有分支和支长信息分支图(Cladograms)只有分支信息,无支长信息,第二节 系统发生树构建方法,Molecular phylogenetic tree construction can be divided into five steps:(1)choosing molecular mark
23、ers;(2)performing multiple sequence alignment;(3)choosing a model of evolution;(4)determining a tree building method;(5)assessing tree reliability.,第三节 系统发生树构建实例,系统发生分析常用软件(1)PHYLIP(2)PAUP(3)TREE-PUZZLE(4)MEGA(5)PAML(6)TreeView,(7)VOSTORG(8)Fitch programs(9)Phylo_win(10)ARB(11)DAMBE(12)PAL(13)Bionum
24、erics,其它程序见:,系统发生树构建实例,Mega 3下载地址,离散特征数据(discrete character data):即所获得的是2个或更多的离散的值。如:DNA序列某一位置是或者不是剪切位点(二态特征);序列中某一位置,可能的碱基有A、T、G、C共4种(多态特征);相似性和距离数据(similarity and distance data):是用彼此间的相似性或距离所表示出来的各分类单位间的相互关系。,核酸序列的预测和鉴定,内容:序列概率信息的统计模型核酸序列的预测与鉴定,第一节、序列概率信息的统计模型,One of the applications of multiple s
25、equence alignments in identifying related sequences in databases is by construction of some statistical models.Position-specific scoring matrices(PSSMs)Profiles Hidden Markov models(HMMs).,收集已知的功能序列和非功能序列实例(这些序列之间是非相关的),训练集(training set),测试集或控制集(control set),建立完成识别任务的模型,检验所建模型的正确性,对预测模型进行训练,使之通过学习后具
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- mega 操作过程 序列 进化
链接地址:https://www.31ppt.com/p-5439781.html