分子进化分析讲解课件.ppt
第七章 分子进化分析(Molecular Evolution Analysis),第七章 分子进化分析,内容,分子进化分析介绍 系统发育树重建方法 常用分子进化与系统发育分析的软件,内容 分子进化分析介绍,第一节 分子进化分析介绍,进化:是一种不断改进的过程。“每个生物每时每刻都在为生存进行反复的斗争,如果在复杂多变的生存条件下该生物仍然能够不断改进自己,那么其将有较大的生存可能性,并被自然选择所保留。被自然选择保留下来的物种都倾向于繁殖其已经被改进的新的生命形式” -特种起源,第一节 分子进化分析介绍进化:是一种不断改进的过程。,18世纪之前,神创论和物种不变论。18世纪,相信物种是变化的。拉马克用环境作用的影响、器官的用进废退和获得性的遗传等原理解释生物进化过程,创立了第一个比较严整的进化理论。1859年达尔文发表物种起源,论证了地球上现存的生物都由共同祖先发展而来,并提出自然选择学说以说明进化的原因,从而创立了科学的进化理论。,18世纪之前,神创论和物种不变论。,20世纪30年代,综合进化论,综合了细胞遗传学、群体遗传学以及古生物学等学科的成就,进一步发展了进化理论。20世纪60年代末,分子进化中性学说,认为种内和种间大多数可见差异是适合度很小的随机突变的固定所决定的。,分子进化分析讲解,生物学家:We have a dream,Tree of Life: 重建所有生物的进化历史并以系统树的形式加以描述,生物学家:We have a dreamTree of L,梦想走进现实:How?,比较形态学和比较生理学:确定大致的进化框架 细节存很多的争议,最理想的方法:化石! 零散、不完整,梦想走进现实:How?比较形态学和比较生理学:确定大致的进化,分子进化分析讲解,梦想走进现实:How?,第三种方案:分子进化 1964年,Pauling等提出分子进化理论: (1) 生命起源:有机分子由简单向复杂演变 (2) 生物进化:构成生物体的生物大分子如蛋白质、核酸的演变。 基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息 意义:分子进化的研究可以为生物进化过程提供佐证,为深入研究进化机制提供重要依据。,梦想走进现实:How?第三种方案:分子进化, 从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系 tree of life,物种分类 大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,进行大分子功能预测 进化速率分析:例如,HIV的高突变性,哪些位点易发生突变?,分子进化研究的目的, 从物种的一些分子特性出发,构建系统发育树,进而了解物种之,Tree of Life: 16S rRNA,真细菌,真核生物,古生菌,Tree of Life: 16S rRNA真细菌 真核生,Out of Africa,53个人的线粒体基因组(16,587bp),人类迁移的路线,非洲人相对其他大陆上的人类在基因上极为多样化,随着距非洲距离越来越长,遗传多样性的衰退程度,正好沿着人类早期迁徙的路线慢慢增大。,Out of Africa53个人的线粒体基因组(16,58,分子进化分析讲解,系统发育树:描述一组对象进化历史的一种图表。分类单元:用来构建系统发育树的对象。可以是基因、蛋白序列,或者是序列之外的数据(形态特征、酶切位点等)系统发育树是一种二叉树。由一系列节点(nodes)和分支(branches )组成,其中每个节点代表一个分类单元(物种或序列),而节点之间的连线代表物种之间的进化关系。,一、系统发育树(Phylogenetic tree),系统发育树:描述一组对象进化历史的一种图表。一、系统发育树(,树的节点又分为外部节点(terminal node)和内部节点(internal node)。外部节点:代表实际观察到的分类单元。内部节点:又称为分支点,代表分类单元进化历程中的祖先。,分支/世系,节点,树的节点又分为外部节点(terminal node)和内部节,1. 系统发育树的分类,1.1 依据树是否有根可分为:有根树:从最早共同祖先(即根)开始,随着时间的连续分歧事件引起的一组相关对象的分歧每个分支的进化方向是确定的无根树:只表示分类单元之间的关系,不鉴别最早共同祖先不清楚内部分支的祖先物种是从哪里来的,进化方向不清楚,1. 系统发育树的分类1.1 依据树是否有根可分为:,archaea,archaea,archaea,bacteria outgroup,root,eukaryote,eukaryote,eukaryote,eukaryote,无根树,archaea,archaea,archaea,Monophyletic group(单源支),Monophyleticgroup,有根树,系统发育树的种类: 有根树、无根树,archaeaarchaeaarchaeaeukaryote, 外围支条件:序列必须与剩余序列关系较近,但外围支序列与其他序列间的差异必须比其他序列之间的差异更显著,如何确定树根? 引入外围支(Outgroup)辅助定位树根。,选择外围支:,Rooted by outgroup, 外围支条件:序列必须与剩余序列关系较近,但外围支序列与其,分子进化分析讲解,1.2 依据进化关系可分为:基因树:用于确定大基因家族内基因或蛋白进化关系的树。物种树:代表一个物种或群体进化历史的系统发育树当不同物种的直系同源基因序列被用来确定物种之间的关系时,会用物种名标记分类单元,树称为物种数。,1.2 依据进化关系可分为:,2. 系统发育树的表示方法,有三种基本的表示方法:进化分支树(Cladogram):展示了分类单元之间的家系关系,但没有任何时间和分歧程度。即无支长信息。,2. 系统发育树的表示方法有三种基本的表示方法:,加性树(additive tree):除了展示家系关系,用分支长度度量进化分歧。分支长度的单位是任意的,与位点变异数成比例。等距离树: 除了加性树的属性外,它假设所有分支有同样的变异速率(分子钟)。,加性树(additive tree):除了展示家系关系,用分,二、系统发育树性质,如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元。 如果找不到可以作为树根的单元,则系统发生树是无根树。 从根节点出发到任何一个节点的路径指明进化时间或者进化距离。,二、系统发育树性质如果是一棵有根树,则树根代表在进化历史上,对于给定的分类单元数,有很多棵可能的系统发生树,但是只有一棵树是正确的。系统发育分析的目标 寻找这棵正确的树,对于给定的分类单元数,有很多棵可能的系统发生树,但是只有一棵,第二节 系统发育树的构建,分子进化分析介绍 系统发育树重建方法 常用分子进化与系统发育分析的软件,第二节 系统发育树的构建 分子进化分析介绍,一 、系统发育树重建分析步骤,多序列比对(自动比对,手工比对),选择建树方法及取代模型,建立进化树,进化树评估,选择数据(核酸/蛋白质,外围支),一 、系统发育树重建分析步骤多序列比对(自动比对,手工比对),二、系统发育树的构建,从多重序列比对到构建进化树有多种算法,可分两大类:基于距离的方法首先通过各个序列之间的比较,根据一定的假设(进化距离模型)推导出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离。基于特征的方法不计算序列之间的距离,而是将序列中有差异的位点作为单独的特征,并依据这些特征来建树。,二、系统发育树的构建从多重序列比对到构建进化树有多种算法,可,基于距离的方法非加权分组平均法(UPGMA)最小近乎距离(ME)邻近法(NJ)基于特征的方法最大简约法(MP)最大似然法(ML)Bayesian 计算速度距离法 最大简约法 最大似然法,基于距离的方法,1. 最大简约(MP),最大简约法(maximum parsimony)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。 最大简约法的理论基础是奥卡姆(Ockham)原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,计算出所需替代数最小的那个拓扑结构,作为最优树。,1. 最大简约(MP)最大简约法(maximum par,1) 能将所有可能的树区别出来的位点2) 指那些至少存在2个不同碱基/氨基酸,且每个不同碱基/氨基酸至少出现两次的位点,信息位点 (Sites are informative),例: 1,2,3,4四条序列代表4个分类单元,1) 能将所有可能的树区别出来的位点信息位点 (Sites,分子进化分析讲解,上例,Position 5, 7, 9为信息位点基于position 5的三个MP: Tree 1长4,Tree 2& 3长2同理,综合所有信息位点: Tree 1长4,Tree 2长5,Tree 3长6计算结果:MP tree的最优结果为Tree 1,上例Position 5, 7, 9为信息位点,1. 距离法,又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系,计算序列的距离,建立距离矩阵,通过距离矩阵建进化树,1. 距离法又称距离矩阵法,首先通过各个物种之间的比较,根据,简单的距离矩阵,简单的距离矩阵,由进化距离构建进化树的方法有很多,常见有: Fitch-Margoliash Method(FM法):对短支长非常有效 Neighbor-Joining Method (NJ法/邻接法): 求最短支长,最通用的距离方法 Unweighted Pair Group Method (UPGMA法),通过矩阵建树的方法,由进化距离构建进化树的方法有很多,常见有:通过矩阵建树的方法,示例:FM法,示例:FM法,分成三组:D, E及ABC。 计算距离矩阵,分成三组:D, E及ABC。,分子进化分析讲解,将DE合并,ABC单列,计算距离矩阵,分成三组:C, DE及AB。计算距离矩阵,将DE合并,ABC单列,计算距离矩阵分成三组:C, DE及A,分子进化分析讲解,分子进化分析讲解,3. 最大似然法(ML),选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树。,似然值最大,即SUM最大的拓扑树则为最优树。,3. 最大似然法(ML) 选取一个特定的替代模型来分析给定的,三、构建进化树的一般原则,1. 可靠的待分析数据2. 准确的多序列比对3. 选择合适的建树方法:A. 序列相似程度高,MP(最大简约法)B. 序列相似程度较低,ML(最大似然法)C. 序列相似程度太低,无意义4. 一般采用两种及以上方法构建进化树,无显著区别可接受,三、构建进化树的一般原则1. 可靠的待分析数据,构建进化树的一般原则,构建进化树的一般原则,进化树的可靠性分析: 自展法 (Bootstrap Method) (统计方法) 。从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列重复上面的过程,得到多组新的序列对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性,进化树的可靠性分析,进化树的可靠性分析: 自展法 (Bootstrap Me,第三节 常用分子进化与系统发育分析的软件,第三节 常用分子进化与,一、常见的分子进化分析程序,1. Phylip 由华盛顿大学遗传学系开发,是一个免费的系统发育分析软件包(版本3.69),可以通过以下地址下载。 http:/evolution.gs.washington.edu/phylip.html2. PAUP* 最早是在苹果机上开发的具有菜单界面的进化分析软件,早先版本只有MP法,后续版本已经包括距离法和ML法,现今有mac,win,linux等多种版本,该软件不是免费软件。,一、常见的分子进化分析程序1. Phylip,软件名称网址说明PHYLIPhttp:/evolution,软件名称网址说明MOLPHYhttp:/www.ism.a,二、Phylip软件包介绍,Phylip包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。 Phylip有多种不同平台的版本包括Windows,Macintosh,DOS,Linux,Unix和OpenVMX)。,二、Phylip软件包介绍 Phylip包含了35个独立,Phylip是目前最广泛使用的系统发生分析程序,主要包括以下几个程序组:分子序列组,距离矩阵组,基因频率组,离散字符组,进化树绘制组。,分子序列组:蛋白质序列:protpars,proml,promlk, protdist核酸序列:dnapenny,dnapars, dnamove,dnaml,dnamlk, dnainvar,dnadist,dnacomp,Phylip是目前最广泛使用的系统发生分析程序,主要包,距离矩阵组:Fitch,kitsch,neighbor基因频率组:Gendist,contml离散字符组: Pars,mix,move,penny,dollop,dolmove,dolpenny,clique,factor进化树绘制组:drawtree,drawgram其他:restdist,restml,seqboot,contrast treedist,consense,retree,距离矩阵组:Fitch,kitsch,neighbor,分子进化分析讲解,分子进化分析讲解,分子进化分析讲解,Phylip安装,分析程序,帮助文件,Phylip安装分析程序帮助文件,Exe文件夹内容,Exe文件夹内容,三、Phylip软件包的应用,1. 根据分析数据,选择适当的程序 如果分析的是DNA数据,就在核酸序列分析类中选择程序(dnapenny,dnapars, dnamove,dnaml,dnamlk, dnainvar,dnadist,dnacomp ) 如果分析的是离散数据,如突变位点数据,就在离散字符组里面选择程序。,三、Phylip软件包的应用1. 根据分析数据,选择适当的,2.选择适当的分析方法 如分析的是DNA数据,可以选择简约法(dnapars),似然法(dnaml,dnamlk),距离法等(dnadist)。3.进行分析 选择好程序后,执行,读入分析数据,选择适当的参数,进行分析,结果自动保存为outfile,outtree。,2.选择适当的分析方法,Outfile是一个记录文件,记录了分析的过程和结果,可以直接用文本编辑器(如写字板)打开。outtree是分析结果的树文件,可以用phylip提供的绘树程序打开查看,也可以用其他的程序来打开,如treeview。,Outfile是一个记录文件,记录了分析的过程和结果,可,构建核酸树的过程,Alignment.phy,kitsch.exe,fitch.exe,neighbor.exe,outtree,outfile,consen-se.exe,构建核酸树的过程Alignment.phykitsch.ex,构建蛋白质树的过程,Alignment.phy,kitsch.exe,fitch.exe,neighbor.exe,outtree,outfile,consen-se.exe,构建蛋白质树的过程Alignment.phykitsch.e,(1).进入EXE文件夹,点击SEQBOOT软件,输入DNA8.phy文件名,回车后,输Y确认参数。并在Random number seed (must be odd) ?的下面输入一个4N+1的数字如5, 程序开始运行,并在EXE文件夹中产生文件outfile.,进化树的可靠性分析: 自展法 (Bootstrap Method),四、实例:用Phylip 软件推导进化树,(1).进入EXE文件夹,点击SEQBOOT软件,输入DNA,分子进化分析讲解,(2). 得到一个文件outfile,把文件outfile改名为infile, infile可用记事本打开,内容如下:,(2). 得到一个文件outfile,把文件outfile改,(3). 点击DNADIST(PRODIST for 蛋白序列)程序。输入M更改参数,输入D选择data sets, 输入100。输Y确认参数, 程序开始运行,并在EXE文件夹中产生outfile。,建树方法:距离矩阵法推测进化树,(3). 点击DNADIST(PRODIST for 蛋白序,(4). 将原先infile文件名改为infile1,再将outfile文件名改为infile。(5). 在EXE文件夹中选择通过距离矩阵推测进化树的算法:点击NEIGHBOR程序(采用的是邻接法(N-J)和UPGMAD相结合的算法), 输入M更改参数,输入D选择data sets, 输入100, 输入奇数种子5, 输Y确认参数, 程序开始运行,并在EXE文件夹中产生outfile和outtree两个结果输出。,(4). 将原先infile文件名改为infile1,,(6).将EXE文件夹中的outfile文件名改为outfile1,以避免被新生成的outfile 文件覆盖。点击CONSENSE程序。输入Y确认设置。EXE文件夹中新生成outfile和outtree。(7).将EXE文件夹中的intree文件名改为intree1,将outtree改intree。点击DRAWTREE程序,输入font1文件名,作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。,注: 由consence获得最优树(Bootstrap)。,(6).将EXE文件夹中的outfile文件名改为outfi,(8). 点击DRAWGRAM程序,输入font1文件名,作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。,(8). 点击DRAWGRAM程序,输入font1文件名,作,Treeview是一个读进化树免费软件,此软件可以根据Phylip得到的树输出文件,做出无根树,有根树,还能在树中显示进化距离。,TREEVIEW,Treeview是一个读进化树免费软件,此软件可以根据Phy,http:/evolution.gs.washington.edu/phylip.html,http:/evolution.gs.washington,小结,本章讲述了分子进化的相关概念,进化树的定义,构建系统发育树的常用算法,系统发育树构建的步骤和原则,构建进化树的常用软件。着重讲述使用Phylip软件构建进化树的构成以及参数的含义和设置。,小结本章讲述了分子进化的相关概念,进化树的定义,构建系统发育,习题,1.氨基酸替代中为什么需要用泊松校正模型?2.为什么病毒在进化研究过程中有很重要作用?3.如何利用序列数据判断基因存在非中性进化?,习题1.氨基酸替代中为什么需要用泊松校正模型?,The End!Thanks.,The End!Thanks.,