分子进化基础 (I)序列置换模型.ppt
分子进化基础(I)序列置换模型,Charles Darwin(1809 1882),存于Cambridge University Library,结婚的好处与坏处 I 不结婚的好处与坏处,1838年,中性进化学说创立者Motoo Kimura 木村资生(19241994),Nature 1968,217:624626,Kimura(1983)The Neutral Theory of Molecular Evolution.,8个蛋白质的进化速率,按Kimura 分子钟计算,一个长度为100aa的蛋白质平均每28x106 年出现一次变化,“As far as is known,synonymous mutations are truly neutral with respect to natural selection.”,King&Jukes,1969.Non-Darwinian Evolution.Science,164:788-798.,deleterious,advantages,deleterious,neutral,Kimura(1968)Nature 217 624-626,Kimura假设大多数的置换是中性的,或者说很小一部分变化是由于达尔文进化引起的,中性突变(等位基因)与野生型具有相同的适合度,分子进化的中性突变理论 在分子水平,大多数进化的变化和同一个物种中的大多数变异不是由于选择造成的,而是由与自然选择等价的基因随机漂变造成的。,Graur&Li.Fundamentals of Molecular Evolution,用分子信息研究进化问题,DNA仅由四个碱基组成DNA进化的规律性基因组信息速率和时间估计,DNA序列突变,祖先基因,DNA 序列进化,-3 mil yrs,-2 mil yrs,-1 mil yrs,today,序列差异(距离)?,DNA序列间的平均置换数,对于两条长度为n的序列,统计差异数目 nd;pnd/n 为两条序列之间的距离(差异)在序列的同一个位点可能发生不止一次的变化。如在一条序列的第10个位置观测到A,而在另一条序列为T,有多种可能 A TA C T,DNA置换模型的必要性,必须准确和无偏见地估计分歧度和速率数学模型可以考虑回复和平行突变等情况,尤其是在p值较大时,Jukes-Cantor 单参数模型,最简单的DNA序列进化模型假设任一位点的核苷酸置换概率相同,仅有一个参数,即一个核苷酸变为另一个核苷酸的概率为;一个核苷酸变为其他任何一个核苷酸的概率为3,A,C,G,T,嘌呤,嘧啶,一个单位时间后:A演变为3种其他任何一种核苷酸的概率为3A保持不变的概率为A=1-3,查杨子恒书,以 qt表示两个序列间相同核苷酸的比率,pt表示不相同的比率,pt 1 qt;在时间t+1,两个物种间相同核苷酸的比率qt+1,可由以下两个独立事件组成的:X和Y相同位点保持不变的概率为(1-3)(1-3)X和Y不同的位点,变为相同的概率:Xi的核苷酸变为Yi对应的核苷酸的概率,而Yi保持不变:(1-3)反之依然:(1-3)qt+1(1-3)(1-3)(1-3)2 pt,Kimura双参数模型,两类核苷酸嘌呤:A,G嘧啶:C,T转换(Transitions):相似置换颠换(Transversions):嘌呤被嘧啶置换,反之亦然在实际数据中,转换置换的速率常高于颠换的速率,A,C,G,T,嘌呤,嘧啶,转换=颠换=,核苷酸置换模型,Jukes Cantor 单参数模型 Kimura 双参数模型 Equalinput模型 Tamura模型 HKY模型.,休息一下,序列分歧较小时,两个模型的结果基本相同序列分歧较大时,双参数模型更为准确(尤其是当转换概率明显高于颠换概率时),单参数和双参数模型的比较,一般模型的问题,所有位点的置换速率并不是一致的一些位点的进化并不是独立的,如相互作用位点可能需要互补突变(例:发卡结构),计算软件例子:MEGA 2.1,考虑序列间隔的情况,在序列的同源区对位排列时,常常插入间隔(表示)来表示插入或缺失(indel)。这些间隔增加了距离估计的复杂度。当然,也可能是由于实验的原因,出现丧失信息的位点(?表示)。在距离估计中,一般忽略这类位点,可用两种不同的方法处理完全删除成对删除,3 20 seq1 A-AC-GGAT-AGGA-ATAAAseq2 AT-CC?GATAA?GAAAAC-Aseq3 ATTCC-GA?TACGATA-AGA,3 101.A C GA A GA A A A2.A C GA A GA A C A3.A C GA A GA A A A,1020.10300.10,距离,完全删除,3 20 seq1 A-AC-GGAT-AGGA-ATAAAseq2 AT-CC?GATAA?GAAAAC-Aseq3 ATTCC-GA?TACGATA-AGA,2 12 seq1 A C GAT A GA ATA Aseq2 A C GAT A GA AAC A,成对删除,2 13 seq1 A AC GA AGGA A AAAseq3 A TC GA ACGA A AGA,2 14 seq2 AT CC GA AA GAAA C Aseq3 AT CC GA TA GATA A A,1022/12033/133/140,距离,氨基酸序列与同义/非同义核苷酸置换为什么研究氨基酸,分子进化的一些重要原理(如基因重复和分子钟)都是通过研究氨基酸序列发现的蛋白质序列较为保守,能为研究基因和物种的长期进化提供有用信息对蛋白质编码基因的DNA序列对位排列时可能需要氨基酸序列校正氨基酸置换模型比核苷酸置换模型简单,P 距离,血红蛋白140个aa的前60个,进化距离(时间)越长,p值越大,PC 距离,运用泊松分布更精确地估计置换数目假定一个给定位点氨基酸置换数k(0,1,2,)的发生频率符合泊松分布泊松校正距离(PC距离),氨基酸置换速率在位点间有变异,可能不是泊松模型中所假设的一致速率在不太重要的位点速率通常比较高(而在酶的活性位点置换率较低)每个位点的氨基酸置换数k(0,1,2,)的方差大于泊松分布方差,近似遵循负二项式分布,距离,PC 距离,运用泊松分布更精确地估计置换数目假定一个给定位点氨基酸置换数k(0,1,2,)的发生频率符合泊松分布泊松校正距离(PC距离),分布非常柔性,有多种形状,由形状参数a决定a时,所有位点上的置换率都是相同的(泊松分布)a1,置换率遵循指数分布,可描述不同位点的速率变异a 1,分布将更为偏斜,有相当比例位点上的速率值趋近0,实际上它们几乎是不变的位点,在不同伽马参数下位点间置换率的伽马分布和距离,各种距离模型估计氨基酸置换准确性的比较,同义置换与非同义置换,同义:Sequence 1:UUU CAU CGUSequence 2:UUU CAC CGU Coded Amino Acids:Phe His Arg,非同义:Sequence 1:UUU CAU CGUSequence 2:UUU CAG CGU Coded Amino Acids:Phe His Arg Gln,KA:nonsynonymous substitution(非同义置换)KS:synonymous substitution(同义置换)1Positive selection(正选择)KA/KS=1Neutral evolution(中性进化)1Negative selection(负选择),适应性/选择性检测,Ka/Ks 检验的两类方法,基于Maximum Parsimony原理的近似方法Nei and Gojobori 为代表(MEGA)基于Maximum Likelihood原理Ziheng Yang为代表(PAML),MP类方法,又称为近似方法,以Nei&Gojobori 为代表,常用软件为MEGA模型简单,假定少,计算迅速通常较保守,可能低估Ka/Ks值,ML类方法,基于最大似然模型,以Yang为代表,常用软件为PAML置换模型复杂,多参数,用似然比检验来决定最终接受哪个模型可设定branch model,site model,branch-site model等多种模型可能引入一定假阳性,但也降低了假阴性(提高了效能),两类方法的比较,Yang&Bielawski(2000)TREE Vol.15 p496,PAML by Ziheng Yang,正选择的五类标志,High proportion of function altering mutations(age,many millions of years)Reduction in genetic diversity(age 250,000 years).High-frequency derived alleles(age 80,000 years).Differences between populations(age 50,000 to 75,000 years).Long haplotypes(age 30,000 years).,各类标志的适用时间区间,High proportion of function altering mutations,Statistical tests:Ka/Ks TestMcDonald-Kreitman test,Long haplotypes,An allele that has both high frequency(typical of an old allele)and long-range associations with other allelesDeveloping such tests is an area of vigorous current investigation,对基因的选择,Housekeeping Genes.Negative(Purifying)selection.Change is Bad.Genes that have a role in adaption.Positive(Adaptive)selection.Change is Good.Selectively neutral genesGenetic drift.,哪些基因容易检测到正选择,Genes involved in defensive systems or immunity Genes involved in evading the defensive systems or immunity Genes involved in reproduction Genes involved in digestion,Yang&Bielwaski(2000)TREE.15:496,检测选择的作用(以病毒为例),Determine species-specific differencesIdentify genomic regions of functional and medical importanceDistinguish virulent strainsDetermine cell tropismsContribute to vaccine development,