细菌的系统发育分析与基因组注释ppt课件.pptx
Acinetobacter baumanii ACICU的系统发育分析与全基因组注释,Contents:,1,2,3,基于ACICU 16s rRNA基因的系统发育树的构建,基于ACICU全基因组的系统发育树构建,ACICU全基因组的基因注释,MEGA6.06,CVTree3.0,RAST2.0,系统发育树的介绍:,系统 发育 树 也称 系 统 进化 树 ( phylogenetictree), 它是用类似树状分支的图来表示各种( 类) 生物之间的亲缘关系, 通过对生物序列的研究来推测物种的进化历史 。主要是通过 DNA 序列,蛋白质序列,蛋白质结构等来构建系统发育树,或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树 。,系统发育树的介绍:,系统发育树主要是它的拓扑结构和分支长度。根据拓扑结构的不同系统发育树可以分为有根树和无根树。有根树有一个根节点,代表所有其它节点的共同祖先,从根节点只有唯一路径经进化到达其他任何节点;无根树只表明了节点之间的关系,没有进化方向,但是通过引入外群(outgroup)或外部参考物种可以在无根树中指派根节点。,系统发育树构建一般过程:,序列比对提供一种衡量核酸或蛋白质序列之间相关性的度量方法。将两条或多条序列写成两行或多行,使尽可能多的相同字符出现在同一列中,将不同序列中的每一位点进行逐一比对,构建一个打分矩阵来表示序列间的相似性或同源性。,评估的目的是对已经得出的系统发育树的置信度进行评估,常用的方法是自举检验法( bootstrapmethods)。,即将所有的序列组用某种算法生成多个新的进化树。将生成的许多进化树进行比较,把所有新的树中相同拓扑结构最多的树认为是最真实的树,树中分支位置的数值表示该种结构占所有树中的百分比值,该值小于 75 通常都认为是置信度较低的分支。,.fasta格式,系统发育树的构建方法以及种类:,系统发育树,基于离散特征的方法,基于距离的方法,最大简约法(maximum parsimony),最大似然法(maximum likelihood),贝叶斯法(Bayesian),非 加 权 组 平 均(UPGMA),邻接法(neighbor-joining),16S rRNA是所有原核生物蛋白质合成必需的1种核糖体RNA,其具有以下特点: 1.多拷贝。每个细菌含51O个16S rRNA拷贝,这使得检测敏感性较高。2.多信息。16S rRNA基因内部结构由可变区和保守区组成 。 保守区为所有细菌所共有,可变区在不同细菌之间存在不 同程度的差异,具有属或种的特异性,可变区与保守区交错排列。3.长度适中。16S rRNA 编码基因长度1500bp,包含大约5O个功能域。,1.基于16s rRNA基因的系统发育树的构建,邻接法(neighbor-joining):,Kidd & Sgaramelh-Zonta(1971)最早提出基于距离数据的系统发育树重构算法,从所有可能的进化树中选择进化分支长度总和最小的那棵树。距离法通常不能找到精确的最小进化树,只能找到近似的最小进化树,但是它的计算速度非常快,而且准确率较高,因此被广泛应用于系统发育分析。,利用MEGA6构建系统发育树:,最大简约法(maximum parsimony method),最大简约法首先是由Camin & Sokal( 1965)提出来的,经过 Hein( 1990,1993)的研究发展使得用最大简约法来建立进化树得到极大的发展及应用。最大简约法是基于奥卡姆剃刀原则 ( Occams razor)而发展起来的一种进化树重构的方法,即突变越少的进化关系就越有可能是物种之间的真实的进化关系,系统发生突变越少得到的系统发生结论就越可信。用简约法推断系统发生关系,首先判断信息位点。信息位点是那些产生突变能把其中的一棵树同其他树区别开来的位点。简约法中只考虑信息位点而不考虑非信息位点。,MP树:,NJ树:,2.基于全基因组的系统发育树的构建,在过去的几十年中, 基于单个或少数几个基因序列构建系统发育树的方法被研究得较为透彻, 并得到了广泛应用。但由于存在横向基因转移、并系同源基因及类群间基因进化速率差异等因素, 基于单基因构建的基因树有时并不能代表真实的物种树。而且利用不同基因构建的系统发育树在很多情况下并不一致。随着一些模式生物基因组测序完成, 人们陆续提出了几种基于全基因组数据构建系统发育树的方法, 形成了一个新的研究领域系统发育基因组学。这些方法尽管原理不一样, 但由于都同时利用基因组中多个基因或多数序列信息构建系统发育树, 因此或多或少地解决了上述基于单基因构建系统发育树存在的问题。,2.基于全基因组的系统发育树的构建,根据所采用的全基因组数据的类型, 这些方法可以分为以下 5 类:多基因联合方法;基于基因含量的方法;基于基因排列信息的方法;基于序列短串含量特征信息的方法;基于代谢途径的方法。,基于序列短串含量特征信息的方法:,该方法基于一定的数学模型, 利用核酸或蛋白质序列短串的频率信息构建系统发育树。如 Hao和Qi提出的组分矢量(Composition vector)法,Otu等提出的基于LempelZiv复杂度的建树方法等。 CVTree是利用组分矢量法实现系统发育树构建的在线工具。CVTree方法由郝柏林教授研究组建立,它将全基因组或者蛋白质组序列中特定长度的片段按排序结果定义为不同的短串,然后以短串为单位统计其在物种中出现的频率,进而转化为物种间的距离,并以此构建系统发育树。,使用CVTree3.0构建系统发育树:,CVTree计算步骤:,计算长度为 K的不同短串的出现概率,通过K-1和K-2串出现的概率值来预测K串出现的概率值,通过比较不同物种的组分矢量得到物种间的距离,构建NJ树,短串长度 K的选择是影响结果的最重要的因素 , 研究表明 , K在618, 对DNA序列能获得较好的结果 ,在37对蛋白质序列能获得较好的结果。,3.A.baumanii 的全基因组注释,使用RAST(Rapid Annotation using Subsystem Technology),自定义页(可选)(设计好之后可以删掉这个文本框哦),Questions will be appreciated,