序列分析与联配.ppt
《序列分析与联配.ppt》由会员分享,可在线阅读,更多相关《序列分析与联配.ppt(79页珍藏版)》请在三一办公上搜索。
1、第三章 序列分析与联配,第一节 序列组成和单一序列分析第二节 序列联配第三节 数据库搜索引擎BLAST和FASTA应用第四节 寡核苷酸设计,序列分析是生物信息学最主要的研究内容之一,它可以分为两个主要部分:一是序列组成(特别是涉及到基因组层次上)分析,二是序列之间的比较分析。两条序列或多条序列间的比对或联配(alignment)的目的,是对它们的序列相似性进行评估,找出这些序列中结构或功能相似性区域等。通过联配未知序列与已知序列(其功能或结构等已知)的相似程度,我们可以判断或推测未知序列的结构与功能。,第一节 序列组成及单一序列分析,一、碱基组成二、碱基相邻频率三、同向重复序列分析四、DNA序
2、列的几何学分析Z曲线,一、碱基组成,DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。表3.1包含了9条完整DNA分子序列的资料,表3.2的数据来自两个胎儿球蛋白基因(Gr和Ar),每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”,基因间区域是指两个基因间的其余序列。,二、碱基相邻频率,分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积:如果
3、Pu是序列中碱基u的频率,且Puv为两个相邻碱基u和v的频率,则 Puv PuPv,Nussinov(1984)研究了两碱基相邻的频率(表3.3)。数据来自166个脊椎动物的DNA序列,总长136731个碱基。表中的比值为16种二个碱基相邻的频率除以相应的单个碱基频率的乘积。,作为一个特别的例子,图3.1给出了鸡血红蛋白链的mRNA编码区的438个碱基。表3.4列出了4种碱基和16种两碱基的数目。将该表看作44的表,计算行列独立性的卡方统计量,得到x2=59.3(x20.05,9=16.92)表明行(第一碱基)列(第二碱基)之间存在明显的关联。,在编码区,存在某种约束来限制DNA序列编码氨基酸
4、。在密码子水平上,这一约束与碱基相邻频率有关。表3.5列出了遗传密码和图3.1序列中各密码子数量。尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。表3.5还清楚地表明,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第 2位碱基小得多。,相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计可以从马尔科夫链(Markov chain)理论得到(Javare和Giddings,1989)。在不援引任何生物学机制的情况下,第k阶马尔科夫链假定在序列中某一
5、位置上碱基的存在只取决于前面k个位置上的碱基。一阶链假定一个特定碱基存在于位置i的概率只取取决于在位置i-1的4种碱基概率。相互独立的碱基所组成的序列将与0阶马尔科夫链相对应。阶可以通过似然法估计。同时,马尔科夫链分析更适应于基因组水平,而非单一序列(基因)。,三、同向重复序列分析,除了分析整个序列碱基关联程度的特征外,我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)。只需要对整个序列搜索一次。给一碱基赋以值,例如A、C、G、T的值为0、1、2、3
6、。由X1、X2、.、Xk共k个字母组成的每一种不同的字码按 计算字码值。这些值的取值范围为1到4k。例如,5字码TGACC的值为1+344+243+042+141+140=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。,表3.6列出了序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。在本例中只有4个重复的2碱基重复序列。例如,在位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列
7、。从有重复的第2个碱基为起点的3字码值及位置列于表3.7,其中发现字码值为1、45和49的序列有重复。以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。因此最长的同向重复为4、8、9位置上的AAA,13、17位置上的GTA以及7、14位置上的TAA。同样对图3.1鸡球蛋白DNA序列进行同向重复序列搜索,一些最长同向重复序列列于表3.8。,Karlin等(1983)提出了序列内存在的最长同向重复序列的统计显著性评价方法。在核苷酸的位置为独立的假定下(相当于阶次为0的马尔科夫链),长度为n的序列中,最长同向重复Ln的期望长度和方差为:,其中,P为序列中碱基频率的平方和:,用尽可能接近最大
8、长度的期望均值的字码(即RL)来开始同向重复序列的搜索计算可能节省计算量。,方程3.1,可以用一个近似方法来验证以上统计假说。假定同向重复序列的长度呈正态分布。对于图3.1鸡蛋白序列,A、C、G、T四个碱基的次数分别为87、144、118和89,因而P=0.2614,最长重复序列的期望长度为8.13且具有期望方差0.9138。根据95%的正态分布概率,理论上可以预期最长同向重复序列不超过10。,四、DNA序列的几何学分析Z曲线,DNA序列实际上是一种用4种字母表达的“语言”,只是其“词法”和“语法”规则目前还没有搞清楚。人类的语言有文字、声音两种基本表现形式,此外还有手语、旗语甚至图画语等特殊
9、表达形式。同样,DNA序列作为一种语言,其表达形式也不是唯一的。传统上,DNA序列是用4种字母符号表达的一维序列。这是一种抽象形式,适合于存储、印刷和代数算法的处理,包括比较、排列和查找特殊序列等。我国学者张春霆等开展了DNA序列三维空间曲线表示形式,即DNA序列几何表示形式的研究。几何形式虽然与符号形式完全等价,但显示了DNA序列的新特征。两种形式各有其特点,相互补充。这一新方法,为解读DNA序列信息提供了崭新的手段。,他们的研究始于对4种碱基对称性的观察,提出了用正面体表示碱基对称性。1994年,他们利用这种形式来表示任意长度的DNA序列。现将这种序列表示方法简述如下。,考察一个长为L的单
10、股DNA序列,方向(53或35)不限。从第一个碱基开始,依次考察此序列,每次只考察一个碱基。当考察到第n个碱基时(n=1,2,.,L),数一下从1到n这个子序列中四种碱基各自出现的次数。设4种碱基A、C、G、T出现的次数分别以An、Cn、Gn、Tn表示之,这里下标“n”是表明这些整数是从1到n这个子序列中数出来的,如图3.2所示。显然,它们都是正整数。根据正四面体的对称性可以证明,在正面体内存在唯一的一个点Pn与这四个正整数对应。点Pn构成了四个正整数的一一对应映射。点Pn坐标可用四正整数表达:,方程3.2,其中xn,yn和zn为点Pn的三个坐标分量。当n从1跑到L时,我们依次得到P1,P2,
11、P3,.,PL共L个点。将相邻两点用适当的曲线连接所得到的整条曲线,就称为表示DNA序列的Z曲线。可以证明,Z曲线与所表示的DNA序列是一一对应的,即给定一DNA序列,存在唯一的一条Z曲线与之对应;反之,给定一条Z曲线,可找到唯一的一个DNA序列与之对应。换言之,Z曲线包含了DNA序列的全部信息。Z曲线是与符号DNA序列等价的另一种表示形式,一种几何形式。可以通过Z曲线对DNA序列进行研究。,Z曲线的三个分量(方程3.2)具有明确的生物学意义:xn表示嘌呤/嘧啶碱基沿序列的分布。当从1到n的这个子序列中(图3.2)嘌呤碱基多于嘧啶碱基时,xn0,否则,xn0,否则,yn0,否则zn0,当两者相
12、等时,zn=0。这三种分布是相互独立的,表现在以下事实上:任何一种分布不能由其它两种分布的线性叠加表示出来。给定的DNA序列唯一地决定了这三种分布;三种分布唯一地描述了DNA序列。对DNA序列的研究就是通过对这三种分布的研究来进行。从方法学的角度来看,这是DNA序列的一种几何学研究途径。,图3.3给出了大肠杆菌ayoP基因族序列Z曲线的三个分量,即三种分布图。该基因族包含了大肠杆菌5 个基因aroP,A,aceFE,aceF和lpd,总长度为9501bp,分别编码芳香族氨基酸运输蛋白aroP,蛋白质A(功能不详)和三种酶,即丙酮酸脱氢酶,二氢硫辛酰基转移酶和二氢硫辛酰脱氢酶。它们位于此序列的0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列 分析

链接地址:https://www.31ppt.com/p-5348836.html