生物信息学序列分析ppt课件.ppt
《生物信息学序列分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学序列分析ppt课件.ppt(81页珍藏版)》请在三一办公上搜索。
1、第7章 序列分析,2,一、初级序列分析序列的组成/分子量/等电点分析,碱基组成,DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。,表1包含了9个完整DNA分子序列的资料,表2的数据来自两个胎儿球蛋白基因(Gr和Ar),每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”,基因间区域是指两个基因间的其余序列。,表1 九种完整DNA序列的碱基组成,表2 人类胎儿球蛋白基因不同区段的碱基组成,7,
2、8,序列组成分析,9,A/G/C/T的组成,尤其是G+C含量的预测(进化?探针设计?),10,11,序列组成分析,12,序列组成分析,13,蛋白分子量和等电点,14,蛋白分子量和等电点,15,蛋白分子量和等电点,16,蛋白质分子量/等电点预测 online Compute pI/MW,http:/us.expasy.org/tools/pi_tool.html,17,酶切位点分析,只要进行基因工程利用必须用到各种限制性内切酶如 GGATCC BamHI,18,进行酶切位点分析的时候,对于构建载体,我们需要知道的信息是你的序列中有/没有某个酶的位点?为什么?如果答案是“有”,是什么情况?“没有”
3、又是什么情况?,Plasmid vector,Sac I,XbaI,Hind III,Hind III,Xba I,Cloning site,SacI,19,20,二碱基相邻频率,分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积,例:鸡血红蛋白链的mRNA编码区的438个碱基,图1 鸡球蛋白基因编码区的DNA序列 (GenBank:CHKHBBM,记录号J00860),表3 图1鸡球蛋白基因序列的相邻碱基分布,在编码区,存在某种约束来限制DNA序列编码氨基酸。在密码子水平上,这一约束与碱基相邻频率有关。 表4列出了遗传密码和图1序列中各密码子数
4、量。尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。 表4还清楚地表明,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第 2位碱基小得多。,表4 64种可能的碱基三联体密码子及相应的氨基酸数(据图1序列),相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计可以从马尔科夫链(Markov chain)理论得到(Javare和Giddings,1989),27,什么是HMM?Hidden Markov Models (HMMs, 隐马尔可夫模型)
5、最早是在上个世纪60年代末70年代初提出来的一种概率论模型。进入80年代以后,逐渐被利用在各个领域。主要的应用领域:语音识别系统。生物学中的DNA/protein序列的分析。机器人的控制。文本文件的信息提取。,28,什么是HMM?对于给定的核苷酸序列,我们在位置p处出现的概率依赖于其后的核苷酸序列。即任何一个核苷酸的出现并不是完全独立的。大家只要知道HMM是目前生物信息学中应用非常广泛的概率论模型,广泛应用于基因识别,其基本原理基于任何一个序列的出现都不是独立的。,密码子偏好性分析,密码子是核酸携带信息和蛋白质携带信息间对应的基本原则, 是生物体内信息传递的基本环节。在生物的遗传密码中, 除色
6、氨酸和甲硫氨酸只有一个密码子外, 其余氨基酸都有一个以上的简并密码子。对同一物种, 不同蛋白编码密码子在基因中出现的频率不同; 就同一种氨基酸而言, 编码该氨基酸的不同密码子的比率在不同的蛋白中也有差异, 因此生物体基因对简并密码子的选择具有一定的偏爱性。,同义密码子(Synonymous Codons):编码同一氨基酸的密码子。在蛋白质编码过程中, 某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子, 这种现象称为同义密码子的使用偏性(Synony mous Codon Usage Bias)研究密码子使用偏性的意义:(一)作为预测真核生物核糖体在细胞内定位的一种手段 ,通过比较核基
7、因编码的核糖体蛋白和线粒体基因编码的核糖体蛋白上密码子使用模式的差异来预测未知蛋白的基因所在基因组位置。,(二)通过密码子使用偏好性的研究,可以判定一些最优密码子,针对这些密码子设计基因工程表达载体可以提高目的基因的表达量 。(三)利用密码子使用偏好性和某种功能的关联程度对某些未知功能基因进行预测,利用已知的密码子偏好知识对未知表达水平的基因进行判定,初步判断该基因的表达水平高或低。(四)利用编码区和非编码区的基因组特征差异进行全基因组扫描,发现新基因。,由于密码子偏性的研究近年来一直是一个热点,因此研究的指标也出现得很多,如可以衡量特定基因偏性大小的密码子偏爱指CBI(Morton1993)
8、和最优密码子使用频率FOp(Lavnerand Kotlar2005) 等。多种多样的技术和方法促进了密码子偏性的研究,但是也产生了一些的研究结果之间存在了的不一致,特别是有些方法仅仅能运用于局限的物种或某些特定的基因中。因此在使用这些新开发的方法时,必须了解每一种方法背后的假设和推论,才能确保结果的正确性。,计算同义密码子相对使用度(Relative synonymous codon usage, RSCU)在genebank中取出序列后,用codonw进行在线分析,同义密码子相对使用度(Relative synonymous codon usage, RSCU):它是指对于某一特定的密码子
9、,在编码对应氨基酸的同义密码子间的相对概率,去除了氨基酸组成对密码子使用的影响。该值的计算方法为某一密码子所使用的频率与其在无偏使用时预期频率之间的比值,如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然 。其中,n表示这个密码子所代表的氨基酸的同义密码子种类数目(1n)x代表第i个密码子的出现次数。RSCU是衡量密码子偏性较直观的一个参数。,结果如下:利用rscu计算密码子Franction和Frequency。Franction:各个密码子在编码该氨基酸的密码子中所占的比例。Frequency:该密码子在编
10、码总基因密码子中出现的频率。,如图,结果如下:,同样,可计算出密码子适应指数:Sequence: AY047586.1 CAI: 0.109 用chips计算出有效密码字数:# CHIPS codon usage statistics Nc = 48.082 密码子适应指数( Codon adaption index , CAI )该指数以一组具高表达水平的基因为参考, 测量某一个基因的密码子偏好情况和这些高表达基因密码子偏好情况的接近程度, 如果一个基因完全使用高表达基因中所用的密码子, 则其 C AI 值为 1。目前这个指数已被广泛用来预测基 因 的表达水平。有效密码子数 ( Effect
11、ive Number of Codon ,Nc)C AI 测量的是某个基因所用的密码子与高表达基因所用密码子的接近程度 。 和 C AI 不同 ,Nc测量的是某个基因的密码子偏好程度 , 如果一个基因平均使用每一个密码子 ,则其 Nc 为 61 ,如果一个基因只使用每组同义密码子中的一个 ,则其 Nc 为 20 。理论上讲 ,一个具有低 C AI 的基因也可以同时具有低 Nc 值 ,换句话说 , 该基因具有较强的密码子偏好性 ,只不过其偏向的并不是高表达基因所用的密码子 。,GC 和 GC3sG C 测量的是基因中 G 和 C 的含量 。G C 3s 则计算密码子第三个碱基中出现 G 或 C
12、的频率 。一般认为这两个因素对基因的密码子选择有重要影响。 GC content不同物种GC含量变化很大识别基因水平转移,判断外源基因GC skew(G-C)/(G+C)%预测细菌或古细菌复制起点,三同向重复序列分析,除了分析整个序列碱基关联程度的特征外,我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)。只需要对整个序列搜索一次。给一碱基赋以值,例如A、C、G、T的值为0、1、2、3。由X1、X2、Xk 共k个字母组成的每一种不同的字码按:,计算字
13、码值。这些值的取值范围为1到4k,例如:5字码TGACC的值为1+344+243+042+141+140=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。,序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。在本例中只有4个重复的2碱基重复序列。例如,在位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列。从有重复的2碱基为起点的3字码值中发现字码值为1、45和49的序列有重复;以每
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 序列 分析 ppt 课件

链接地址:https://www.31ppt.com/p-1886043.html