生物信息学9序列分析课件.ppt
《生物信息学9序列分析课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学9序列分析课件.ppt(43页珍藏版)》请在三一办公上搜索。
1、2022/12/18,生物信息学9序列分析,生物信息学9序列分析,生物信息学9序列分析,一、碱基组成,DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。,生物信息学9序列分析,表1包含了9个完整DNA分子序列的资料,表2的数据来自两个胎儿球蛋白基因(Gr和Ar),每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”,基因间区域是指两个基因间的其余序列。,生物信息学9序列分析,表1 九种完整DN
2、A序列的碱基组成,生物信息学9序列分析,表2 人类胎儿球蛋白基因不同区段的碱基组成,生物信息学9序列分析,二碱基相邻频率,分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积,例:鸡血红蛋白链的mRNA编码区的438个碱基,生物信息学9序列分析,图1 鸡球蛋白基因编码区的DNA序列 (GenBank:CHKHBBM,记录号J00860),生物信息学9序列分析,表3 图1鸡球蛋白基因序列的相邻碱基分布,生物信息学9序列分析,在编码区,存在某种约束来限制DNA序列编码氨基酸。在密码子水平上,这一约束与碱基相邻频率有关。 表4列出了遗传密码和图1序列中各
3、密码子数量。尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。 表4还清楚地表明,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第 2位碱基小得多。,生物信息学9序列分析,表4 64种可能的碱基三联体密码子及相应的氨基酸数(据图1序列),生物信息学9序列分析,相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计可以从马尔科夫链(Markov chain)理论得到(Javare和Giddings,1989),生物信息学9序列分析,三同向重复序列分析,
4、除了分析整个序列碱基关联程度的特征外,我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)。只需要对整个序列搜索一次。给一碱基赋以值,例如A、C、G、T的值为0、1、2、3。由X1、X2、Xk 共k个字母组成的每一种不同的字码按:,计算字码值。这些值的取值范围为1到4k,生物信息学9序列分析,例如:5字码TGACC的值为1+344+243+042+141+140=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长
5、度重复的那些位置考虑进行长度大于k的字码搜索。,序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。在本例中只有4个重复的2碱基重复序列。例如,在位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列。从有重复的2碱基为起点的3字码值中发现字码值为1、45和49的序列有重复;以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。,生物信息学9序列分析,表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin, 1983),生物信息学9序列分析
6、,四、RNA二级结构预测,尽管现有一些RNA折叠程序可以预测RNA二级结构,但这类分析仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区,但对给定的RNA分子来说,这一结果的生物学意义究竟有多大,还是一个未知数。即使有此局限性,二级结构的预测还是有助于找出mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。,生物信息学9序列分析,拟南芥phyA部份RNA,生物信息学9序列分析,生物信息学9序列分析,五、从序列中寻找基因,1.基因及基因区域预测,基因按其功能可分为结构基因和调控基因:结构基因可被转录形成mRNA,并进而转译成多肽链;调控基因是指某些可调节控制结构基因表达的基因。
7、在DNA链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列称为一个开放阅读框(Open Reading Frame,ORF)。结构基因多含有插入序列,除了细菌和病毒的DNA中ORF是连续的,包括人类在内的真核生物的大部分结构基因为断裂基因,即其编码序列在DNA分子上是不连续的,或被插入序列隔开。断裂基因被转录成前体mRNA,经过剪切过程,切除其中非编码序列(即内含子),再将编码序列(即外显子)连接形成成熟mRNA,并翻译成蛋白质。假基因是与功能性基因密切相关的DNA序列,但由于缺失、插入和无义突变失去阅读框而不能编码蛋白质产物。,生物信息学9序列分析,一种典型的真核蛋白质编码
8、基因的结构示意图。其编码序列(外显子)是不连续的,被非编码区(内含子)隔断。,生物信息学9序列分析,所谓基因区域预测,一般是指预测DNA序列中编码蛋白质的部分,即外显子部分。 不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA盒等)的认识,预测出可能的完整基因,生物信息学9序列分析,基因区域的预测是一个活跃的研究领域,先后有一大批预测算法和相应程序被提出和应用,其中有的方法对编码序列的预测准确率高达90%以上,而且在敏感性和特异性之间取得了很好的平衡,预测方法中,最早是通过序列核苷酸频率、密码子等特性进行预测(如最
9、长ORF法等),随着各类数据库的建立和完善,通过相似性列线比对也可以预测可能的基因。同时,一批新方法也被提了出来,如隐马尔可夫模型(Hidden Markov Model,HMM)、动态规划法(dynamic programming)、法则系统(ruled-based system)、语言学(linguistic)方法、线性判别分析(Linear Discriminant Analysis,LDA)、决策树(decision tree)、拼接列线(spliced alingment)、博利叶分析(Fourier analysis)等。 下表列出了claverie(1997)对部分程序预测基因区
10、域能力的比较结果,表中同时列出了相应算法和程序的网址。,生物信息学9序列分析,目前基因区域预测的各种算法均存在以下2个问题,(1)目前算法对基因中的非编码区和基因间序列不加任何区别,所以预测出的基因仍然是不完全的,对5和3非编译区(UTR,untranslated region)的预测基本上还是空白;,(2)目前大多数算法都是基于已知基因序列。如相似性列线比较算法是完全依赖于已知的序列,而象HMM之类的算法都需要对已知的基因结构信号进行学习或训练,由于训练所用的序列毕竟是有限的,所以对那些与学习过的基因结构不太相似的基因,这些算法的预测效果就要大打折扣了,要解决以上两个问题,需要对基因结构进行
11、更深入的研究,寻找隐藏在基因不同结构中的内在统计规律。,生物信息学9序列分析,2发现基因的一般过程,从序列中发现基因可以理解为基因区域预测和基因功能预测2个层次,第一步:获取DNA目标序列, 如果你已有目标序列,可直接进入第2步;, 可通过PubMed查找你感兴趣的资料;通过GenBank或EMBL等数据库查找目标序列,生物信息学9序列分析,第二步:查找ORF并将目标序列翻译成蛋白质序列,利用相应工具,如ORF Finder、Gene feature(Baylor College of Medicine)、GenLang(University of Pennsylvania)等,查找ORF并将
12、DNA序列翻译成蛋白质序列,第三步:在数据库中进行序列搜索,可以利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索,第四步:进行目标序列与搜索得到的相似序列的整体列线(global alignment),虽然第三步已进行局部列线(local alignment)分析,但整体列线有助于进一步加深目标序列的认识,生物信息学9序列分析,进行多序列列线(multiple sequence alignment)和获得列线区段的可视信息。可分别在AMAS(Oxford University)和BOXSHADE(ISREC,Switzerland)等服务器上进行,第五步:查找基因家族,第六步:查
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 序列 分析 课件
链接地址:https://www.31ppt.com/p-1785683.html