生物信息学9序列分析课件.ppt

资源ID：1785683 资源大小：639KB 全文页数：43页
资源格式： PPT 下载积分：16金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要16金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

生物信息学9序列分析课件.ppt

2022/12/18,生物信息学9序列分析,生物信息学9序列分析,生物信息学9序列分析,一、碱基组成,DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的，但几乎所有的研究都证明碱基是以不同频率分布的。,生物信息学9序列分析,表1包含了9个完整DNA分子序列的资料，表2的数据来自两个胎儿球蛋白基因(Gr和Ar)，每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”，基因间区域是指两个基因间的其余序列。,生物信息学9序列分析,表1 九种完整DNA序列的碱基组成,生物信息学9序列分析,表2 人类胎儿球蛋白基因不同区段的碱基组成,生物信息学9序列分析,二碱基相邻频率,分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积,例：鸡血红蛋白链的mRNA编码区的438个碱基,生物信息学9序列分析,图1 鸡球蛋白基因编码区的DNA序列 (GenBank：CHKHBBM，记录号J00860),生物信息学9序列分析,表3 图1鸡球蛋白基因序列的相邻碱基分布,生物信息学9序列分析,在编码区，存在某种约束来限制DNA序列编码氨基酸。在密码子水平上，这一约束与碱基相邻频率有关。表4列出了遗传密码和图1序列中各密码子数量。尽管数目很小，难以作出有力的统计结论，但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。表4还清楚地表明，由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型，因而对第3位置上碱基的约束要比第 2位碱基小得多。,生物信息学9序列分析,表4 64种可能的碱基三联体密码子及相应的氨基酸数（据图1序列）,生物信息学9序列分析,相邻碱基之间的关联将导致更远碱基之间的关联，这些关联延伸距离的估计可以从马尔科夫链(Markov chain)理论得到(Javare和Giddings，1989),生物信息学9序列分析,三同向重复序列分析,除了分析整个序列碱基关联程度的特征外，我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)。只需要对整个序列搜索一次。给一碱基赋以值,例如A、C、G、T的值为0、1、2、3。由X1、X2、Xk 共k个字母组成的每一种不同的字码按：,计算字码值。这些值的取值范围为1到4k,生物信息学9序列分析,例如：5字码TGACC的值为1+344+243+042+141+140=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。,序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。在本例中只有4个重复的2碱基重复序列。例如，在位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列。从有重复的2碱基为起点的3字码值中发现字码值为1、45和49的序列有重复；以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。,生物信息学9序列分析,表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin, 1983),生物信息学9序列分析,四、RNA二级结构预测,尽管现有一些RNA折叠程序可以预测RNA二级结构，但这类分析仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区，但对给定的RNA分子来说，这一结果的生物学意义究竟有多大，还是一个未知数。即使有此局限性，二级结构的预测还是有助于找出mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。,生物信息学9序列分析,拟南芥phyA部份RNA,生物信息学9序列分析,生物信息学9序列分析,五、从序列中寻找基因,1.基因及基因区域预测,基因按其功能可分为结构基因和调控基因：结构基因可被转录形成mRNA，并进而转译成多肽链；调控基因是指某些可调节控制结构基因表达的基因。在DNA链上，由蛋白质合成的起始密码开始，到终止密码子为止的一个连续编码序列称为一个开放阅读框(Open Reading Frame,ORF)。结构基因多含有插入序列，除了细菌和病毒的DNA中ORF是连续的，包括人类在内的真核生物的大部分结构基因为断裂基因，即其编码序列在DNA分子上是不连续的，或被插入序列隔开。断裂基因被转录成前体mRNA，经过剪切过程，切除其中非编码序列(即内含子)，再将编码序列(即外显子)连接形成成熟mRNA，并翻译成蛋白质。假基因是与功能性基因密切相关的DNA序列，但由于缺失、插入和无义突变失去阅读框而不能编码蛋白质产物。,生物信息学9序列分析,一种典型的真核蛋白质编码基因的结构示意图。其编码序列（外显子）是不连续的，被非编码区（内含子）隔断。,生物信息学9序列分析,所谓基因区域预测，一般是指预测DNA序列中编码蛋白质的部分，即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA盒等)的认识，预测出可能的完整基因,生物信息学9序列分析,基因区域的预测是一个活跃的研究领域，先后有一大批预测算法和相应程序被提出和应用，其中有的方法对编码序列的预测准确率高达90%以上，而且在敏感性和特异性之间取得了很好的平衡,预测方法中，最早是通过序列核苷酸频率、密码子等特性进行预测(如最长ORF法等)，随着各类数据库的建立和完善，通过相似性列线比对也可以预测可能的基因。同时，一批新方法也被提了出来，如隐马尔可夫模型(Hidden Markov Model,HMM)、动态规划法(dynamic programming)、法则系统(ruled-based system)、语言学(linguistic)方法、线性判别分析(Linear Discriminant Analysis,LDA)、决策树(decision tree)、拼接列线(spliced alingment)、博利叶分析(Fourier analysis)等。下表列出了claverie(1997)对部分程序预测基因区域能力的比较结果，表中同时列出了相应算法和程序的网址。,生物信息学9序列分析,目前基因区域预测的各种算法均存在以下2个问题,（1）目前算法对基因中的非编码区和基因间序列不加任何区别，所以预测出的基因仍然是不完全的，对5和3非编译区（UTR，untranslated region）的预测基本上还是空白；,（2）目前大多数算法都是基于已知基因序列。如相似性列线比较算法是完全依赖于已知的序列，而象HMM之类的算法都需要对已知的基因结构信号进行学习或训练，由于训练所用的序列毕竟是有限的，所以对那些与学习过的基因结构不太相似的基因，这些算法的预测效果就要大打折扣了,要解决以上两个问题，需要对基因结构进行更深入的研究，寻找隐藏在基因不同结构中的内在统计规律。,生物信息学9序列分析,2发现基因的一般过程,从序列中发现基因可以理解为基因区域预测和基因功能预测2个层次,第一步：获取DNA目标序列, 如果你已有目标序列，可直接进入第2步；, 可通过PubMed查找你感兴趣的资料；通过GenBank或EMBL等数据库查找目标序列,生物信息学9序列分析,第二步：查找ORF并将目标序列翻译成蛋白质序列,利用相应工具，如ORF Finder、Gene feature(Baylor College of Medicine)、GenLang(University of Pennsylvania)等，查找ORF并将DNA序列翻译成蛋白质序列,第三步：在数据库中进行序列搜索,可以利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索,第四步：进行目标序列与搜索得到的相似序列的整体列线(global alignment),虽然第三步已进行局部列线(local alignment)分析，但整体列线有助于进一步加深目标序列的认识,生物信息学9序列分析,进行多序列列线(multiple sequence alignment)和获得列线区段的可视信息。可分别在AMAS(Oxford University)和BOXSHADE(ISREC,Switzerland)等服务器上进行,第五步：查找基因家族,第六步：查找目标序列中的特定模序, 分别在Procite、BLOCK、Motif数据库进行profile、模块(block)、模序(motif)检索；, 对蛋白质序列进行统计分析和有关预测,第七步：预测目标序列结构,可以利用PredictProtein(EMBL)、NNPREDICT(University of California)等预测目标序列的蛋白质二级结构,生物信息学9序列分析,第八步：获取相关蛋白质的功能信息,为了了解目标序列的功能，收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用PubMed进行搜索,第九步：把目标序列输入“提醒”服务器,如果有与目标序列相似的新序列数据输入数据库，提醒(alert)服务会向你发出通知。可选用Sequence Alerting(EMBL)、Swiss-Shop(Switzerland)等服务器,生物信息学9序列分析,3解读序列(making sense of the sequence),大致有2条途径可以发现基因：(1)基于同源性的方法，包括已知mRNA序列的应用；(2)基因家族和特殊序列间的比较。最初的方法包括利用各种计算机手段分析外显子和其它序列信号，如酶切位点,生物信息学9序列分析,六、基于编码区特性：最长ORF法,基因区域或蛋白质编码区的识别，特别是对高等真核生物基因组DNA序列中编码区的识别仍未能实现完全自动化。将每条链按6个读框全部翻译出来，然后找出所有可能的不间断开放阅读框(ORF)往往有助于基因的发现,生物信息学9序列分析,预测基因组的全部编码区或称为开放阅读框的方法概括来说也可以分为三类:,一类是基于编码区所具有的独特信号，如始起密码子、终止密码子等；,二是基于编码区的碱基组成不同于非编码区，这是由于蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同等原因造成的；,三是通过同源性比较搜寻蛋白质库或dbEST库寻找编码区。前二类方法主要是利用编码区的特性来寻找，下面对这二类方法做简单描述,生物信息学9序列分析,最长ORF法：在细菌基因组中，蛋白质编码基因从起始密码ATG到终止密码平均有100bp，而300bp长度以上的ORF平均每36Kb才出现一次，所以只要找出序列中最长的ORF(300bp)就能相当准确地预测出基因,生物信息学9序列分析,利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法：由于内含子的进化不受约束，而外显子则受到选择压力，因此内含子的序列要比外显子更随机。这是目前各种预测程序中被广泛应用的一种方法，如GCG(Genetic Computer Group 研制，一种通用核酸、蛋白质分析软件包)的TestCode、美波士顿大学GeneID和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法,生物信息学9序列分析,CpG岛：CpG岛(CpG island)一词是用来描述哺乳动物基因组DNA中的一部分序列，其特点是胞嘧啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%，即每10个核苷酸约出现一次双核苷酸序列CG。具有这种特点的序列仅占基因组DNA总量的10%左右。从已知的DNA序列统计发现，几乎所有的管家基因(House-Keeping gene)及约占40%的组织特异性基因的5末端含有CpG岛，其序列可能包括基因转录的启动子及第一个外显子。因此，在大规模DNA测序计划中，每发现一个CpG岛，则预示可能在此存在基因。另外，AT含量也可以作为编码区的批示指标之一,生物信息学9序列分析,DNAstar DNAquest parameters,Title给文件取名。 Ruler在文件中加入标尺。 Sequence显示文件中的序列。 Patterns Matrix方法的运算参数。 Signal转录因子结合位点数据库。 Type-In Patterns使用键盘输入运算所需的Pattern参数。 Repeats Inverted Repeats寻找反向重复序列。 Dyad Repeats寻找Dyad重复和palindromes。 Direct Repeats寻找正向重复序列。 Gene Finding - DNA Finder在打开的DNA序列中寻找指定DNA序列。分别显示正义连和反义连的寻找结果。,生物信息学9序列分析,Gene Finding DNA Finder在打开的DNA序列中寻找指定DNA序列。分别显示正义连和反义连的寻找结果。 Protein Finder在打开的蛋白质序列中寻找指定DNA序列的翻译序列。显示结果为全部6个读框。 Enzymes-Restriction Map用DNASTAR酶目录中的酶分析打开的序列，并以图形方式展示。Coding Prediction Borodovsky用Borodovskys Markov方法来识别潜在的基因编码区，并以图形方式展示。 Starts Stops ORFs根据指定的ORFs的最小长度，寻找可能的开放读框，可以选择是否需要起始密码子。读框的启始和中止点分别展示。 Local Compositional Complexity根据Shannon信息学原理寻找有基因编码提示信息的区域。 Base Contents-Base Distribution序列上4种碱基、A+T和G+C的频率、分布，以及AT和gc分布区域。 Bent DNA - Bending IndexDNA折叠预测。,生物信息学9序列分析,七、PCR(Polymerase chain reaction)及引物设计,利用与DNA模板序列的两端互补的一对寡聚核苷酸引物来扩增一段DNA序列。由一种热稳定的DNA聚合酶经三步反应即变性、引物退火和聚合的循环从两个引物来相对延伸。,生物信息学9序列分析,PCR的基本原理,PCR反应条件PCR过程PCR的特点,生物信息学9序列分析,PCR的基本原理,PCR反应条件PCR过程PCR的特点,重复13步2530轮,目的DNA片段扩增100万倍以上,DNA双螺旋,DNA单链与引物复性,DNA变性形成2条单链,子链延伸DNA加倍,生物信息学9序列分析,引物设计：（1)序列应位于高度保守区，与非扩增区无同源序列。（2）引物长度以15-40 bp为宜。（3）碱基尽可能随机分布，G+C占50-60%。（4）引物内部避免形成二级结构。（5）两引物间避免有互补序列。（6）引物3端为关键碱基；5端无严格限制。,生物信息学9序列分析,3,5,3,5,限制性内切酶的识别序列启动子序列定点突变探针标记,生物信息学9序列分析,实验三核酸序列分析（一）一、实验内容1、使用DNAstar进行核酸基本信息分析2、ORF分析二、作业1、记录拟南芥phyA NM_100828序列的序列组成2、记录拟南芥phyA NM_100828序列最长的ORF的起止区间。,生物信息学9序列分析,实验四核酸序列分析（二）一、实验内容1、PCR引物设计2、核酸序列的电子基因定位二、作业1、记录拟南芥phyA NM_100828序列最长的ORF的起止区间。2、记录得分最高的一对引物的碱基组成。3、通过核酸序列的电子基因定位，phyA基因位于拟南芥的那条染色体上？,生物信息学9序列分析,实验五未知蛋白质序列的功能预测一、实验内容已知一段蛋白质序列，请对其功能进行预测：MEILCEDNTSLSSIPNSLMQVDGDSGLYRNDFNSRDANSSDASNWTIDGENRTNLSFEGYLPPTCLSILHLQEKNWSALLTAVVIILTIAGNILVIMAVSLEKKLQNATNYFLMSLAIADMLLGFLVMPVSMLTILYGYRWPLPSKLCAVWIYLDVLFSTASIMHLCAISLDRYVAIQNPIHHSRFNSRTKAFLKIIAVWTISVGVSMPIPVFGLQDDSKVFKQGSCLLADDNFVLIGSFVAFFIPLTIMVITYFLTIKSLQKEATLCVSDLSTRAKLASFSFLPQSSLSSEKLFQRSIHREPGSYTGRRTMQSISNEQKACKVLGIVFFLFVVMWCPFFITNIMAVICKESCNEHVIGALLNVFVWIGYLSSAVNPLVYTLFNKTYRSAFSRYIQCQYKENRKPLQLILVNTIPALAYKSSQLQAGQNKDSKEDAEPTDNDCSMVTLGKQQSEETCTDNINTVNEKVSCV,2022/12/18,生物信息学9序列分析,演讲完毕，谢谢听讲!,再见，see you again,3rew,

注意事项

本文（生物信息学9序列分析课件.ppt）为本站会员（小飞机）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。