第四章序列分析课件.ppt
《第四章序列分析课件.ppt》由会员分享,可在线阅读,更多相关《第四章序列分析课件.ppt(131页珍藏版)》请在三一办公上搜索。
1、第四章 序列分析,2022/11/29,BIOINFORMATICS,1,本章提要:本章主要介绍DNA和蛋白质序列分析的基本内容。包括核酸序列检索、核酸序列的基本分析(碱基组份、限制性酶切分析、重复序列分析),基因结构分析、表达标签序列分析的基本方法和软件。蛋白质序列基本分析、检索、跨膜区分析、蛋白质亚细胞定位、功能预测等内容。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,2,4.1 核酸序列分析,4.1.1 为什么要分析DNA序列,核酸序列分析是生物信息学应用中的一个重要方面。基于已有知识所形成的核酸序列数据库以及在此基础之上所形成的二级数据库对未知核酸序列的分析
2、及功能预测具有重要的参考价值。在从事分子生物学研究的几乎所有实验室中,对所获得的核酸序列进行生物信息学分析已经成为进行下一步实验之前的一个标准操作。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,3,在很多时候,往往通过一个简单序列相似性的比较就可以对未知序列进行初步的功能预测,为后续实验确定初步的研究方向。本节将主要讲述如何采用生物信息学技术对核酸序列进行较为全面的分析。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,4,序列比较通常在蛋白质水平上进行,或者说在蛋白质翻译中检测远缘序列更为容易一些,因为由64个密码子(codon)所组成的遗
3、传密码(genetic code)的冗余被缩减成了20个蛋白质的功能单位氨基酸。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,5,然而,这种简并性可能伴随着有用信息的丢失,这是因为许多直接与进化过程相关的信息在蛋白质水平无法表现,通过核苷酸序列则可以反映出来。例如,沉默突变(silent mutation)就是在DNA水平的突变,但并不导致蛋白质水平的氨基酸置换。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,6,随着测序技术的迅速发展与普及,越来越多的DNA序列已被测定并存贮在各种分子数据库中(如GenBank)。对这些序列进行分析,可以
4、获得如下几个方面的信息:,2022/11/29,BIOINFORMATICS,数理与生物工程学院,7,DNA碱基组成、密码子的偏向、内部重复序 列等;序列及所代表的类群间的系统发育关系;特殊位点(限制性位点及转录、翻译和表达 调控相关信号);内含子/外显子(intron/exon)预测所确定的遗传 结构;可读框(open-reading frame,ORF)分析所推导 的蛋白质编码序列(coding sequence, CDS)等。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,8,4.1.2 核酸序列的基本分析4.1.2.1核酸序列的检索,已知核酸序列的检索是核酸序
5、列分析最为基本的一个方面。可通过多种方式实现该功能。例如,可通过NCBI使用Entrez(http:/www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Nucleotide)系统进行检索,在输入框中输入需要检索的内容,然后点击按钮“Go”即可开始(图4-1)。同样,也可使用EBI的SRS服务器(http:/srs.ebi.ac.uk/)进行检索,可参考第三章。,2022/11/29,BIOINFORMATICS,9,图4-1 NCBI核酸序列检索的网络界面,2022/11/29,BIOINFORMATICS,数理与生物工程学院,10,在进行序列检索时,往
6、往需要同时检索多条序列。这一点可通过逻辑关系式按照GenBank接受号进行批量检索。例如,需要检索序列接受号分别为AF113671、AF113672、AF113673、AF113674、AF113675、AF 113676的序列,可在序列输入框中输入“AF113671 ac OR AF113672 ac OR AF113673 ac OR AF113674 ac OR AF113675 ac OR AF113676 ac”,即可同时检索出这些序列。其中,“ac”是序列接受号的描述字段。GenBank数据库中所采用的描述字段详见网址http:/www.ncbi.nlm.nih.gov/Entre
7、z/entrezhelp.html#SearchFields。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,11,4.1.2.2分子质量、碱基组成、碱基分布,核酸序列的分子质量、碱基组成、碱基分布等分析可通过一些常用软件如BioEdit(http:/www.mbio.ncsu.edu/BioEdit/bioedit.html),DNAMAN(http:/ mRNA全序列,GenBank接受号AJ627251)基本性质分析为例,可以看出,输出结果中Composition(组成)和Percentage(百分比)一栏以及Molecular Weight(分子质量)清楚地给
8、出了关于该条序列的有关结果。,图4-2 核酸序列基本性质分析示例,2022/11/29,BIOINFORMATICS,数理与生物工程学院,13,4.1.2.3 序列变换,进行序列分析时,经常需要对DNA序列进行各种变换,例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。这些使用DNAMAN软件可以很容易地实现,这些功能集中在SequenceDisplay,从中可选择不同的序列变换方式对当前通道的序列进行转换。,2022/11/29,BIOINFORMATICS,14,例如,对一个短序列进行变换后的结果如下:原始序列 5-ATGAGCGTCT TCCTGCGAAA GCA
9、ATGCCTC TGCCTAGGCT-3反向序列 3-TCGGATCCGT CTCCGTAACG AAAGCGTCCT TCTGCGAGTA- 5互补序列 3-TACTCGCAGA AGGACGCTTT CGTTACGGAG ACGGATCCGA-5反向互补序列 5-AGCCTAGGCA GAGGCATTGC TTTCGCAGGA AGACGCTCAT-3 DNA双链 5-ATGAGCGTCT TCCTGCGAAA GCAATGCCTC TGCCTAGGCT-3 3-TACTCGCAGA AGGACGCTTT CGTTACGGAG ACGGATCCGA-5 RNA序列 5-AUGAGCGUCU
10、 UCCUGCGAAA GCAAUGCCUC UGCCUAGGCU-3,2022/11/29,BIOINFORMATICS,数理与生物工程学院,15,4.1.2.4 限制性酶切分析,限制性酶切分析是分子生物学实验中的日常工作之一。该方面最好的资源是限制酶数据库(Restriction Enzyme Database,REBASE)。REBASE数据库中含有限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源以及公开发表的和未发表的参考文献(http:/, http:/,2022/11/29,BIOINFORMATICS,16,表4-1国际互联网中
11、的核酸序列限制性酶切分析资源,2022/11/29,BIOINFORMATICS,数理与生物工程学院,17,同时,很多软件也能够识别REBASE限制酶数据库。此处以使用BioEdit软件进行核酸序列限制性酶切分析为例加以说明。将待分析序列输入BioEdit软件的序列显示区后,按照图4-3的说明即可完成分析过程,其结果见图4-4。,图4-3 使用BioEdit软件进行核酸序列限制性酶切分析界面,图4-4 使用BioEdit软件进行核酸序列限制性酶切分析结果示例,2022/11/29,BIOINFORMATICS,数理与生物工程学院,20,上述结果中给出了指定DNA序列的酶切位点信息,为克隆鉴定和
12、亚克隆提供了重要信息。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,21,4.1.2.5 重复序列分析,脊椎动物基因组中各种重复序列占有很高的比例。目前已经开发了一批重复序列数据库,如RepBase(http:/www.girinst.org/server/RepBase/)。著名的RepeatMasker软件就是基于该数据库进行工作(http:/ftp.genome.washington.edu/cgi-bin/RepeatMasker),使用该程序可以进行重复序列片段分析。,图4-5 利用RepeatMasker软件分析重复序列的网络界面,2022/11/29,
13、BIOINFORMATICS,数理与生物工程学院,23,4.1.3 基因结构与DNA序列分析,真核基因结构具有一些关键特征(图4-6),这是我们理解基因结构对序列分析的影响所必须考虑的。这些特征包括内含子、外显子、编码序列、非翻译区(untranslated region, UTR)等。而原核基因通常缺少内含子,结构相对简单。,图4-6 真核基因结构示意图,2022/11/29,BIOINFORMATICS,数理与生物工程学院,25,4.1.3.1 非翻译区,非翻译区(UTR)在DNA和RNA中均有,它们是位于蛋白质编码序列(CDS)两侧的序列,未被翻译成蛋白质。尤其是3端,无论是对基因还是对
14、物种都是高度特异的。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,26,4.1.3.2 概念性翻译,如图4-7给定一个DNA序列,可以利用遗传密码将其翻译为蛋白质序列,这种方式称为概念性翻译(conceptual translation)。与基于生化实验的蛋白质翻译不同的是,概念性翻译仅通过理论推导或计算获得。对任意一个DNA序列,可能并不知道哪一个碱基代表CDS的起始,也不知道其阅读方向。这种情况下,不妨试用六框翻译(six-frame translation)。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,27,六框翻译通过移动阅读框
15、起始碱基,获得6个潜在的蛋白质序列。其中,3个是正向翻译,3个是反向翻译,6种可能的蛋白质中至多只有一种是正确的。,查询序列 1 ggccagatgg aacatattgc tttcgggagc acaaggatcg ggtctactac gtctcggagc 61 ggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgct121 tcggcaagtt ctccaagacc aacaaactga agttccatat cacggcgctc tactacttgg181 cgccctacgc ccagtacaag gtgtgg
16、gtga agcectcctt cgagcagcag tttctctacg,六框翻译氨基酸正向序列1GQMEHIAFGSTRIGSTISRSGF*S*ASASATSSWCAWAPASASSPRPTN*SSISRRSTTWRPTPSTRCG*SPPSSSSFST正向序列2ARWNILLSGAQGSGLLRLGADFEAERVLRLQAAGVRGHLLRQVLQDQQTEVPYHGALLLGALRPVQGVGEALLRAAVSLR正向序列3PDGTYCFREHKDRVYYVSERILKISECFGYKQLVCVGTCFGKFSKTNKLKFHTTALYYLAPYAQYKVWVKPSFEQQFLY反
17、向序列1RRETAARRRASPTPCTGRRAPSSRAP*YGTSVCWSWRTCRSRCPRTPAACSRSTRSASKSAPRRSRPDPCAPESNMFHLA反向序列2VEKLLLEGGLHPHLVLGVGRQVVERRDMELQFVGLGELAEAGAHAHQLLVAEALAQLQNPLRDVVDPILVLPKAICSIW反向序列3PRNCCSKEGFTHTLYWAGAKSAVIWNFSLLVLENLPKQVPIHTSCLPKHSLSFKIRSETTRSLCSRKQYVPSG(*代表一个终止密码子),图4-7 六框氨基酸翻译,2022/11/29,BIOINFORMATICS,数理
18、与生物工程学院,29,从图4-7中可以看出,用不同的阅读框翻译CDS可能获得不同的蛋白质编码序列。哪一种是“正确”的呢?通常认为是可读框(ORF )即没有终止密码子(TGA,TAA或TAG)打断的阅读框。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,30,mRNA需要翻译为蛋白质方能发挥其生物学作用,因此,核酸序列的可读框架(Open reading frame, ORF)的分析便成为核酸分析的一个重要部分。基于遗传密码表,可通过计算机方便地分析核酸序列的读码框。对于真核生物而言,一条全长cDNA序列将只含有单一的开放阅读框架。,2022/11/29,BIOINFO
19、RMATICS,数理与生物工程学院,31,非全长的cDNA序列如ESTs,常常来源于3末端测序的结果,从而含有3非编码区。典型情况下,一般按照具有合适的起始密码子和终止密码子来查找最长的ORF,或者在同一相位含有前置终止密码子的起始密码子,并具有poly(A)末尾的区域视为最可能的ORF。发现ORF的末端要比找到起始端更容易一些。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,32,一般来说,CDS中的起始密码子(initial codon) ATG是编码甲硫氨酸(Met)的,但在CDS内也很常见,所以ATG的出现并不意味着一定就是ORF的起始,还需要应用其他技术来检
20、测5UTR 。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,33,大量实验证明,在真核生物起始蛋白质合成时,40S核糖体亚基及有关合成起始因子首先与mRNA模板靠近5末端处结合,然后向3末端方向滑行,发现AUG起始密码子时,与60S大亚基结合形成80S起始复合物。这就是Kozak提出的真核生物蛋白质合成起始的“扫描模式”。Kozak调查了200多种真核生物mRNA中5末端第一个AUG前后序列发现,除17个例外,其余都是A/GNNAUGG,说明这样的序列对翻译起始来说最为合适。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,34,具体而言,A
21、UG很可能是真核生物惟一的翻译起始位点,具有生物学功能的起始密码AUG总是出现在一定的核苷酸序列框架之内。首先,AUG上游(即5方向)的第三个核苷酸,常常是嘌呤,且多数是A;其次,紧跟在AUG后面的核苷酸,常常也是嘌呤,但多数情况下是G。实验表明,AUG附近的核苷酸序列中ANNAUGN和GNNAUGPU的利用率最高,而没有起始功能AUG附近的核苷酸序列则无此保守性。这就是所谓的“Kozak序列”,在分析读码框时需要重点参考。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,35,下列几种特性可以用来检测DNA序列中潜在的CDS:(1)、ORF长度 很难随机地发现很长的O
22、RF,因而长的ORF很可能意味着存在CDS。(2)、Kozak序列 该序列是在起始密码子之前与核糖体作用的位点。在高等原核生物中其一致序列为GCCACC(ATG),而在酵母中为AAAAAA(ATG)。它们可以用来检测CDS的起始。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,36,(3)、密码子用法(codon usage) 在编码区和非编码区中,密码子用法是不同的。尤其是对特定氨基酸,密码子的用法可能随物种而变。因而,统计密码子用法可以用来推断5和3 UTR,并且有助于检测错译(见表4-2)。,2022/11/29,BIOINFORMATICS,37,表4-2 部
23、分模式生物中密码子用法的百分比,此外,在许多生物中已经发现在密码子第三个碱基位置上偏好G/C而不是A/T,G/C的概率偏向也可以帮助我们检测出CDS,2022/11/29,BIOINFORMATICS,数理与生物工程学院,38,4.1.3.4 编码区内含子结构分析,(1) “断裂”的真核基因 大多数真核基因都是由蛋白质编码序列和非蛋白质编码序列两部分组成的。编码序列称为外显子(exon),非编码序列称为内含子(intron)。在一个结构基因中,编码某一蛋白质序列不同区域的各个外显子并不连续排列在一起,而常常被长度不等的内含子所隔离,形成镶嵌排列的断裂方式,所以,真核基因有时被称为断裂基因(in
24、terrupted gene)。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,39,4.1.3.4 编码区内含子结构分析,在基因转录、加工产生成熟mRNA分子时,内含子通过剪接加工被去掉,保留在成熟mRNA分子中的外显子被拼接在一起,最终被翻译成蛋白质。因此通过反转录酶的作用,由成熟mRNA产生的cDNA分子中,只含有外显子,没有内含子。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,40,真核基因在结构上的不连续性是近10年来生物学上的重大发现之一。当基因转录成pre-mRNA后,除了在5端加帽及3端加多聚A(poly-A)之外,还要将隔
25、开各个相邻编码区的内含子剪去,使外显子相连后成为成熟mRNA。研究发现,有许多基因不是将它们的内含子全部剪去,而是在不同的细胞或不同的发育阶段有选择地剪切其中部分内含子,因此生成不同的mRNA及蛋白质分子。由于RNA的选择性剪接不牵涉到遗传信息的永久性改变,所以是真核基因表达调控中一种比较灵活的方式。,2022/11/29,BIOINFORMATICS,数理与生物工程学院,41,(2)外显子内含子连接区 真核基因断裂结构的另一个重要特点是外显子内含子连接区(exon-intron junction)的高度保守性和特异性碱基序列。外显子内含子连接区就是指外显子和内含子的交界,又称边界序列。外显子
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 序列 分析 课件
链接地址:https://www.31ppt.com/p-1474410.html