基因组序列的诠释.ppt
《基因组序列的诠释.ppt》由会员分享,可在线阅读,更多相关《基因组序列的诠释.ppt(89页珍藏版)》请在三一办公上搜索。
1、第五章 基因组序列的诠释,问 题,基因组序列所包含的全部遗传信息是什么?基因组作为一个整体如何行使其功能?用什么方法寻找基因,研究基因的功能呢?,基因组序列的诠释,研究基因组的最终目的不是为了仅仅得到基因组的全部序列,而是诠释基因组所包含的信息和基因组功能。在这一部分中,我们主要探讨利用什么方法来搜寻基因和研究基因组的功能1.在基因组中搜寻基因根据顺序分析搜寻基因实验分析确认基因2.基因功能的测定,5.1 在基因组中搜寻基因一、根据序列分析搜寻基因,A 起始密码子 ATG B 信号肽分析C 终止密码子D 3端的确认E 非编码序列、内含子F 密码子偏爱性G 外显子内含子边界H 上游调控序列I 软
2、件预测,在获得基因组或DNA序列后,可以采用人工或计算机序列筛选的方法来获得基因。目前,使用比较多的方法是ORF(opening reading frames)扫描ORF:每个编码蛋白的基因都含有ORF,它是由一系列密码子组成,通常以ATG开始,TAA、TGA、TAG结束。通过寻找起始密码子和终止密码子的ORF序列是寻找基因的一种重要的方法寻找ORF的成功的关键在于终止码在DNA序列中出现的频率,终止码出现的频率与CG含量之间的关系,高等真核生物DNA的ORF的阅读障碍:基因间存在大量非编码序列(人类基因组占70%)很多基因含有内含子由于多数外显子长度100个密码子,当读码进入到内含子时很快就
3、遇到终止密码,从而难以判断读码的准确性,根据开放读码框(ORF)预测基因,A、起始密码子 ATG第一个ATG的确定(依据Kozak规则)Kozak规则是基于已知数据的统计结果所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律,Kozak规则:若将第一个ATG中的碱基A,T,G分别标为1,2,3位,侧翼碱基序列具有以下特征:第4位的偏好碱基为GATG的5端约15bp范围的侧翼序列内不含碱基T在-3,-6和-9位置,G是偏好碱基除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基,gene 1.1033/gene=FSHB/gene_synonym=FSH-beta/note=f
4、ollicle stimulating hormone,beta polypeptide/db_xref=GeneID:396895 CDS 72.461/gene=FSHB/gene_synonym=FSH-beta/note=follicle stimulating hormone beta-subunit;FSH-B;follitropin beta chain;follicle-stimulating hormone beta subunit;follitropin subunit beta;follitropin b,1 acagcttccc ccagacaagg cagccgatc
5、a cagtttttta caggccttaa ttgtttggtt 61 tccaccccaa gatgaagtcg ctgcagtttt gcttcctatt ctgttgctgg aaagccattt121 gctgcaatag ctgtgagctg accaacatca ccatcacagt ggagaaagag gagtgtaact181 tctgcataag catcaacacc acgtggtgtg ctggctattg ctacacccgg gacctggtat241 acaaggaccc agccaggccc aacatccaga aaacatgtac cttcaaggag
6、ctggtgtacg301 agaccgtgaa agtacctggc tgtgctcacc atgcagactc cctgtatacg tatccagtag361 ccactgaatg tcactgtggc aagtgtgaca gtgacagtac tgactgcacc gtgagaggcc421 tggggcccag ctactgctcc ttcagtgaaa tgaaagaata aagagcagtg gacatttcat481 gcttcctacc cttgtctgaa ggaccaagac gtccaagaag tttgtgtgta catgtgccca,sig_peptide 4
7、323.4415/locus_tag=MucpaDRAFT_6207/note=Signal predicted by SignalP 3.0 HMM gene 5309.5518/locus_tag=MucpaDRAFT_6208 CDS 5309.5518/locus_tag=MucpaDRAFT_6208,4201 taaactcagg tgcgcatgaa ttatgagata agatatagtt acaattggaa aatatctatt4261 taaaaatcca tttttttatt aagaatttta tttttctaaa actgttaaaa ttaatgatgc432
8、1 atatgttttg tataaaaaga ttaattcctt taaaacttaa acagctttca gttgggctga4381 tcgtccttct tttgtcccag gtttattgta ttgcgcagga taaaactacc ggccagcctt4441 taataattag tttcgatagg gctatagtta attcaccacc tgtaagctac ggctttaacc4501 ccttctataa aaaatatgct gacgctttcg gaatcccaat tatttcatca gagaaggtat4561 ctgatgatgc gctgttg
9、att gctcgggata tcatcaacta tatgctgtta aaacggcccg4621 acatccgtgc tggaatgatt aaacttggtg cgagattatc tattattgga aagtcggaaa4681 tgcaaaccga tcttccagaa tgccatgatt ggaagaaacc cacttatgat gatggccggt4741 tgactccagg agaaagagaa aattattaca aaccaggcgg gattgcaagt atgacggatc4801 acggatattg ggatcaacgg gcgagaggaa tgggc
10、gggat acaaacatct tgtgcagaag4861 agaatttgct tgggtatcca ggcacccgct attttggcga aaatattatg gttcatgaat4921 tcagccacaa tatcatggcc gtgttagaaa cgatagatgc agacatgatc aaacaaatta4981 acgccgctta tgaaaatgct aaggacaagg gcctttataa agggcaatat gccattaaca5041 cagttgcaga atactgggca gaaggtacgc agtggtggtt ttggtctaat att
11、gaattct5101 acgatggagg tatgcgtatc cagtctccag acgacctgaa agcttatgat cctgtattgt5161 ataatattct tgataaagtt tatgcaggcc atcatattcc tggtgatgta tattatggaa5221 agaatttgaa taacaataca tccaaaaggt aatatttcag tccattatta aaaaaaacaa5281 tgatttacaa actaaacata taaagtttat ggcttattac tatgtaacaa taatattgac5341 tcttatag
12、gt tattttattg ccttcctcgt aggtatttta atgataagag cgctatttat5401 tgttccccaa tttttacgca ttaaaaaagc taaattgaaa atactatctg aaatggctat5461 tcaaaatggg gttgagccgg ataaaataat ggatataata aatgaggctg atttatagcg5521 gtgtgaattt aagtaccatt gcctttttaa tttatattta ttgatttact gtagatttta,gene 2786.6479/gene=mom-5/locus_
13、tag=T23D8.1 CDS join(2786.3258,3758.4122,4187.4325,4866.5107,5220.5340,5688.5906,6332.6479),2641 caaactatta actaaataat gttgaacttc ttctatacat ataaccaaaa aaactatttc 2701 tttaataatt ttttatattt tcagacgaat cctgctatga actaacactt gtcaatctga 2761 aatctcttca aaactatcaa ttacaatgca tcgacatatt ctgatattat ttttat
14、tcgg 2821 atgcttatca gctgatcaac gactctcatc aacttcaatt tcatcgatga atggattctc 2881 aacaactcga aaatgtgaac atattacaat tccaatgtgc aaaaatctgg attacaatca 2941 aacagtattt ccaaatcttc tcggacatac aacacaatct gaagctggtc cagcaattgc 3001 gcaattcaat ccattaatta aagttaaatg ctcagaagat attcgtctct ttctttgtac 3061 tgtcta
15、tgca cctgtctgta cagtactcga aaaaccaatt caaccatgtc gagaattgtg 3121 tttatctgca aaaaatggat gcgagtcatt aatgaaaaag tttggatttc aatggccaga 3181 tcaattggat tgtaacaaat tcccagtaac tgatttgtgt gttggcaaga attccagcga 3241 gtcgagcaac tctaaaaagt gggttttctg cataatttta tgaataagaa tttataattg 3301 atatatattt acaacaaaaa
16、tttcaaaagt acccaaaaca tgaattaaag tttaaattta,B、信号肽分析信号肽分析软件(SignalP)把预测过程中证实含完整mRNA 5端的序列翻译为蛋白序列然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽,#data Sequence Prediction:Signal peptide Signal peptide probability:0.767 Signal anchor probability:0.000 Max cleavage site pr
17、obability:0.313 between pos.31 and 32,C、终止密码子终止密码子:TAA,TAG,TGA GC%=50%终止密码子每 64 bp出现一次 GC%50%终止密码子每100200 bp 出现一次 由于多数基因 ORF 均多于50个密码子,因此最可能的选择应该是 ORF 不少于100 个密码子,D、3端的确认 3端的确认主要根据Poly(A)尾序列,若测试DNA片段不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断,25561 caggccgaca aatcgcctta tgctagcccg gggggtggaa tgat
18、ccggat atgctgattg 25621 tggggcaggt aggctggggc gaaaaccttc attcttctaa ccttacgccc tatgaacaat 25681 atgcgcacat cagtttatgg agcctgctat cggctccatt gctaatcggg tgcgatttga 25741 gtaaactcga tgcctttacc ttgaatttgc tgaaaaacaa ggaggtaata gtattagatc 25801 aggacactct tggaaagcag gcaatccgaa ctgttaatat tggcggtgta caagt
19、atggg 25861 aaaaaaagct ttcggatggc ggacttgcca taggcgtttt taacctgaat gataaatatt 25921 gccgatatac cttacgttta acgcgtagaa aacacccggt aaatattata cgggatttat 25981 ggattcaaaa ggacgttaaa aaaaatgtcg gcactgtgtt gtttcaagtg ccacctcatg 26041 gggtcaagct tctgaatatt aaaggcagtt agtatcatta aatatggtca aatggttgct 26101
20、atgttaggat aaattccaac gttaattgac acctacaggt gattactttt gaattagttt 26161 tgtgaataaa agtgtctgtg ttcgtcaatt tatcttttat cgaaaataat aatgcatctt 26221 atacaataat ttatttaatt gttaacgatg ggagttagtt ttttcgtcaa ggtcaattct 26281 tacaagacag ttatagttag ttagttagtt agttgattaa gatggccgtc tcaatttg,E、非编码序列、内含子 高等真核生物多数
21、外显子长度少于100 个密码子,有的不到50个密码子甚至更少,F、密码子偏爱性 编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同 不同种属间使用同义密码的频率有很大差异,如人类基因中,丙氨酸(Ale)密码子多为GCA,GCC或GCT,而GCG很少使用,G、外显子内含子边界外显子和内含子的边界有一些明显的特征如:内含子的5端或称供体位(donor site)常见的顺序为 5-AGGTTAAGT-33端又称受体位(acceptor site),多为5PyPyPyPyPyPyCAG-3(Py:嘧啶核苷酸,T或C),H、上游调控序列 几乎所有基因(或操纵子)上游都有调控序列,它
22、们与DNA结合蛋白作用,控制基因表达 TATAAT,TGATCA,通过同源性比较来预测mRNA的5端,最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project,Eukaryotic Promoter Database,EPD.http:/www.epd.unil.ch/)另外个别生物基因组的特有组成也可作为判别依据,如脊椎动物基因组许多基因的上游都有CpG岛,I、软件预测采用NCBI的ORF预测软件(ORF finder:http:/www.ncbi.nlm.nih.gov/gorf/orfig.cgi)判断ORF的可能范围,适用于高等真核生物基因组的ORF扫
23、描方法:上游调控序列(upstream control sequence):上游调控序列和外显子-内含子边界一样具有显著特征,这些特征是参与基因表达的DNA结合蛋白的识别信号。但真核的变化也较大同源查询(homology search):利用已存入数据库中的基因序列与待查基因组序列进行比较,从中查找可与之匹配的碱基顺序及其比例用于界定基因的方法孤独基因(orphan gene):指在基因分类时缺少同源顺序的ORF,二、实验分析确认基因分子杂交可确定DNA片段是否含有表达顺序Northern blot:指将待测DNA样品标记后与RNA杂交,以判断RNA中是否含有DNA的转录产物。但在操作中存在一
24、些问题Zoo blot:一些亲缘关系相近的物种,其基因的编码区相似性较高,而非编码区的同源性很低。则可以某一物种的DNA序列与来自另一亲缘种的DNA片段杂交,如产生阳性信号,则该区段可能含有1或多个基因,DNA顺序中基因位置的确定Northern blot和Zoo blot可以判断DNA片段中是否含有基因,但是不能给出基因定位信息。获得基因定位信息的最容易的方法是cDNA测序cDNA测序受两个方面的影响:一是相关cDNA在cDNA文库中出现的频率;二是cDNA的完整性,如何获取基因全长cDNA序列?确定其在基因组中的位置?A cDNA 文库构建B RACE 技术C 通过对全长cDNA序列的测序
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因组 序列 诠释
链接地址:https://www.31ppt.com/p-6263069.html