基因组序列的诠释.ppt
第五章 基因组序列的诠释,问 题,基因组序列所包含的全部遗传信息是什么?基因组作为一个整体如何行使其功能?用什么方法寻找基因,研究基因的功能呢?,基因组序列的诠释,研究基因组的最终目的不是为了仅仅得到基因组的全部序列,而是诠释基因组所包含的信息和基因组功能。在这一部分中,我们主要探讨利用什么方法来搜寻基因和研究基因组的功能1.在基因组中搜寻基因根据顺序分析搜寻基因实验分析确认基因2.基因功能的测定,5.1 在基因组中搜寻基因一、根据序列分析搜寻基因,A 起始密码子 ATG B 信号肽分析C 终止密码子D 3端的确认E 非编码序列、内含子F 密码子偏爱性G 外显子内含子边界H 上游调控序列I 软件预测,在获得基因组或DNA序列后,可以采用人工或计算机序列筛选的方法来获得基因。目前,使用比较多的方法是ORF(opening reading frames)扫描ORF:每个编码蛋白的基因都含有ORF,它是由一系列密码子组成,通常以ATG开始,TAA、TGA、TAG结束。通过寻找起始密码子和终止密码子的ORF序列是寻找基因的一种重要的方法寻找ORF的成功的关键在于终止码在DNA序列中出现的频率,终止码出现的频率与CG含量之间的关系,高等真核生物DNA的ORF的阅读障碍:基因间存在大量非编码序列(人类基因组占70%)很多基因含有内含子由于多数外显子长度100个密码子,当读码进入到内含子时很快就遇到终止密码,从而难以判断读码的准确性,根据开放读码框(ORF)预测基因,A、起始密码子 ATG第一个ATG的确定(依据Kozak规则)Kozak规则是基于已知数据的统计结果所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律,Kozak规则:若将第一个ATG中的碱基A,T,G分别标为1,2,3位,侧翼碱基序列具有以下特征:第4位的偏好碱基为GATG的5端约15bp范围的侧翼序列内不含碱基T在-3,-6和-9位置,G是偏好碱基除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基,gene 1.1033/gene=FSHB/gene_synonym=FSH-beta/note=follicle stimulating hormone,beta polypeptide/db_xref=GeneID:396895 CDS 72.461/gene=FSHB/gene_synonym=FSH-beta/note=follicle stimulating hormone beta-subunit;FSH-B;follitropin beta chain;follicle-stimulating hormone beta subunit;follitropin subunit beta;follitropin b,1 acagcttccc ccagacaagg cagccgatca cagtttttta caggccttaa ttgtttggtt 61 tccaccccaa gatgaagtcg ctgcagtttt gcttcctatt ctgttgctgg aaagccattt121 gctgcaatag ctgtgagctg accaacatca ccatcacagt ggagaaagag gagtgtaact181 tctgcataag catcaacacc acgtggtgtg ctggctattg ctacacccgg gacctggtat241 acaaggaccc agccaggccc aacatccaga aaacatgtac cttcaaggag ctggtgtacg301 agaccgtgaa agtacctggc tgtgctcacc atgcagactc cctgtatacg tatccagtag361 ccactgaatg tcactgtggc aagtgtgaca gtgacagtac tgactgcacc gtgagaggcc421 tggggcccag ctactgctcc ttcagtgaaa tgaaagaata aagagcagtg gacatttcat481 gcttcctacc cttgtctgaa ggaccaagac gtccaagaag tttgtgtgta catgtgccca,sig_peptide 4323.4415/locus_tag=MucpaDRAFT_6207/note=Signal predicted by SignalP 3.0 HMM gene 5309.5518/locus_tag=MucpaDRAFT_6208 CDS 5309.5518/locus_tag=MucpaDRAFT_6208,4201 taaactcagg tgcgcatgaa ttatgagata agatatagtt acaattggaa aatatctatt4261 taaaaatcca tttttttatt aagaatttta tttttctaaa actgttaaaa ttaatgatgc4321 atatgttttg tataaaaaga ttaattcctt taaaacttaa acagctttca gttgggctga4381 tcgtccttct tttgtcccag gtttattgta ttgcgcagga taaaactacc ggccagcctt4441 taataattag tttcgatagg gctatagtta attcaccacc tgtaagctac ggctttaacc4501 ccttctataa aaaatatgct gacgctttcg gaatcccaat tatttcatca gagaaggtat4561 ctgatgatgc gctgttgatt gctcgggata tcatcaacta tatgctgtta aaacggcccg4621 acatccgtgc tggaatgatt aaacttggtg cgagattatc tattattgga aagtcggaaa4681 tgcaaaccga tcttccagaa tgccatgatt ggaagaaacc cacttatgat gatggccggt4741 tgactccagg agaaagagaa aattattaca aaccaggcgg gattgcaagt atgacggatc4801 acggatattg ggatcaacgg gcgagaggaa tgggcgggat acaaacatct tgtgcagaag4861 agaatttgct tgggtatcca ggcacccgct attttggcga aaatattatg gttcatgaat4921 tcagccacaa tatcatggcc gtgttagaaa cgatagatgc agacatgatc aaacaaatta4981 acgccgctta tgaaaatgct aaggacaagg gcctttataa agggcaatat gccattaaca5041 cagttgcaga atactgggca gaaggtacgc agtggtggtt ttggtctaat attgaattct5101 acgatggagg tatgcgtatc cagtctccag acgacctgaa agcttatgat cctgtattgt5161 ataatattct tgataaagtt tatgcaggcc atcatattcc tggtgatgta tattatggaa5221 agaatttgaa taacaataca tccaaaaggt aatatttcag tccattatta aaaaaaacaa5281 tgatttacaa actaaacata taaagtttat ggcttattac tatgtaacaa taatattgac5341 tcttataggt tattttattg ccttcctcgt aggtatttta atgataagag cgctatttat5401 tgttccccaa tttttacgca ttaaaaaagc taaattgaaa atactatctg aaatggctat5461 tcaaaatggg gttgagccgg ataaaataat ggatataata aatgaggctg atttatagcg5521 gtgtgaattt aagtaccatt gcctttttaa tttatattta ttgatttact gtagatttta,gene 2786.6479/gene=mom-5/locus_tag=T23D8.1 CDS join(2786.3258,3758.4122,4187.4325,4866.5107,5220.5340,5688.5906,6332.6479),2641 caaactatta actaaataat gttgaacttc ttctatacat ataaccaaaa aaactatttc 2701 tttaataatt ttttatattt tcagacgaat cctgctatga actaacactt gtcaatctga 2761 aatctcttca aaactatcaa ttacaatgca tcgacatatt ctgatattat ttttattcgg 2821 atgcttatca gctgatcaac gactctcatc aacttcaatt tcatcgatga atggattctc 2881 aacaactcga aaatgtgaac atattacaat tccaatgtgc aaaaatctgg attacaatca 2941 aacagtattt ccaaatcttc tcggacatac aacacaatct gaagctggtc cagcaattgc 3001 gcaattcaat ccattaatta aagttaaatg ctcagaagat attcgtctct ttctttgtac 3061 tgtctatgca cctgtctgta cagtactcga aaaaccaatt caaccatgtc gagaattgtg 3121 tttatctgca aaaaatggat gcgagtcatt aatgaaaaag tttggatttc aatggccaga 3181 tcaattggat tgtaacaaat tcccagtaac tgatttgtgt gttggcaaga attccagcga 3241 gtcgagcaac tctaaaaagt gggttttctg cataatttta tgaataagaa tttataattg 3301 atatatattt acaacaaaaa tttcaaaagt acccaaaaca tgaattaaag tttaaattta,B、信号肽分析信号肽分析软件(SignalP)把预测过程中证实含完整mRNA 5端的序列翻译为蛋白序列然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽,#data Sequence Prediction:Signal peptide Signal peptide probability:0.767 Signal anchor probability:0.000 Max cleavage site probability:0.313 between pos.31 and 32,C、终止密码子终止密码子:TAA,TAG,TGA GC%=50%终止密码子每 64 bp出现一次 GC%50%终止密码子每100200 bp 出现一次 由于多数基因 ORF 均多于50个密码子,因此最可能的选择应该是 ORF 不少于100 个密码子,D、3端的确认 3端的确认主要根据Poly(A)尾序列,若测试DNA片段不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断,25561 caggccgaca aatcgcctta tgctagcccg gggggtggaa tgatccggat atgctgattg 25621 tggggcaggt aggctggggc gaaaaccttc attcttctaa ccttacgccc tatgaacaat 25681 atgcgcacat cagtttatgg agcctgctat cggctccatt gctaatcggg tgcgatttga 25741 gtaaactcga tgcctttacc ttgaatttgc tgaaaaacaa ggaggtaata gtattagatc 25801 aggacactct tggaaagcag gcaatccgaa ctgttaatat tggcggtgta caagtatggg 25861 aaaaaaagct ttcggatggc ggacttgcca taggcgtttt taacctgaat gataaatatt 25921 gccgatatac cttacgttta acgcgtagaa aacacccggt aaatattata cgggatttat 25981 ggattcaaaa ggacgttaaa aaaaatgtcg gcactgtgtt gtttcaagtg ccacctcatg 26041 gggtcaagct tctgaatatt aaaggcagtt agtatcatta aatatggtca aatggttgct 26101 atgttaggat aaattccaac gttaattgac acctacaggt gattactttt gaattagttt 26161 tgtgaataaa agtgtctgtg ttcgtcaatt tatcttttat cgaaaataat aatgcatctt 26221 atacaataat ttatttaatt gttaacgatg ggagttagtt ttttcgtcaa ggtcaattct 26281 tacaagacag ttatagttag ttagttagtt agttgattaa gatggccgtc tcaatttg,E、非编码序列、内含子 高等真核生物多数外显子长度少于100 个密码子,有的不到50个密码子甚至更少,F、密码子偏爱性 编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同 不同种属间使用同义密码的频率有很大差异,如人类基因中,丙氨酸(Ale)密码子多为GCA,GCC或GCT,而GCG很少使用,G、外显子内含子边界外显子和内含子的边界有一些明显的特征如:内含子的5端或称供体位(donor site)常见的顺序为 5-AGGTTAAGT-33端又称受体位(acceptor site),多为5PyPyPyPyPyPyCAG-3(Py:嘧啶核苷酸,T或C),H、上游调控序列 几乎所有基因(或操纵子)上游都有调控序列,它们与DNA结合蛋白作用,控制基因表达 TATAAT,TGATCA,通过同源性比较来预测mRNA的5端,最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project,Eukaryotic Promoter Database,EPD.http:/www.epd.unil.ch/)另外个别生物基因组的特有组成也可作为判别依据,如脊椎动物基因组许多基因的上游都有CpG岛,I、软件预测采用NCBI的ORF预测软件(ORF finder:http:/www.ncbi.nlm.nih.gov/gorf/orfig.cgi)判断ORF的可能范围,适用于高等真核生物基因组的ORF扫描方法:上游调控序列(upstream control sequence):上游调控序列和外显子-内含子边界一样具有显著特征,这些特征是参与基因表达的DNA结合蛋白的识别信号。但真核的变化也较大同源查询(homology search):利用已存入数据库中的基因序列与待查基因组序列进行比较,从中查找可与之匹配的碱基顺序及其比例用于界定基因的方法孤独基因(orphan gene):指在基因分类时缺少同源顺序的ORF,二、实验分析确认基因分子杂交可确定DNA片段是否含有表达顺序Northern blot:指将待测DNA样品标记后与RNA杂交,以判断RNA中是否含有DNA的转录产物。但在操作中存在一些问题Zoo blot:一些亲缘关系相近的物种,其基因的编码区相似性较高,而非编码区的同源性很低。则可以某一物种的DNA序列与来自另一亲缘种的DNA片段杂交,如产生阳性信号,则该区段可能含有1或多个基因,DNA顺序中基因位置的确定Northern blot和Zoo blot可以判断DNA片段中是否含有基因,但是不能给出基因定位信息。获得基因定位信息的最容易的方法是cDNA测序cDNA测序受两个方面的影响:一是相关cDNA在cDNA文库中出现的频率;二是cDNA的完整性,如何获取基因全长cDNA序列?确定其在基因组中的位置?A cDNA 文库构建B RACE 技术C 通过对全长cDNA序列的测序、对比,以及与基因组DNA的比较,确定基因所在的区域;通过物种已建立遗传图和物理图来确定基因的位置;,cDNA文库构建(CLONTECH),SMART原则(S=Specific、M=Measurable、A=Attainable、R=Relevant、T=Time-based),cDNA文库构建,5RACE(CLONTECH),3RACE(CLONTECH),5.2 基因功能的测定,一.利用计算机分析基因功能二.实验分析确定基因功能三.其他的基因功能研究方法四.主要技术及原理方法,一.利用计算机分析基因功能1.同源性确定基因功能2.同源性分析在酵母基因组计划中的应用,1.同源性确定基因功能,同源基因都拥有一个共同的祖先基因,它们之间有许多相似的序列。同源基因可以分为2类:种间同源基因或直系基因(orthologous gene):指不同物种之间的同源基因,它们来自物种分化以前的共同祖先种内同源基因或平行基因(paralogous gene)同一物种内的同源基因,它们常常是多基因家族的不同成员,其共同祖先可能存在于物种形成以后,也可能存在于物种形成之前,同源基因一般不会有完全一致的核苷酸序列,因为不同的基因或不同的生物都会独立地发生随机突变,但它们有相似的序列,大部分未突变的核苷酸位置是相同的。当一个新基因的序列被确认后,根据同源性可以从数据库中查找已知序列的同源基因。根据进化的相关性,可以根据已知的同源基因推测新基因的功能。同源性分析可以给出整个基因或其中某一区段功能的有关信息,1 aatcggcgct gccccagcag ggctgcggct gcaggcaggc agagcctcct agcccgtcgg 61 tgtctgcgcc catcgatccc tttgtctatc cccgaccatg gcgaagctga ttgcgctcac 121 cctcttgggg atgggactgg cactcttcag gaaccaccag tcttcttacc aaacacgact 181 taatgctctc cgagaggtac aacccgtaga acttcctaac tgtaatttag ttaaaggaat 241 cgaaactggc tctgaagact tggagatact gcctaatgga ctggctttca ttagctctgg 301 attaaagtat cctggaataa agagcttcaa ccccaacagt cctggaaaaa tacttctgat 361 ggacctgaat gaagaagatc caacagtgtt ggaattgggg atcactggaa gtaaatttga 421 tgtatcttca tttaaccctc atgggattag cacattcaca gatgaagata atgccatgta 481 cctcctggtg gtgaaccatc cagatgccaa gtccacagtg gagttgttta aatttcaaga 541 agaagaaaaa tcgcttttgc atctaaaaac catcagacat aaacttctgc ctaatttgaa 601 tgatattgtt gctgtgggac ctgagcactt ttatggcaca aatgatcact attttcttga 661 cccctactta caatcctggg agatgtattt gggtttagcg tggtcgtatg ttgtctacta 721 tagtccaagt gaagttcgag tggtggcaga aggatttgat tttgctaatg gaatcaacat 781 ttcacccgat ggcaagtatg tctatatagc tgagttgctg gctcataaga ttcatgtgta 841 tgaaaagcat gctaattgga ctttaactcc attgaagtcc cttgacttta ataccctcgt,901 ggataacata tctgtggatc ctgagacagg agacctttgg gttggatgcc atcccaatgg 961 catgaaaatc ttcttctatg actcagagaa tcctcctgca tcagaggtgc ttcgaatcca 1021 gaacattcta acagaagaac ctaaagtgac acaggtttat gcagaaaatg gcacagtgtt 1081 gcaaggcagt acagttgcct ctgtgtacaa agggaaactg ctgattggca cagtgtttca 1141 caaagctctt tactgtgagc tctaacagac cgatttgcac ccatgccata gaaactgagg 1201 ccattatttc aaccgcttgc catattccga ggacccagtg ttcttagctg aacaatgaat 1261 gctgacccta aatgtggaca tcatgaagca tcaaagcact gtttaactgg gagtgatatg 1321 atgtgtaggg cttttttttg agaatacact atcaaatcag tcttggaata cttgaaaacc 1381 tcatttacca taaaaatcct tctcactaaa atggataaat cagttatgtc aattgtcaga 1441 tattaaataa cagtgtgtga ccccaaaagt acttacccta aaacatgtgt tgcctggaag 1501 cacatgtgtg tatcgctgcc ttgccatgtc ttgttcagaa gacacagggg agcagggtta 1561 gctcacgtgt ctttagaact ccagtactca cccagggact ccagttcaca ggccagaaaa 1621 catatgcatt atgaagttcc cctctactcc atgcacatag taagtctgac tatggcagtc 1681 agacttactt actcccattt tcccttcgat atatgacttt ttctcagtaa atattaacct 1741 gaattattcc aaaaaaaaaa aaaaaaaaa,2.同源性分析在酵母基因组计划中的应用,酵母基因组大约含有6000个基因,30是通过传统遗传学分析得到的,另外70是用同源性分析获得,5.2 基因功能的测定,二.实验分析确定基因功能1.基因失活在基因功能分析的作用2.基因的超表达用于功能检测,1.基因失活在基因功能分析的作用,基因的功能是一个过程,是从基因到表型的一系列生理生化反应过程。现在的基因功能研究与传统的遗传分析正好相反,传统的遗传分析是从表型出发最终到达基因(正向遗传学),而在基因组计划中研究基因功能则是从基因出发,最终到达表型(反向遗传学)。因此必须寻找一系列的实验方法来鉴别与目标基因相关的表型。基因失活是基因功能分析的主要手段。,基因失活基因剔除(knock-out)反义RNA技术转座子插入突变,基因剔除(knock-out)最简单的基因失活方法,将一段无关的DNA片段用来取代目标基因。主要原理:用一段无关的核苷酸序列取代目标基因的中间序列,并将其导入生物体内或目的细胞内,如果该基因所控制的表型变化了,就从反面验证了目标基因的功能。,反义RNA技术 反义RNA由基因的负链(模板链的互补链)编码,可以与由功能基因转录而成的正义RNA形成双链结构,干扰mRNA的翻译,从而干扰基因的表达 将基因的编码序列反向插入表达载体,转化目标生物,获得转基因个体或品系后,进一步分析表达的反义RNA在生理生化或形态发生中所起的作用,由此判别目标基因的功能转座子插入突变 将转座子随机插入功能基因内,使其失活,也可以用于基因功能研究。,2.基因的超表达用于功能检测,在正常情况下,基因产物的数量是有限制的,必须与其它基因的产物平衡,某一基因产物的过量和不足都会破坏这种平衡,造成生长和发育的异常 有两种技术可以使细胞中某一基因过量表达:增加基因的拷贝数;采用强启动子,许多蛋白质必须与其他蛋白质互作,才能表现其功能,当鉴定了这类蛋白质的某些成员,则可采用某些方法分离与之互作的其他蛋白质噬菌体展示(phage display)酵母双杂交(yeast two-hybridization),三.其他的基因功能研究方法,噬菌体展示检测的基因与噬菌体外壳蛋白基因融合,表达后可产生融合外壳蛋白,当噬菌体遇到可与融合外壳蛋白互作的蛋白质时会发生聚合,酵母菌双杂交系统 真核生物中,转录因子与基因上游的特定DNA序列结合,然后激活RNA聚合酶,起始RNA的合成。转录因子有2个重要的功能区域,一个与启动子区域的DNA序列结合,另一个与RNA聚合酶的激活有关。有些转录因子中的这2个片段即使分割开来,仍然可以在同一个细胞内相互作用,装配成一个完整的、有功能的转录因子。,酵母菌双杂交系统中,将编码这2个功能域的DNA分别构建在2个独立的表达载体上。在一个表达载体中,DNA结合功能域的基因片段与待测蛋白质的基因连接成融合基因。在另一个载体中,RNA聚合酶激活功能域的基因片段与未知的DNA序列连接成融合蛋白基因。将这2个表达载体同时转化一个细胞,并在细胞内表达,如果DNA结合功能域蛋白与同RNA聚合酶激活功能域蛋白之间能够互作,就会启动报告基因的表达。,四 主要技术及原理方法,4.1 基因剔除(knock-out)最简便的基因失活的方法.主要原理:在一段无关DNA 片段的两侧连接与代换基因两侧相同的顺序,将这一构建导入目的细胞,由于同源片段之间的重组,可使无关片段取代靶基因,整合到染色体中.为了便于筛选,用于取代的外源DNA中含有报告基因.,tk 胸苷激酶标记基因 gangcyclovirneor 新霉素抗性基因G418,4.2 基因超表达 通过增加基因的拷贝数和采用强启动子促使基因超表达,致使受体表现出生长与发育的异常,来研究基因的功能.,4.3 反义RNA,反义RNA是由基因的负链编码,可与正义RNA(sense RNA)或DNA 编码顺序结合,干扰mRNA 的转录,加工和转运,调控基因的表达.,构建反义RNA 表达载体:将全目的基因或部分目的基因反向插入表达载体 转化目标生物 获得转基因个体或品系 分析转基因植株在生理、生化、形态等方面的变异 判别目的基因的功能,正义表达载体,反义表达载体,反义RNA 作用机理:A 干扰翻译的起始与延伸,可与翻译起始顺序及编码序列结合形成双链RNA,随之被细胞降解。B 与mRNA 的引导顺序结合,阻止核糖体的附着,使翻译无法启动。C 反义RNA与mRNA形成双链分子后,使RNA多聚酶脱离模板,转录终止。,4.4 RNAi干扰,RNAi干扰是通过双链RNA的介导,特异性地降解相应序列的mRNA,从而阻断相应基因表达的转录后水平的基因沉默机制.,RNAi 作用机理,A dsRNA核酸内切酶Dicer被激活,它把dsRNA加工成21-25个核苷酸长的RNA链;B 这些小片段RNA(siRNA)作为另一个核糖核酸复合体RISC(RNA-induce silencing complex,RNA诱导沉默复合体)的指引物,结合到RISC上,使之识别并降解mRNA,从而导致与双链RNA同源的基因沉默;,RNAi设计方法及应用A Fraser 合成与开放读码框相对应的双链RNA或利用细菌克隆表达这些双链RNA微量注射/喂食干扰同源基因的表达B Chuang 等设计出嵌合体结构 连接强启动子大量表达双链mRNA干扰同源基因的表达,HbF基因的RNAi载体构建,RNAi技术的优缺点,RNAi最根本的特点是特异性RNAi具有特殊的穿越能力,如将双链RNA注射在线虫性腺里,它也会干扰到体细胞里的基因表达,而且干扰作用会传给后代;对一些低水平表达的基因,RNAi现象并不明显RNAi能同时作用于几个有相同或相似序列的基因,4.5 酵母双杂交(yeast two-hybridization),原理:其原理涉及转录因子与启动子之间的互作。转录因子(包括两个功能区域)结合功能域同基因上游的区段结合 激活功能域激活RNA多聚酶 将基因转录为mRNA,酵母杂交系统中:融合表达载体1 融合表达载体2,DNA结合功能域+目的片段,激活功能域+多种未知cDNA,融合表达载体1同一细胞 融合表达载体2,形成聚合物,启动报告基因的表达,表达载体共转化,5.3 从基因组到细胞,转录本组transcriptomeDNA芯片分析SAGE蛋白质组proteome,DNA芯片分析芯片表面原位直接合成寡聚核苷酸,一百万个寡聚核苷酸/cm2荧光标记样品cDNA,杂交,扫描,根据杂交位置确定序列 一次实验可同时检测成千上万个基因的表达谱,可提供大量有关基因相互作用的信息,5.3 基因芯片,何为生物芯片?生物芯片主要指通过平面微细加工技术在固体芯片表面构建的微流体分析单元和系统,以实现对细胞、蛋白质、核酸以及其他生物组分的准确、快速、大信息量的检测。它是继大规模集成电路之后的又一次具有深远意义 的科学技术革命。,生物芯片分类,基因芯片技术是指通过微阵列(Microarray)技术将高密度DNA片段阵列通过高速机器人或原位合成方式以一定的顺序或排列方式使其附着在如玻璃片等固相表面,以荧光标记的DNA探针,借助碱基互补杂交原理,进行大量的基因表达及监测等方面研究的最新革命性技术。,基因芯片,基因芯片发展历史,Southern&Northern Blot,Dot Blot,Macroarray,Microarray,基因芯片的主要应用基因表达检测 拟南芥、酵母基因表达研究等突变检测 BRCA基因外显子、CFTR基因、-地中海贫血、酵母突变菌株、HIV-1逆转录酶及蛋白酶基因等的突变检测等基因组多态性分析 人类基因组单核苷酸多态性的鉴定及分系析,人线粒体16.6kb基因组多态性的研究等基因文库作图 通过确定重叠克隆的次序从而对酵母基因组进行作图,基因芯片研制的总体蓝图,研制方向的确定,基因组序列分析与待检基因探针序列的确定,检测样品 的制备,探针阵列的准备,检测设备的研制,杂交检测与数据分析,表达芯片的制备检测流程,表达芯片实例,PCR法从外周血淋巴细胞cDNA文库扩增产物,扩增产物点样于包被的玻片上,DNA 芯片,热击T细胞cDNA,未处理的细胞cDNA,杂交 杂交,激光共聚焦扫描,发现17个差异表达基因,11个被热诱导,6个被热抑制,发现其中3个为未发现的新基因,SAGE:基因表达系列分析转录物内特定位置的一小段寡核苷酸序列,含有鉴定一个转录物特异性的足够信息,作为区别转录物的标签标签串联在一起,形成大量多联体,克隆测序,用SAGE软件分析确定表达基因种类,并根据标签出现的频率确定基因的表达丰度,5.2 SAGESAGE(serials analysis of gene expression)基因表达系列分析 1995 Velculescu 及其同事年创立,SAGE特点:进行转录物组研究,也就是转录水平的研究;通过快速和详细分析成千上万个EST来寻找出表达丰度不同的SAGE标签序列,从而接近完整地获得基因组的表达信息;SAGE区别于差异显示、消减杂交等其它技术的主要特点是可用于寻找那些较低丰度的转录物,最大限度地收集基因组的基因表达信息,这使之成为从总体上全面研究基因表达、构建基因表达图谱的首选策略;SAGE可用于在不同环境、不同生理状态及不同生长阶段的细胞和组织表达图谱构建,对不同状态下基因表达水平的定量或定性比较,特别是对疾病组织与正常组织的比较发展迅速;,SAGE 技术的主要理论依据:来自转录物内特定位置的一小段寡核苷酸序列(911bp)含有鉴定一个转录物特异性的足够信息,可作为区别转录物的标签(tag);通过简单的方法将这些标签串联在一起,形成大量多联体(concatemer),对每个克隆到载体的多联体进行测序,并应用SAGE软件分析,可确定表达的基因种类,并可根据标签出现的频率确定基因的表达风度(abundance)。,SAGE 步骤,SAGE实例,蛋白质组proteome分析全部蛋白质组所有成分、数量,确定各种组分所在的空间位置、修饰方法、互作机制、生物活性和特定功能。目前还缺乏比较理想的技术来分析细胞中整个蛋白质组分。双向电泳分离蛋白质或多肽,随后再测定每个电泳斑点蛋白质或多肽的氨基酸,蛋白质组分析的复杂性许多加工方式,如磷酸化、糖基化、乙酰基化、泛素化、法尼基化、二硫键 1个基因可编码许多不同的蛋白质,表现为组织特异性蛋白质之间存在大量的相互作用,如形成同源或异源二聚体、三聚体、多聚体,不同的结合状态有不同的活性;1 种蛋白质可参与多种反应,或多种蛋白质参与1种反应。,在线虫中鉴定了29个与发育有关的蛋白质借助已有的基因组序列扩大蛋白质功能的搜寻范围,寻找所有不同基因组中同时出现或同时丢失的蛋白质成员,它们表现出协同进化多肽功能域紧密连锁基因,组成独立的进化单位。尽管它们的表达调控相互独立,但在功能上彼此相关参与同一细胞事件(细胞分裂与凋亡)的基因表现为共调节搜集生理生化过程及特定细胞事件(癌变中)上调或下调的mRNA利用蛋白质微阵技术查找互作蛋白、小分子多肽和配位体结合的蛋白质,