解读基因组序列.ppt
5.1在基因序列中定位基因,5 解读基因组序列,基因测序的后续工作,弄清楚:1.基因组顺序中所包含的全部遗传信息是什么(查找基因)2.基因组作为一个整体如何行使其功能,基因定位的两种常见方法:,其一,根据已知的序列人工判读或计算机分析寻找与基因有关的序列(如:序列筛查定位基因)其二,实验研究,看其能否表达基因产物及其对表型的影响,既实验分析,通过序列筛查定位基因,细菌DNA的简单ORF扫描高等真核生物DNA的ORF扫描功能性RNA定位基因同源性搜索和比较基因组学自动标注基因组序列,基因可读框ORF,所有编码蛋白质的基因含有可读框(open reading frames ORF):是由可编码氨基酸的密码子组成ORF起始于起始密码子(一般是ATG)终止于终止密码子(TAA,TAG,TGA)每个DNA序列有6种可读框,蛋白质编码基因是三联密码子的可读框,双链DNA分子具有6个可读框,寻找ORF(ORF scanning),如果DNA序列CG碱基含量占50%则TAA,TAG,TGA每一个将平均每64bp出现一次如果GC含量大于50%那么含A和T碱基的终止密码子出现的频率会相对比较少,但是预期每100200bp还会出现一次寻找ORF的方式是将100个密码子作为一个基因长度的下限,简单的ORF扫描细菌DNA,简单的ORF应用于细菌DNA序列的扫描可以成功的定位大多数基因,因为细菌基因间距非常小重叠基因较少,而且细菌基因内无内含子,ORF连续。,单核李氏杆菌溶血素gln基因,基因无内含子ORF连续,高等真核生物基因之间间隔太大发现家ORF的概率增加高等真核生物基因内有内含子导致ORF不连续,外显子小于100个密码子 因此高等真核生物基因不会以长ORF形式出现在基因组序列中,ORF无法扫描,内含子的基因图,密码子偏倚:特定生物体的基因中并不是所有密码子使用频率都相等,真正外显子有所偏倚。外显子内含子边界:因为有特定的序列特征而区分开上游调控序列:调控序列有明显特点,可用来定位基因起始区,搜寻编码RNA二级结构的特征碱基序列搜寻DNA编码茎环或发夹结构的程序搜索与功能RNA基因相关的调控序列搜寻紧凑的较小基因组中蛋白质编码基因间的空位置,同源性搜索:查询DNA数据库来判断所检测序列是否与已知基因的序列相同或者是相似比较基因组学:当相关基因组进行比较时,同源基因由于它们的序列相似性很高就容易被鉴别出来,而在第二个基因组中没有明确同源物的任何ORF都可以很肯定的认为不是基因,计算机方法从序列分析开始,运用能扫描ORF、外显子-内含子边界及上游调控区并能在数据库中检测同源基因ORF的程序进行序列分析。这些程序同时也用于寻找重复序列及功能RNA基因的特意性特征,而后信息整合分析。,大多数基因定位的试验方法依赖于检测由基因转录成的RNA分子。杂交试验可以判断某一片段是否含有转录序列cDNA测序有助于在DNA片段中进行基因作图精确定位转录物末端可以准确定位外显子内含子边界,如果用标记的基因组片段与细胞RNA进行northern杂交,就可以检测到那个片段上的基因所转录出的RNA。缺点:一些单个基因有两个或更多长度不等的转录物mRNA表达时期和部位的特异性,将cDNA序列与基因组DNA序列相比较,就可以描述相应基因的位置找到外显子内含子的边界,两个决定此方法成功的因素:所研究基因DNA片段表达水平的高低cDNA分子的完整性,将RNA做起始材料进行特殊类型的PCR逆转录PCR(reverse transcriptase PCR,RT-PCR)快速扩增cDNA末端其他的转录物准确作图的方法包括异源双链分析(heteroduplex analysis),外显子捕获(exon trapping):将一特殊类型载体导入合适的真核细胞系中。根据已知的小基因序列确定出插入的外显子其实和终止核苷酸的位置,从而准确描述外显子,5.2 确定单个基因的功能,一旦一个新基因在基因组序列中获得定位,就要探索它的功能问题。大肠杆菌基因组序列中4288个蛋白质编码基因中,以前已经鉴定出的基因只有1853个(占总数的43%)。对于酿酒酵母,此数值只有30%。像基因定位一样,也尝试着用计算机分析和实验研究来确定未知基因的功能。,基因功能的计算机分析,同源性搜索是通过把被研究的DNA序列与数据库中其他所有的DNA序列进行比较来定位基因。同源性搜索的基础是相关的基因具有相似序列,因此可以通过与不同物种中已测序的同源基因具有相似性来发现新基因。,同源性反映出进化关系,同源基因具有共同的进化祖先,是通过基因之间的序列相似性而发现的。(如图5.16)同源基因分两类:定向进化同源基因orthologous gene 是那些不同生物体间存在的同源物,它们的共同祖先早于物种之间的分裂。同源基因通常具有相同的或很类似的功能。Eg:人类和黑猩猩的肌红蛋白基因是同源基因。,图5.16 定向进化同源基因和平行进化同源基因,平行进化同源基因paralogous gene 存在于相同生物体中,常是可识别的多基因家族的成员,它们共同的祖先可能早于或晚于目前发现新基因的物种分裂。eg:人类肌红蛋白和球蛋白基因是平行基因:它们起源于5.5亿年前祖先基因的复制。通常一对同源基因不具有相同的核苷酸序列,但具有相似的序列。同源性搜索就是利用这些序列的相似性。同源性相似性(如图5.17),如果一对相关基因的序列有80%的核苷酸是相同生物,就描述它们是“80%同源”是不正确的。一对基因在进化上要么有关要么无关,没有介于二者之间的情况,因此把同源性描述为百分数是没意义的。图5.17 两个DNA序列具有80%的序列一致性,同源分析可以提供整个基因或基因片段 的功能信息,可以用DNA序列进行同源性搜索,但通常在搜索之前先将假定基因的序列转换为氨基酸序列。这样做的一个原因是蛋白质中有20种不同氨基酸,但DNA中只要4种核苷酸,因此当比较氨基酸序列时,无关基因序列通常会表现出更大的差别(如图5.18)。因此如果使用氨基酸序列进行同源性搜索,就不太可能得到假结果。,同源性搜索程序时通过在查找序列和数据库序列之间进行比较而开始的。对于每个比较来讲,都计算出一个得分,操作人员通过这个得分可以估量查询序列与试验序列同源的可能性。有两种方法可以产生这个得分。图5.18 当在氨基酸水平进行比较,更明显。两条核苷酸序列中,绿色表示相同,红色表示不同。有76%的一致,如星号所示。把序列翻译成氨基酸,一致性就降低到28%。黄色表示相同,棕色表示不同。AA序列之间进行比较就表明基因不是同源的,核苷酸水平的相似性是偶然的。,最简单的方法是计算相同氨基酸在两条序列中都存在的位点数。这个数值被转换成平均数后就可以给出两条序列之间的相似程度。最先进的方法是运用不相同氨基酸之间的化学相关性为比对中的每个位点进行评分,相同或很近的氨基酸(eg:leu和ile)分数就高,不相关的氨基酸(eg:phe和ser)分数就低。这种分析就确定了一对序列之间的相似程度。,可进行同源性搜索分析的软件最常用的是BLAST,只需登陆到该网站的一个DNA数据库中,将序列输入到在线搜索工具就可以进行分析。标准的BLAST程序能有效鉴别出序列相似性大于30%40%的同源基因。PSI-BLAST(位点特异的重复BLAST),通过将标准BLAST搜索的同源序列组合成一个序列谱能鉴别出相关性差别更大的序列,运用该序列谱的特征能鉴别出在起始搜索中没有检测到的另外的同源序列。,同源基因具有非常不同的生物功能,一个例子是眼晶状体的晶体蛋白,其中一些与代谢酶同源。因此,待查找序列与晶体蛋白之间具有同源性并不代表待查找序列是一种晶体蛋白,而且待查找序列与代谢酶之间具有相似性或明显的同源性也不能表明待查找序列是一种代谢酶。基因是不相关的,但它们蛋白质具有相似的功能,并同时具有每种蛋白质上一个结构域的编码序列,而此结构域对其共同的功能起关键作用。虽然基因本身没有共同的祖先,结构域却有共同的祖先。tudor结构就是一个典型的例子(如图5.19),图5.19 tudor结构域 图的上部显示果蝇tudor蛋白结构,它含有10个拷贝的tudor结构域。另一个果蝇蛋白homeless及人类A-激酶锚定蛋白(AKAP149)中发现了此结构域,它在RNA代谢中发挥一定的作用。除了含有tudor结构域外,这些蛋白质并不相似。每种蛋白质的活性都在一个方向或其他方向中与RNA有关,运用同源性搜索为人类疾病基因确定功能,人类基因组测序的主要原因之一是能获得人类疾病相关的基因。同源性搜索在疾病基因的研究中发挥很重要的作用,因为在另一种生物体中发现人类疾病基因的同源基因经常是理解人类基因生物化学功能的关键。,用实验分析阐明基因的功能,常规的路线:表型基因型新的方法:基因型表型通过基因失活进行功能分析 与表型有关的基因可以通过确定具有突变表型的生物体中哪个基因是失活的而被鉴别出来。如果起点是基因而不是表型,那么相应的策略就是进行基因突变并确定所引起的表型改变,这是大多数用于确定未知基因功能的技术基础。,同源重组可以使单个基因失活,使特定基因失活的最简单方法是用一段无关DNA片段将其破坏(如图5.20)。这可以通过在基因的染色体拷贝和另一段与靶基因有一些相同序列的DNA之间进行同源重组来达到。现在的目的只要知道两个DNA分子具有相似序列,重组能引起分子片段进行互换就足够了。如何进行基因失活呢?酿酒酵母(如图5.21)模式生物:人小鼠,图5.20 同源重组引起基因失活 靶基因的染色体拷贝与克隆载体携带的断裂基因结合起来。结果是,靶基因被失活了。,图5.21 酵母缺失盒的应用 缺失盒包括抗生素抗性基因和该基因前面在酵母中表达所需的启动子序列以及两侧的限制性位点。,“缺失盒”是含有抗生素抗性的基因,不是酵母基因组中的正常部分,但如果转入酵母染色体中就会起作用,就产生一种转化的对抗生素遗传霉素有抗性的酵母细胞。运用缺失盒之前,新的DNA片段作为尾端连接到每个末端。这些片段与要被失活的酵母基因的部分序列相同。当改良盒导入酵母细胞后,同源重组就在DNA末端和酵母基因的染色体拷贝之间出现,用抗生素抗性基因代替后者。因此,通过将培养物接种到含有遗传霉素的琼脂培养基中来筛选携带替换基因的细胞。所产生的克隆缺少靶基因的活性,可以通过检查它们的表型获得此基因功能的一些提示。,3.不用同源重组进行基因失活,转座子标记技术(transposon tagging)通过向基因中插入转座元件或转座子使其失活。(更适合用于整体研究基因组的功能)RNA干扰或RNAi是一种完全不同的基因失活方法,它并不打断基因本身,而是破坏其mRNA。这是通过将与目的mRNA序列匹配的小双链RNA分子导入细胞中完成的。双链RNA被打断成小分子来诱导mRNA的降解(如图5.22),图5.22 RNA干扰 双链RNA分子被Dicer核酸酶切割成2125bp的“小干扰RNA”(siRNA)。每个siRNA的一条链与靶mRNA碱基配对,后被RDE-1核酸酶降解,4.基因过表达也可以用来探索功能,需要区分两种情况:表型变化是由于过表达的特异功能造成的;特异性比较小的表现变化反映了异常情况。过表达一个基因,必须运用一种特殊类型的克隆载体,设计此类载体以保证被克隆的基因能合成尽可能多的蛋白质。因此,这种载体是多拷贝的,意思是在宿主细胞内它可以复制到每个细胞40200个拷贝,所以也就出现了待测基因的许多拷贝。载体必须含有高活性启动子,以便每个拷贝的待测基因能被转变成大量mRNA,再次确保合成尽可能多大的蛋白质(如图5.23),图5.23 通过基因过表达进行功能分析 目的是确定被研究的基因过表达是否影响转基因小鼠的表型。因此将目的基因的cDNA插入到带有高性启动子序列的克隆载体中,此启动子序列指导克隆基因在小鼠肝脏中表达。应用cDNA而不用基因的基因组拷贝是因为前者不含有内含子,因而比较短并且更易于在试管中操作。,图5.24 两步基因替换,未知基因编码Pr活性 的详细研究 1.定点诱变可以用来详细探索基因的功能 使用定向诱变或体外诱变的方法来对基因序列的相关部位进行缺失或改变。诱变后如何寻找突变基因标记基因(可能改变环境)为了保证被研究基因活性的变化是由引入基因的特异突变改造的,而不是由于基因组中插入与目的基因紧靠的标记基因后造成环境的间接效果,运用的两步基因替换法(如图5.24),2.报道基因和免疫细胞化学可以用来定位基因的 时空表达,报道基因(reporter gene)就可能确定生物体内的基因表达模式。比较可靠地指示出待测基因表达的时间和空间,就必须使报道使报道基因与待测基因一样受同样的信号调节。这可以通过用报道基因的ORF替代待测基因的ORF来实现(如图5.25)。大多数控制基因表达的调节信号位于ORF上游的DNA区域内,现在报道基因就应该表现出与待测基因相同的表达模式了。因此,就可以通过检测生物体内报道基因的信号来确定表达模式。,图5.25 报道基因 报道基因的可读框取代待研究基因的读框。结果是报告基因受到通常能表明待测基因表达模式的调控序列的调控序列的调节。,免疫细胞化学,该方法使用一种感兴趣蛋白质特异性抗体,这样就会结合到这种蛋白质而不是其他蛋白质上。抗体进行了标记,这样它在细胞中的位置以及目的蛋白质在细胞中的位置就可以被观察到。(如图5.26)。,图5.26 免疫细胞化学 用红色荧光标记物标记的抗体处理细胞。细胞检测结果表明荧光信号与线粒体内膜相结合。因此,一种假设认为目的蛋白质参与电子输送和氧化磷酸化,因为这些是线粒体内膜的主要生化功能。,5.3 个例研究:标注酿酒酵母基因组序列,标注酵母基因组序列,酵母菌基因组测序在1996完成。最初的分析将100个密码子设为可能存在基因的最小长度,鉴别出6274个ORF,其中大约30%的ORF是已知真正的基因。剩下的70%运用同源性分析进行了研究,得到了一些结果:,1.用同源性搜索序列数据数据库,可以确定出基因组中大约30%基因的功能。其中有一半很明确是功能基因的同源基因,另一半没有明显的相似性,包括许多相似性仅限于个别结构域的基因。2.酵母所有基因大约有10%在数据库中有同源基因,但这些同源基因的功能未知。因此同源性分析不能帮助确定这些酵母基因的功能。这些酵母基因及其同源基因称作孤儿家族。3.剩下的总数的大约30%,在数据库中没有同源基因。其中大约总数的7%是有疑问的ORF,其长度很短或有异常的密码子偏倚,可能不是真正的基因。另外的大约总数的23%像基因但是唯一的,被称为单一孤儿。,对酵母基因组序列进行初步标注后,有两个重要的问题:1.单一孤儿中有多少为真正基因?2.是否有一些真正基因因为长度小于100个密码子,所以不能通过最初分析鉴定出来?酵母基因组中长度大于或等于100个密码子的ORF只有6274个,但长度大于或等于15个密码子的ORF有100000多个,它们中的大多数表现出的密码子选择模式与真正的酵母基因无差别,因此发现新的小基因的潜力是很大的。,可以用前面介绍的三种方法来筛选酵母基因:1.比较基因组学 利用相关酵母物种的一组基因组序列,来评价许多小ORF的真实性。2.通过对cDNA进行测序寻找转录的证据,包括表达序列标签的文库,基因表达系列分析,微阵列研究。3.转座子标记 像用来通过失活基因进行功能分析一样,也用来鉴定真正基因的ORF。,在正常细胞中lacZ基因是失活的,用X-gal测试时,克隆显白色。被激活后,克隆显蓝色。有疑问的ORF就可根据克隆的颜色鉴定出来。,2 确定酵母基因的功能,酿酒酵母有两大特征可帮助确定其基因组中未知的基因功能。1.具有高的同源重组的自然倾向,这就比较容易运用该方法来失活单个基因。2.基因组中存在转座子Ty家族,这就将转座子标记技术用作基因失活。现在面临的挑战是发展能筛选大量突变体的方法,以找到能表明失活基因功能的特异表性特征。若同时进行许多平行实验,需要大规模的筛选策略。,这些筛选方法中最成功的方法是条形码删除策略。,这是基本缺失盒系统的改进形式,它们的区别是缺失盒同时还含两个20个核苷酸的“条形码”序列,每种缺失的序列是不同的,因此可作为特异突变体的标签。每个条形码两侧的序列是相同的,因此可以通过单个PCR反应进行扩增。这就表明,一群突变的酵母株可以混合在一起,每种酵母株含有一种不同的失活基因,就可以在单次实验中筛选它们的表型。,现在,大约有55%的酵母基因已经通过一种或多种实验方法明确了它们的功能。明确功能的基因有1500多个,比基因组序列刚被测通过时的情况好得多。另外约占总数33%的2000个基因是根据同源性分析而确定功能的。只剩下500个ORF被认为是真正基因,但功能未定,另外300个有疑问的ORF可能不是真正的基因。,3 总结,当获得基因组序列时,最初的目标是对所有基因进行定位。以计算机为基础的定位方法:1.对于蛋白质编码基因来说,可尝试寻找ORF进行定位。2.可以通过寻找功能RNA基因的特征对它们的进行定位,最基本的是RNA折叠成二级结构的能力是以碱基配对的颈环结构信息为依据的。3.也可以通过 同源性分析对基因进行定位,同源性分析将第二种基因组中存在同源基因作为推测待测基因组中的假定基因是真正基因的依据。,用户注册-3.注册成功,基因定位的实验方法是以检测从基因组中转录出的RNA分子为基础的。包括:通过逆转录PCR或异源双链分析进行cDNA测序和转录物作图。,对于基因功能的确定:1.通过同源性分析,因为同源基因在进化上是相关的并经常具有相似功能。2.实验方法大都包括检查基因失活对生物体表型的影响。可以用不同的方法实现基因失活:a 用有缺陷的基因进行同源重组 b 将转座子插入到基因中c RNA干扰3.基因过表达也可用来评价基因的功能。4.通过定点诱变可对基因功能进行更详细的研究,而且可以通过报道基因的表达或免疫细胞化学确定蛋白质的细胞定位。,