解读基因组序列.ppt
《解读基因组序列.ppt》由会员分享,可在线阅读,更多相关《解读基因组序列.ppt(75页珍藏版)》请在三一办公上搜索。
1、5.1在基因序列中定位基因,5 解读基因组序列,基因测序的后续工作,弄清楚:1.基因组顺序中所包含的全部遗传信息是什么(查找基因)2.基因组作为一个整体如何行使其功能,基因定位的两种常见方法:,其一,根据已知的序列人工判读或计算机分析寻找与基因有关的序列(如:序列筛查定位基因)其二,实验研究,看其能否表达基因产物及其对表型的影响,既实验分析,通过序列筛查定位基因,细菌DNA的简单ORF扫描高等真核生物DNA的ORF扫描功能性RNA定位基因同源性搜索和比较基因组学自动标注基因组序列,基因可读框ORF,所有编码蛋白质的基因含有可读框(open reading frames ORF):是由可编码氨基
2、酸的密码子组成ORF起始于起始密码子(一般是ATG)终止于终止密码子(TAA,TAG,TGA)每个DNA序列有6种可读框,蛋白质编码基因是三联密码子的可读框,双链DNA分子具有6个可读框,寻找ORF(ORF scanning),如果DNA序列CG碱基含量占50%则TAA,TAG,TGA每一个将平均每64bp出现一次如果GC含量大于50%那么含A和T碱基的终止密码子出现的频率会相对比较少,但是预期每100200bp还会出现一次寻找ORF的方式是将100个密码子作为一个基因长度的下限,简单的ORF扫描细菌DNA,简单的ORF应用于细菌DNA序列的扫描可以成功的定位大多数基因,因为细菌基因间距非常小
3、重叠基因较少,而且细菌基因内无内含子,ORF连续。,单核李氏杆菌溶血素gln基因,基因无内含子ORF连续,高等真核生物基因之间间隔太大发现家ORF的概率增加高等真核生物基因内有内含子导致ORF不连续,外显子小于100个密码子 因此高等真核生物基因不会以长ORF形式出现在基因组序列中,ORF无法扫描,内含子的基因图,密码子偏倚:特定生物体的基因中并不是所有密码子使用频率都相等,真正外显子有所偏倚。外显子内含子边界:因为有特定的序列特征而区分开上游调控序列:调控序列有明显特点,可用来定位基因起始区,搜寻编码RNA二级结构的特征碱基序列搜寻DNA编码茎环或发夹结构的程序搜索与功能RNA基因相关的调控
4、序列搜寻紧凑的较小基因组中蛋白质编码基因间的空位置,同源性搜索:查询DNA数据库来判断所检测序列是否与已知基因的序列相同或者是相似比较基因组学:当相关基因组进行比较时,同源基因由于它们的序列相似性很高就容易被鉴别出来,而在第二个基因组中没有明确同源物的任何ORF都可以很肯定的认为不是基因,计算机方法从序列分析开始,运用能扫描ORF、外显子-内含子边界及上游调控区并能在数据库中检测同源基因ORF的程序进行序列分析。这些程序同时也用于寻找重复序列及功能RNA基因的特意性特征,而后信息整合分析。,大多数基因定位的试验方法依赖于检测由基因转录成的RNA分子。杂交试验可以判断某一片段是否含有转录序列cD
5、NA测序有助于在DNA片段中进行基因作图精确定位转录物末端可以准确定位外显子内含子边界,如果用标记的基因组片段与细胞RNA进行northern杂交,就可以检测到那个片段上的基因所转录出的RNA。缺点:一些单个基因有两个或更多长度不等的转录物mRNA表达时期和部位的特异性,将cDNA序列与基因组DNA序列相比较,就可以描述相应基因的位置找到外显子内含子的边界,两个决定此方法成功的因素:所研究基因DNA片段表达水平的高低cDNA分子的完整性,将RNA做起始材料进行特殊类型的PCR逆转录PCR(reverse transcriptase PCR,RT-PCR)快速扩增cDNA末端其他的转录物准确作图
6、的方法包括异源双链分析(heteroduplex analysis),外显子捕获(exon trapping):将一特殊类型载体导入合适的真核细胞系中。根据已知的小基因序列确定出插入的外显子其实和终止核苷酸的位置,从而准确描述外显子,5.2 确定单个基因的功能,一旦一个新基因在基因组序列中获得定位,就要探索它的功能问题。大肠杆菌基因组序列中4288个蛋白质编码基因中,以前已经鉴定出的基因只有1853个(占总数的43%)。对于酿酒酵母,此数值只有30%。像基因定位一样,也尝试着用计算机分析和实验研究来确定未知基因的功能。,基因功能的计算机分析,同源性搜索是通过把被研究的DNA序列与数据库中其他所
7、有的DNA序列进行比较来定位基因。同源性搜索的基础是相关的基因具有相似序列,因此可以通过与不同物种中已测序的同源基因具有相似性来发现新基因。,同源性反映出进化关系,同源基因具有共同的进化祖先,是通过基因之间的序列相似性而发现的。(如图5.16)同源基因分两类:定向进化同源基因orthologous gene 是那些不同生物体间存在的同源物,它们的共同祖先早于物种之间的分裂。同源基因通常具有相同的或很类似的功能。Eg:人类和黑猩猩的肌红蛋白基因是同源基因。,图5.16 定向进化同源基因和平行进化同源基因,平行进化同源基因paralogous gene 存在于相同生物体中,常是可识别的多基因家族的
8、成员,它们共同的祖先可能早于或晚于目前发现新基因的物种分裂。eg:人类肌红蛋白和球蛋白基因是平行基因:它们起源于5.5亿年前祖先基因的复制。通常一对同源基因不具有相同的核苷酸序列,但具有相似的序列。同源性搜索就是利用这些序列的相似性。同源性相似性(如图5.17),如果一对相关基因的序列有80%的核苷酸是相同生物,就描述它们是“80%同源”是不正确的。一对基因在进化上要么有关要么无关,没有介于二者之间的情况,因此把同源性描述为百分数是没意义的。图5.17 两个DNA序列具有80%的序列一致性,同源分析可以提供整个基因或基因片段 的功能信息,可以用DNA序列进行同源性搜索,但通常在搜索之前先将假定
9、基因的序列转换为氨基酸序列。这样做的一个原因是蛋白质中有20种不同氨基酸,但DNA中只要4种核苷酸,因此当比较氨基酸序列时,无关基因序列通常会表现出更大的差别(如图5.18)。因此如果使用氨基酸序列进行同源性搜索,就不太可能得到假结果。,同源性搜索程序时通过在查找序列和数据库序列之间进行比较而开始的。对于每个比较来讲,都计算出一个得分,操作人员通过这个得分可以估量查询序列与试验序列同源的可能性。有两种方法可以产生这个得分。图5.18 当在氨基酸水平进行比较,更明显。两条核苷酸序列中,绿色表示相同,红色表示不同。有76%的一致,如星号所示。把序列翻译成氨基酸,一致性就降低到28%。黄色表示相同,
10、棕色表示不同。AA序列之间进行比较就表明基因不是同源的,核苷酸水平的相似性是偶然的。,最简单的方法是计算相同氨基酸在两条序列中都存在的位点数。这个数值被转换成平均数后就可以给出两条序列之间的相似程度。最先进的方法是运用不相同氨基酸之间的化学相关性为比对中的每个位点进行评分,相同或很近的氨基酸(eg:leu和ile)分数就高,不相关的氨基酸(eg:phe和ser)分数就低。这种分析就确定了一对序列之间的相似程度。,可进行同源性搜索分析的软件最常用的是BLAST,只需登陆到该网站的一个DNA数据库中,将序列输入到在线搜索工具就可以进行分析。标准的BLAST程序能有效鉴别出序列相似性大于30%40%
11、的同源基因。PSI-BLAST(位点特异的重复BLAST),通过将标准BLAST搜索的同源序列组合成一个序列谱能鉴别出相关性差别更大的序列,运用该序列谱的特征能鉴别出在起始搜索中没有检测到的另外的同源序列。,同源基因具有非常不同的生物功能,一个例子是眼晶状体的晶体蛋白,其中一些与代谢酶同源。因此,待查找序列与晶体蛋白之间具有同源性并不代表待查找序列是一种晶体蛋白,而且待查找序列与代谢酶之间具有相似性或明显的同源性也不能表明待查找序列是一种代谢酶。基因是不相关的,但它们蛋白质具有相似的功能,并同时具有每种蛋白质上一个结构域的编码序列,而此结构域对其共同的功能起关键作用。虽然基因本身没有共同的祖先
12、,结构域却有共同的祖先。tudor结构就是一个典型的例子(如图5.19),图5.19 tudor结构域 图的上部显示果蝇tudor蛋白结构,它含有10个拷贝的tudor结构域。另一个果蝇蛋白homeless及人类A-激酶锚定蛋白(AKAP149)中发现了此结构域,它在RNA代谢中发挥一定的作用。除了含有tudor结构域外,这些蛋白质并不相似。每种蛋白质的活性都在一个方向或其他方向中与RNA有关,运用同源性搜索为人类疾病基因确定功能,人类基因组测序的主要原因之一是能获得人类疾病相关的基因。同源性搜索在疾病基因的研究中发挥很重要的作用,因为在另一种生物体中发现人类疾病基因的同源基因经常是理解人类基
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 解读 基因组 序列
链接地址:https://www.31ppt.com/p-5083342.html