基因和基因组(zhp).ppt
基因与基因组 Gene and genome,分子生物学实验室 张华屏,主要内容,基本概念:基因和基因组 原核细胞基因组的特征 真核细胞基因组的特征 病毒基因组的特征,本节重点,概念基因 顺式调控元件 基因组 Alu序列 卫星DNA真核细胞基因组的特征,基因:遗传的基本单位,1865年,Mendel 的遗传因子学说为“基因”概念的提出奠定了基础.Mendel第一定律(分离律):通过豌豆杂交试验,发现黄豌豆植株和绿豌豆植株杂交,子代都是黄豌豆,黄色对绿色来说是显性,从而认为遗传性状是由成对的遗传因子决定的.在生殖细胞形成时,成对的遗传因子分开,进入两个生殖细胞.Mendel第二定律(自由组合律):在生殖细胞形成时,不同的遗传因子自由组合.,1903年,Sutton和Boveri分别注意到Mendel 遗传因子行为与生殖细胞形成和受精过程中染色体的行为完全平行,于是两人分别提出遗传因子就在染色体上.1909年Johannsen将遗传因子改称为基因,并提出基因型和表现型的概念.1944年,证实基因是有DNA组成的,确定了基因的化学性质.,对基因的理解,与染色体的关系染色体是基因的载体,基因在染色体上直线排列。与DNA的关系基因是DNA的片段,但必须具有复制、转录、翻译、重组突变及调控等功能。有的DNA片段属间隔区段,没有控制性状的作用,这种DNA就不是基因。,与性状的关系基因是决定生物性状的基本单位。基因 酶 代谢过程 性状 白化病(酪氨酸酶)基因 蛋白质分子结构 性状 镰刀状贫血 患者珠蛋白基因的第6位密码子由正常的GAG变成GTG(A变成T),使其编码的珠蛋白N端第6位氨基酸由正常的谷氨酸变成缬氨酸。,一个基因不仅包含编码蛋白质肽链或RNA的核酸序列,还包括保证转录所必须的调控序列,及位于编码区上游的非编码序列,内含子,和编码区下游的非编码序列。,编码基因的结构结构基因:编码蛋白质肽链或RNA的核酸序列。真核生物的结构基因是不连续的,编码氨基酸的序列被非编码序列所打断,称为断裂基因。在编码序列之间的序列成为内含子,被分隔开的编码序列成为外显子。顺式调控元件(cis-acting elements)指与结构基因表达调控相关、能够被基因调控蛋白特异性识别和结合的DNA序列。,顺式调控元件启动子promoter:RNA聚合酶特异性识别和结合的DNA 序列。TATA盒 TATA(A/T)A(A/T)-25bp上游启动子元件:CAAT:5GGN(=C/T)CAATCT3-70-120bp GC:5CCGCC3-35bp增强子:一段DNA序列,可与多个反式作用因子结合。位于-100-300bp加尾信号:在结构基因最后一个外显子中有一个保守的 AATAAA序列,对转录终止和加polyA 是必不可少的。,基因组 genome,基因组(genome)是指含有一个生物体生存、发育、活动和繁殖所需要的全部遗传信息的整套核酸。细胞基因组是一个细胞所有不同染色体上全部基因和基因间DNA的总和。基因组中不同的区域具有不同的功能,包括编码蛋白质或RNA的基因、复制及转录的调控信号以及功能不清楚的区域。,人的单倍体基因组由3.3109 bp碱基组成,按1000个碱基编码一种蛋白质计,理论上可有300万个基因。但实际上,人细胞中所含基因总数大概会超过10万个(5-10万)。在人细胞基因组中,许多DNA序列并不转录成mRNA用于指导蛋白质的合成,只有很少一部份(约占2-3)的DNA序列用以编码蛋白质。,原核生物基因组,prokaryotic genome,细菌基因组的特征,通常由一条环状双链DNA组成。功能上相关的几个结构基因往往串联排列在一起组成操纵子结构,受上游共同的调控区控制。,细菌基因组的特征,基因组内没有内含子成分,基因是连续的,转录后不需要加工。编码区在基因组中所占的比例远远大于真核基因组。结构基因多为单拷贝,但编码rRNA的基因通常为多拷贝,以便核糖体快速组装,急需蛋白快速合成。,真核生物基因组,eukaryotic genome,真核生物基因组的特征,真核生物基因组结构庞大,例如人单倍体基因组DNA约为3.3109bp,而大肠杆菌的基因组只有4.6106bp.真核生物基因组DNA由染色体DNA和染色体外DNA组成.染色体DNA储存于细胞核内,除配子细胞外,体细胞内的基因组是双份的(即双倍体,diploid),即有两份同源的基因组。与染色体DNA相比,染色体外DNA(线粒体DNA)所占比例较小,仅为1%.线粒体DNA结构紧凑,没有内含子,也几乎没有重复序列.真核细胞基因转录产物为单顺反子。一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。,基因组中不编码的区域多于编码区域在人类基因组中,编码序列仅为基因组总DNA含量的3%左右,非编码序列占95%以上.在这些非编码序列中,一部分是内含子,调控序列,另一部分是重复序列.真核生物基因组的重复序列可以高达DNA总量的50%.重复序列中,除了编码rRNA,tRNA,组蛋白以及免疫球蛋白的结构基因外,大部分是非编码序列.其功能主要与DNA的稳定性,组织形式以及基因的表达调控有关.多基因家族和假基因的存在,真核生物基因组DNA重复序列类型,中度重复序列Moderately repetitive sequence 高度重复序列,中度重复序列,重复次数在数十到数万(小于105)次,散在分布于基因组中,约占基因组DNA总量的35%.大多数与单拷贝序列间隔排列,有一部分是编码rRNA基因、tRNA基因、组蛋白及免疫球蛋白的结构基因,另外一些可能和基因的调控有关.研究最多的中度重复序列:Alu家族,Alu家族,哺乳动物及人基因组中存在最广泛的一种中 度重复序列,约占人基因组DNA总量的3-6%在单倍体基因组中重复30-50万次。序列长300bp,在170位碱基附近的AGCT 顺序是限制性内切酶Alu I的酶切位点,可以 被Alu I切割成130bp和170bp。Alu序列是灵长类基因组所特有的,因此可以作为天然标记.,高度重复序列,出现次数可达105以上。简单的核苷酸序列,缺少转录所必需的启动子而一般不转录。常见的高度重复序列:卫星DNA(satellite DNA)反向重复序列(inverted repeat),将基因组DNA切成数千个bp的片段,进行氯化铯密度梯度离心,DNA的G+C含量决定了它在密度梯度中特定的位置,形成一个条带.如果不同组分DNA G+C含量的差异超过5%,便会形成不同的条带.真核生物DNA在进行氯化铯密度梯度离心时,除了形成一个主要的宽带外,还会出现浮力密度不同的条带,这些条带的DNA称为卫星DNA.这是由于DNA中存在大量重复序列,这些DNA的G+C含量不同于主带DNA的缘故.,卫星DNA satellite DNA,小卫星DNA minisatellite DNA 重复顺序为6-70bp。微卫星DNA microsatellite DNA 1-6bp的短小重复单位。它在人类基因组中出现的数目和频率不同,在基因组分布广泛而表现出多态性,是有效的遗传标记。,Figure 4.22 Alleles may differ in the number of repeats at a minisatellite locus,so that cleavage on either side generates restriction fragments that differ in length.By using a minisatellite with alleles that differ between parents,the pattern of inheritance can be followed.,4.12 Minisatellites are useful for genetic mapping,反向重复序列 inverted repeat,两个顺序相同的拷贝在DNA 链上呈反向排列.人类基因组中约含5%的反向重复序列,常见于基因的调控区内,可能与复制和转录的调控有关.,所谓回文序列就是指DNA某一片段旋转180。后,顺序不变的序列。,多基因家族 是指核苷酸序列或编码产物的结构具有一定程度同源性的一组基因,其编码产物常常具有相似的功能。根据基因家族内成员同源性程度,分为:核酸序列相同 核酸序列高度同源 编码产物具有同源功能区,核酸序列相同:多拷贝基因,如rRNA,tRNA基因家族,组蛋白基因家族,免疫球蛋白基因家族.核酸序列高度同源:如人类生长激素基因家族,包括生长激素(GH),绒毛膜生长催乳激素(hCS)和催乳素.它们之间同源性很高,尤其是人生长激素和人胎盘促乳素,mRNA 92%的同源性,说明它们来自一个共同祖先基因。编码产物具有同源功能区:某些基因家族成员基因全长序列的相似性较低,但基因编码的产物具有高度保守的功能区。如src癌基因家族,各成员基因结构并无明显同源性,但每个基因产物都含有250个氨基酸顺序的同源蛋白激酶结构域。,基因超家族 其组成更加复杂,其成员在结构上有一定的相似性,但功能并不一定相同。这些基因进化上亲缘关系较远。如免疫球蛋白基因超家族,包括2微球蛋白,MHCI类抗原的链,II类抗原的,链,Thy-1,CD4,CD8等,还有与免疫无关的成员。,假基因(pseudogene):在多基因家族中,与某些有功能的基因结构相似,但不能表达基因产物的基因,称为假基因。这些基因起初可能是有功能的,在基因复制时编码序列或调控元件发生突变,或插入了mRNA逆转录的cDNA,缺少基因表达所需要的启动子序列,变成无功能的基因。,病毒基因组的特征,与细菌或真核细胞相比,病毒的基因组很小,病毒基因组大小相差较大。病毒基因组可以由DNA组成,也可以由RNA组成。病毒基因组的大部分是用来编码蛋白质的,只有一小部分不被翻译。,除了反转录病毒基因组有两个拷贝外,其他病毒基因组都是单倍体。噬菌体的基因是连续的,而真核细胞病毒的基因是不连续的,具有内含子。病毒基因组DNA序列中,功能上相关的蛋白质的基因或rRNA的基因往往丛集在基因组的一个或几个特定的部位,形成一个功能单位或转录单元。它们可被一起转录成为含有多个mRNA的分子,称为多顺反子mRNA(Poly cistroniemRNA),然后再加工成各种蛋白质的模板mRNA。,基因重叠,即同一段DNA片段能够编码两种甚至三种蛋白质分子。基因重叠现象在其它的生物细胞中仅见于线 粒体和质粒DNA,所以也可以认为是病毒基因组的结构特点。这种结构使较小的基因组能够携带较多的遗传信息。,重叠基因是1977年Sanger在研究X174时发现的。X174感染大肠杆菌后共合成11个蛋白质分子,总分子量为25万左右,相当于6078个核苷酸所容纳的信息量。而该病毒DNA本身只有5375个核苷酸,最多能编码总分子量为20万的蛋白质分子,Sanger在弄清X174的11个基因中有些是重叠的之前,这样一个矛盾长时间无法解决。,