真核细胞基因组结构与功能.ppt
真核细胞基因组结构与功能,染色体的结构,染色体研究的历史背景染色体的化学组成 核小体的结构,染色体研究的历史背景:,1865年,Mendel(奥地利)历时八年,完成了植株(豌豆)杂交试验,在此基础上总结出二个著名遗传学定律:分离定律 独立分配定律“遗传因子”(genetic factor)是 Mendel 定律的基本思路,每一植株的各种相对性状都来源两个相同的“遗传因子”,它们有显性和隐性之分,“遗传因子”含义是指决定遗传性状的基本遗传单位,遗传因子,染色体,存在于细胞核中,经适当染色后可见由细丝状颗粒物质所组成,一般在细胞分裂时才能看到在不同物种的细胞中,它们的数目不一样,但总是以二条成对的同源(homologous)染色体的形式存在,且数目恒定,细胞周期(cell cycle)细 胞 产 生 到 分 裂 成 子 细 胞 之 间 的 过 程,大 肠 杆 菌 约 每 30 分 钟 分 裂 一 次,其 中 大 约 29 分 钟 花 在 复 制 DNA 果 蝇 的 胚 胎 细 胞 周 期 只 有 8 分 钟 大 部 分 成 长 中 的 动 植 物 细 胞 要 花 10-20 个 小 时 才 分 裂 完 毕,染色体是遗传的物质基础,体细胞增殖 有丝分裂(mitosis)方式 染色体对自身复制 姐妹染色体(sister chromatid)姐妹染色体一分为二进入子细胞,细胞分裂,染色体是遗传的物质基础,生殖细胞增殖 减数分裂(meiosis)方式 同源染色体分别进入新的子代细胞而产 生生殖细胞配子(精子或卵子),配 子只含有体细胞一半的染色体数 配子结合成合子后又恢复到体细胞的染 色体数,一个来自父本,一个来自母本,减数分裂,染色体与“遗传因子”极其相似,二者均成对存在,且其中的每个成员分别来自父、母亲代产生配子时,配子只含“遗传因子”(等位基因)中的一个或染色体对中的一条非等位基因及非同源染色体均可自由组合到配子中在上述基础上,Sutton和Boveri(1902-1903)提出了染色体遗传学 认为:染色体是“遗传因子”的携带者,基因连锁和交换规律,Morgan:发现了伴性基因,总结出了遗传学上著名的基因连锁(linkage)和交换(crossing-over)规律通过测定连锁的回交试验,证实了基因在染色体上呈线性排列的事实产生了遗传学上最早的基因定位线性遗传图,Homologous chiasma,Conversion and Crossover,染色体的主要化学成分,DNA蛋白质RNA生化研究表明:上述三类组成染色体的化学成分中,蛋白质含量约为DNA的二倍,根据组成蛋白质的氨基酸特点分为组蛋白和非组蛋白两类。RNA含量很少,还不到DNA量的10%,组蛋白(histones)染色体中的碱性蛋白质,特点:富含二种碱性氨基酸(赖氨酸和精氨酸)根据这两种氨基酸在蛋白质分子中的相对比例将组蛋白分为五种小类型,五种组蛋白比较,组蛋白,组蛋白的等电点(pI)在7.5-10.5之间,所含的强极性氨基酸使组蛋白带上大量电荷,成为组蛋白与DNA结合及蛋白质之间的相互作用的主要化学力之一根据所含碱性氨基酸的相对比例划分为三种类型:富精氨酸组蛋白(H3和H4),稍富赖氨酸组蛋白(H2A和H2B)及极富赖氨酸组蛋白(H1),组蛋白,五种组蛋白的氨基酸全顺序均已确定。H3 和 H4 的序列在各种属之间极少有差异,这种生物进化上的高度保守性预示着其功能的重要性。其它三种组蛋白在不同种属之间存在着较大的差异组蛋白对染色体中DNA的包装有十分重要的作用,组蛋白,非组蛋白(non-histone protein,NHP),染色体中组蛋白以外的其它蛋白质是一大类种类繁杂的各种蛋白质的总称估计总数在 300-600 之间分子量范围为7-80kD,非组蛋白功能,1.参与并调控基因表达 参与基因复制、转录及核酸修饰的酶 类(如各种 DNA和 RNA聚合酶等)就是一类重要的非组蛋白 参与转录调控的蛋白质2.维持染色体的高级结构 非组蛋白中的核基质蛋白对于维持染 色体的高级结构是必不可少的。,染色体的包装,核小体(nucleosome),1974年,Kornberg 发现核小体 核小体是所有真核生物染色体的 基本结构单位,核小体的研究(一),电镜观察破裂的间期细胞流出的染色质,可见染色质纤维呈非连续性颗粒状,就像一条细线上串联着许多有一定间隔的小珠状颗粒(核小体)用小球菌核酸酶处理提取的染色质,可得到单个的核小体颗粒对染色质进行酶解处理,通过凝胶电泳鉴定,发现:产物是一系列不同长度的DNA片段,且这些片段之间有一个200 bp左右的“阶差”,核小体的研究(二),对核小体多聚体的研究,获得的结果是:相邻多聚体之间的DNA“阶差”等于核小体单体中的DNA长度(200 bp 左右),且多聚体分子量总是单体分子量的整倍数以密度梯度离心法制备核小体单体,对其中的蛋白质进行化学分析得知,每一个单体中含有H2A、H2B、H3和H4各二分子(它们构成一个八聚体),H1一分子,核小体是染色体的基本结构单位,核小体重复单位所有真核生物中具有普遍意义的染色体基本结构不同生物(或同种生物的不同细胞)的核小体,其DNA片段长度的有所差别一种细胞通常有特定的平均值,一般为180-200bp每一核小体所含的DNA与组蛋白的量大致相等,核小体结构的研究(一),核酸酶酶解实验结果:核小体由核心颗粒(core particle)和连接区DNA(linker DNA)二部分组成核小体单体被小球菌核酸酶处理后,随着时间延长,其降解产物(DNA片段)会逐渐缩短,从 200 bp降至 146 bp至此变为很难进一步降解的稳定状态,核小体结构的研究(二),对此稳定降解产物进行分析,证明它是由146 bp 的DNA片段和 H2A、H2B、H3 和H4各二分子组成,这种结构称为核心颗粒(core particle)H1总是随着核心颗粒的形成而消失,通常是在DNA被降解至160 bp以后,提取物中H1丢失,提示H1位于“裸露”DNA与核心颗粒的毗邻区,核小体结构的研究(三),核心颗粒外,“裸露”的DNA长度为60bp左右,称为连接区DNA(linker DNA)连接区DNA的长度在不同物种差异较大,其范围在10-140bp,核小体结构的研究(四),生物物理的有关研究说明:DNA盘绕在组蛋白八聚体的周围,呈很有规律的螺旋状根据上述结果,我们对核小体的结构可作这样的描述:染色质中的DNA双螺旋链,等距离缠绕组蛋白八聚体形成众多核心颗粒,各颗粒之间为带有H1组蛋白的连接区DNA。组成染色质的重复结构单位就是核小体,核小体结构(一),1.核心颗粒外观呈椭圆形,轴比为 0.5,颗粒直径11nm,高5.5nm,绕颗粒的 DNA 长度为 50 nm(146bp),连接区 DNA 长度为 20nm(约60bp),核小体结构(二),2.(H2AH2BH3H4)2 构成的致密八 聚体位于颗粒中央,外绕 1.75 圈左走向 的 DNA 链,每圈约85bp DNA,螺旋间 距为2.8 nm,组蛋白主要为-螺旋,处 于DNA双螺旋的大沟中,靠静电引力与 DNA保持稳定结合。由于空间构象的关 系,缠绕在蛋白八聚体上的DNA链并非 所有部分都与组蛋白结合,核小体结构(三),3.相邻核心颗粒由连接区 DNA 连接,其 伸展长度约20 nm(据认为天然状况下 由于核小体是紧挨着的,这一空间距离 可能并不存在)。H1组蛋白结合在靠核 心颗粒的连接区DNA上,染色体的包装超螺旋结构,核小体:染色体DNA的一级包装由直径2nm的DNA双螺旋链绕组蛋白形成直径11nm 的核小体“串珠”结构,若以每碱基对沿螺旋中轴上升距离为 0.34 nm计,200bp DNA(一个核小体的DNA片段)的伸展长度为 68 nm,形成核小体后仅为11 nm(核小体直径),其长度压缩了6-7倍,染色体的包装超螺旋结构,螺线管纤维(solenoidal fiber):染色体DNA二级包装由6个核小体盘绕形成一种中空螺线管,其外径为30 nm,因此,螺线管的形成使DNA一级包装又压缩小6倍若以充分伸展的DNA双螺旋论,每个螺线管包含了408 nm(668 nm)长度的DNA链,而每圈螺线管的长度几乎等于核小体直径,即11nm,故染色体的二级包装相当于将DNA长度压缩了近40倍,染色体的包装超螺旋结构,环状螺线管:染色体DNA的三级的包装电镜显示,由螺线管纤维缠绕在一个由某些非组蛋白构成的中心轴(centralaxis)骨架上形成的。这显然使螺线管纤维得到了较大程度的压缩,染色体的包装超螺旋结构,三级包装后,DNA链被压缩的程度仍远远不足以形成能被细胞核容纳的染色体,因此,环状螺线管纤维需进一步包装从环状螺线管到包装形成染色体,是DNA压缩程度最高的阶段,估计在200-240倍。经各级包装后染色体DNA总共被压缩了数千倍(8100多倍),染色体的包装,真核生物染色体基因组的结构和功能,真核生物的基因组比较庞大,人的单倍体基因组3.16109 bp按1000个碱基编码一种蛋白质计:理论上,可有300万个基因实际上,人细胞中所含基因总数大概不会超过10万个说明:人类细胞基因组中有许多DNA序列并不转录成mRNA用于指导蛋白质的合成,真核生物基因组特点,1.真核生物基因组DNA与蛋白质结合形成 染色体,储存于细胞核内,除配子细胞 外,体细胞内的基因的基因组是双份的(即双倍体,diploid),即有两份同源的 基因组2.真核细胞基因转录产物为单顺反子。一 个结构基因经过转录生成一个mRNA分 子,再翻译生成一条多肽链,真核生物基因组特点,3.存在重复序列,重复次数可达百万次以 上4.基因组中不编码的区域多于编码的区域5.大部分基因含有内含子,因此,基因是 不连续的(断裂基因,split gene)6.基因组远远大于原核生物的基因组,具 有许多复制起始点,而每个复制子的长 度较小,真核生物基因结构示意图,高度重复序列high repeated sequence,高度重复序列在基因组中重复频率高,可达百万(106)以上,因此复性速度很快 在基因组中所占比例随种属而异,约占10-60,在人基因组中约占 20。高度重复顺序又按其结构特点分为三种,高度重复序列,种类反向重复序列 卫星DNA 较复杂的重复单位组成的重复顺序 功能,倒位(反向)重复序列reverse repeated sequence,这种重复顺序复性速度极快,即使在极稀的DNA浓度下,也能很快复性,因此又称零时复性部分,约占人基因组的5反向重复序列由两个相同顺序的互补拷贝在同一DNA链上反向排列而成。变性后再复性时,同一条链内的互补的拷贝可以形成链内碱基配对,形成发夹式或“+”字形结构,倒位(反向)重复序列,倒位(反向)重复序列,倒位重复(即两个互补拷贝)间可有一到几个核苷酸的间隔,也可以没有间隔没有间隔的又称回文(palimdrome)回文结构约占所有倒位重复的三分之一,卫星DNAsatellite DNA,重复顺序:由2-10bp组成重复单位,重复单位成串排列而成由于这类序列的碱基组成不同于其他部份,可用等密度梯度离心法将其与主体DNA 分开,因而称为卫星DNA(或随体DNA)在人细胞组中,卫星 DNA约占 5-6 按其浮力密度不同,人的卫星DNA可分为、四种,卫星DNA,卫星DNA,果蝇的卫星DNA顺序已经搞清楚,可分为三类,这三类卫星DNA都是由7bp组成的高度重复顺序:卫星为:5 ACAACTT 3 卫星为:5 ACAAATT 3蟹的卫星DNA为只有AT两个碱基的重复顺序组成,较复杂的重复单位组成的重复顺序,这种重复顺序为灵长类动物 所独有用限制性内切酶 Hind 消化非洲绿猴DNA,可以得到重复单位为172 bp的高度重复顺序,这种顺序大部份由交替变化的嘌呤和嘧啶组成。有人把这类称为卫星DNA人的卫星DNA更为复杂,含有多顺序家族,高度重复顺序的功能,1.调节反向序列常存在于DNA复制起点区的附近。另外,许多反向重复序列是一些蛋白质(包括酶)与DNA的结合位点2.参与基因表达的调控DNA的重复顺序可以转录到核内不均一RNA(hnRNA)分子中,并形成发夹结构,这对稳定RNA分子,免遭分解有重要作用,高度重复顺序的功能,3.参与转位作用 几乎所有转位因子的末端都包括反向重复顺序,长度由几个bp 到1400bp。由于这种顺序可以形成回文结构,因此在转位作用中既能连接非同源的基因,又可以被参与转位的特异酶所识别,高度重复顺序的功能,4.与进化有关 不同种属的高度重复顺序的核苷酸序列不同,具有种属特异性,但相近种属又有相似性。如:人与非洲绿猴的卫星 DNA长度仅差1个碱基(前者为171 bp,后者为172bp),而且碱基序列有65是相同的,这表明它们来自共同的祖先,高度重复顺序的功能,5.同一种属中不同个体的高度重复顺序的重复次数不一样,这可以作为每一个体的特征,即DNA指纹6.卫星 DNA 成簇的分布在染色体着丝粒附近,可能与减数分裂时染色体配对有关,即同源染色体之间的联会可能依赖于具有染色体专一性的特定卫星DNA顺序,中度重复序列middle repeated sequence,Alu家族 Kpn家族 Hinf家族 rRNA基因 多聚dd家族 组蛋白基因,中度重复顺序,中度重复序列:在基因组中重复数十至数万(105)次的重复顺序中度重复序列复性速度快于单拷贝顺序,但慢于高度重复顺序少数在基因组中成串排列在一个区域,大多数与单拷贝基因间隔排列依据重复顺序的长度,中度重复顺序可分为:短分散片段,长分散片段,中度重复顺序,短分散片段(short interspersed repeated segments,SINES)重复顺序的平均长度:约为300bp在基因组中排列方式:与平均长度约为1000 bp 的单拷贝顺序间隔排列拷贝数:10万左右Alu家族Hinf家族,等,中度重复顺序,长分散片段(Long interspersed repeated segments,LINES)重复顺序的长度:大于1000bp,平均长度为3500-5000bp在基因组中排列方式:与平均长度为13000 bp(个别长几万bp)的单拷贝顺序间隔排列拷贝数:1万左右Kpn家族,等,中度重复顺序,中度重复顺序在基因组中所占比例在不同种属之间差异很大,一般约占10-40,在人约为12大多不编码蛋白质。其功能可能类似于高度重复顺序。但有些中度重复顺序则是编码蛋白质或rRNA的结构基因,如HLA基因,rRNA基因,tRNA基因,组蛋白基因,免疫球蛋白基因,等,中度重复顺序,在结构基因之间,基因簇中,以及内含子内都可以见到这些短的和长的中度重复顺序中度重复顺序一般具有种特异性;在适当的情况下,可以应用它们作为探针区分不同种哺乳动物细胞的DNA,中度重复顺序Alu家族,是哺乳动物基因组中含量最丰富的一种中度重复顺序家族在单倍体人基因组中重复达30万-50万次,约占人基因组的3-6Alu家族每个成员的长度约300bp每个单位长度中有一个限制性内切酶Alu的切点(AGCT)Alu可将其切成长130和170bp的两段,因而定名为Alu序列(或Alu家族),中度重复顺序Alu家族,Alu序列分散在整个人体或其他哺乳动物基因组中,在间隔区DNA,内含子中都发现有Alu序列,平均每5kbDNA就有一个Alu顺序Alu顺序具有种特异性,人的Alu顺序制备的探针只能用于检测人的基因组中的Alu序列由于在大多数的含有人的DNA的克隆中都含有Alu顺序,因此,可用人的Alu序列制备的探针与克隆杂交来进行筛选,中度重复顺序Alu家族,序列分析表明:人类 Alu 顺序是由两个约130 bp 的正向重复构成的二聚体,而在第二个单体中有一个 31 bp 的插入序列,该插入序列在 Alu 家族的不同成员之间核苷酸顺序相似但不相同每个 Alu 顺序两侧为 6-20bp的正向重复顺序(侧翼重复顺序),不同的Alu成员的侧翼重复顺序也各不相同,中度重复顺序Alu家族,Alu序列的5端比较保守,但富含脱氧腺苷酸残基的3端在不同的Alu成员中是有变化的在相近的生物体中Alu家族在结构上存在相似性Alu序列在不同的哺乳动物之间存在着一定的相似性,但其序列相差较大,不会产生交叉杂交,中度重复顺序Alu家族,Alu家族在基因组中广泛分布的原因可能是:Alu 顺序可由 RNA聚合酶转录成RNA 分子,再经反转录酶的作用形成cDNA,然后重新插入基因组所致有人认为:Alu序列两侧存在着短的重复顺序,使得Alu顺序很象转座子,因此推测Alu顺序可能也是能够移动的。这可能是它们在整个基因组中含量如此丰富,分布如此广泛的原因之一,中度重复顺序Alu家族,中度重复顺序Alu家族,Alu家族的功能是多方面的:可能参与hnRNA的加工与成熟与遗传重组及染色体不稳定性有关有形成Z-DNA的能力可能具有转录调节作用,中度重复顺序Kpn家族,Kpn家族是中度重复顺序中仅次于Alu家族的第二大家族用限制性内切酶Kpn消化人类及其它灵长类动物的DNA,在电泳谱上可以看到4个不同长度的片段,分别为1.2、1.5、1.8和1.9kb,这就是所谓的Kpn家族Kpn家族成员顺序比 Alu 家族更长(如:人Kpn顺序长6.4kb),而且更加不均一,呈散在分布,中度重复顺序Kpn家族,尽管不同长度类型的Kpn家族(称为亚类,subfamily)之间同源性比较小,不能互相杂交,但它们的3端有广泛的同源性Kpn家族的拷贝数约为30004800个,占人体基因组的1与散在分布的Alu家族相似,Kpn家族中至少有一部份也是通过Kpn顺序的RNA转录产物的cDNA重新插入到人基因组 DNA中而产生的,中度重复顺序Hinf 家族,Hinf家族:以319bp长度的串联重复存在于人体基因组中用限制性内切酶 Hinf消化人体 DNA,可以分离到这一片段Hinf 家族在单倍体基因组内约有 50 100 个拷贝,分散在不同的区域319bp单位可以再分成两个亚单位,分别为172bp和147 bp,它们之间有70%的同源性,中度重复顺序多聚dT-d家族,多聚d-d家族:这一家族的基本单位是d-d双核苷酸,多个d-d双核苷酸串联重复在一起,分散于人体基因组中业已发现:这个家族的一个成员位于人类和珠蛋白基因之间,含有 17个d-d双核苷酸组成的串联重复顺序在人基因组中,多聚d-d顺序达106拷贝,多聚d-d的平均长度为40bp,中度重复顺序多聚dT-d家族,功能人们推测,这样一个短的串联重复顺序可能是基因转变(gene conversion)或不等交换(unequal crossing-over)的识别信号dT-d中嘌呤和嘧啶的交替顺序有助于Z-DNA的形成,在基因调节中可能起着重要的作用,rRNA基因,真核生物rRNA基因的重复次数多真核生物有四种rRNA(18S、28S、5S、5.8S rRNA)基因组中18S、28S和5.8S rRNA基因在同一转录单位5S rRNA 在低等真核生物(如:酵母)中也和18S、28SrRNA在同一转录单位;而在高等生物中,5S rRNA 是单独转录的,而且其在基因组中的重复次数高于18S和28S rRNA基因,真核生物rRNA基因结构,rRNA基因,rRNA 基因通常集中成簇存在,而不是分散于基因组中,这样的区域称为rDNA区染色体的核仁组织区(nucleolus organizer region)就是rDNA区,rRNA基因,从转录单位上转录下来的rRNA前体经过酶切成为18S 和 28S rRNA之间一同被转录下来的间隔区经过加工成为5.8S rRNA(在大肠杆菌中该区含有tRNA序列)rRNA前体的其它部份被降解成核苷酸,rRNA基因,真核生物中每个转录单位约长7-8kb(在哺乳动物中长13kb),其中编码rRNA的部份占70-80(哺乳动物中只占50左右)一个rRNA基因簇(rDNA簇)含有许多转录单位,转录单位之间为不转录的间隔区,该间隔区由21-100bp片段组成的类似卫星DNA的串联重复顺序转录单位和不转录的间隔区构成一个rDNA 重复单位,rRNA基因,由于不转录的间隔区中类似卫星DNA的串联重复次数不一样,因此,在不同生物及同种生物的不同 rDNA 重复单位之间不转录间隔区的长短相差甚大非洲爪蟾的 rDNA簇,由类似卫星DNA的重复序列交替排列构成。5端为一固定长度的独特顺序;后面的重复区域是由97bp的重复单位组成;另外两个重复区域是由60bp或81bp的重复单位构成,rRNA基因,由于每个重复区域中重复单位的重复次数在不同的 rDNA 重复单位中不一样,因而造成不同的不转录间隔区的长短不一有人认为不转录的间隔区可能在转录单位的转录起始中起着重要作用,rRNA基因,rDNA的重复单位在许多动物的卵子形成过程中进行大量复制扩增如爪蟾在扩增前有rDNA重复单位500个,在从卵母细胞前身发展到卵母细胞过程中(3周时间),rDNA的重复单位可扩增400倍,每个细胞核的核仁数增加到几百个扩增rDNA的过程是采用滚环式复制方式在核仁区进行的,扩增的DNA不纳入到染色体中,而是包含在核仁区,rRNA基因,卵母细胞成熟后,大量的rDNA由于失去了存在的意义而逐渐降解在卵子形成的过程中rDNA大量扩增的目的,就是为了产生大量的rRNA,组装成核糖体,用于合成大量的蛋白质,以满足受精后发育的需要,rRNA基因,人类的 rRNA基因位于13,14,15,21和22号染色体的核仁组织区每个核仁组织区平均含有50个rRNA基因的重复单位5S rRNA 基因似乎全部位于1号染色体(1q42-43)上每单倍体基因组约有1000个5SrRNA基因,tRNA 基因,tRNA基因的准确重复次数比较难以估计在非洲爪蟾中约有300个拷贝由tRNA met,tRNA phe,tRNA trp及其它tRNA基因组成的3.18kb的串联重复单位在人体单倍基因组中约有1000-2000个tRNA基因,由50-60种tRNA基因编码,每种平均重复20-30次,组蛋白基因,组蛋白基因在各种生物体内重复的次数不一样,但都在中度重复的范围内通常每种组蛋白的基因在同一种生物中拷贝数是相同的不同生物中组蛋白基因在基因组中的排列不一样组蛋白基因没有一定的排列方式,而在拷贝数高等生物基因组中(100拷贝),大部份组蛋白基因串联重复形成基因簇,组蛋白基因,在果蝇和非洲爪蟾中,5 种组蛋白也排成一个重复单位,也存在间隔区,组蛋白基因的转录方向不一样。多个重复单位形成串联重复排列哺乳动物,组蛋白基因一般不再形成重复单位,而呈散在分布或集成一小群尽管组蛋白基因在基因组中的排列和分布在不同生物之间相差甚大,但所有组蛋白基因都不含内含子,而且组蛋白基因序列都很相似,从而编码的组蛋白在结构上和功能上也极为相似,组蛋白基因,基因组中存在大量重复序列用以编码组蛋白是有其重要意义的DNA复制时,组蛋白也要成倍增加,而且往往在DNA合成一小段后,组蛋白马上就要与其相结合,这要求在较短的时间内合成大量的组蛋白,因而需要有大量的组蛋白基因存在,超基因,人体基因组中还有几个大的基因簇,也属于中度重复序列的长分散片段。在一个基因簇内含有几百个功能相关的基因,这些基因簇又称为超基因(Super gene),如人类主要组织相容性抗原复合体HLA和免疫球蛋白重链及轻链基因都属于超基因超基因可能是由于基因扩增后又经过功能和结构上的轻微改变而产生的,但仍保留了原始基因的结构及功能的完整性,抗体基因的形成,单拷贝顺序(低度重复顺序),单拷贝顺序在单倍体基因组中只出现一次或数次,因而复性速度很慢单拷贝顺序在基因组中占 50-80,如人基因组中,大约有 60-65 的顺序属于这一类。单拷贝顺序中储存了巨大的遗传信息,编码各种不同功能的蛋白质目前尚不清楚单拷贝基因的确切数字,在单拷贝顺序中只有一小部份用来编码各种蛋白质,其他部份的功能尚不清楚,单拷贝顺序(低度重复顺序),在基因组中,单拷贝顺序的两侧往往为散在分布的重复顺序由于某些单拷贝顺序编码蛋白质,体现了生物的各种功能,因此对这些序列的研究对医学实践有特别重要的意义由于其拷贝数少,在DNA重组技术出现以前,要分离和分析其结构和顺序几乎是不可能的,单拷贝顺序(低度重复顺序),真核生物的结构基因不仅在两侧有非编码区,而且在基因内部也有许多不编码蛋白质的间隔序列(intervening sequences),称为内含子(intron),编码区则称为外显子(exon)内含子与外显子相间排列,转录时一起被转录下来,然后内含子被切掉,外显子连接在一起成为成熟的mRNA作为指导蛋白质合成的模板,多基因家族与假基因,真核基因组的另一特点就是存在多基因家族(multigene family)多基因家族是指由某一祖先基因经过重复和变异所产生的一组基因,多基因家族与假基因,多基因家族大致可分为两类:一类是:基因家族成簇地分布在某一条染色体上,其可同时发挥作用,合成某些蛋白质(如:组蛋白基因家族就成簇地集中在第 7 号染色体长臂 3 区 2 带到 3 区 6 带区域内)另一类是:一个基因家族的不同成员成簇地分布不同染色体上,这些不同成员编码一组功能上紧密相关的蛋白质(如珠蛋白基因家族),多基因家族与假基因,在多基因家族中,某些成员并不产生有功能的基因产物,这些基因称为假基因(pseudo gene)假基因与有功能的基因同源,原来可能也是有功能的基因,但由于缺失,倒位或点突变等,使这一基因失去活性,成为无功能基因,多基因家族与假基因,假基因往往缺少正常基因的内含子,但两侧有顺向重复序列。人们推测,假基因的来源之一,可能是基因经过转录后生成的RNA前体通过剪接失去内含子形成mRNA,如果mRNA经反转录产生cDNA,再整合到染色体DNA 中去,便有可能成为假基因,因此该假基因是没有内含子的,在这个过程中,可能同时会发生缺失,倒位或点突变等变化,从而使假基因不能表达,自私DNA(selfish DNA),在哺乳动物包括人体基因组中,存在着大量的非编码顺序。这些顺序中,只有很小一部份具有重要的调节功能,绝大部部分都没有什么特殊功用。在这些DNA序列中虽然积累了大量缺失,重复或其他突变,但对生物并没有什么影响,它们的功能似乎只是自身复制,所以人们称这类DNA为自私DNA或寄生DNA(parasite DNA)。自私DNA也许有重要的功能,但目前我们还不了解,