基因组的结构与功能课件.ppt
概念,概念,基因(gene):,基因组(genome):,基因是指DNA分子中参与编码特异的蛋白质(多肽链)或RNA的一段核酸序列。,“基因组(genome)”一词是1920年Winkles从GENes和chromosOMEs两词中取其部分组成的。泛指一个细胞或一个生物体的全部遗传信息。在真核生物,基因组是指一套(单倍体)染色体DNA。例如,人类基因组包含了细胞核染色体DNA(22条常染色体和X、Y两条性染色体)和线粒体DNA所携带的所有遗传物质。,不同生物体中DNA的大小和基本特征,病毒基因组结构简单,所含结构基因很少;原核生物基因组所含基因数量较多,且有较为完善的表达调控体系;真核生物基因组所含基因数量巨大,表达调控系统也更为精细。,顺反子(cistron):由结构基因转录生成的mRNA序列称为顺反子。单顺反子(monocistron):一个编码基因转录生成一个mRNA分子,经翻译生成一条多肽链,此相应的mRNA序列称为单顺反子。真核生物基因的转录产物为单顺反子。多顺反子(polycistron):原核生物中,大多数功能相关的结构基因成簇地串联在一起,形成操纵子,由操纵子控制转录生成的mRNA是多顺反子。,顺反子,顺反子,第一节 病毒基因组,一、病毒基因组核酸的主要类型,一、病毒基因组核酸的主要类型,按照核酸的性质、基因组结构及复制的特点,可以将病毒基因组分为以下几种类型。,单链正股DNA双链DNA 单链正股RNA 单链负股RNA 双链RNA,RNA病毒基因组所携带的遗传信息一般都在同一条链上,序列与mRNA相同的为正股(+),与mRNA互补的为负股()。在DNA中,不同基因可以不同的链作为转录模板,很难严格的定义为正股或负股。因此,有的病毒DNA有正股和负股之分,有的则没有。,二、病毒基因组结构与功能的特点,二、病毒基因组结构与功能的特点,1.不同病毒基因组大小相差较大 2.不同病毒的基因组可以是不同结构的核酸 3.病毒基因组有连续的也有不连续的(流感病毒由8条单链RNA分子构成,呼肠孤病毒10条双链RNA片段构成)4.病毒基因组的编码序列大于90 5.单倍体基因组(逆转录病毒基因组有两个拷贝)6.基因有连续的和间断的(与宿主有关)7.相关基因丛集 8.基因重叠 9.病毒基因组含有不规则结构基因(1)几个结构基因的编码区无间隔(2)mRNA没有5端的帽结构(3)结构基因本身没有翻译起始序列10.一种病毒基因组只是一种核酸,乙肝病毒3.2kb,痘病毒300kb,第二节 原核生物基因组,一、原核生物基因组结构与功能的特点,一、原核生物基因组结构与功能的特点,1.基因组通常仅由一条环状双链DNA分子组成,无核膜包裹。转录与翻译偶联在一起。2.基因组中只有1个复制起始点 3.具有操纵子结构,转录单位一般是多顺反子 4.编码顺序一般不会重叠 5.基因是连续的,无内含子,转录后不需要剪切 6.编码区大约占50 7.基因组中重复序列很少 8.具有编码同工酶的基因 9.细菌基因组中存在着可移动的DNA序列,包括插入序列和转座子 10.DNA分子中具有多种功能的识别区域(如复制起始区、复制终止区、转录启动区和终止区等),这些区域往往具有特殊的序列,并且含有 反向重复序列 11.不同的原核生物基因组中的GC含量相差较大,二、质粒(一)概念,质粒与宿主细胞的关系(1)质粒对宿主的生存不是必需的,只是“友好”的“借居”宿主细胞中,既不杀伤细胞,对宿主的代谢活动也无影响,宿主离开质粒照样的生存下去。(2)质粒离开宿主就无法生存,只有依赖宿主细胞的(酶和蛋白质)帮助,才能完成自身的复制(扩增)、转录。(3)质粒经常为宿主执行一些适当的遗传功能,作为对宿主细胞的补偿(“交房租”)。(4)质粒赋于宿主各种有利的表型(质粒编码蛋白质或酶),使宿主获得生存优势,与我们基因工程实验紧密相关的,如抗生素抗性基因:Amp r 酶,水解-内酰胺环,解除氨苄毒性,使细菌抗氨苄。Tet r 膜蛋白,可阻止四环素进入细胞,使细菌抗四环素。,4.质粒发现和研究意义 1)理论意义 质粒能够复制、传递和表达遗传信息,从分子遗传学观点来看是一种有机体,是比病毒更原始的生命形式,是生命起源研究的一块重要基石。2)实践意义 是基因工程的重要载体(vector),能把外源基因(目的基因)送到宿主细胞中去克隆扩增或克隆表达。质粒是可以改造的,可以剪切、剪接的,基因工程的重要任务之一就是严格改造质粒的同时,控制质粒不传递,若一个致癌质粒可以传递就可能会传到外。,作为基因工程载体的3个特点:A.都能独立自主的复制;B.都能便利的加以检测(抗生素抗性);C.都能容易引进宿主细胞中去,也易从宿主细胞中分离纯化(提质粒)。质粒符合上述3个条件。基因工程中主要使用人工构建的质粒。,(二)质粒的遗传控制,1.复制调控系统 控制质粒的拷贝数2.分配系统 使质粒在细菌分裂过程中精确分配到子细胞中3.细胞分裂控制系统 能够抑制细胞分裂,使细胞分裂与 质粒复制协调4.位点特异重组系统 高拷贝质粒在菌体内有形成多聚体 的倾向,但在分裂时又必须拆开成单体,这样才能 保证质粒向子代细胞的平均分配。控制这一过程的 诸多因子构成位点特异重组系统 质粒的不相容性:具有相同复制起始位点和分配区的两种质粒不能共存于一个宿主菌,这种现象称为质粒的不相容性。当一个宿主菌中的两个质粒的复制起始位点不同时,它们有各自的分配系统来精确调节它们在子代细胞中的分配,两种质粒可在子代细胞中稳定共存。,质粒能在不断增殖的细胞中以一定的拷贝数稳定遗传,主要取决于4个不同的系统的精细调节。,(三)质粒的类型,三、转位因子(一)转位因子的类型及特征1.插入序列,1.插入序列(insertion sequence,IS),转位因子 是指能够在一个DNA分子内部或两个DNA分子之间移动的DNA片段,即可移动的基因成分。在细菌中,则指可在质粒和染色体之间或在质粒和质粒之间移动的DNA片段。(文献上有时形象地称其为是跳跃基因,jumping gene)。转位也是DNA重组的一种形式。,细菌的转位因子包括插入序列、转座子及可转座的噬菌体。,TS target site 靶位点Transposase gene 转位酶基因IR inverted repeated 反向重复顺序,(1)IS是一类较小的转位因子,长度约700-2000bp,按发现顺序IS1、IS2命名,只携带转移的必需基因,不含有其它偏码蛋白质结构基因,本身没有表型效应。(2)IS两侧为反向(倒转)重复顺序(16-41bp),中间为转位酶基因,在插入新的位点侧有3116p顺向重复顺序(direct repeated sequence),DR是靶位点序列复制的产物。(3)IS到处活动,可以插入到E.coli染色体的各个位置上,也可以插入到质粒和某些噬菌体基因组上,甚至同一基因不同位点上。这种插入作用可以双向进行,可以是正向,也可以是反向插入IS这种移动方式称为转位作用(transposition)。(4)在一个世代的107细菌中有1次插入。*TR(反向倒转重复序列)GGAAGGT、ACCTTCC CCTTCCA、TGGAAGG*DR(正同向重复序列):TACGTTACGT,2.转座子3.可转座的噬菌体,2.转座子(transposon,Tn)Tn是一类较大的可移动成分,3.可转座的噬菌体(transposable phage)是一类具有转座功能的溶源性噬菌体,包括Mu和D108等。,(二)转位因子的几个遗传效应,1.转座因子的转座不是本身移动 2.转座因子转到靶点后,靶点序列会倍增成为两个靶点序列,并分别排列在转座因子的两侧,形成同向重复序列 3.转座过程中能够形成共整合体 4.转座因子转座后能促使染色体畸变 5.转座因子可以从原来位置上切除 6.转座可引起插入突变 7.转座因子携带有标志基因,解离位点,(三)转位作用的机制,四、细菌基因组学研究及意义,四、细菌基因组学研究及意义,基因组学就是测定细菌全基因组序列,把细菌全基因组序列的知识和分析序列的情报工具接合起来,研究细菌的毒力和致病性的一门学科。,第三节 真核生物基因组,一、真核生物基因组的特点,一、真核生物基因组的特点,1.真核生物基因组以染色体形式储存于细胞核内,DNA为线性,除了配子(精子和卵子)为单倍体外,体细胞内的基因是双倍体。转录在细胞核,翻译在胞质。此外,真核生物还具有闭环双链的线粒体DNA 2.真核生物基因组原核生物基因组,结构复杂,有多个复制起始点,每个复制子的长度较小且大小不一 3.无基因重叠 4.转录单位一般是单顺反子 5.含有大量的重复序列 6.非编码序列(NCS)占90以上 7.真核生物基因是断裂基因 8.功能相关的基因构成各种基因家族,它们可串联在一起,亦可相距很远,但即使串联在一起的成簇的基因也是分别转录的 9.真核生物基因组中也存在一些可移动的DNA序列,其移动多被RNA介导,二、真核生物基因组的结构(一)结构基因,二、真核生物基因组的结构,按基因产物的功能特性,通常将直接参与物质代谢的功能蛋白质、参与细胞组成的结构蛋白质编码的基因称为结构基因;参与蛋白质合成所需的rRNA和tRNA编码的基因也属于结构基因。,指能转录成rRNA、tRNA、mRNA的核苷酸序列。,真核生物的结构基因是不连续的(断裂基因),编码氨基酸的序列被非编码序列隔开。基因与基因间的非编码序列为间隔DNA(spacer DNA)基因内非编码序列称为内含子(intron)基因内被内含子分隔开的编码序列称为外显子(exon)。,(二)顺式调控元件,顺式调控元件亦称顺式作用元件(cis-acting elements),是指那些与结构基因表达调控相关、能够被基因调控蛋白特异识别和结合的DNA序列。包括启动子、上游启动元件、增强子、加尾信号和一些反应元件等。,*反式作用因子(trans-acting elements)能直接或间接地识别或结合在各顺式调控元件812bp的核心序列上,参与调控靶基因转录效率的一组蛋白质。,1.启动子2.上游启动子元件,启动子是RNA聚合酶特异性识别和结合的DNA序列。启动子有方向性,位于结构基因转录起始点的上游,本身并不被转录。真核生物的启动子元件是TATA盒(TATA box),核心序列是TATA(A/T)A(A/T)。,是TATA盒上游的一些特定的DNA序列。反式作用因子与这些元件结合后,可调控基因的转录效率。上游启动子元件包括CAAT盒、CACA盒及GC盒等。CAAT盒核心序列:5-GGNCAATCT-3CAAT盒核心序列:5-GCCACACCC-3GC盒核心序列:5-CCGCC-3,3.启动子4.增强子 5.加尾信号,一些信息分子的受体被细胞外信息分子激活后,能与特异的DNA序列结合,调控基因的表达。这种特异的DNA序列由于能介导基因对细胞外的某种信号产生反应被称为反应元件,实际上也是顺式作用元件。,是含有多个能被反式作用因子识别与结合的顺式作用元件。反式作用因子与这些元件结合后能够调控(通常为增强)邻近基因的转录。增强子内含负调控序列,称为负增强子(negative enhancer),又称沉默子(silencer)。,在结构基因最后一个外显子中有一个保守的AATAAA序列,这个序列对于mRNA转录终止和加poly(A)尾是必不可少的。此位点下游有一段GT或T丰富区,此区与AATAAA序列共同构成poly(A)加尾信号。mRNA转录到此部位后,产生AAUAAA和随后的GU(或U)丰富区。与RNA聚合酶结合的延长因子可以识别这种结构并与之结合,然后在AAUAAA下游1030个碱基的部位切断RNA,并加上poly(A)尾。,(三)基因家族,基因家族 是指核苷酸序列或编码产物的结构具有一定程度同源性,具有类似功能的一组基因。*同一个家族的基因成员是由同一祖先基因进化而来,同源性最高的可达100(即多拷贝基因)。同源性也可以很低,只有一小段序列相同。*在多基因家族中的基因,其编码产物常常具有相似的功能,而在基因超家族中,则有许多基因的编码产物在功能上毫无相同之处。,基因家族的类型,根据家族内各成员同源性的程度,基因家族主要有以下几种类型:,1.核苷酸序列相同 实际上是多拷贝基因。如rRNA基因家族,tRNA基因家族,组蛋白基因家族等。2.核苷酸序列高度同源3.编码产物具有同源功能区某些具有家族成员之间,基因全长序列的相似性可能较低,但基因编码的产物具有高度保守的功能区。如src癌基因家族 4.编码产物具有小段保守基序有些基因家族中各成员的DNA序列可能并不明显相关,而所编码的产物缺具有共同的功能特征,存在小段保守的氨基酸基序。5.基因超家族(supergene family)由多基因家族及单基因组成的更大的基因家族。成员间有不同程度的同源,但功能并不相似。最经典的基因超家族是免疫球蛋白基因超家族。6.假基因 在多基因家族中,某些成员并不能表达出有功能的产物,这些基因称为假基因,用表示。,(四)重复序列,根据出现频率的不同可将DNA序列分为三类:,(五)真核生物基因组中的转座子(六)端粒,真核生物基因组中,一些中度重复序列往往是可移动的。其中一部分可移动成分的结构与原核基因组的转位因子相似,是通过DNA介导的。另外一些中度重复序列的转移成分则与一般细菌中的转移成分不同,要先转录成RNA,载逆转录生成cDNA,然后重新整合到基因组中,这种逆转录旁路的转移成分称为逆转录转座子(retroposon)。,以线性染色体形式存在的真核基因组DNA的末端所存在的一种特殊结构,称为端粒,仅在真核细胞染色体末端存在。端粒的主要功能是保护线性DNA的完整复制、保护染色体末端、决定细胞的寿命等。,原核基因组、真核基因组、病毒基因组比较(供参考)原核基因组 真核基因组 病毒基因组1.生物学特征 类核、无核膜转录、翻译 有核膜,录在核,译在浆 DNA或RNA不共存1个V颗粒(一 同一个区间进行 般利用宿主机制转录、翻译)2.染色体数目 单倍体 配子为单倍体、体细胞双倍体 单倍体、逆转录病毒除外3.核酸分子结构 双链环状DNA分子 双链线型 以单链DNA,双链RNA突出4.基因组大小 5000多个基因(E.coli)510万(2.8万)3几百个5.核酸类型 DNA DNA DNA或RNA6.核酸数目 中()多()少()7.结构基因连续性 无内含子,连续基因 有内含子、断裂基因 真核病毒不连续、原核连续8.重叠基因 无 无有9.操纵子结构 有,多顺反子 无操纵子结构、单顺反子 无操纵子结构10.重复顺序 大量重复顺序 有、少 有、少11.编码区/非编码区 50%,50%5%、95%95%、5%12.基因家族()()13.假基因()()14.可移动基因()15.端粒()16.复制方式 半保留 半保留 多样,三、人类基因组的组织结构特征,三、人类基因组的组织结构特征,1.人类基因组的DNA总量约为3109bp2.编码序列53.非编码序列占95以上 非编码序列中有一部分是启动子、增强子、内含子等序列4.含有大量的重复序列,(一)人类基因组的重复顺序 1反向重复顺序,1反向重复顺序(inverted repeats),两个反向排列的拷贝之间隔着一段间隔顺序另一种形式是两个拷贝反向串联在一起,中间没有间隔顺序,这种结构也称回文结构(palindrome)。GGAAGGT、ACCTTCC CCTTCCA、TGGAAGG,是指两个顺序相同的拷贝在DNA链上呈反向排列。,有两种形式,人类基因组约含5的反向重复序列散布于整个基因组中,常见于基因组调控区内,可能与复制转录的调控有关。,2.串联重复顺序,2串联重复顺序(tandem repeats),是指具有一个固定的重复单位,该重复单位头尾相连形成重复顺序片段。约占整个人类基因组的10。,大卫星DNA(macrosatellite DNA)也称为经典卫星DNA,总长度100kb几个Mb(重复单位570bp)。小卫星DNA(minisatellite DNA)由中等大小的串联重复顺序构成,卫星DNA总长度约为0.120kb,分布在所有染色体,往往位于近端粒处。小卫星DNA又分为高度可变(重复单位924bp)和端粒DNA(重复单位220bp)。微卫星DNA(microsatellite DNA)分布在所有染色体,其重复单位为15bp,重复次数1060次左右,其总长度常小于150bp。,3.散在重复顺序,3散在重复顺序(interspersed repeats),许多散在重复序列家族为转座元件(transposable elements),转座元件是一类可以在不同染色体区域移动的不稳定的DNA元件。,人类基因组DNA中的重复顺序,除串联重复、反向重复外,其余归为散在重复顺序。,(二)人类基因组中的DNA多态性,DNA序列的多态性:人类基因组个体之间存在的差异。,四、基因组学与人类基因组计划(一)基因组学,四、基因组学与人类基因组计划,它是阐明整个基因组的结构、结构与功能的关系以及基因之间相互作用的科学。,结构基因组学(structural genomics):通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学。功能基因组学(functional genomics):利用结构基因组学提供的信息,进行基因和非基因序列功能的研究。比较基因组学(comparative genomics):比较不同生物间基因和基因组结构的差异,以增进对基因功能的了解、阐明物种进化关系。,(二)HGP的主要研究内容,人类基因组计划(Human Genome Project,HGP)研究内容是完成人类基因组的四种图谱遗传图谱物理图谱序列图谱转录图谱,1.遗传图谱,遗传多态性:在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%。遗传标记:等位基因、RFLP(限制性片段长度多态性)、MS(微卫星)、SNP(单核苷酸多态性)等。遗传距离:在减数分裂事件中两个位点之间进行交换、重组的百分率。距离单位:厘摩(cM,centi-Morgan),1cM表示每次减数分裂的重组频率为1。,指基因或DNA标志在染色体上的相对位置与遗传距离。它以具有多态性的遗传标记(细胞减数分裂时同源染色体发生交换的DNA区段)为“路标”,以重组频率为图距的基因组图。反映染色体上两点之间的连锁关系。遗传图谱的建立为基因识别和完成基因定位创造了条件。,1.遗传图谱(genetic map)/连锁图谱(linkage map),2.物理图谱,指DNA序列上各遗传标志间的物理距离,是把遗传图谱中克隆群上的DNA片段按实际的物理位置进行排序所构建的图谱。距离单位为bp/kb/Mb。1cM的遗传距离大致上相当于1Mb的物理距离。,物理图谱反映的是DNA序列上两点之间的实际距离,而遗传图谱则反映这两点之间的连锁关系。在DNA交换频繁的区域,两个物理位置相距很近的基因或DNA片段可能具有较大的遗传距离,反之亦然。,物理图谱的目标:是在基因组中每100kb设一个标志点(即“路标”),目前最满意的是以已定位的DNA(探针)序列STS(sequencing tagged site,序列标记位点)作为“路标”。至今已测定了40 000个以上的STS,平均图距(即分辨率)可达100kb。,2.物理图谱(physical mapping),3.序列图谱,以某一染色体上所含的全部碱基顺序绘制的图谱。既包括可转录序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。,遗传图谱与物理图谱都是为了绘制序列图谱而建的。目前的策略是把庞大的基因组分成若干个有路标的区域后,再着手进行序列分析。序列分析需要用一个区域的DNA片段重叠群使测序工作不断延伸,为此,序列标签位点(STS)被用作任何两个片段(上百个bp)间的重叠区域,使分别被测的短序列进行正确的拼接。序列图谱的基本策略是建立DNA小片段的重叠群并尽可能地降低重叠部分所占的比例以提高效率和降低成本。,3.序列图谱(sequence mapping),4.基因图谱,基因图谱实际上是一种转录图谱(transcription map),又称cDNA(complementary DNA)计划。它是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。是以表达序列标签(expression sequence tag,EST)为标志绘制的。,4.基因图谱(gene mapping),人类基因组计划简介,人类基因组计划简介,1985年,美国能源部已提出HGP,形成草案。1986年,Renato Dulbecco(诺贝尔奖获得者)在Science上发表题为“癌症研究的转折点人类基因组的全序列分析”的短文,在此短文影响下,许多国家着手进行HGP。1990年,HGP正式启动1993年,对HGP的目标进行了修正1999年9月,中国加入该计划,测定3号染色体上的30Mb。2003年4月14日,人类基因组计划宣布完成,20世纪科学史上的三个里程碑:曼哈顿原子弹计划、人类登月计划、HGP,Watson在2007年5月31得到的生日礼物本人的基因序列,全部人类基因组约有2.91Gbp 基因数量约34万(2638339114)。目前已定位了2.6万多个基因,但其中尚有42%的功能不明。人类基因组中存在“热点”和大片“荒漠”。编码序列约占3%,非编码序列约占97%。35.3%的基因组包含重复的序列。人与人之间99.99%的基因密码是相同的。仅1%1.5%的人类基因带有制造蛋白质的指令大约有223个基因可能是人类的脊椎动物祖先生存时由细菌插入的顺序。男性的基因突变率是女性的两倍,而且大部分人类遗传疾病是在Y染色体上进行的。,人类基因组草图初步结论,目前已建成的数据库包括Genbank、EMBL、DDBJ、PIR和Swiss-PROT等等。我们可以通过互联网直接进入这些数据库获得或输送有关基因组序列的数据。,人类基因组研究资料和数据的储存及利用也是该计划的重要组成部分。,基因数据库,(三)HGP在医学中的意义,基因结构与功能的研究基因组信息与疾病易感性的研究 在了解人类基因变异的基础上确定疾病的易感状态,尤其是比较病人与正常人群间的SNP,最终将确认各种疾病易感人群的遗传学背景。基因组与癌症研究 疾病的遗传学背景 确定各种疾病的基因结构。药物基因组学 个体化药物治疗。,(四)后基因组计划,功能基因组学:研究单一细胞在其生命的一定时刻、一定条件下所表达的基因的种类和数量;或比较不同细胞之间、或同一细胞在不同条件下基因表达的差异。进行基因功能鉴定、基因表达分析及突变检测蛋白质组学:研究细胞或组织中基因组所表达的全部蛋白质,尤其是不同生命时期,或正常、或疾病或给药前后的全部蛋白质的变化。分析基因编码产物蛋白质的结构、功能和蛋白质群体内相互作用,后基因组学研究内容主要为功能基因组学和蛋白质组学等。对疾病发生的分子机制、疾病的诊断、治疗、药物的研发等从基因的角度加以认识。,蛋白质空间结构的分析与预测、基因表达产物的功能分析、细胞信号转导机制研究等也将在后基因组时代成为重要的研究领域。,发现新的致病基因发展一些复杂疾病的早期基因诊断方法疾病易感基因的识别及对风险人群进行生活方式、环境因子的干预人类基因组多样性与个体化医学遗传多态性在身份识别方面的应用通过基因治疗解决传统方法无法解决的疑难杂症基因工程药物 诊断和研究试剂产业:基因和抗体试剂盒、生物芯片、疾病和筛药模型筛选新药和药物的靶点,分析药理过程 进行药物设计,对基因蛋白产物的高级结构分析、预测、模拟药物作用“口袋”个体化药物治疗:药物基因组学胚胎和成年期干细胞、克隆技术、器官再造,基因组学对医学的影响,*基因组学对医学的影响,人类基因组计划的研究价值,医学领域:将人类感知生命的里程提高到分子水平阶段,大大加速人们对疾病基因的鉴定生命科学领域:阐明基因的结构与功能关系,细胞的发育、生长、分化的分子机理,疾病发生的机理等,有利于理解生物是如何进化的促进生命科学与信息科学相结合:生物信息学技术经济价值:医药、保健、农业和食品制造等产业,谢谢,再见,再见,再见,