分子生物学-基因与基因组.ppt
基因与基因组,本章介绍内容,一、基因二、基因组结构与功能三、DNA的多态性,第一节 基因,基因(gene),1个遗传基本功能单位,一段DNA或RNA(病毒)顺序,贮存有功能的蛋白质多肽链或RNA序列信息 及表达这些信息所必需的全部核苷酸序列,一、基因的概念及结构,基因的基本结构5、AGCCGACTATGTCGAAGCTT、GCTTGACTATAAGACA、33、TCGGCTGATACAGCTTCTAA、CGAACTGATATTCTGT、5转录调控区 贮存RNA或蛋白质结构信息区 转录终止区,原核基因的结构特点,真核基因的结构特点,结构基因与RNA的关系,二、基因作图,将基因组中的基因或遗传标记分配在各个染色体上,并确定基因或标记间的距离的线性图称为基因组图谱。基因组图谱包括以染色体重组交换为基础的遗传图谱和以DNA的核苷酸序列为基础的物理图谱。,指将基因定位于某一特定的染色体上,以及测定基因在染色体上的线性排列的顺序与距离。,(一)基因作图(基因定位)的定义:,又称基因连锁图(linkage map)或染色体图(chromosome map),是以多态性遗传标记为界标,通过计算在细胞减数分裂过程中,由于同源染色体间交换所导致的遗传标记间发生重组的频率,来确定这两个标记间在染色体上的相对位置的图谱。,1、遗传图谱:,图距:在遗传图谱上基因(或遗传标记)间的距离称为图距。图距单位以重组值1%去掉%号表示,单位为厘摩尔根(centimorgan,cM),1cM约为106bp,(二)基因作图的方法:,以特异DNA序列为界标所展示的染色体图,它能反映生物基因组中基因或标记间的实际距离,图上界标之间的距离是以物理长度即核苷酸对数如bp、kb、Mb等来表示的。这些特定的DNA序列可以是多态的,如RFLPs,但主要是非多态的如STS、STR、EST和特定的基因序列等。,2、物理图谱:,作图的基本方法:,自上而下作图(top-down mapping),自下而上作图(bottom-up mapping),作图的基本方法:,自上而下作图(top-down mapping),Not,Hind,自下而上作图(bottom-up mapping),三、人类基因定位的基本方法,家系分析定位,体细胞杂交定位,核酸杂交技术定位,1、家系分析定位,通过分析、统计家系中有关性状的连锁情况和重组率而进行基因定位的方法。,有用的遗传标记:,取材方便按孟德尔方式遗传多态性标记位点,多态性:在一个群体中,某遗传特性存在若干种类型。,家系分析定位,深绿代表红绿色盲患者,浅绿代表红绿色盲基因携带者,黄色代表正常,外祖父法,性连锁分析,家系分析定位,常染色体基因定位,收集家系成员DNA样品,扩增每个成员DNA中的VNTR,进行“基因组扫描”,寻找性状相关基因,2、体细胞杂交定位,运用体细胞遗传学原理和体细胞杂交技术,在离体条件下,把基因定位在染色体上从而制作遗传图谱的方法。,细胞融合技术是进行基因定位的基础技术。两个亲缘关系较远的动物细胞相互融合后,杂种细胞往往会排除一种亲本细胞的染色体。杂种细胞中一个亲本染色体的被排除由不同亲本细胞的相对生长速率来决定。,体细胞杂交定位,鼠细胞,人细胞,含全套鼠染色体,人1号染色体,肽酶C,细胞融合技术,应用已知的核酸探针与待定位的DNA序列进行杂交对基因进行定位的方法 具有互补序列两条单链核酸分子在一定条件下 按碱基互补配对原则退火形成双链的过程。杂交的双方是待定位的核酸和已知核酸序列,已知核酸序列称探针。,3、核酸分子杂交定位,(1)克隆基因定位法,用已克隆基因的cDNA探针与保留在杂种细胞内的人染色体DNA序列进行分子杂交,来确定克隆基因所在的染色体位置的方法。,核酸分子杂交技术,克隆基因定位法,以标记的待定位基因的特定DNA序列或转录产物RNA分子为探针,直接同变性后的中期染色体进行原位杂交,通过放射自显影或显色技术,就可确定标记探针在染色体上的位置,以达到基因定位的目的。是一种分子水平和染色体水平相结合,应用比较广泛而直接的基因定位方法。,(2)原位杂交法,核酸分子杂交技术,原位杂交定位法,在单细胞或组织切片上对特异的核苷酸序列进行PCR扩增,再进行DNA分子杂交以进行细胞内基因定位或检测的技术。它是原位杂交的细胞定位技术与PCR的高灵敏度相结合的一种技术。,(3)原位PCR法进行基因定位,第二节 基因组结构与功能,基因组(genome),一套完整单倍体遗传物质的总和,1个配子(精子或卵子),1个单倍体细胞或1个病毒所包含的全套基因,称为基因组。,生物体C值:基因组的大小通常以一个基因组的DNA含量来表示。每种生物各有特定的C值。,基因组结构,不同的功能区域在整个核酸分子中的分布和排列情况,一、病毒基因组,一.病毒核酸的主要类型(病毒的Batimore分类)(一)据核酸性质、基因组结构及复制特点,病毒核酸分为以下6种类型:类别 基因组核酸性质 复制特点 复制互补链性质 实例1.ds()DNA 基因组DNADNA复制基因组DNA ds()DNA 绝大多数DNA-V ds()DNA 基因组DNA转录RNA逆转录基因组DNA HBV(乙肝病毒)2.ss()DNA 基因组DNADNA复制基因组DNA ds()DNA 如M13等某些噬菌体3.ds()RNA 基因组RNARNA复制基因组RNA ds()RNA reo-v(呼肠孤病 毒)及所有噬真菌体4.ss(+)RNA 基因组RNARNA复制基因组RNA ss(-)RNA 脊髓灰白质炎病毒5.ss(-)RNA 基因组RNARNA复制基因组RNA ss(+)RNA flu-v 狂犬病毒6.zss(+RNA)基因组RNA逆转录cDNA转录基因组RNA retro-v,二.病毒基因组结构的主要特点(一)DNA或RNA 1种病毒颗粒只有1种核酸。(二)不同病毒具有不同类型的核酸及结构:可以是ssDNA、dsDNA或RNA分子,可以是环状、也可以是线型。以SSDNA,dsRNA最为突出。(三)基因重叠 即同一段DNA可以编码2种或以上的基因产物,这种现象在其它生物细胞仅见于线粒体和质体DNA.所以是病毒核酸较为独特结构,能使小病毒携带较多的遗传信息,原因是病毒基因阅读框可以错位(SV40)。,T-mRNA,T-mRNA,t-mRNA,T-抗原,t-抗原,(四)连续的和不连续的基因 病毒基因结构特征往往与其宿主细胞基因结构相似。,(五)节段性基因 如flu-v由6-7个片段构成,各段在天然状态下不连接,而且可以转录成6-7个片段相应的 mRNA。单独的片段没有感染性,感染要一起感染才发挥作用。(六)单倍体基因组和单拷贝基因 除了retro-v外,所有的病毒基因组都是单倍体,每个基因在某个病毒颗粒中只出现一次,即只有1套基因。(七)编码区非编码区(95%/5%)。病毒核酸大多数顺序都用来编码蛋白质。,(八)基因常常成簇排列,没有间隔序列或间隔序列很小。功能相关蛋白质基因在基因组的1个或几个特定部位,丛集成簇被转录成多顺反子,然后加工成各种蛋白质的mRNA模板。如腺病毒晚期基因。(九)不规则的结构基因1.几个结构基因的编码区无间隔,编码区是连续的,翻译后切割成几个蛋白质.例如脊髓灰质炎病毒基因组.2.有的mRNA(=gene)没有5帽子,但有翻译增强子。如脊髓灰质炎病毒RNA 5端没有帽子结构,但5端有741个碱基可形成特殊的空间结构,称翻译增强子,核糖体通过结合翻译增强子而开始翻译。,3.有些结构基因无翻译起始序列。如逆转录病毒的pol基因.,二、原核基因组,一、大肠杆菌作为原核基因组研究材料的原因1.构造相对简单,基因结构也不复杂,取材便利,易于培养,2.与人类有共同的生物学规律,如:(1)遗传物质都是DNA;(2)主要的功能分子都是蛋白质;(3)基因密码是通用的,等等。3.基因工程主要的工程菌,二、原核生物基因组结构与功能的特点1.基因组通常仅由一条环状双链DNA分子组成。,2.基因组中只有1个复制起点。,3.具有操纵子结构。操纵子(operon)是指数个功能相关的结构基因串联在一起,构成信息区,连同其上游的调控区(包括启动和操纵区)及其下游的转录终止信号构成的基因表达单位。,4.结构基因无重叠现象,基因组中任何一段DNA不会用于编码2种蛋白质。5.基因序列是连续的,无内含子结构。,6.编码区和非编码区(主要是调控序列)在基因组中约各占50%。7.基因组中的重复序列很少。编码蛋白质结构基因多为单拷贝,但编码rRNA的基因往往是多拷贝的,,8.具有编码同工酶的基因(isogene)这是一类结构不完全相同,而功能相同的基因。如E.coli含有2个编码乙酸乳酸合成酶的基因和2个编码分支酸变位酶同工酶的基因。9.细菌基因组中存在可移动的DNA序列,包括插入序列和转座子。10.具有多种功能的识别区域 如:复制起始区、复制终止区、转录启动区和终止区。,三、染色体外的遗传物质质粒(一)概念 质粒(plasmid)是独立于许多细菌及某些真核细胞染色体外共价闭合环状的DNA分子(covalant closed circular,cccDNA),能独立复制的最小遗传单位。,(二)质粒与宿主细胞的关系(1)质粒对宿主的生存不是必需的,只是“友好”的“借居”宿主细胞中,(2)质粒离开宿主就无法生存,只有依赖宿主细胞的帮助,才能完成自身的复制、转录。(3)质粒赋于宿主各种有利的表型(质粒编码蛋白质或酶)。,(三)质粒的分类 1.按质粒的复制机理,分为2类:1)严谨控制型(stringent contrd type)2)松弛控制型(relaxed control type),2.按分子量大小,分为2类 1)小型质粒,15kb,3.按质粒转移方式,分为3类 1)接合型质粒 2)可移动质粒 3)自传递质粒,(四)质粒的功能 质粒的功能主要通过质粒本身携带的基因编码蛋白质表现出来。携带质粒的宿主细胞可表现出相应表型。1.性质粒 即雄性细菌F质粒,它本身转到F-宿主细胞时,使后者变成F+,改变宿主细菌性别。,2.抗生素抗性 抗药性(R)质粒使细菌产生抗生素抗性,这种抗药性抗性基因也可以转移到缺乏这种抗药基因的细菌体内,使之产生抗药性。,3.产生毒素的质粒 如col质粒能产生大肠杆菌毒素因子(colicin),杀死不含该毒素的亲缘细菌。4.降解复杂的有机化合物作为能源质粒。5.产生限制和修饰酶。,(五)质粒的基本特性 1.自主复制 质粒的复制是自主调节的,不受染色体复制调节因素的影响。2.质粒的不相容性 利用相同复制系统的质粒不能共存于同一个细胞内。3.质粒的转移性,四.转位因子 转位因子(transposable element)即可移动的基因成分(可移动基因,movable gene mob),是指能够在一个DNA分子内部或两上DNA分子之间移动的DNA片段。转位也是DNA重组的一种形式。,移动基因最早由美国冷泉港实验室(cold spring Harbor Laboratory)的女科学家B.Mclintock于上个世纪40年代晚期在玉米中首次发现的。60年代,为J.A.Shapirc研究大肠杆菌高效突变实验证实。1983年荣获诺贝尔生物学医学奖。,(一)转位因子的种类及特征 细菌的转位因子包括插入序列,转座子及可转座的噬菌体。1.插入序列(insertion sequence,IS)IS的形体图,TS target site靶位点Transposase gene 转位酶基因IR inverted repeated 反向(倒转重复顺序),转座子(transposon,Tn)(1)Tn是一类较大的可移动成分,除mob gene外,尚含有其它基因,如抗药基因等。(2)根据结构特征的不同,Tn可以分为2个亚类:复合型Tn:转座酶由IS编码,IS可以是反向(或正向)重复构型。TnA:数个结构基因(mob、mdr等)十IR组成。,Structural genes,IR,IR,Structural gene,IS1,IS1,3.可转座的噬菌体(transposable phage)(1)包括Mu和D108两种噬菌体,是一类温和噬菌体。(2)感染细菌后,可以整合到细菌染色体中,插入位点是随机的(而入phage插入位点是专一的),可以插到结构基因内部,引起突变,Mu即Mutator(突变子)因此得名。,(二)转位作用的机理1.复制性转位机理共联体生成和解离,转位因子和靶序列的切割与复制。2.非复制型转位作用转位将供体DNA转座因子两侧各切断一条单链并与靶序列的两个游离末端连接,随后并没有复制过程,而是由转座酶将供体DNA转座因子的另一端也切断,因此在供体DNA留下一个致死性缺口。转座子的两条游离单链在靶位点退火接合,DNA聚合酶填平缺口。,3、复制性转座:转位酶分别将供体DNA和受体DNA靶位点的两条链错位切断,转位因子的游离端与受体DNA错位切开的突出端分别连接,在DNA聚合酶催化下以任意一条链为模板进行复制,完成新的转座成分的复制并伴有两个复制子的融合,形成共联体。由转座子编码的解离酶作用于共联体的内解离区,产生各带有一个转位因子的供体DNA分子和受体DNA分子。,(三)转位的遗传效应1.基因重排 基因重排是进化的动力。2.基因突变 插入失活 极性突变 缺失和倒位3.引入新的基因 如引进抗药基因。,五、细菌的限制修饰系统 细菌的限制修饰系统是分别由特定的基因编码的限制酶和修饰酶组成的二元系统。1.防御外源性DNA入侵。2.构成细菌种属和菌株之间交叉繁殖屏障,但又允许外源DNA有某些遗漏,利于物种进化。3.基因工程重要的工具酶。(350/400)甲基化酶 1.保护自身DNA不受限制酶切割(限制)。2.影响DNA分子构象,利于基因表达调控。甲基化酶:DAM methylase(DNA adenine methylase)is an enzyme that adds a methyl group to the adenine of the sequence 5-GATC-3 in newly synthesized DNAdcm-DNA cytosine methylase,三、真核基因组,1.真核生物有一定的染色体数目,配子为单倍体,体细胞一般为双倍体。原核生物的染色体由一条环状双链的DNA组成,为单配体。2.真核基因组大于原核基因组,结构复杂,基因数多,有多个复制起始点,每个复制子大小不一。原核生物只有一个复制起始点。3.真核基因为单基因结构,转录产物为单顺反子。原核功能相关的基因串联在一起组成操纵子,转录产物为多顺反子。4.真核基因组含有大量重复序列,原核基因组重复序列较少。,一.真核基因组结构与原核基因组结构的比较,5.真核基因是断裂基因(split gene)即由外显子和内含子相间排列组成的具有镶嵌结构的基因。原核基因是连续的。6.真核基因组非编码序列90%。原核基因组约为50%7.功能相关的基因构成各种基因家族。8.存在可移动的遗传因素。,二.真核生物基因与基因组的结构(一)真核基因的基本结构1.结构基因、内含子和外显子、断裂基因的定义(1)结构基因(structural gene)指能转录成为mRNA、rRNA或tRNA的DNA顺序。(2)内含子和外显子 真核生物的结构基因是不连续的,编码序列被非编码序列打断,在编码序列之间的非编码序列称为内含子(intron),编码序列称为外显子(exon)。(3)断裂基因(split gene)在真核类结构基因组中,编码顺序被许多称为内含子的非编码区分割成几段称之。即由外显子和内含子相间排列组成的具有镶嵌结构的基因。,2.顺式调控元件 顺式调控元件(cisacting elements)指那些对结构基因表达具有调控作用的DNA序列。是能够被基因调控蛋白特异性识别和结合的DNA序列。顺式调控元件有:启动子、反应元件、增强子、沉默子和加尾信号等。,(二)基因家族(gene family)基因家族 是指核苷酸序列或编码产物具有一定程度同源性的基因.基因家族中各个基因或表达产物之间同源性的程度:1.家族中各基因的核苷酸序列相同这些基因族也被称为单纯多基因家庭(如rRNA,tRNA家族)和复合多基因家族(如组蛋白基因家族).,2.家族中各基因核苷酸序列高度同源(1)人类生长激素基因家族 包括人生长激素(hGH)、人胎盘促乳素(hCS)和催乳素(prolactin)。它们之间的同源性很高,尤其是hGH和hCS之间,蛋白质氨基酸序列有85%的同源性,mRNA上序列上有92%的同源性.(2)-珠蛋白和-珠蛋白基因家族 这些基因家族的各个成员在DNA分子上的排列顺序按照发育的不同阶段先后次序排列,故也称“发育控制复合多基因家族”。,3.家族中各基因编码的蛋白质有同源功能区,但基因的核苷酸序列可能不同。如src癌基因家族 src,abl,fes,fgr,fps,fym,kck,lyn,ros,tkl,yes此家族中各基因的DNA序列没有明显的同源性。但每个基因产物都含有250个氨基酸顺序的同源蛋白激酶结构域。4.家族各基因编码的蛋白质中具有很小的保守基序(conserved motif)。如DEAD box基因家族。DEAD box:Asp-Glu-Ala-Asp.此家族中各基因的DNA序列没有明显的同源性,但所有的表达产物都具有解旋酶的功能,都具有同样的保守基序(DEAD盒),DEAD是酶活性的关键结构。,5.基因超家族(gene superfamily)基因超家族 是指一组由多基因家族及单基因组成的更大的基因家族。如:(1)免疫球蛋白超基因家族 表达产物都有免疫球蛋白样的结构域结构。有2个微球蛋白、MHCI类抗原的链,类抗原的链和链,Thy1、CD4、CD8等与免疫有关的分子。在后又陆续发现了许多免疫系统内以及与免疫无关的家族成员。,(2)丝氨酸蛋白酶基因超家族 其基因产物都有一个特殊的功能区,具有酶的功能。功能区中丝氨酸是活性中心的关键氨基酸残基。现有很多新成员加进去,如载脂蛋白(apolipoprotein),它们只是转移胆因醇蛋白颗粒中的成分,而不具备任何水解蛋白质的酶功能。(3)信号传递途径中的小GTP结合蛋白,现在称为ras超家族,包括ras家族、rho家族、rab家族,大约已有30个蛋白质基因被确定为该家族成员。,(三)假基因(pseudogene)在核苷酸序列上与正常功能基因相似,但不能转录或转录后生成无功能基因产物的DNA序列,被称为假基因。,(四)编码序列 真核生物基因组编码序列只占DNA总量的5%,但由于其基因组非常大,故其基因数量比原核生物基因组要大得多(几十倍)。,(五)真核基因组中的转座子有些可移动成分的结构与原核基因组的转位因子相似,是通过DNA介导的。而另外一些中度重复序列的转移成分,要先转录成RNA,再逆转录生成cDNA,然后重新整合到基因组中,这种逆转录旁路的转移成分称为逆转录转座子(retroposon),是RNA介导的。,一)研究方法重复序列是通过复性动力学测定发现的,即指变性的DNA两条链在一定条件下可以重新结合成双螺旋结构,复性速度用Cot值衡量,Co为变性DNA的起始浓度,以mol/L表示,t为时间,以秒表示,Cot(克分子秒/L)。,(六)重复序列(repeat sequence),根据出现的频率不同可将DNA序列分为3类:1.高度重复序列 在基因组中的重复次数 106 2.中度重复序列 在基因组中的重复次数为 101-105 3.单拷贝序列 在整个基因组中出现1次或少数几次(100-101)。,二)分类,根据组织结构分布特点分为二类:1、散在重复序列:以其单体形式散在分布于整个基因组中。2、串联重复序列:各重复单位以头尾相连的形式串联重复存在于基因组中。,三)各类重复序列的结构特征与功能1、高度重复序列 高度重复序列中比较清楚的有两类,即卫星DNA和反向重复序列。卫星DNA(satellite DNA)DNA的浮力密度与它的G-C碱基对含量有关,G-C含量高,浮力密度大,反之亦然。原核生物DNA中G-C含量较均匀,只显示一个峰;真核生物DNA中G-C含量不均匀,经超离心后,除了主峰外,还有小峰,这些小峰在主峰边上就像卫星一样,故名卫星DNA。作用:与细胞有丝分裂有关。,大肠杆菌DNA剪切成若干片段后离心只得到1个峰,而蟹DNA在主峰旁边还有1个小峰,其中所含DNA称Sat-DNA.Sat-DNA的A+T/G+C比值不同于主峰DNA的比值,因而其密度也不同于主峰DNA。比值改变原因是它们含有大量的重复顺序而使某段DNA分子(A+T)或(G+C)偏低或偏高。(下图因比值远远大于主峰DNA,导致密度较低所致)。,反向重复序列 存在两种形式:A.两互补拷贝间无间隔序列,如,GGTACC,CCATGG,B.两互补拷贝间有间隔序列,如,GGTNNNNACC,CCANNNNTGG,电镜下,两种形式都呈十字形结构,有间隔的反向重复序列,在十字型结构两头形成两个小环。作用:常见于基因组的调控区内,可能与复制和转录的调控有关。,2、中度重复序列 中度重复序列是复性速度介于单拷贝序列和高度重复序列之间的那部分DNA,重复频率101105。根据排列形式可分为短片段间隔型和长片段间隔型两种。作用:中度重复序列约占基因组的35%,有一部分是编码rRNA、tRNA、组蛋白及免疫球蛋白的结构基因,另一些可能与基因的调控有关。,(七)端粒(telomere)以线性染色体形式存在的真核基因组DNA的末端都有一种特化的结构,称为端粒。(形式上膨大成粒状而得名)。结构 是染色体末端DNA和蛋白质构成复合体。仅在真核细胞染色体末端存在。功能 1.保护线性DNA的完整复制 2.维持染色体结构的完整性 3.控制细胞寿命,(一)反向重复顺序(inverted repeats,IR)DNA的某些部位具有方向相反,但序列相同的区域ATTAGC GCTAAT ATTAGC GGAT GCTAATTAATCG CGATTA TAATCG CCTA CGATTA1.连续的反向重复顺序,这种结构又称回文结构(palindrome),是指一段DNA顺序,在两条链上,正读与反读意义相同。2.不连续的反向重复顺序之间含有间隔顺序。反向重复序列占人类基因组5%。可能与复制、转录调控有关。,三.人类基因组中的重复顺序,(二)串联重复顺序(tandem repeats)1.编码区串联重复顺序 如组蛋白基因、5srRNA基因等。其意义在于快速大量合成相应基因的mRNA.2.非编码区串联重复顺序 通常存在于间隔DNA和内含子内,是组成卫星DNA的基础。卫星DNA可分为三类,大卫星DNA、小卫星DNA和微卫星DNA。,人类DNA非编码区主要串联重复序列的类别 类别 重复单位大小(bp)主要的染色体分布与功能大卫星DNA(缠绕无活性控制染色体的运动)(区块长度常为100kb几个Mb)卫星序列2和3 5 几乎所有染色体卫星序列1 25-48 大多数染色体着丝粒区异染色质和其它异染区DNA 171 所有染色体着丝粒区异染色质(Sau3A家族)68 主要在1、9、13、14、15、21、22和Y的着丝粒区异染色质小卫星DNA(区块长度常常为0.1kb20kb)端粒家族 6 所有端粒(端粒的功能、前述)高度可变家族 9-24 所有染色体,常靠近端粒微卫星DNA 1-4 所有染色体,功能不清楚(区块长度小于150bp),(三)散在重复顺序(intersprersed repeats)散在重复顺序是人类基因组中非串联非反向的重复顺序,包括少数活跃的转位因子,根据重复序列的长度可将该家族分为2个主要类型,短散在核元件和长散在核元件。1.SINEs(shat interspersed nuclear elements)2.LINES(long interspersed nuclear elements)代表 Alu家族(逆转录转座子)KpnI家族(1)序列中含Alu限制酶位点(1)序列中含Kpn限制酶位点(2)基因组中重复数3-5105(2)全长6-7kb(3)Alu顺序之间间隔:3-5kb(3)Knp 消化后可见4条带(4)相对集中在染色体R带(4)集中分布在染色体G或Q带 逆转录转座子 RNA介导转座,合成cDNA基因组,原核基因组、真核基因组、病毒基因组比较(供参考)原核基因组 真核基因组 病毒基因组1.生物学特征 类核、无核膜、转录、翻译 有核膜,录在核,译在浆 DNA或RNA不共存1个V颗粒(一 同一个pt进行 般利用宿主机制转录、翻译)2.染色体数目 单倍体 配子为单倍体、体细胞双倍体 单倍体、逆转录病毒除外3.核酸分子结构 双链环状DNA分子 双链线型 以ssDNA,dsRNA突出4.基因数目 4000多个基因(E.coli)4万 3几百个5.核酸类型 DNA DNA DNA或RNA6.核酸数目 少()多()少()7.结构基因连续性 无内含子,连续基因 有内含子、断裂基因 真核病毒不连续、原核连续8.重叠基因 无 无有9.操纵子结构 有,多顺反子 无操纵子结构、单顺反子 无操纵子结构10.重复顺序 有,少 大量重复顺序 有、少11.编码区/非编码区 50%,50%5%、95%95%、5%12.基因家簇()()13.假基因()()14.可移动基因()15.端粒()16.复制方式 半保留 半保留 多样,第三节 DNA多态性,人类个体之间所以表现为千差万别,其物质基础在于基因组DNA的差异。DNA序列的多态性就是这些差异中十分重要的1种,DNA序列多态性可分为基因多态性和重复顺序多态性和单核苷酸多态性,前者又可造成限制性长段长度多态性。,一、基因多态性又称DNA位点多态性(DNA site polymorphism)基因多态性 是由于等位基因间在特定位点上DNA序列存在差异造成的.在各种基因多态性系统中,HLA(人类白细胞抗原)是最复杂的一种.其中HLA-DR抗原的编码位点就有HLA-DRA,HLA-DRB1-9等10个座位超过200个等位基因。就其表型而言,从理论上来说,已远远超过了现有地球人口,人类为远交群体,因此要在无血缘关系人群找到HLA表型完全相同的个体几乎是不可能的。,二、限制性片段长度多态性(restiction fragment length polymorplism,RFLP)DNA位点的多态性可影响限制酶的切割位点,造成限制片段长度多态性,即用同一种限制酶消化不同个体DNA时,会得到长度各不相同的限制性片段类型。,RLFP分析法,三、串联重复序列多态性 这类重复序列的特点是以相同的核心序列按首尾相接的方式串联排列在一起形成一段特殊的序列。由于不同个体间核心序列的重复次数不同,因而形成不同长度的DNA片段,这类多态性被称为数目可变的串联重复序列(variable number of tandom repeats,VNTR)。包括小卫星和微卫星DNA串联重复序列。,(一)单核苷酸多态性的定义:SNP 是指基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性,即在某一个位点上,可有两种或两种以上的不同核苷酸。在群体中的发生频率不小于1%。包括单个碱基的转换、颠换、插入和缺失等。,四、单核苷酸多态性(single nucleotide polymorphism,SNP),(二)SNPs 的特性:(1)广泛性:SNPs 是目前为止分布最为广泛、存在数量最多的一种遗传多态性,占人类基因组全部变异的90%。在全部世界人口中,任意两个无关个体的SNPs 差异约每1000 个碱基就出现1 个,而整个人群约每300 个就出现1 个,全部人类基因组约1 千万个SNPs 位点。,(2)代表性:按SNPs 在基因组中的位置可以分为氨基酸编码区SNPs(coding-regions SNPs,cSNPs)和非氨基酸编码区SNPs。cSNPs 包括引起氨基酸残基改变的SNPs(又分为保守区的非同义突变和非保守区的非同义突变)和不引起氨基酸残基改变的SNPs(即编码区的同义突变)。非氨基酸编码区的SNPs分为5非编码区SNPs、3非编码区SNPs 和其它非编码区SNPs(包括内含子和基因之间连接区)。SNPs的位置分类有助于理解SNPs 的功能。某些SNPs 有可能直接影响蛋白质结构或表达水平,因此它们可能代表疾病遗传机制中的某些作用因素。,(3)稳定性:对个体而言,进化过程中各种原因引起染色体DNA 中核苷酸排序变化,即产生的DNA片段和DNA 序列在个体内的差异,在个体保持终生不变。由于每一代中每一核苷酸的变异频率极低(1 10-8)以及碱基变化的随机性,使得单碱基等位基因十分稳定。所以,SNPs 的突变率低,尤其处于编码区的SNPs(cSNPs)是高度稳定的,因而具有重要的遗传学意义。,(4)二态性:理论上,SNPs 可以为二、三、四等位基因,但实际上人类一般为二等位基因(allele),故也称为双等位标记(bi-allelic marker)。这样在检测时只需一个“+/-”或“全/无”的方式,这使得基于SNPs 的检测分析方法适于快速、高通量检出,易实现分析的自动化。,(三)SNP 的检测方法,SNP 分析技术按其研究对象主要分为两大类:,对未知SNP 进行分析,即找寻未知的SNP 或确定某一未知SNP 与某遗传病的关系。检测未知SNP 有许多种方法可以使用,如温度梯度凝胶电泳(TGGE)、变性梯度凝胶电泳(DGGE)、单链构象多态性(SSCP)、变性的高效液相色谱检测(DHPLC)、限制性片段长度多态性(RFLP)、随机扩增多态性DNA(RAPD)等,但这些方法只能发现含有SNP 的DNA 链,不能确知突变的位置和碱基类别,要想做到这一点,必须对那些含有SNP 的DNA 链进行测序。,对已知SNP 进行分析,即对不同群体SNP遗传多样性检测或在临床上对已知致病基因的遗传病进行基因诊断。筛查已知SNP 的方法有等位基因特异寡核苷酸片段分析(ASO)、突变错配扩增检验(MAMA)、基因芯片技术(gene chips)等。,1、SNPs 在基因组制图中的应用 由于SNPs 的密度高和分布广的特性,利用它就可以构建出目前最精细的遗传图谱,人类的第一张SNPs 图谱是1998 年5 月由David 在Science 上报道的,包罗了基因组内的3241个SNPs,平均分辨率达到2 cm,包括58 个间距大于10 cm 的SNPs,并将2227 个SNPs 定位和作图。而到2001 年,国际SNP 研究协会与国际人类基因组测序协会在Nature 上报道了人类基因组中的142 万个SNPs,使SNPs 的密度达到1/1900 bp。,(四)SNP 的应用,2、SNPs 在种族遗传学和连锁不平衡性分析中的应用 SNPs 达到了DNA 分子多态性的极限,可以提供足够的信息进行基因连锁分析和连锁不平衡分析。连锁不平衡就是不同位点的等位基因之间存在连锁关系而不是自由组合关系。由于位点之间的这种连锁关系,就可以利用连锁不平衡技术通过标记位点的变化来预期其他位点的变异。,3、SNP 在疾病易感性研究中的应用 SNP 被认为是一种稳定遗传的早期突变,与疾病有着稳定的相关性。当一个遗传标记的频率在患者明显超过非患者时,即表明该标记与疾病关联,通过比较分析两者的单倍型和研究连锁不平衡性,可将基因组中任何未知的致病基因定位。,4、SNPs 在药物基因组学研究中的应用药物基因组学是研究药物反应与遗传多态性之间关系的一门新学科。药物的遗传多态性可以表现为药物代谢酶的多态性,药物转运体、药物受体的多态性。这些多态性的存在都可能导致许多药物治疗中药效和毒副作用的个体差异。药物基因组学正是从基因水平揭示这些差异的遗传特征,在分子水平上对病症进行全面缜密的调查,包括选择人体中有关药物作用、活性及消除的候选基因,以及鉴别基因序列中的差异。,SNPs 图谱可以精细地反映个体的遗传差异,将SNPs 位点与个体的药物反应进行相关分析,从而确定基因在药物作用中的功能和意义。这样既可以根据患者的遗传特性设计治疗方案,实现“个性化治疗”,提高药效,降低药物的毒副作用,又可以在临床试验阶段为特定的药物选择合适的受试者,提高效率,减少费用。,5 SNPs 在临床耐药研究中的应用大部分药物由于长期使用导致疗效下降是临床上常见的问题,它和肿瘤细胞及病原微生物耐药性的形成密切相关。,致病性微生物可能存在与其致病力相关的SNP,发现这些SNP,就为新药靶的产生提供可能。检测病原微生物与耐药相关的SNP 并作为药物靶点,就能解决长期以来困扰临床治疗的一大难题。,5、问题与展望,检测技术没有突破性 核DNA 不是解释疾病的唯一方式 目前公开的SNPs 数据库,难以得到SNPs 的民族来源、地理分布等资料,