基因组课件.ppt
第二章 基因组与蛋白质组,Genome and Proteome,1,DNA,RNA,Protein,基因组学,蛋白质组学,转录组学,代谢组学,2,基因 是存在于染色体上的具有特定的遗传功能的DNA片段,基因可分为三大类:mDNA、tDNA、rDNA,就病毒而言,基因也可以是RNA片段。,3,基因组 指一个细胞或者一种生物体的整套遗传物质。,1920年德国汉堡大学植物学教授Hans Winkler提出,4,真核生物基因组 染色体基因组 线粒体基因组 叶绿体基因组 原核生物基因组 染色体基因组 质粒病毒,5,基因组学,概念:基因组学是研究生物基因组的组成、组内各基因的精确结构、相互关系及表达调控的科学,是涉及基因作图、测序和整个基因组功能分析的遗传学分支。,6,基因组学,分类结构基因组学:以全基因组核苷酸序列测定为目标功能基因组学:根据结构基因组学提供的信息,借助计算机分析以高通量、大规模的实验方法,系统地对基因功能进行诠释,7,第一节 基因组,8,不同生物基因组大小,9,什么是原核生物(prokaryote)? 细菌、支原体、衣原体、立克次体、螺旋体、放线菌和蓝绿藻等原始生物的总称,是最简单的细胞生物体。,一、原核生物基因组,10,(一)原核生物基因组的特征,1.基因组分子质量较小,2.环状双链DNA分子,3.具有类核结构,4.广泛存在操纵子结构,5.多为单拷贝,6.结构基因无重叠现象,7.具有编码同工酶的不同基因,8.具有可移动的DNA序列,9.非编码区内主要是一些调控序列,11,1.基因组分子质量较小,一般在106107bp之间基因数目较少,约3500个,2.环状双链DNA分子,3.具有类核结构,12,大肠杆菌的类核结构模型,+RNA,松弛DNA环,13,4.广泛的操纵子结构 操纵子结构是原核生物基因 组的功能单位,是原核生物基因组的一个突出的结构特点,其中结构基因的转录产物为多顺反子,14,操纵子 (operon) 概念: 在原核生物中,多个功能相关的结构基因成簇串联排列,与上游共同的调控区和下游转录终止信号组成的基因转录单位。,15,A,Y,Z,I,I,乳糖操纵子(lac operon)的结构,结构基因,Z: -半乳糖苷酶Y: 透性酶A: 乙酰基转移酶,16,乳糖,乳糖,半乳糖,葡萄糖,乙酰辅酶A,辅酶A,乙酰半乳糖,+,-半乳糖苷酶,乙酰基转移酶,透性酶,lac Z基因编码,lac Y基因编码,lac A基因编码,17,CAP,O,P,A,Y,Z,乳糖操纵子(lac operon)的结构,结构基因,调控序列,终止序列,CAP结合位点,I,RNAPol.,Promoter,Operator,CAP : catabolite gene activation protein,18,乳糖操纵子的调节机制,阻遏蛋白的负性调节CAP的正性调节协调调节,19,阻遏蛋白的负性调节 没有乳糖存在 仅有乳糖存在,20,CAP,O,P,A,Y,Z,I,Gene : OFFNo mRNA products,没有乳糖存在时,阻遏蛋白的负性调节,RNAPol.,21,Inducer (半乳糖),CAP,O,P,A,Y,Z,I,RNAPol.,仅有乳糖存在时,阻遏蛋白的负性调节,?,22,泄露表达,CAP,O,P,A,Y,Z,解 释,23,葡萄糖,降解产物,ATP,cAMP,5AMP,+,_,CAP (无活性状态),CAP-cAMP (活性状态),腺苷酸环化酶,磷酸二酯酶,+,24,CAP,O,P,A,Y,Z,I,RNAPol.,乳糖操纵子的CAP正性调节(Positive Control of CAP),CAP,cAMP,25,CAP,O,P,A,Y,Z,I,协调调节,26,Inducer (半乳糖),lactose,CAP,O,P,A,Y,Z,I,协调调节,RNAPol.,27,5.除16S、23S、5SrRNA及tRNA外,原核生物的结构基因均为单拷贝基因。结构基因中没有内含子,RNA合成后不需剪切加工,28,6.结构基因无重叠现象,重叠基因:基因组DNA中的某些序列被两个或两个以上的基因所共有,29,7.具有编码同工酶的不同基因,结构不完全相同的基因,但表达产物功能相同。,如,在大肠杆菌基因组中有两个编码分支酸变位酶的基因,两个编码乙酰乳酸合成酶的基因。,30,8.具有可移动的DNA序列,转座因子:能在基因组中从一个位点移至另一位点的DNA 序列称为转座因子,又称可转座元件。,插入序列(insertion sequence),2. 转座子(transposons),3. 可转移性噬菌体(transposable phages),美国冷泉港实验室的女科学家B.MClintock,31,9.非编码区主要是一些调控序列,编码区所占比例约50%。非编码区常有反向重复序列,可形成特殊结构,具有一定的调控作用。,*IR(反向重复序列):TGCGAT . . . . ACGCTA ACGCTA . . . . TGCGAT,32,(二)质粒(plasmid),是存在于细菌、真菌等微生物的细胞中,独立于染色体外,能进行自我复制的遗传因子。,33,质粒的分子结构,通常以共价闭合环状的超螺旋双链DNA分子存在于细胞中,也发现有线型双链DNA质粒和RNA质粒;,34,质粒与宿主的关系:质粒所含的基因对宿主细胞一般是非必需的;在某些特殊条件下,质粒有时能赋予宿主细胞以特殊的功能,从而使宿主得到生长优势,35,质粒的命名规则质粒的名称一般由三个英文字母及编号组成,第一个字母一律用小写p表示,质粒,plasmid;后两个字母应大写,可以采用发现者人名、实验室名称、表型性状或其他特征的英文缩写。编号为阿拉伯数字,用于区分属于同一类型的不同质粒,如pUC18和pUC19等。,36,质粒的分类,F质粒R质粒Col质粒,37,F质粒(fertility factor) 又称致育因子或性因子存在于肠细菌属、假单胞菌属、嗜血杆菌、奈瑟氏球菌、链球菌等细菌中,决定性别并有转移功能一种最有代表性的单拷贝的接合型质粒62106D,94.5kb,相当于核染色体DNA2%的环状双链DNA,其中1/3基因(tra区)与接合作用有关。,38,39,40,R质粒(resistance factor) 又称抗药性质粒或耐药性质粒具有使宿主菌对链霉素、四环素等抗生素产生抗药性的基因群由抗性转移因子(RTF)和抗性决定R因子组成。RTF,11MD,控制质粒拷贝数及复制,可使耐药性自一菌转移至另一菌;R因子大小不固定,几MD到100MD,含抗性基因。,41,42,又称大肠杆菌素因子大肠杆菌中发现,含编码大肠杆菌素的基因大肠杆菌素是由E.coli的某些菌株所分泌的细菌素,能通过抑制复制、转录、转译或能量代谢等而专一地杀死其它肠道细菌。,Col质粒(Col plasmid),凡带Col因子的菌株,由于质粒本身编码一种免 疫蛋白,从而对大肠杆菌素有免疫作用,不受其伤害。,43,Col因子可分为两类,分别以ColE1和ColIb为代表ColE1分子量小,约为5106Dalton,无接合作用,是多copy的;ColE1研究得很多,并被广泛地用于重组DNA的研究。ColIb分子量大,约为80106Dalton,它与F因子相似,具有通过接合作用转移的功能,属于严紧型控制,只有1-2copy,Col质粒(Col plasmid),44,松弛型质粒,(relaxed plasmid),严紧型质粒,(stringent plasmid),复制受到宿主细胞的严格控制,只在细胞周期的一定阶段进行,复制不受到宿主细胞的严格控制,在整个细胞周期随时可以复制,45,接合型质粒:只能使细菌接合,本身不被传递,含自我复制基因,接合基因,可移动型质粒:可被动传递,不能使细菌接合,传递性质粒:兼有接合和可移动的双重性质,46,质粒的生物学特性,47,(一)质粒的大小和拷贝数,1.质粒的大小:以分子质量MD或碱基对数kb表示,1MD的双链DNA=1.65kb。质粒的大小一般在1-200kb,最大的可达1400kb(如苜蓿根瘤菌质粒pRm141a),48,2.质粒的拷贝数(copy number):指同一质粒在每个细胞中的数量,不同的质粒在同一细胞中的拷贝数有差异。,复制起始点,+,调控元件,是确定某种质粒特性的一个重要参数复制子决定其拷贝数,49,质粒大小和类型,50,(二)质粒转移性概念:指质粒能从供体细胞把它的一个复本转移到受体细胞质粒在细菌间的转移,需要供体和受体细胞间的直接接触才能进行,即接合作用可以在同种属也可以不同种属间转移,51,52,(三)质粒的复制,复制所需的酶类和复制蛋白DNA聚合酶的利用复制的方向性复制的终止复制起始复制型,53,复制起点(ori)是一段特定的DNA序列,长约几百碱基对,在其相关的调控元件中含有由质粒或宿主染色体编码的、参与DNA合成起始调控因子的结合位点。在大多数质粒中,与复制有关的蛋白质基因位于它们的作用位点ori序列附近,因此ori位点周围的小范围DNA是质粒复制所必需的。如果质粒DNA的大部分区域被去掉,而只保留质粒的ori序列,而且质粒是环状的,则质粒仍然能进行复制。分子克隆中利用质粒载体的结构基础。,54,质粒的复制型,型复制(主)单向复制双向复制 滚环复制,55,(四)质粒的标记,选择标记:,用于鉴别目标 DNA(载体)的存在,将成功转化了载体的宿主挑选出来。抗生素抗性基因是目前使用最广泛,用于将特殊表型的重组子挑选出来-互补、插入失活,筛选标记:,56,(五)质粒的不相容性,两个质粒在同一宿主细胞中不能共存的现象称为质粒的不相容性,以大肠杆菌的质粒为例:,ColE1 pMB1,pSC101,p15A,57,Virus,二、病毒基因组,病毒是一类个体微小,结构简单,只含单一核酸(DAN/RNA),严格细胞内寄生并能自我复制的非细胞生物。,球型子弹型砖型杆型蝌蚪型,形态,58,金黄色葡萄球菌,立克次体,衣原体,流感病毒,乙脑病毒,痘苗病毒,脊髓灰质炎病毒,噬菌体,腺病毒,59,病毒的结构,裸露病毒,包膜病毒,60,病毒体结构模式图,61,病毒的结构,62,病毒基因组的结构和功能特征,Feature of structure and function about irogenome,63,基因组大小在不同病毒中差异较大与细菌或真核细胞相比,病毒基因组很小,(一)病毒基因组的大小相差很大,*不仅编码病毒复制所需的酶类,还编码核苷酸代谢的酶类,所以对宿主的依赖性小,64,病毒的组成成分,(二)病毒基因组的核酸类型,病毒核酸与所有的原核、真核生物的核酸比较,最为突出的特点是每种病毒颗粒只含1种核酸,据此,将病毒分为DNA病毒和RNA病毒。,大多数DNA病毒基因组都是双链分子大多数RNA病毒基因组都是单链分子,65,指两个或两个以上基因的ORF共有一段DNA序列,即某段DNA序列成为两个或两个以上基因共有的组成部分,参与编码2-3种蛋白质。重叠基因有以下几种情况:,(三)重叠基因,66,5-AUGGCCCUAUGUCAAAAUAATAGCUAA-3,完全重叠,部分重叠,只有一个碱基重叠,67,重叠基因尽管其重叠部分的DNA结构相同,但由于将mRNA翻译成蛋白质时的读框不一样,所以产生的蛋白质分子并不相同。,68,病毒核酸大多数顺序都用来编码蛋白质。,(四)编码区非编码区(95%/5%),RNA-pol结合位点转录终止信号核糖体结合位点等,如X174DNA中不翻译的部分只占217/5375,69,病毒基因组DNA序列中功能上相关的蛋白质的基因或rRNA的基因往往丛集在基因组的一个或几个特定的部位,形成一个功能单位或转录单元。可被一起转录成为含有多个mRNA的分子,称为多顺反子mRNA,然后再加工成各种蛋白质的模板mRNA。,(五)相关基因丛集,70,(六)连续的和不连续的基因,病毒基因结构特征往往与其宿主细胞基因结构相似。原核病毒基因是连续的,没有内含子;真核病毒基因是不连续的,有内含子。,71,除了反转录病毒以外,一切病毒基因组都是单倍体,每个基因在病毒颗粒中只出现一次。反转录病毒 基因组有两个拷贝。,(七)基因组是单倍体,72,概念:指病毒基因组由几条不同的核酸分子组成,多见于RNA病毒。如流感病毒有8条RNA分子,每条都含有编码蛋白质的信息。含分段基因组的病毒具有以下三个特点:(1)侵染效率低(2)具有较高的重组率(3)容易产生变异,(八)分段基因组,73,74,广泛存在于人、脊椎动物、昆虫体内以及多 种传代细胞系中,每种病毒只能感染一种动 物(个别例外),仅少数致病。病毒颗粒分空心和实心两种状态;氯化铯浮力密 度为1.39-1.42,病毒耐热、耐酸、耐乙醚,DNA病毒基因组,繁殖及繁殖方式:是专性活细胞内寄生物;它 不可单独进行繁殖,必须在活细胞内才可。,75,DNA病毒基因组特点:,1)DNA病毒基因组以双链DNA为多数,可以是环状也可是线状。2)线形DNA分子末端多含有反向重复序列。3)真核DNA病毒在宿主细胞核内复制。4)DNA病毒一般较RNA病毒大,生活周期复杂。,76,双股线状DNA病毒,痘病毒科 (Poxviridae)疱疹病毒科 (Herpesviridae)腺病毒科 (Adenoviridae),77,末端反向重复序列,inverted terminal repeat,ITR,病毒基因组两端的反向互补重复序列,78,临床分类,黏性末端,指病毒基因组双链DNA分子两端具有能够互补的单链DNA部分。,79,双股环状DNA病毒,多瘤病毒科 (Polyomaviridae)乳头瘤病毒科 (Papillomaviridae),80,单链DNA病毒,81,细小病毒科,一般特性: 1、直径1826nm 2、单分子单股线状DNA, 约5.2kb 3、20面体对称的核衣壳 4、无囊膜; 5、细胞核内繁殖。突出特点: 对外界因素具有强大的抵抗力;病毒对氯仿、乙醚以及热(56 30分钟)和酸(pH3.0,60分钟)均稳定。,82,83,圆环病毒科,一般特性: 1、是目前已知的最小病毒:球状,直径:PCV及PBFDV17nm、CAV22nm。 2、单股环状单链DNA,1.72.3kb(PCV 1759bp、PBFDV 1993bp、CAV 2319bp)。 3、20面体对称核衣壳。4、细胞核内复制。5、抵抗力很强, 60 30min、pH39 稳定,84,吸附,85,穿入(有囊膜病毒),86,穿入(有囊膜病毒),87,穿入(有囊膜病毒),88,穿入(有囊膜病毒),89,穿入(无囊膜病毒),直接通过胞浆膜,90,穿入(无囊膜病毒),直接通过胞浆膜,91,92,吸附,融合,内吞,溶酶体,脱壳,93,DNA病毒的复制与转录,DNA病毒的复制:主要是在细胞核内进行,利用细胞核内的复制酶。病毒复制取决于病毒基因组的大小及编码病毒蛋白质的能力DNA病毒转录:在细胞核内,94,RNA病毒基因组,RNA病毒的遗传物质是RNA繁殖:它不可单独进行繁殖吗,必须在活细胞内才可进行举例:艾滋病病毒,烟草花叶病毒,SARS 病毒,西班牙流感病毒,甲型H1N1流感病毒,禽流感病毒,,95,1)RNA病毒多数为单链,少数也可以呈双链;2)RNA基因组的遗传信息一般在一条链上;3)RNA病毒的变异率很高4)RNA病毒的复制和转录常独立于宿主细胞核,RNA病毒的特点:,96,RNA病毒基因组,RNA病毒基因组,双链RNA,单链RNA,正链RNA病毒,负链RNA病毒,97,正链RNA病毒,98,负链RNA病毒,99,逆转录病毒一类含有逆转录酶的单股正链RNA病毒逆转录病毒的共同特性1、球形,有包膜,80120 nm2、基因组:单股RNA二聚体,核心有逆转录酶3、复制通过DNA中间体,能与宿主细胞DNA整合,逆转录病毒,100,含有基因表达调控序列(真核生物的启动子和增强子),具有转录终止作用,5端,3端,对整合后的转录均起着重要作用,作用,LTR是(cDNA)前病毒整合到宿主染色体DNA的结构。,101,102,103,三、真核生物基因组,104,细胞核基因组(cytoblast genome)细胞器基因组(organelle genome),105,由染色体DNA组成:DNA+蛋白质=核小体线性双链DNA分子染色体的数目,绝大多数真核生物体细胞都是二倍体基因表达与染色质结构相关,(一)细胞核基因组,106,*M期染色体形式大部分细胞周期染色质(弥散状),107,DNA染色质的电镜图像,a、常染色质:密度较低,一部分基因能被表达b、异染色质:密度较高,不被表达(着丝粒、端粒),108,DNA:约200bp 组蛋白:H1 H2A,H2B H3 H4,核小体 染色体的基本结构多为,109,串珠状核小体结构,110,念珠样结构不利于基因表达乙酰化组蛋白有利于基因表达,核小体的细微结构影响基因表达,111,细胞核基因组的特征,112,真核生物基因组都是由大分子双链线状DNA构成。染色体通常成对出现(双倍体)。,真核生物基因组的一般特征,2. 基因组非常庞大,结构非常复杂,有多个复制起始位点。,113,基因组中存在大量的重复序列以及非编码序列。真核生物基因组内非编码序列占90%以上,是与细菌、病毒的重要区别,在一定程度上也是生物进化的标尺。功能基因大多不连续,存在有内含子和外显子;真核生物基因组中也存在一些可移动的DNA序列(转座元件)。,114,单顺反子结构,多数的真核生物不存在操纵子结构,每一个基因都单独构成一个转录单位,转录产生单顺反子mRNA,及编码一种蛋白质。,这是原核生物基因的操纵子结构,转录产生多顺反子mRNA,可编码多种蛋白质。,115,原核生物的多顺反子,真核生物的单顺反子,116,真核生物结构基因的DNA序列由编码序列和非编码序列两部分交替组成,编码序列是不连续的,被非编码序列分割开来,称为断裂基因。其包括外显子和内含子。,断裂基因(split gene),117,外显子(exon):编码的DNA序列,即被表达的DNA区段内含子(intron):非编码的DNA序列,Gilbert (1978年)提出内含子、外显子概念,118,珠蛋白基因(1700bp)=3个外显子+2个内含子。DMD基因(2300kb)=79个外显子+ 78 个内含子。(迄今认识的最大的基因),119,5GT AG 3法则,在每个外显子和内含子的接头区都是一段高度保守的共有序列,内含子的5端是GT,3端是AG,这种接头方式称为GT-AG法则,普遍存在于真核生物中,是RNA剪接的识别信号,转录后的前体RAN中的内含子剪接位点。,120,真核生物内含子和外显子 不是完全固定不变的,有时同一DNA 链上的某一段DNA序列,当它作为编码某一多肽链的基因时是外显子,而作为编码另一多肽链时,则是内含子。这样,同一基因却可以转录两种或两种以上的mRNA。真核生物某些结构Gene没有内含子,如组蛋白Gene,干扰素Gene等。它们多以基因簇形式存在,大多数的酵母结构Gene也没有内含子。,121,a)Intron 并非“含而不露”,酵母细胞色素b基因 Intron II 编码成熟酶,断裂基因概念的相对性,b)Exon 并非“表里如一”,人类尿激酶原基因 Exon I不编码氨基酸序列,c)Exon 也不一定是真核基因特有的,T4噬菌体胸腺嘧啶核苷酸合成酶的基因中有一个1017个核苷酸的intron,122,1)参与基因表达调控,对外显子的正常表达起调控作用2)增大基因长度,使其更易重组,提高了进化的选择性。3)断裂基因是基因选择性剪接的结构基础。选择性剪接可以使同一个基因编码出许多不同的蛋白质,是基因表达调控的另一种方式。,内含子的功能,123,断裂基因存在的意义,断裂基因存在是生物进化的结果,是从复制水平而言,不同的外显子可分别编码不同的功能结构域,基因外显子不同的组合产生新的编码蛋白质,即是外显子改组。如血红蛋白和肌红蛋白均由独立的外显子编码结合血红素的结构域。,124,真核生物的重复序列,重复序列:多拷贝的相同或近似序列的DNA片段真核生物基因组中通常存在大量的重复序列,可占整个基因组DNA的90%以上。按复性动力学方法可将这些重复序列分为高度重复序列,中度重复序列和低度重复序列(单拷贝序列)三大类。,125,(一)高度重复序列高度重复序列在基因组中重复频率高,可达106次,因此复性速度很快。高度重复序列在基因组中所占比例随种属而异,一般在1060%范围内。人的高度重复序列约占整个基因组的20%左右。,126,是由两个相同顺序的互补拷贝在同一DNA双链上反向排列而成。,高度重复序列按其结构特点可分为两种:,反向重复序列(inverted repeats),127,反向重复序列的两种形式,发卡结构,128,回 文 结 构,画上荷花和尚画书临汉字翰林书,129,卫星DNA(satellite DNA)在基因组中有一类序列的碱基组成不同于其他部分,可用等密度梯度离心法将其与主体DNA分开卫星DNA的重复单位一般由270 bp组成,成串排列。卫星DNA占基因组的比例随种属而异,在0.531% 范围内。,130,卫星DNA用等密度梯度离心法从基因组中分离出来。,131,人类基因组中可分离出三类卫星:大卫星DNA(macrosatellite DNA):其重复单位为5171 bp,主要分布于染色体的着丝粒区。小卫星DNA(minisatellite DNA):其重复单位为1570 bp,存在于常染色体。微卫星DNA/短串联重复序列(microsatellite DNA/short tandem repeat, STR): 其重复单位为25 bp,存在于常染色体,常见于内含子中。,132,人类基因组DNA中平均每610kb就有一个STR位点 。不同个体之间在一个同源STR位点的重复次数不同。 由于重复单位及重复次数不同,使其在不同种族,不同人群之间的分布具有很大差异性,构成了STR遗传多态性。,DNA指纹,133,DNA指纹,同一种属中不同个体的高度重复顺序的重复次数不一样,这可以作为每一个体的特征,即DNA指纹 。STR分析法已经成为法医学领域个体识别和亲权鉴定的重要分析方法,可应用于司法案件调查,也就是遗传指纹分析。,134,Alec J.Jeffreys和历史上第一张DNA指纹图谱,135,15-year old Lynda Mann,15-year old Dawn Ashworth,1986年DNA指纹鉴别首次用于司法调查,136,1802年的一副杰斐逊和莎莉的讽刺画像,137,高度重复序列的功能,参与复制水平的调节参与基因表达的调控参与转位与进化有关与个体特征有关与染色体减数分裂时染色体配对有关,138,基因组中重复次数105的重复顺序,重复单位平均长度约300bp;复性速度快于单拷贝顺序,慢于高度重复顺序。多与单拷贝基因间隔排列。多为非编码序列,如Alu序列也有编码基因产物的,如rDNA、tDNA、组蛋白基因家族, 一般往往以基因家族的形式存在。,(二)中度重复序列,139,依据重复序列的长度分为:短散在核元件( short interspersed nuclear elements, SINEs):平均长度300bp,如Alu家族长散在核元件( long interspersed nuclear elements, LINEs):平均长度1000bp,如Kpn家族,140,Alu家族,是哺乳动物和人类基因组中含量最丰富的一种中度重复序列家族Alu家族每个成员长度约为300bp,典型的特征是内部有一个限制性内切酶Alu位点(AG/CT),序列被分割成170bp和130bp的两个片段,因而称其为Alu序列或Alu家族。具有种特异性,141,由两个约130bp的正向重复构成的二聚体;第二个单体中有一个31bp的插入序列,不同成员之间核苷酸顺序相似但不相同;两侧为6-20bp的正向重复顺序,不同成员的侧翼重复顺序各不相同;,人类Alu序列特征:,AluI,142,Alu家族的功能是多方面的,可能参与hnRNA的加工与成熟,也与遗传重组及染色体不稳定性有关。最近研究表明,Alu顺序可能具有转录调节作用。,143,典型的长散在核元件(LINEs)是Kpn重复序列家族,因在其序列中存在限制酶Kpn的切点而得名。Kpn家族的重复单位一般为6 7 kb或更长,其两侧也各有一段正向重复序列,功能上与Alu家族相似。,144,(三)低度重复序列(单拷贝序列)单拷贝序列在基因组中只出现一次或少数几次,因此复性速度很慢。单拷贝序列属于结构基因,它储存了巨大的遗传信息,编码各种功能不同的蛋白质。,145,真核生物基因组中的重复序列,146,多基因家族(multigene family):指由某一祖先基因经过重复和变异所产生的一组基因。DNA序列具有较高的同源性(通常大于50%),并且其编码产物具有相同或相似生理功能的一组结构基因。,多基因家族和假基因,147,可分为二类:一类是基因簇,基因家族成员位置相对集中,成簇地分布在同一染色体上并同时进行转录。如组蛋白基因家族。,chromosome 7,148,另一类是基因家族成员分布在不同的染色体上,分别进行转录,且不同基因编码的蛋白质在功能上相关,如珠蛋白基因家族。,149,假基因(pseudo gene):在多基因家族中,某些并不产生有功能的基因产物的成员假基因是由于在进化过程中,某些DNA片段发生了缺失、倒位或点突变,导致调控基因丢失;或无剪接加工信号;或编码区出现终止信号;或编码无功能或不完整的基因。,150,根据假基因产生的机制分类:,复制假基因:复制后基因发生序列变化而失去功能,这样产生的假基因带有内含子加工假基因:基因转录后加工成熟的RNA经逆转录生成互补DNA,后者在整合到基因组中称为加工假基因,151,152,基因簇长度大于50kb,包括5个功能性基因(、2个、和)和一个假基因(),基因簇知度大于28kb,包含1个有活性的基因,1个参假基因,2个基因,2个假基因和一个未知功能的基因,153,人类染色体上的假基因,154,基因多态性(polymorphism),指基因组中某个基因在同种生物的不同个体中,同时和经常存在的两种或两种以上的变异型或基因型的现象,155,基因多态性的类型:,限制性片段长度多态性(RFLP) (restuiction fragment lengh polymorphism) 单核苷酸多态性(SNP) (single nucleotide polymorphism),156,RFLP指用某个限制性核酸内切酶来酶解基因组的某段序列时,在同种的不同个体之间该段序列可能被酶解成长短不等的几个DNA片段,这些序列在该种生物的群体中形成多态性。,157,限制性核酸内切酶,RE是一类能识别和切割双链DNA特定核苷酸序列的核酸水解酶。,+,Bam H,restriction endonuclease, RE,158,159,160,RFLP的类型,1.点的多态性表现为DNA链中发生单个碱基的突变,且突变导致一个原有酶切位点的丢失或形成一个新的酶切位点。Southern杂交即可诊断。2.序列多态性由于DNA 顺序上发生突变如缺失、重复、插入所致。由于高变区(highly variable region )内串联重复顺序的拷贝数不同所产生的,其突出特征是限制性内切酶识别位点本身的碱基没有发生改变,改变的只是它在基因组中的相对位置。,161,SNP是指单个核苷酸变异而形成的DNA分子多态性,162,163,SNP所表现的多态性只涉及到单个碱基的变异,也就是通常说的基因的点突变,这种变异可由单个碱基的转换或颠换所引起。转换是指同型碱基之间替换颠换是指发生在嘌呤与嘧啶之间替换,164,组成DNA的碱基虽然有4种,SNP理论上有四种等位形式,但实际上某一特定位点的SNP通常只有一种变异形式,即二等位多态。三等位和四等位多态很少见。 人类基因组1SNP/kb,共约300万SNP,是人群中个体差异最具代表性的DNA多态性,165,根据SNP在基因组中的位置分为编码区SNP 非同义SNP(20-30%) 同义SNP(70-80%)基因周边区SNP基因间SNP大多数SNP位点十分稳定,被认为是一种能稳定遗传的早期突变,166,SNP的研究意义,SNP的应用范围较微卫星标记更加宽广,经常被用于基因组作图、法医鉴定、亲子鉴定、疾病的连锁反应、群体遗传学及生物学进化的研究,此外SNP在个体化医学及保健中有着广阔的应用前景。,人们希望通过研究SNP图谱,更深刻地认识癌症、糖尿病、血管性疾病和某些精神性疾病等发病率高的多基因疾病的发生机制。,167,是指真核生物染色体线性DNA分子末端的结构部分,通常膨大成粒状。,端粒(telomere),168,“端粒之于染色体,好像鞋带两头儿的小塑料套和一根美丽鞋带的关系。如果没有小塑料套,由几股绳编起来的鞋带儿就要散架;同理,如果没有端粒,你的染色体就劈叉儿、磨秃。你说这么重要的东西值不值一个诺贝尔奖?” -摘自“端粒,好好看住别丢了!”,169,FISH(荧光原位杂交)技术显示的人染色体端粒,170,端粒由特殊DNA即短的GT丰富区重复序列及蛋白质组成,覆盖在染色体两个末端。人类是5TTAGGG 3,对保护染色体及维持染色体线性长度有重要意义。保证了DNA复制的完整性。,171,端粒酶(telomerase):由特殊的RNA及蛋白质组成的复合体,能以自身的RNA为模板,催化端粒的延伸。,组成: 端粒酶RNA (human telomerase RNA, hTR)端粒酶协同蛋白(human telomerase associated protein 1, hTP1)端粒酶逆转录酶(human telomerase reverse transcriptase, hTRT),172,端粒酶的爬行模型(动画演示),173,端粒酶的作用机制爬行模型,174,真核生物线粒体和叶绿体中携带遗传物质,能自行复制和表达,(二)染色体外基因组线粒体,线粒体DNA(mitochondrial DNA, mtDNA)属于真核细胞核外遗传物质,可独立编码存在于线粒体中的多肽链、rRNA或tRNA。mtDNA为双链环状DNA,其分子结构特点与原核生物DNA相同。,175,人线粒体基因组共编码37个基因,2个RNA-基因16S和12S rRNA22个tRNA基因13个蛋白质基因 1个Cyt b基因 2个ATP酶亚基的基因-ATPase6和ATPase8 3个细胞色素氧化酶亚基基因-CO1、CO2、CO3 7个呼吸链NADH脱氢酶亚基的基因,176,高等动物线粒体基因组的特点:,母系遗传。 mtDNA损伤后不易修复,突变率高。 遗传密码与通用密码有差别。 半自主性复制与协同作用,177,人类基因组,human genome,核基因组 22对常染色体 X、Y性染色体线粒体基因组,178,人的体细胞染色体,179,人类基因组计划是美国科学家于1985年讨论酝酿,诺贝尔获奖者Renato Dulbecco于1986年发表的短文肿瘤研究的转折点:人类基因组测序中率先提出,于1990年10月1日, HGP正式启动!,180,人类基因组计划 旨在测定人类染色体(指单倍体)中所包含的30亿个碱基对的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目标。,181,20世纪人类科技发展史上的三大创举,40年代第一颗原子弹爆炸,60年代人类首次登上月球,90年代人类基因组计划,182,1992年,一个国际合作组完成了对酵母3染色体DNA的全部315357个碱基序列的测定,这是人类完成的第一条真核生物染色体DNA的全序列测定。,人类基因组计划大事件,1995年,科学家们获得了人类第3、第16和第22号染色体的高密度物理图。1999年12月1日,科学家们宣布,人类第22号染色体含3.34107个碱基对的测定已经全部完成,这是人类完成的第一条人类自身染色体的全部序列测定。,2000年6月26日,美国总统克林顿在白宫宣布:人类基因组草图的绘制工作已经完成。,183,2001年2月12日,中、美、日、德、法、英等六国科学家联合在学术期刊上发表了人类基因组“工作框架图”及初步分析结果。2001年8月26日人类基因组“中国卷”的绘制工作宣告完成。2003年4月14日,中、美、日、德、法、英等六国科学家宣布人类基因组序列图绘制成功,人类基因组计划的所有目标全部实现。完成的序列图覆盖人类基因组所含基因区域的99%,精确率达到99.99%。2005年4月,美国人类基因组研究所宣布,对人类第2号、第4号染色体的详细破译工作完成。,184,2006年5月18日,英美科学家公布了人类第一号染色体的基因测序图,这个染色体是人类“生命之书”中最长也是最后被破解的一章。 据英国自然杂志报道,第一号染色体中共有2.23亿个碱基对,占人类基因组中碱基对总量的左右。碱基对是组成生物遗传物质的基本单位。 科学家这次测序确定了人类第一号染色体中的3141个基因,这些基因中存在的缺陷与350种疾病有关,其中包括癌症、帕金森病、早老性痴呆等。 公布第一号染色体的基因测序图为人类基因组计划年来的努力画上了句号。,185,人类基因组计划的基本的工作,就是完成全部人类基因的测序,总共要做出4张图谱,生命的奥秘就在这4张图谱中形象的展现出来。(1)遗传图谱:利用人类家族遗传史和染色体上基因交换频率的试验数据,推断任何两个已知性状的基因之间的距离,根据点测试验确定各基因在基因组中的相互位置和排列顺序。(2)物理图谱:在特定染色体区域内确定基因在染色体上的实际排列顺序,对基因定位。,186,(3)序列图谱:进行DNA的核苷酸测序分析。找出30亿个碱基对的准确位置或测出30亿个核苷酸的整个序列,并在基因图谱上表示出来。(这相当于在北京到上海的公路旁种30亿棵树,而且是四种树,要把每一棵树的准确位置标出来。)这是人类基因组计划最繁重、耗时最多的工作,是人类基因组计划的核心部分。(4)基因图谱:鉴定DNA上所有基因的位置、结构、功能,分析其作用方式,解读人类的全部遗传信息。人类基因组计划的目标是建立人类基因组的结构图谱,并绘出人类基因图。这是一本人类生命的百科全书。如果把人类的全部遗传信息都破译,人类便在分子水平上看透了自己。,187,基因组计划意义1.基因组计划改变了生命科学研究的模式,“基因组计划”和“基因组学”是从整个基因组的规模去认识、研究一个物种或多个物种的全部基因及其功能网络;研究对象的规模化促使科学实验规模化。,188,基因组计划意义2.基因组计划为生命科学研究开辟了新方 新方法。基因组计划促进了生物信息学的发展基因组学的发展促进基因芯片、蛋白质芯片技术、质谱技术和快速测序技术的发展和普及,促进了分子诊断学及其技术的发展。基因组计划大大促进了生命科学内容各学科、生命科学与其自然科学特别是计算机科学之间的交叉和发展,产生了许多相关交叉学科。,189,基因组计划意义3.基因组计划大大加快了生命科学研究 的步伐,PCR技术 DNA测序技术 生物芯片技术,190,基因组计划意义4.基因组学研究促进了医学各个方面的发展和进步。,基因诊断、基因治疗和基于基因组信息的疾病预防、疾病易感基因的识别、风险人群生活方式、环境因子的干预。 药物基因组学 个体化医学,191,基因组与蛋白质组知识 库,基因组科学与医学的关系,192,有些人既抽烟又喝酒却能活到90岁而不生癌症,而有些人却因为抽烟又喝酒早早地得了癌症。有些女性的乳腺癌经治疗后能得到好转,而有些女性却不能。为什么?,193,基因组计划意义4.基因组学冲击着人类文明,从人人都可以获得“人类的基因”的遗传这一角度来说的,“基因对整个人类都是平等的,没有正常基因组与异常基因组或疾病基因组之分,没有健康基因与疾病基因之分,没有好基因与坏基因之分。” “大多数疾病的发生,是基因组的差异与调节基因的环境不协调而引起的。”,194,那些遗传患者