基因组学.ppt.ppt
1,动物基因组,2,第一节基因组学的概念,什么是基因组基因组就是一个物种中所有基因的整体组成。人类基因组有两层意义:遗传信息和遗传物质。要揭开生命的奥秘,就需要从整体水平研究基因的存在、基因的结构与功能、基因之间的相互关系。,3,基因组学,基因组学最早是1986年美国霍普金斯大学著名人类遗传学家和内科教授McKusick提出来的。随着人类基因组计划的实施,基因组学逐渐成为一门以结构基因组学为主的高度综合和跨学科的科学,功能基因组学、比较基因组学、环境基因组学、药物基因组学等都纷纷出台。,4,基本概念,基因组(Genome):一个生物体、细胞器或病毒的整套基因和染色体组成,即全部基因的总称(包括所有的编码区和非编码区)基因组学(Genomics):以基因组分析为手段,对所有基因进行基因组作图、核苷酸序列分析、基因定位、时序表达模式和基因功能分析的一门科学分子遗传学的分支学科提供有关生物物种及其细胞功能的进化信息生命科学的前沿和热点领域,5,基因组研究包括的方面,基因表达概况研究,即比较不同组织和不同发育阶段、正常状态与疾病状态,以及体外培养的细胞中基因表达模式的差异基因产物-蛋白质功能研究,包括单个基因的蛋白质体外表达方法蛋白质-蛋白质功能研究,6,基因组学的分类,分类:结构基因组学(Structural Genomics)比较基因组学(Comparative Genomics)功能基因组学(Functional Genomics)药物基因组学(Medical Genomics)营养基因组学(Nutritional Genomics)生物信息学(Bioinformatics)蛋白质组学(Proteomics),7,基本概念,结构基因组学:通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学。将基因组分解成小的易操作的结构区域,构建高分辨率的遗传图、物理图、转录本图,一个生物体基因组的最终图就是它的全部DNA序列。人类基因组计划果蝇基因组拟南芥菜基因组,8,遗传连锁图:通过遗传重组所得到的基因线性排列图称为遗传连锁图。它是通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离。物理图谱:是利用限制性内切酶将染色体切成数个片段,根据重叠序列把片段连接成染色体,确定遗传标志之间物理距离碱基对(bp)或千碱基(kb)或兆碱基(Mb)的图谱。转录本图谱:由基因转录本mRNA反转录建立cDNA文库,通过cDNA克隆测序得到基因组的表达序列图谱。,9,基本概念,比较基因组学:在基因组图谱和测序基础之上,对已知的基因和基因组结构进行比较,了解基因的功能、表达机理和物种的进化的学科。比较分析7种生物的基因组,结果表明:在进化上,古细菌、真菌和真核生物有一个共同的具有自养能力的最近祖先。,10,功能基因组学:后基因组学(Post genomics),利用结构基因组学提供的信息和产物,通过在基因组系统水平上全面分析基因的功能基因功能发现、基因表达分析、突变检测、基因组的表达与调控研究使得生物学研究从对单一基因与蛋白质的研究转向对基因组与蛋白质组的系统研究对成千上万的基因表达进行分析和比较,从基因组整体水平上对基因的活动规律进行阐述一个细胞的转录表达水平能够精确特异地反映类型、发育阶段以及状态,11,药物基因组学:根据不同个体间的基因组差异与基因多态性,阐明个体间在药物代谢和效应方面发生差别的遗传基础不同的个体间药物的疗效和副作用存在差异促使新药的发现根据个体的遗传背景来优化药物治疗方案,即“个体化治疗”,12,营养基因组学:研究对生物营养有重要作用的植物次级代谢途径的相关基因确定并克隆了与铁吸收转运有关的基因与生物素、维生素B1和维生素E合成有关酶的基因。,13,生物信息学:以计算机为工具,用数学和信息科学的观点、理论和方法去研究生命现象,对生物信息进行储存、检索和分析的科学以基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言发现新的基因和新的功能,进行蛋白质空间结构模拟和预测认识生命的起源、进化、遗传和发育的本质揭示人体生理和病理过程的分子基础,为人类疾病的预测、诊断、预防和治疗提供合理有效的方法依据特定蛋白质的功能进行必要的药物设计,14,蛋白质组学:蛋白质组(Proteome)是指在一种细胞内存在的全部蛋白质 蛋白质组学是研究细胞内所有蛋白质及其动态变化规律的科学功能蛋白质组(Functional Proteome)是指在特定时间、特定环境和实验条件下基因组活跃表达的蛋白质。功能蛋白质组是总蛋白质组的一部分。蛋白质组和功能蛋白质组是生命科学的新的研究内容。,15,基因组计划,模式微生物基因组计划模式植物基因组计划模式动物基因组计划人类基因组计划,16,第二节通过遗传学方法进行基因组作图,1.基因组作图的方法2.遗传作图中使用的标记3.遗传作图的方法,17,基因组作图的方法,遗传作图物理作图序列作图基因作图,18,遗传图谱(genetic map),遗传图谱(genetic map)又称连锁图谱(linkage map)或遗传连锁图谱(genetic linkage map),是指基因组内基因和专一的多态性DNA标记(marker)相对位置的图谱。遗传作图(genetic mapping)就是采用遗传学分析方法将基因或其它DNA顺序标定在染色体上构建成连锁图。遗传图谱表明基因之间连锁关系和相对距离,早期 绘制的经典遗传图谱的单位是重组率,1%的重组率为1个遗传单位。现代遗传图谱的单位为厘摩(centi Morgan,cM),1cM相当于1%的重组率,约为1 000 000个碱基对(base pairs,bp)。,19,通过遗传图谱,我们可以大致了解各个基因或DNA片断之间的相对距离与方向,如哪个基因更靠近着丝粒,那个更靠近端粒等。遗传距离是通过遗传连锁分析获得的,使用的DNA厘摩标志越多,越密集,所得到的遗传连锁图的分辨率就越高。遗传图谱不仅是现阶段定位基因的重要手段,即使在人类基因组全物理图谱建立起来之后,它依然是研究人类基因组遗传与变异的重要手段。,20,遗传作图中使用的标记,遗传标记(Genetic Markers):遗传图有特征性的位置标记用于表示基因组中特定顺序所在的位置。这些标记按孟德尔方式遗传,标记位点应是多态的。基因标记与DNA标记,21,遗传标记的发展:第一代标记 经典的遗传标记(蛋白质和免疫学的标记)70年代中后期,限制酶片段长度多态性(RFLP)第二代标记 85年,“小卫星序列(minisatellite)89年,“微卫星序列(microsatellite)第三代标记 单核苷酸多态性标记(single nucleotide polymorphism,SNP),22,经典的遗传标记(蛋白质和免疫学的标记)ABO血型位点标记HLA位点标记存在问题:已知多态的蛋白质很少等位基因的数目有限无法获得足够的信息量检测技术的繁琐等限制了人类基因组的遗传分析工作促使人们直接在DNA上寻找遗传标记,23,遗传标记中的第一代标记,70年代发展起来的DNA重组技术、DNA克隆技术和DNA探针技术无疑为拓展遗传图谱的构建途径创造了技术条件,也使人类基因定位的方法从细胞及染色体水平过渡到分子水平。DN A水平的多态性标记位点作为绘制现代遗传图谱的主要界标,大大提高图谱的 精确度、准确性。遗传图谱的绘制也因此进入了一个崭新的时代。现代遗传图谱的概念是由Botstein D等(1980)首先提出的,在此基础上,限制性片段长度多态性(RFLP)作为遗传图谱的第一代崭新标记得以问世。该系统一经建立就广泛应用到基因组的研究中。基因或基因组可以用重叠的限制性片段来作图。最终可以扩展到整个序列。限制性位点能够用作基因标记。RFLPs 的存在使我们能够用限制性片段构建连锁图谱。限制酶片段长度多态性在基因组中确定的位点数目达到105以上,24,基因标记,表型(phenotype):一个遗传性状必须以两种替换形式或表型存在才能用于遗传学分析。等位基因(allele):每种表型是由不同的等位基因控制。肉眼分辨的表型:颜色、形状等。果蝇遗传图的构建生化表型:微生物,25,人类的生化性状ABO血型HLA(人类白细胞抗原)复等位基因(multiple alleles):HLA-DRBI(human leukocyte antigens-DRBI)基因位点至少有59个等位基因。注:人类白细胞抗原(HLA)是最复杂最具多态性的体系,位于6 号染色体。仅其中的DR抗原编码位点有60多个等位基因。,26,27,遗传作图的方法,连锁分析是遗传作图的基础:1905,Bateson,Saunder和Punnett在同一条染色体上的基因间表现出遗传连锁(Genetic linkage),因为它们都是在同一条长的DNA分子上。部分连锁与重组:,28,部分连锁与遗传作图,构建遗传图谱的基本原理是真核生物遗传过程中会发生减数分裂,此过程中染色体要进行重组和交换,这种重组和交换的概率会随着染色体上任意两点间相对距离的远近而发生相应的变化。根据概率大小,人们就可以推断出同一条染色体上两点间的相对距离和位置关系。正因为如此,我们得到的这张图谱也就只能显示标记之间的相对距离。我们称这一距离(概率)为遗传距离(cM),由此构建的图谱也称为遗传图谱。,29,连锁遗传图的做法,一般以最左端的基因位置为0,如发现有新的基因在更左端的位置时,把0点让给新基因,其余的基因座位作相应移动。重组率在050%之间,但图谱上出现50以上的图距。这是由于较远的两基因之间发生偶数次交换,但没有出现重组类型,所以交换值要大于重组率。绘制连锁遗传图时,需根据重组率进行图距的校正。公式为 RF=1/2(1-e-m)RF为重组率 m:平均交换数 m值说明在两个基因座之间每次减数分裂有8次交换,因每次交换只包括4条染色单体中的两条非姐妹染色体,所以由m转换成的真实图距应为1/2m。,30,不同模式生物的连锁分析,有性杂交实验系谱分析DNA转移,31,杂交实验的连锁分析,选择已知基因型的亲本,设计杂交方案,获得交配的子代并分析其表型和基因型对于高等真核生物的常规连锁分析并不是直接检查配子,而是检测分别来自两个亲本配子融合形成的二倍体基因型,即进行遗传杂交。两点杂交和多点杂交,32,系谱分析,系谱分析法即对某家庭性状相关成员进行 统计,分析性状之间的连锁关系,通过重组率进行相关基因定位,这种方法又称家系分析法(pedigree method)。不能进行有计划的遗传实验,只能收集家系成员的相关资料进行连锁分析,主要涉及人类和多年生树木。优势对数值(lod score)分析:lod值是基因连锁可能性的对数,用于判定所研究的两个标记是否在同一染色体上,换句话说就是基因是否连锁。如果优势对数分析确定了连锁,然后可以提供最可能的重组频率程度。理想的情况是资料来自不同系谱。,33,细菌的遗传作图,转化(transformation):供体细胞释放的一段DNA(通常小于50kb),经受体细胞摄取后整合到基因组中,可借助抗性培养基筛选重组克隆。转导(transduction):通过噬菌体将小片段DNA从供体细胞转移到受体细胞。接合转移(conjugation):两个细菌形成物理接触,DNA从供体转移到受体。,34,细菌的遗传重组,35,RFLP连锁图,RFLP是第一种用于研究的DNA标记(David Bostein,1980)。基本设想:由于同源染色体同一区段DNA顺序的差异,用限制酶消化时,会得到长度各不相同的限制性片段。经过琼脂糖凝胶电泳分离,可直接显示不同个体同一位点DNA组成的差异。由于限制酶的专一性,用不同的限制酶处理同一DNA样品时,可以产生与之对应的不同限制性片断,从而提供大量位点多态性信息。,36,DNA限制酶分析,37,RFLP连锁图,我们直接检验由限制图谱获得的基因型,而不是检测其表型的特点。左图表示三个世代限制图谱之间的血缘关系,其限制片段长度多态性(RFLP)可以按孟德尔方式遗传,四种等位基因在每代中独立地分离,但图中经限制酶消化后所有等位基因之间的组合在凝胶电泳中都存在。,38,基因与分子标记的共分离,共分离:如果限制酶多态性在基因组中自由发生,则有些会在特定基因附近产生。我们可以确定这样的限制性标记,因为该标记与突变表型密切相关。如果比较患病者的和正常人的DNA 限制图谱,可能发现一个特定的限制性位点通常出现(或者丢失)在患者DNA 中,原因是限制性标记与表型间100%相关。它暗示限制性标记与突变基因距离很紧,以至于它们在重组中不能分离。,39,40,简单序列长度多态性,小卫星DNA的核心序列一般为几个到几十个核苷酸,不同个体的不同基因座位重复次数不同,每个重复单位的组成可略有变异。这类重复单位数目分布有限,有些染色体上还未发现这类 小卫星DNA。它的位置一般在染色体端粒部位。亦已证明,这一序列广泛存在于人体基因组中。,41,42,SNP作图的一般步骤包括:,获取DNA序列;从DNA序列确定序列标签位点(sequence tagged sites,STSs);扫描STSs或ESTs确定候选SNPs;确定SNPs;将SNPs定位于染色体特定位置。,43,鸟枪法和重叠群法,基因组计划的基本目标是获得全基因组顺序,在此基础上再对所获得的序列进行解读。获得基因组顺序的主要方法是进行DNA测序,然后再将读取的顺序组装。目前的DNA测序每次反应仅能读取不到1000bp的长度,已知最小的细菌基因组为580kb。因此基因组测序的第一步是构建基因组图,然后将基因组区段分解逐个测序,最后进行组装。基因组作图的基本构想是,在长链DNA分子的不同位置寻找特征性的分子标记,根据分子标记将包括这些序列的克隆进行连锁定位,绘制基因组图。一旦构建好基因组图,即可着手进入全基因组测序。以基因组图指导的测序有2种路线:重叠群法 和 直接鸟枪法,44,什么是鸟枪法,全基因组随机测序战略主要采用鸟枪法(shotgun)。鸟枪法,也俗称“霰弹法”,是随机先将整个基因组打碎成小片段进行测序,最终利用计算机根据序列之间的重叠关系进行排序和组装,并确定它们在基因组中的正确位置。“鸟枪法”优点是速度快,简单易行,成本较低,可以在较短的时间内通过集中机器和人力的方法获得大量的基因片断。但是用它来测序,最终排序结果的拼接组装比较困难,尤其在部分重复序列较高的地方难度较大。此外有许多序列片段难以定位在确切的染色体上,成为游离片断;同时又会有许多地方由于没有足够的覆盖率而形成空缺。这些缺陷最终导致整个基因图会留下大量的空洞(gap),也影响其准确度。,45,重叠群法,以大片断定位的克隆为基础的定向测序战略主要采用克隆步移法或称重叠群法:先构建遗传图,再利用几套高度覆盖的大片段基因组文库(BAC、PAC等)获得精细的物理图,选择合适的BAC或PAC克隆测序,利用计算机拼装。BAC内的空洞基本上都可以利用设计引物等手段填补,形成一条完整的BAC序列。然后由相互关联、部分重叠的BAC克隆连成一个大的重叠群(Contig)。理想状况下,整条染色体就是由一个完整的重叠群构成。,46,但通常情况下部分BAC之间会有物理空洞(Physical Gap),这是目前国际上还未克服的难题。利用克隆步移法测序,国际上通行的标准要求BAC测序达到十倍覆盖率,使所测的序列达到99.99以上的准确度。该方法的技术难度较高,尤其大片段基因组文库(BAC)和精细物理图构建是技术性极强的工作;此外,费用相对于鸟枪法要稍高一些,完成整个基因组测序周期也要长些。但是,通过这种方法得到的基因组数据是最为准确和精细的数据,也是基因组测序的最终目标。大基因组完成图目前大多都是通过这种方法获得的。基因组完成图,即完全覆盖所测物种的基因组、准确率超过99.99的全DNA序列图。完成图的覆盖率接近100,准确率更高,达到99.99。,47,基因组测序的不同策略,重叠群法 所谓重叠群系指相互间存在重叠顺序的一组克隆。根据重叠顺序的相对位置将各个克隆首尾连接,覆盖的物理长度可达百万级碱基对。在单个的重叠群中,采用鸟枪法测序,然后在重叠群内进行组装。这是一种由上至下(up to down)的测序策略。直接鸟枪法 首先进行全基因组鸟枪法测序,再以基因组图的分子标记为起点将鸟枪法DNA片段进行组装。高密度的基因组图分子标记可以检测组装的DNA片段是否处在正确的位置,并校正因重复顺序的干扰产生的序列误排。这是一种由下至上(bottom to up)的测序策略。,48,49,遗传标记中的第三代标记,单核苷酸多态性标记(single nucleotide polymorphsm SNP)这种标记在人类基因组中可达到300万个,平均每1000个碱基对就有一个。这种标记数目多,覆盖密度大,它的开发和应用摒弃了遗传标记分析技术的瓶颈凝胶电泳,为DNA芯片技术应用于遗传作图提供了基础。,50,基因组图的绘制可为基因组的全面测序提供工作框架。由于一些分子标记同基因座位紧密连锁,为靶基因的定位克隆提供了可能。根据靶基因所在基因组图中的位置,可以尽快获知重要基因的顺序。正是基于这些理由,人类基因组计划最初6年的工作重心主要放在人类基因组图的绘制上。,51,遗传标记中的第二代标记,发现:小卫星序列minisatellite(1985年)微卫星序列microsatellite(1989年)microsatellite marker又称简单串连重复(short tandem repeat,(STR),最重要的优点是高度多态性,提供的信息量相对很大;另外可用PCR技术使操作实现自动化。20世纪80年代后期,人们开始应用微卫星序列(microsatellite,MS)绘制图谱。1994年底,美、法完成了以RFLP及微卫星为标志的遗传图谱.图谱包含了5826位点,覆盖4000cM,分辨率高达0.7cM1996年法国报道了完全以微卫星DNA标志构建的遗传连锁图,包含2335位点,分辩率为1.6cM。,52,第三节:通过物理方法进行基因组作图,1.概念以及简介2.限制酶作图(restriction mapping)3.荧光原位杂交(fluorescent in situ hybridization,FISH)4.序列标记位点(sequence tagged site,STS)物理作图的进展及其应用,53,比较显示了遗传学图与物理图谱的差异,后者是通过DNA测序确定的。值得注意的是在遗传学图中最上面的两个遗传标记,glk1和cha1的顺序是错误的。两个图谱间其他几对标记的相对位置也有差异。,54,3.1物理作图的概念以及简介,为什么需要物理作图技术?为什么不能直接从遗传作图进入测序阶段呢?主要有两个原因:A.遗传图谱分辨率有限:由于人类及其大多数高等真核生物来说,不可能获得巨大数量的后代,因此可用于研究的减数分裂体就少很多,连锁分析就受限制,导致标记密度的减小,从而影响遗传作图。B.遗传图谱精确度有限:1992年,酿酒酵母三号染色体全序列发表,人们对比遗传作图和DNA测序所显示的标记的实际位置,发现重组热点的存在对遗传作图的影响,在遗传图谱中甚至出现一对基因的顺序被颠倒的情况。,55,3.1物理作图的概念以及简介,物理作图是利用杂交分析和PCR等分子生物学技术检测DNA分子,对有显著特征的序列进行定位。现在,常用三种重要的物理作图的方法来检验和补充遗传图谱:*限制酶作图(restriction mapping)*荧光原位杂交(fluorescent in situ hybridization,FISH)*序列标记位点(sequence tagged site,STS),56,57,3.2限制酶作图(restriction mapping),限制酶作图最简单的方法是比较一个DNA分子被两种识别不同的靶序列的限制酶切割所产生的两套片断的大小。如上图,使用了EcoR和BamH。首先,用两种限制酶中的一种对DNA分子进行消化,再用另一种进行消化,这样,我们就可以确定每种酶的限制位点的数目,但是切点之间的相对位置不能确定。,58,3.2限制酶作图(restriction mapping),限制酶作图的规模受到限制片段大小的限制:如果使用的限制酶在DNA上切点相对较少,限制酶作图就比较容易、但如果切点较多作图时所需要测定的片段大小和需要比较的单酶消化、双酶消化和部分消化片段的数量也会增加。当消化产物中含有的片段多到一定程度时,凝胶中的一些单一条带会重叠在一起,使得错误检测或完全遗漏的机会增加。,59,3.3 荧光原位杂交FISH,FISH的发展史:染色体原位杂交技术是根据核酸分子碱基互补配对的原理,有放射性或非放射性标记的外源核酸探针,与染色体上变性处理后的单链DNA互补配对,再经过一系列的检测手段将待测的核酸序列在染色体上的位置显示出来的技术。原位杂交技术创建于六十年代末期,Gall和Pardue(1969)把经过放射性同位素标记的rDNA定位到爪蟾染色体上的核仁组织区,标志着染色体原位杂交技术的建立。Langer等(1982)首先采用生物素标记的探针进行了染色体原位杂交,标志着非放射性原位杂交技术(nonisotopic in situ hybridization)的建立.在荧光素物质出现后,开始使用荧光素检出杂交信号,杂交结果在荧光显微镜下观察(Pinkel et al.,1986),即荧光原位杂交(fluorescence in situ hybridization,简称为FISH)技术的建立,60,FISH的分类:1.FISH:根据使用的探针的不同分BAC-FISH和YAC-FISH,以大片段BAC与 YAC克隆作为染色体原位杂交的探针,发展出了的BACFISH和YACFISH技术。GISH:(genomic in situ hybricization,GISH)是80年代末90年代初发展起来的一种原位杂交技术。它最初应用于动物方面的研究(Pinkel et al.,1986),但很快在植物中得到推广应用。它用来自一个物种的总基因组DNA作为标记探针,以适当浓度的另一物种总基因组DNA进行封阻,在靶染色体上进行原位杂交。相对于标记DNA探针,高浓度封阻DNA优先与靶染色体上共有保守序列杂交,剩下的外源种特异性序列主要被标记探针所杂交,以总基因组DNA 为探针。3.伸展DNA纤维上的原位杂交(DNA Fiber-FISH)Wiegant等(1992)和Heng等(1992)首先利用化学方法对染色体进行线性化,再以此线性化的染色体DNA纤维为载体进行FISH,使FISH的分辨率显著提高,这就是最初的纤维FISH。在10 1000 kb以上的线性DNA分子可被伸展为约2.3 kb/m,因而可把长度结果(m级)直接转换为DNA片段大小(kb)。,61,FISH的步骤(植物)注:在染色体制片中,动物细胞直接滴片或涂片;植物细胞要除细胞壁,主要用酶解、压片等方法。,植物根尖-酶解-染色体制片-烤片-RNA酶处理-变性-乙醇脱水(Bio,Dig)探针标记-纯化-变性共变性-37复性-洗脱-荧光抗体反应-镜检,62,应用:重要的功能基因定位:1.以重要的功能基因小片段或含重要的功能基因大DNA片段定位染色体上。DNA片段越长结果可靠性程度高。在动物中可将300bp DNA片段定位到染色体上。植物中普遍认为要10kb以上的DNA片段才有可靠性。1995年,Jiang等人运用BAC-FISH首次将Xa-21成功的定位到植物(水稻)染色体上。1997年,Nakamura等人构建与稻瘟病基因Pi-ta2连锁的800kb的BAC连接群,通过BAC-FISH将Pi-ta2定位在水稻第12号染色体的近着丝粒区域中。同年,Gomez用来源于玉米cDNA sh2基因筛选高粱BAC文库,63,应用:核型分析与动物和人不同,植物染色体多数趋于具中央着丝粒和亚中间着丝粒的,近端着丝粒的染色体很少,核型分析比较困难。许多重要的经济作物不仅是多倍体,而且有的染色体非常小、形态相似,用传统的核型分析技术很难识别。用染色体特异的BAC、重复序列和着丝粒标记进行染色体核型分析。,64,探针的标记:用连接有生物素,地高辛的一种核苷酸替代要检测的DNA序列中的部分碱基.与Southern DNA有些相似。探针种类:人工合成的核苷酸序列,DNA克隆,基因组总DNA,流式细胞分拣或微切割的染色体,PCR产物等。探针的标记方法:A.Nick translation:Nick translation 用到Dnase 和DNA polymerase两种酶.Dnase 在DNA序列双链的每条单链上随机产生切口.DNA polymerase有三种功能,从切口处5至3降解,3 至5合成以及3 至5校对功能.在这两种酶的作用下使连接有生物素,地高辛的一种核苷酸替代原来的碱基.。B.PCR标记.C.Random primer labeling.,65,杂交和检测:杂交:变性后的染色体制片和探针在37复性,探针与染色体上的目的DNA结合,通过不同严谨度的洗脱,非特异的结合解脱 检测:用不同荧光素偶联的抗生物素,地高辛的抗体与杂交后的制片进行一步或多步抗原-抗体反应.使目的信号放大并带有荧光素标记 镜检:在荧光显微镜的不同波长的激发光下产生不同颜色把不同标记(生物素和地高辛)的DNA区分开来,66,67,68,69,70,3.4序列标记位点(STS)作图,目前最有效的物理作图技术,也是能对大基因组作出最详尽图谱的技术、是STS作图。一个序列标记位点(STS)是一段短的DNA序列,通常长度在100到500bp,易丁识别,仅存在于待研究的染色体或基因组中。作一套STS图谱需要收集来自单条染色体或一个完整基因组的重叠的DNA片段。在下图中,从单条染色体中制备一组DNA片段,使染色体上每一点平均有5条片段对应。,71,上述的两个前提易于满足,因此可以通过多种途径获得STS,最常见的来源是:表达序列标记 表达序列际记(expressed scquence tag EST)是通过互补DNA(cDNA)克隆分析获得的短序列。SSLP 具有多态性的SSLP在遗传作图中可被用作STS,可通过连锁分析定位,来为物理图谱提供直接联系。随机基因组序列 可以通过对科隆的基因组DNA的随机小片段进行测序或在数据库中搜寻贮存序列获得。,72,用于STS作图的DNA片段STS作图过程中所必需的第二个要素是可覆盖待研究的染色体或基因组的DNA片段群。这样的片段有时也称作作图试剂(mapping reagent)。目前通过两种途径来获得作图试剂;放射杂交:克隆文库:,73,放射杂交体是指人细胞经X线照射,染色体断裂成碎片段 与仓鼠细胞融合 杂交细胞体(含5-10Mb人DNA片段).但并非所有的企鼠细胞都能接受染色休碎片,因此需要采用某种方式来鉴定杂交体。,74,克隆文库:与制备放射杂交体组一样,克隆文库可来自基因组DNA,也可来自某一类染色体。与放射杂交体组相比,用克隆文库进行STS作图时有一个优点:单独的克隆可提供测序的DNA。可构建物理图谱,也适用于确定含有重叠DNA片段的克隆。,75,第四节基因组测序与序列组装,基因组计划的最终目标是获得所研究的生物的完整的DNA顺序。最佳状况是将物理图谱和遗传图谱进行有机整合,以便于确定基因以及其他重要的序列在DNA顺序中的位置。这里主要介绍基因组测序中所采用的技术和策略。主要内容:1.DNA测序的方法2.DNA顺序的组装3.基因组顺序的其他路线4.人类基因组的测序和组装,76,4.1DNA顺序的方法,DNA测序技术主要有两种方法,都是在20世纪70年代中期发明的。A.链终止法(the chain termination method),是通过合成与单链DNA互补的多核苷酸链来读取待测DNA分子的顺序。B.化学降解法(chemical degradation method),是将双链DNA分子用化学试剂处理,产生切口,用同位素标记进行测序。,77,链终止法测序的原理,78,链终止法对DNA多聚酶的要求:a.高酶活性b.无53 外切核酸酶活性c.无35 外切核酸酶活性53 外切核酸酶使DNA聚合酶去除已存在的链35 外切核酸酶使DNA聚合酶校正自身错误,79,链终止法要求单链作为模板:a.将DNA克隆到质粒载体中b.以M13载体克隆单链DNAc.以噬菌体克隆DNAd.PCR产生单链DNA,PCR制备单链DNA,80,通过M13载体获得单链DNA,通过在M13载体中克隆获得单链DNAM13有两种形式:双链复制型和噬菌体颗粒中存在的单链模型。,81,链终止法中引物的影响:引物决定了模板链的测序起点,一般来说,是采用克隆位点附近载体上的一段顺序。A.通用引物:与载体DNA中附近插入片段的顺序退火,可引入新链的合成。B.内部引物:提供一系列端部以及内部可完成长序列顺序的克隆。,82,83,4.2DNA顺序的组装,主要有三种方法将大量短的DNA顺序组装起来,鸟枪法、克隆重叠群法、引导鸟枪法。,84,利用鸟枪法得到流感嗜血杆菌基因组序列的方法,85,通过覆盖不同序列重叠群之间间隙的序列拼接流感嗜血杆菌的全基因组序列,86,克隆重叠群的序列组装:克隆重叠群法是获得真核生物基因组序列的传统方法,也是可用于测已有物理或遗传图谱的微生物基因组序列。在进行克隆重叠群中,必须使用大片段DNA克隆载体:如噬菌体P1载体、细菌人工染色体(bacterial artificial chromosome,BAC)、酵母人工染色体(yeast artificial chromosome,YAC)、P1来源的人工染色体(P1derived artificial chromosome,PAC),87,噬菌体P1载体:与载体相似,由于P1载体的基因组要大于噬菌体基因组,并且其颗粒也比噬菌体大,故可以P1载体克隆更长的DNA片段。BAC:是基于大肠杆菌的野生型F质粒设计的。BAC可用于克隆300kb左右的片段。PAC:结合P1载体和BAC所设计的,其容量也可以达到300kb。在搭建克隆DNA片段重叠群的最简单的方法就是从文库中的一个克隆开始,进行染色体步移(chromosome walking),88,YAC载体的工作原理:,89,染色体步移的原理:在开始时,使用其中的一个克隆的插入片段做探针,与文库中的所有其他克隆杂交。,90,基因组顺序的其他路线,a.EST顺序:EST顺序的优点:1.mRNA可直接反转录为cDNA,易于构建cDNA文库;2.获取EST的次数少,量少,一次cDNA测序就可以获得EST顺序,500bp的cDNA顺序就可以鉴定其所在的基因。3.无需反复检测EST顺序的准确性。b.浏览顺序(sequence skimming):粗略分析初步顺序结果从中寻找基因顺序。,91,c.克隆指纹图谱(clone fingerprinting):1.重复DNA指纹图谱(repetitive DNA fingerprint):将一系列限制片段印迹后,用特异针对于一类或多类基因组范围内重复的探针进行Southern blot。2.重复DNA的PCR或散布重复元件PCR(interspersed repeat element PCR,IRE-PCR)使用在基因组范围内重复序列处退火的寡核苷酸作为引物,扩增两个两个相邻重复片段间的单拷贝序列(重复序列在基因组上不是均匀分布,通过它为其他克隆作为比较的指纹。在人类基因组中就有Alu元件具有这样的作用。)3.STS含量作图(STS content mapping):可将克隆重叠群定位于标有STS的物理图谱上。文库中的每一个克隆都在各个STS处进行PCR反应。如果STS在基因组中是单拷贝的,我们就可以得到PCR产物的所有克隆均含有相互重叠的插入子。,92,A.限制图谱;B.重复DNA指纹图谱;C.重复DNA的PCR;D.STS含量作图,93,人类基因组测序中的主要方法:BAC克隆法、EST顺序快速克隆基因。,94,人类基因组测序中的伦理问题:人类基因组计划一开始就有争议,目前,随着大规模测序的进行,许多伦理句题也随之产生。主要的一个争议就是谁将拥有人类DN入序列。对很多人来说,DNA序列的归属只是一个观念问题,但是,从人类基因组包含的信息中可获得非常可观的经济利益,例如,我们可以用基因序列指导新药的开发和针对癌症或其他疾病的治疗方案。人类基因组计划一直支持伴随着基因组测序而产生的伦理、法律、社会句题的研究,在美国更是如此。尤其是,必须足够谨慎以确保基因组序列不被应用于某个个人;克隆并测序的DNA只能取自己完全同意以这种方法使用其材料的个人,并且要保证匿名。当它的文库毁坏,需要用新材料检测现存的物理图时,就需要对研究成果近行一定量的重复对比。人们已接受并认为这样的重复上作是必要的,而且必须格外小心以维持和增强公众对人类基因组计划的信任。,95,第五节基因组序列的诠释,人们研究基因组的最终目的不是为了得到基因组的全部序列,而是诠释基因组所包含的信息和基因组功能。在这一部分中,我们主要探讨利用什么方法来获得基因组的功能以及什么样的基因组功能。1.在基因组中搜寻基因2.基因功能的测定,96,在基因组中搜寻基因,在获得基因组或DNA序列后,可以采用人工或计算机序列筛选的方法来获得基因。目前,使用比较多的方法是ORF(opening reading fram-es)扫描。ORF(opening reading frames):每个编码蛋白的基因都含有ORF,它是由一系列密码子组成,通常以ATG开始,TAA、TGA、TAG结束。通过寻找起始密码子和终止密码子的ORF序列是寻找基因的一种重要的方法。寻找ORF的成功的关键在于终止子在DNA序列中出现的频率。,97,终止子出现的频率与CG含量之间的关系,98,在基因组中搜寻基因,适用于高等真核生物基因组的ORF扫描方法:a.密码子偏倚(codon bias):密码子偏倚是指特定生物的基因中并非平均地使用每一个密码子。如人类基因组中的密码子偏倚:,99,适用于高等真核生物基因组的ORF扫描方法:b.寻找外显子-内含子边界(exon-intron bound-aries):上游的外显子-内含子边界通常是;5-AG GT AAGT-3(GT不发生改变)下游的外显子-内含子边界通常是:5-PyPyPyPyPyPyNCAG-3(Py:T或C;N:任意核苷酸),100,适用于高等真核生物基因组的ORF扫描方法:c.上游调控序列(upstream control seque-nce):上游调控序列和外显子-内含子边界一样具有显著特征,这些特征是参与基因表达的DNA结合蛋白的识别信号。除了这三种方法以外,寻找同源性序列也为基因筛选提供了补充。,101,基因定位目前,已经有多种实验方法来定位基因,如northern blot、zoo blot等。northern blot和zoo blot可以判断DNA片段中是否含有基因,但是不能给出基因定位信息。获得基因定位信息的最容易的方法是cDNA测序。cDNA测序受两个方面的影响,一是相关cDNA在cDNA文库中出现的频率;二是cDNA的完整性。,102,精确定位转录末端的方法:目前对于精确定位转录末端,多采用RACE(rapid amplification of cDNA ends),103,104,105,6.2基因功能的测定,一.利用计算机分析基因功能:1.利用同源性确定基因功能 同源基因都拥有一个共同的祖先基因,它们之间有许多相似的序列。同源基因可以分为2类:种间同源基因或直系基因(orthologous gene)这是指不同物种之间的同源基因,它们来自物种分化以前的共同祖先。种内同源基因或平行基因(paralogous gene)同一物种内的同源基因,它们常常是多基因家族的不同成员,其共同祖先可能存在于物种形成以后,也可能存在于物种形成之前。,106,同源基因一般不会有完全一致的核苷酸序列,因为不同的基因或不同的生物都会独立地发生随机突变,但它们有相似的序列,大部分未