动物基因组学基础.ppt
第八章动物基因组学基础,1 基因组学概述2 基因组图谱的构建3 基因组测序4 基因定位方法5 功能基因组学,第一节 基因组学(genomics)概述,基因组(genome)又称染色体组,二倍体物种配子所含的染色体数目,物种全部遗传信息的总和物种遗传信息的“总词典”控制发育的“总程序”生物进化历史的“总档案”,基因组学1986年提出基因组学强调的是以基因组为单位,而不是以单个基因为单位作为研究对象基因组学的重要组成部分是基因组计划,如人类、水稻基因组计划,人类基因组计划,1990,美国国立卫生研究所和能源部投资30亿,启动了被誉为“人体阿波罗计划”的“人类基因组计划”(human genome project,HGP),预计15年时间完成人类基因组全部序列的测定在美国提出人类基因组计划后,英、法、日、前苏联、中等,也相继启动了类似的研究项目2000,完成草图2002,完成测序工作,基因组计划大体可分为:,构建基因组的遗传图谱构建基因组的物理图谱测定基因组DNA的全部序列构建基因组的转录本图谱分析基因组的功能,基因组学的研究内容,结构基因组学(structural genomics)基因定位、基因组作图、测定核苷酸序列 功能基因组学(functional genomics),又称后基因组学(postgenomics)基因的识别、鉴定、克隆基因结构、功能及其相互关系基因表达调控的研究 蛋白质组学(proteomics)鉴定蛋白质的产生过程、结构、功能和相互作用方式,第二节 基因组图谱的构建,基因组计划的主要任务是获得全基因组序列但是,现在的测序方法每次只能测8001000bp大量的测序片段要拼接要知道序列在染色体上的位置才能正确拼接基因组计划的第一个环节:构建基因图谱,基因组图谱,基因组图谱:描述基因位点在染色体的线性排列顺序及它们之间的相对距离遗传图谱(genetic map)物理图谱(physical map),一、遗传图谱遗传图谱(genetic map):根据遗传性状(如已知基因位点、功能未知的DNA标记、可鉴别的表型性状)的分离比例将其定位在基因组中,构建相应的连锁图谱。通常以交换过程中的分离频率厘摩(cM)来表示。cM值越大,两者之间距离越远,(一)遗传标记 图谱构建中需要可以鉴别的标记(marker)遗传标记(Genetic Markers):是指能够用以区别生物个体或群体及其特定基因型,并能稳定遗传的物质标志基因标记:用基因作为标记,分析各基因间的连锁关系及遗传距离,绘制出连锁遗传图谱DNA标记:RFLP、SSLP、SNPs等包括形态标记、细胞学标记、生化标记、DNA分子标记,形态标记,形态性状:株高、颜色、白化症等又称表型标记数量少很多突变是致死的受环境、生育期等因素的影响,最早建立的果蝇连锁图,就是利用控制果蝇眼睛的形状、颜色,躯体的颜色、翅膀的形状等形态性状作为标记,分析它们连锁关系及遗传距离,绘制而成的控制性状的其实是基因,所以形态标记实质上就是基因标记,果蝇连锁图,细胞学标记,明确显示遗传多态性的染色体结构特征和数量特征 染色体的核型 染色体的带型 染色体的结构变异 染色体的数目变异优点:不受环境影响缺点:数量少、费力、费时、对生物体的生长发育不利,生化标记,又称蛋白质标记,就是利用蛋白质的多态性作为遗传标记 如:同工酶、等位酶优点:数量较多,受环境影响小缺点:受发育时间的影响、有组织特异性、只反映基因编码区的信息,DNA分子标记,简称分子标记,以DNA序列的多态性作为遗传标记优点:不受时间和环境的限制 遍布整个基因组,数量无限 不影响性状表达 自然存在的变异丰富,多态性好 共显性,能鉴别纯合体和杂合体,理想的分子遗传标记应具备的特点,遗传多态性高检测手段简单快捷易于实现自动化遗传共显性,1.限制性片段长度多态性-第一代DNA遗传标记(restriction fragment length polymorphism,RFLP),最早的DNA标记限制性酶切位点:被特定的内切酶所识别的4个或更多个碱基组成的特异性序列DNA序列能或不能被某一酶酶切,相当于一对等位基因的差异可将RFLP作为标记,定位在基因组中某一位置上人类基因组中有105个RFLP位点,每一位点只有两个等位基因,RFLP 分析过程,RFLP 分析结果,RFLP 标记的特点,可靠重现性好 目的序列已知时才能检测操作复杂自动化程度低耗时长至少需要2天,通常3-7天多态信息含量低,PCR-RFLP,PCR,电 泳,酶 切,基因型,2.VNTR,基因组中存在大量重复序列重复单位长度在15-65个核苷酸左右的小卫星DNA在酶切片段里边核心序列重复次数不同导致酶切片段长度的差异又称为DNA指纹 与 RFLP 分析方法类似,利用探针杂交检测区别在于酶切位点不在可变重复区,而在侧翼区,VNTR 分析过程,VNTR 检测结果,VNTR 标记的特点,多态性检测率高一个探针可以检测出十几个甚至几十个位点的多态信息位点呈共显性遗传个体具有高度特异性技术复杂,实验成本高有时谱带过于复杂,难于分辨,VNTR 应用,计算遗传距离杂种优势预测亲子鉴定-1/10000(99.99%likely)法医鉴定-1/10,000,000,3.微卫星-第二代DNA遗传标记(short tandem repeat,STR),重复单位长度在2-6个核苷酸之间的微卫星DNA(microsatellite DNA),又称为简短串联重复(SSR、STRP或SSLP,short sequence repeat polymorphism或者simple sequence length polymorphism)STR有两个最突出的优点,即作为遗传标记的“多态性”与“高频率”如一条染色体TCTGAGAGAGACGC 另一染色体TCTGAGAGAGAGAGAGAGACGC,就构成了多态性,STR 标记检测方法,需要根据保守的侧翼序列设计特异性扩增引物PCR 反应扩增 STR 区域PCR产物用变性聚丙烯酰胺胶分离不同的核心序列重复数导致不同长度的PCR产物,STR 标记特点,核心重复单位为 2-6 个碱基在基因组中分布更加广泛均匀多态信息含量丰富呈共显性遗传稳定性好,分析技术易于自动化,比Southern杂法更快捷DNA用量少 甚至部分降解的样品也可用于检测易受基因组污染的影响必须事先了解侧翼序列才能设计引物标记开发成本较高,4.RAPD-随机扩增多态性DNA,应用10bp 的引物进行PCR每个反应只设单条引物短的引物随机结合在染色体上当引物结合在双链1000bp左右的区域时,该片段被扩增,RAPD 检测结果,RAPD 标记特点,PCR反应产物通过电泳分离:不同样品间可能存在差异主要用于分析群体间的遗传距离引物短,不同生物基因组可以共用一套引物实验快速简便,成本低,无需预先了解基因组DNA序列退火温度低,实验重复性差,可比性不强标记呈显隐性遗传,无法判定杂合子和显性纯合子,5.AFLP,基于PCR技术扩增基因组DNA的限制性片段结合了RFLP和PCR技术特点,具有RFLP技术的可靠性和PCR技术的高效性基因组DNA先用限制性内切酶切割,然后将双链接头连接到DNA片段的末端,接头序列和相邻的限制性位点序列,作为引物结合位点,进行扩增AFLP可在一次单个反应中检测到大量的片段。所以是一种新的而且有很大功能的DNA指纹技术,是指染色体上的某个位点存在单个碱基的变化SNP不再以DNA片段的长度变化作为检测手段,直接以序列变异作为标记。SNP遗传标记分析完全屏弃了经典的凝胶电泳,代以最新的DNA芯片技术,是人类基因组“遗传图”发展方向,6.单核苷酸的多态性-第三代DNA遗传标记(single nucleotide polymorphism,SNP),SNPs 标记特点,高密度1000bp左右出现1个SNP代表性存在cSNP易于自动化测序、基因芯片等方法,(二)遗传图谱的构建,理论基础:连锁与交换 基本方法:两点测验法和三点测验法,连锁分析,进行连锁分析的三个要件 用于基因定位的作图群体 广泛分布的多态性遗传标记 适宜的定位分析方法和软件,1.参考家系,用于连锁分析的动物群体,也称为作图群体可以是:回交群体、F2群体、半同胞家系,标记间的连锁分析,利用在两个亲本间有多态性的标记分析分离群体中所有个体的基因型根据连锁交换的情况,确定标记之间的连锁关系和遗传距离有计算机软件可以应用,人类遗传图谱的构建,不可能根据需要选择亲本,设计杂交组合,构建分离群体 只能检测现存家庭连续几代成员的基因型 家系分析法 资料有限、必须借助于统计学方法,现有的人类遗传图谱,122号染色体 8个家系134个成员 X染色体,12个家系170个成员 5364个SSR标记 2335个位点 标记间的平均距离599kb,二、物理图谱(physical map),用分子生物学方法直接检测DNA标记在染色体上的实际位置绘制成的图谱称为物理图谱以碱基对(bp,kb,Mb)作为基本测量单位(图距)的基因组图 有遗传图谱为什么还要构建物理图谱?,遗传图谱的缺陷,分辨率有限人类只能研究少数减数分裂事件,不能获得大量子代个体测序要求每个标记的间隔小于100kb,实际是599kb精确性不够经典遗传学认为,交换是随机发生的基因组中有些区域是重组热点倒位、重复等染色体结构变异会限制交换重组,物理作图的方法,基因组物理图谱的构建主要有三种途径:限制性酶图谱荧光原位杂交技术(FISH)序列标签位点(STS)如表达的序列标签(EST),来自cDNA,限制酶作图(restriction mapping),描述染色体上限制性内切酶切割位点之间距离和顺序的图谱识别位点较多的内切酶:如Not,其8个核苷酸出现的频率为1/48=1/65536bp,而识别位点为6个核苷酸的出现频率为1/46=1/4094bp,2)荧光原位杂交(Fluorescent in situ hybridization,FISH),通过荧光标记的探针与DNA分子杂交,杂交信号即探针DNA在染色体上的图谱位点步骤:取处于有丝分裂中期的细胞制片,将染色体变性成单链,再将标记的DNA探针变性后杂交到染色体上,保温处理后,显微镜下直接观察,3)序列标签位点(sequenc-tagged site,STS),STS是一段短的DNA序列(100500)bp每个基因组只有一个拷贝通过PCR或分子杂交将小段DNA定位在基因组的DNA区段中,STS作图原理:,当两个片段含有同一STS时,可确认这两个片段重叠两个不同的STS出现在同一片段的机会取决于它们在基因组中的位置,彼此接近,同时出现在同一片段的机会就大,反之则小两个标记间的图距根据分离频率来计算,图 用STS标签技术制作基因组的物理图,常用的两大类型:,表达的序列标签(expressed sequence tag,EST),该序列来自cDNA.DNA随机片段测序后经比较分析,其非重复序列可作为STS DNA片段辐射杂交系:啮齿类动物细胞中含有另一个生物染色体片段的细胞株,人类基因组物理图,1987年,RFLP图谱,403个标记,10Mb 1994年,5800个标记,0.7Mb 1996年,17000多个标记,100kb 完全适应全基因组测序的要求,遗传图与物理图的整合,有些标记既是遗传标记,又是物理标记 RFLP标记 SSR标记 某些基因序列借助这些标记可以将遗传图和物理图整合起来,酵母遗传图与物理图比较,A 遗传图B 物理图,三、转录图,人类的基因转录图(expression profiling)(cDNA图),或者基因的cDNA片段图,即表达序列标签图(EST,expressed sequence tag)是人类基因组图的雏形分离纯化mRNA(或cDNA),就是抓住了基因组的主要成分(可转录部分)人类基因组中,只有1%-5%的序列编码了蛋白质,最多可能有5-7万个蛋白质编码基因,四、人类基因组的序列图,人类基因组的核苷酸序列图(human genome sequence)是分子水平上最高层次的、最详尽的物理图。由30亿个核苷酸组成的全序列是人类基因组计划中最明确、最艰巨的任务,五、基因组图谱的应用,基因组序列测定基因定位 基因组比较分析基因的克隆与分离分子标记辅助选择,标记辅助选择(Marker-assisted Selection,MAS),对特定的主效基因(major gene)或者数量性状位点(Quantitative Trait Loci,QTL)在遗传标记的辅助下区分其基因型,并在此基础上应用于家畜的育种实践,第三节 基因组测序,有了高密度的基因组图谱,就可以开始全基因组测序了测序的技术飞速发展,现在可以全自动化测序的策略有两个:鸟枪法 克隆重叠群法,鸟枪法(shotgun sequencing),鸟枪法的优缺点,优点:不需要高密度的图谱 速度快、简单、成本低缺点:拼接组装困难,各个片段重叠成一个连续体的概率是2n2-2n,尤其在重复序列多的区域,导致判断失误主要用于重复序列少、相对简单的原核生物基因组,克隆重叠群法(clone contig),将基因组DNA切割长度为0.1Mb1Mb的大片段,克隆到YAC或BAC载体上 然后再进行亚克隆,分别测定单个亚克隆的序列 再装配、连接成连续的DNA分子 这是一种自上而下(up to down)的测序策略 clone-by-clone method,第四节 基因定位方法,质量性状的基因定位数量性状的基因定位,一、质量性状的基因定位,二点测交三点测交连锁不平衡分析,遗传定位,物理定位,原位杂交体细胞杂交定位,二、数量性状的基因定位,数量性状基因座位(quantitative trait locus,QTL):具有相同或相关功能的基因往往分布在某一染色体区域内,从而形成基因群。控制同一性状的微效基因可能存在于有限的几个基因群内,而一基因群占据染色体的一定区域,称作QTL,QTL定位的概念确定一个数量性状受到多少个QTL作用的控制,确定它们在染色体上的位置,并估计出它们对数量性状的效应大小及其互作效应,该过程称为 QTL定位(QTL mapping)。,QTL作图原理,利用特定遗传分离群体中的遗传标记及相应的数量性状观察值,分析遗传标记与性状之间的连锁关系。如果证明遗传标记与性状连锁,则可认定标记附近存在一个或几个QTL,利用QTL与遗传标记之间的连锁关系,在一个大群体中进行标记基因型和被测数量性状表型值记录,通过统计方法进行连锁分析,确定连锁关系。用于QTL定位的遗传标记是DNA分子标记,目前常用的有:RFLP、RAPD、AFLP、SSR、SSCP以及DSCP等。,QTL定位的策略,(1)选择适宜的遗传标记;(2)选择在所研究数量性状上处于分离状态的纯系或高度近交系;(3)进行系间杂交获得分离世代的F2个体或者进行回交获得BC个体;(4)检测各世代群个体的标记基因型并记录其数量性状表型值;(5)分析标记基因型与数量性状表型值之间是否存在连锁关系,确定QTL连锁群,估计QTL效应。,QTL定位的基本步骤,定位QTL主要有两种方法,基因组扫描利用遗传上差异较大的品种进行杂交,跟踪性状和染色体上的标记在多世代家系中的分离情况候选基因法不需特定品种的杂交,只要发现一个候选基因位点上存在多态性,便可直接在商业品系中研究该多态性与目标性状之间的相关性,数量性状基因定位分析方法,统计:回归分析、最大似然分析、广义最小二乘分析、贝叶斯方法软件:MultiMap MAPMAKER,新基因的克隆,主要克隆方法:位置克隆(positional cloning)功能克隆(functional cloning)候选克隆(candidate approach)位置候选克隆(positional candidate cloning),位置克隆,gene,功能克隆,蛋白质RNAcDNA差异显示技术,克隆差异带,候选克隆,生理代谢途径推测候选基因 结合性状表型性状与基因的相关问题:许多相关候选基因尚未克隆,QTL定位的意义 可以利用分子遗传标记对数量性状基因型进行标记辅助选择(MAS)来提高家畜育种的效率,特别是对低遗传力性状和限性性状而言;将转基因技术用于数量性状的遗传操作;能够鉴别由多因素引起的遗传疾病,为基因治疗和改进预防措施提供依据;对这些QTL基因的数目和特性有所了解后,可以使数量遗传学理论建立在更加完善的基础上,对家畜育种实践的指导更为科学合理。,第五节 功能基因组学,功能基因组学又称后基因组学(post-genomics),是在完成基因组图谱构建以及全部序列测定的基础上,进一步研究全基因组的基因功能、基因之间的相互关系和调控机制为主要内容的学科完成基因组测序后,更重要的工作在于弄清楚:基因组序列中所包含的全部遗传信息是什么;基因组作为一个整体如何行使功能。即对基因组序列进行诠释,(一)鉴定DNA序列中的基因(二)同源搜索设计基因功能(三)实验性设计基因功能(四)描述基因表达模式,主要具体内容包括以下方面,(一)鉴定DNA序列中的基因,对基因组序列进行注释,包括鉴定和描述推测的基因、非基因序列及其功能,根据序列分析搜寻基因,查找开放阅读框(open reading frame,ORF)开放阅读框都有一个起始密码子,终止密码子从ATG开始,然后向下游寻找终止密码子起始密码子和终止密码子之间的碱基数目要能够被3整除每一条链都有3种可能的阅读框,2条连共计有6种可能的阅读框计算机可以很快给出结果,同源基因在进化中来自共同的祖先,通过核苷酸序列或氨基酸序列的同源性比较推测基因组内相似功能的基因,(二)同源搜索设计基因功能,同源查询,利用已经存入数据库的基因序列与待查的基因组序列比对,从中查找可以与之匹配的碱基序列及其比例,用于界定基因同源查询可以部分弥补ORF扫描的不足,同源查询的依据,有亲缘关系的物种,基因组可能存在某种程度的相似性存在某些完全相同的序列ORF的排列相似,如等长的外显子ORF指令的氨基酸序列相似模拟的多肽链的高级结构相似,等,(三)实验性设计基因功能,对基因进行缺失或剔除,观察表型变化推测基因功能基因克隆基因敲除(knock-out)基因的超表达,(四)描述基因表达模式,转录组(transcriptome):一个细胞内的一套mRNA转录物,包含了某一环境条件、某一生命阶段、某一生理或病理(功能)状态下,生命体的细胞或组织所表达的基因种类和水平。这一研究领域叫转录组学(transcriptomics),转录组学的研究方法DNA芯片技术,同时进行大量分子杂交,以分析比较不同组织或器官的基因表达水平,筛选突变基因,从核酸水平分析基因表达模式面积不大的基片表面分成不同小格有序的点阵排列核苷酸分子将待分析的核苷酸分子标记变性成单链,与芯片上的核苷酸分子杂交洗掉芯片上序列不同的核苷酸分子利用高精度的激光扫描仪记录已杂交分子的荧光信号计算机分析,蛋白质组学(proteomics),蛋白质组(proteom):一个细胞内的全套蛋白质。反映了特殊阶段、环境、状态下细胞或组织在翻译水平的蛋白质的表达谱这一研究领域叫蛋白质组学(proteomics),蛋白质具有等电点和分子量的特异性,将蛋白质混合物在电荷(等电聚焦,IEF)和分子量(变性聚丙烯酰胺凝胶电泳,SDS-PAGE)两个水平上进行分离,蛋白质组学的研究方法,双向电泳(two dimension electrophoresis,2-DE):,酵母菌双杂交系统(two hybrid-systems),利用在酵母菌的同一个细胞中共同表达不同蛋白质,以鉴定蛋白质之间互作的一种分析方法,图 酵母菌双杂交系统A、双杂交系统组成 B、将A中的构建体混合,转化酵母菌,生物信息学(bioinformatics),生物信息学是利用计算机贮存原始资料,分析生物信息,将DNA芯片以及蛋白质双向电泳结果转变成为可读的遗传学信息的学科。生物信息学是将现代生物技术与计算机科学结合,收集、加工和处理生物资料,比较基因组学(parative genomics),比较基因组学涉及比较不同物种的整个基因组,以便深入理解每个基因组的功能和进化关系不仅可以揭示生命的起源、进化等重大生物学问题,还具有潜在的实用价值如通过细菌和人类的基因组比较研究,有可能筛选出只在细菌中存在的基因,成为新的抗菌素的药靶,