人类基因组概况.ppt
Department of Microbiology Fuquan Hoo,人类基因组概要 Outline of Human Genome,有科学史以来的过去几百年中,人们对于人类基因组的认识大多限于染色体和个别基因的认识。真正对于人类基因组有“整体序列水平”的认识是在人类基因组计划完成之后。因此,我们要讨论人类基因组就不得不先谈一谈“人类基因组计划”(Human Genome Project,HGP),1.什么是人类基因组计划?HGP是研究人类基因组(及相关的大肠杆菌、酵母、线虫、果蝇及拟南芥基因组)的、宏大的跨国科研计划,它可与阿波罗计划媲美。HGP在20世纪80年代中期提出,自1990年正式开始,计划用15年时间,耗资 30 亿美元,完成人类基因组的测序和基本注释,完成 4 套图谱:遗传图谱、物理图谱、序列图谱及基因图谱。,一.人类基因组计划,美国马萨诸塞州的Cambridge基因组研究中心的 Whitehead Institute英国剑桥的 Sanger Center美国密苏里的 Washington University美国加州的 DOE 联合基因组研究所美国得州的 Baylor College Of Medicine美国的一些其它单位中国、德国、法国、日本,2.哪些国家和单位参加了HGP?,3.谁的DNA被用来测序?在构建文库实验室附近刊登了为HGP捐献DNA的广告,选择了不同人种的健康捐献者。采集样品经匿名处理:取样实验室撕去所有样品标记,记以随机号码,交样品处理室。样品处理室再撕去原标记并重新标记。最终使用的每一样品大约收集了510个样本。捐献者与DNA样品之间不再有任何联系,所以捐献者的身份是不被知道的。而 Celera 的测序样本来自5个人:分别属于西班牙裔、亚洲裔、非洲裔、美洲裔和高加索裔(2男3女),是从21个志愿者样本中挑选的。,最后公布的序列图谱中还标记了140万个SNP位点,因此,它不是某一个确定人物的图谱,而是“人类”的图谱。,4.HGP的目标,determine the sequences of the 3 billion chemical base pairs that make up human DNA,identify all the genes in human DNA,store this information in databases,improve tools for data analysis,transfer related technologies to the world publicaddress the ethical,legal,and social issues(ELSI)that may arise from the project.,两个“人类基因组计划”,前面提到的由多个国家合作进行的计划,称为“国际合作”计划。这个计划是由国家拨款资助,自1990年开始,轰轰烈烈干了整8年,做了大量艰苦、细致的工作,也使得测序方法得到相当的完善,大规模自动化测序仪已经出现,不用做遗传图和物理图的“鸟枪法测序”技术于1995年在流感嗜血杆菌中获得成功.1998年有一个私人公司 Celera突然宣布,要用3年时间抢在“国际合作组织”之前完成人类基因组测序计划,并将人类基因专利注册。私人公司的介入,引入了竞争机制,迫使“公共合作组织”不得不加大投资、加快速度。结果两个计划都在2001年完成了“草图”。,The HGP consortium published its working draft in Nature 409(15 February).,Celera publishes its working draft in Science(16 February).,“草图”(Draft Genome Sequence)意味着什么?,“草图”还不是完成图,还有1000多个“缺口”,缺口主要集中在异染色质区域。目前,没有一个真核生物的基因组被测序到100。有一些区域通常是高度重复区域用当今的技术很难或根本不可能被克隆或测序。但是,公布的草图中,9093常染色质区域(富含基因区)已经被测序。,2003年,人类基因组计划完成它的“完成图”,98以上的基因编码区已被测序,精度达 99.99%,至此,人类基因组计划宣告它的完成。这一年,正值James Watson and Francis Crick 发表DNA双螺旋结构50周年。人类基因组计划的完成为50周年庆典送了一份大礼!Nature和Science分别发表了专文,介绍了人类基因组计划在20012003这两年中又取得的进展及人类基因组学今后的发展方向。,基因组的完成图,1.Barbara R.Jasny and Leslie Roberts:Introduction,Science Apr 11 2003:277。2.Francis S.Collins,Michael Morgan,Aristides Patrinos:The Human Genome Project:Lessons from Large-Scale Biology。Science Apr 11 2003:286。3.Marvin E.Frazier,Gary M.Johnson,David G.Thomassen,Carl E.Oliver,Aristides Patrinos:Realizing the Potential of the Genome Revolution:The Genomes to Life Program。Science Apr 11 2003:290。4.Francis S.Collins,Eric D.Green,Alan E.Guttmacher,Mark S.Guyer:A Vision for the Future of Genomics Research.A blueprint for the genomic era.Nature Apr 24 2003:835.5.Sean B.Carroll:Genetics and the Making of Homo sapiens.Nature Apr 24 2003:849.6.Jonathan Arnold,Nelson Hilton:Genome Sequencing:Revelations from a Bread Mould.Nature Apr 24 2003:821.,It is essentially immoral not to get it(the human genome sequence)done as fast as possible.James Watson,人类基因组计划的完成,使得我们今天有可能来探讨基因组的概,但我们仍然无法来谈论细节。基于我们人类今天知识的局限性,目前我们还无法完全读懂这本天书基于我们个人的知识局限性,没有任何一个人能完全读懂这本天书既使是集人类集体之智慧,我们也无法将目前人类能够认识到的有关基因组的全部知识集中到一篇论文中来。因此,今天只能讨论有关基因组的概况。,二.人类基因组概况(对草图的统计),女,平均,男,染色体上距着丝粒越远,重组率越高,在遗传作图中,各遗传标记之间的距离是用重组率来表示的,将遗传标记距着丝粒的实际距离对重组率作图,不难看出下述关系:着丝粒附近的重组受到抑制,距着丝粒序列距离越远,重组率越高 染色体长臂的平均重组率为 1 cM/Mb 染色体短臂的平均重组率为 2 cM/Mb 女性染色体重组率比男性高,三.人类基因组GC含量与CpG岛,人类基因组的GC含量围绕平均含量41长距离波动。存在GC富含区及GC贫乏区。GC富含区及GC贫乏区具有不同的生物学意义。GC富含区与基因密度程正相关 GC贫乏区存在大量重复序列 染色体深色G带对应的是低GC含量区 染色体浅色G带对应的是高GC含量区 GC含量的“板块”变化是由于基因组进化过程中转座事 件导致的“区域镶嵌”。,GC含量与基因密度呈正相关,基因组序列GC含量直方图(20Kb 窗口),基因组中的CpG岛,染色体上的CpG岛数量与基因数程正比,四.人类基因组中的重复序列,生物学中的一个困惑现象是基因组的大小与物种复杂性的不一致,如人基因组比Amoeba dubia 小200倍。其中一个解释是基因组中含有大量重复序列。重复序列是指基因组中不编码蛋白质且有多个拷贝的序列,是人类基因中的主要成分,占据全基因组的大部分区域。重复序列的生物学意义有待阐明 重复序列是一种重要的分子标记。,散在插入重复序列:多由转座子插入引起的重复 大片段复制性重复:约10300Kb,基因组不同区域间重复 串联重复:高度重复的串联重复,也称卫星DNA,多存在于 着丝粒、端粒、近着丝粒短臂等位置。,人类基因组中的散布重复序列,SINE:short interspersed nuclear elements.LINE:long interspersed nuclear elements.Alu:含AGCT.MIR:mammalian-wide interspersed repeats.LTR:long terminal repeat.HERV:human endogenous retroviruses.RTLV:retrovirus-like elements.MER:medium reiteration frequency sequence.THE:transposable human element.,转座子来源的重复序列,人类的大多数重复序列(包括LINE,SINE,LTR)都是来源于转座单元,在进化历程中,基因组的45都来源于转座。人类DNA转座子类似细菌转座子,含有末端反向重复,编码一个转座酶,该酶在可以在反向重复处通过剪切和粘贴实现转座。转座子不仅在基因组内部转移,还常常横向转移到新的基因组。,这是指非同源染色体之间的片段复制性重复,大小约1Kb200Kb。这种现象在非同源染色体之间是广泛存在的现象。可以发生在染色体之间:如 Xq28位置上的一个9.5 Kb片段被复制重复到2,10,16和22号染色着丝粒的附近区域。也可发生在染色体之内:如17号染色体上有一个200Kb的片段被复制三次(中间间隔5Mb),另一个24Kb片段被复制两次(中间间隔1.5Mb)着丝粒周边和端粒附近是片段复制性重复存在的区域,可占据该区域中90的序列。,“片段复制性重复”(segmental duplication).,染色体内外重复序列比例,简单重复序列(single sequence repeat,SSR),简单重复序列是基因组重复序列中的特殊类型。也称为卫星DNA,进一步分为:微卫星DNA:重复单位较短(n=113)小卫星DNA:重复单位较长(n=14500)二核苷酸重复有:AC(50%),AT(35),AG(15%),GC(0.1)三核苷酸重复有:AAT(33%),AAC(21%),ACC(4%),AGC(2.2)多聚A可是通过逆转录进入染色体中的其他各种SSR是复制过程中的滑动造成的,约 437个/Mb.,重复序列较之于编码序列,由于不经受功能选择的压力,故较编码序列更稳定。在不同物种基因组中,可以出现同一重复序列,但可能个别或某些碱基发生了替换(突变)。根据碱基替换率和替换碱基的数目,可以计算出该重复序列的进化年代。因此,重复序列提供了进化历程中的“化石记录”。,五.人类基因组中的基因,人类基因组中到底有多少基因?根据脊椎动物组织mRNA的复杂度,估计有1000020000个基因,故推算人类应当有40000个基因20世纪80年代,Gilbert根据典型基因长度为30Kb,基因组约30亿bp,故估计人类有100000个基因,虽缺乏直接证据,但它是一个令人满意和被接受的数字。HGP揭示:人类基因组约有24500个基因,42%功能未知。拟南芥:28000个基因线虫:18500个基因果蝇:13500个基因,国际合作组织的初步推定了大约32000条基因,其中大约15000个是已知基因,17000个是预测基因(predicated gene),预测的敏感性约60,还有6800条(17000的40)可能不是基因或者是“假基因”,因此,人类基因约24500左右(32000-6800)。,非编码RNA(noncoding RNA,ncRNA),非编码RNA是指它们不编码蛋白质,但同样是基因,包括:tRNA:适配器,转运氨基酸rRNA:构成核糖体,蛋白译制中心,最近X-线晶体衍射研究显 示肽键的形成有rRNA催化完成,而非蛋白质。snoRNA(small nucleolar RNA):小核仁RNA,担负核仁中 RNA加工与碱基修饰。snRNA(small nuclear RNA):小核RNA,剪接体,参与把mRNA 前体中的内含子剪切掉。Vault RNA:以核糖核蛋白形式存在,质量是核糖体的3倍,功能未知。,关于tRNA基因:,在人类基因组中找到497个tRNA基因,还有324个tRNA来源的假基因。过去估计人类tRNA基因有1310个,这个数据高估了。一是把假基因估计在内了,二是早前对基因组的大小高估了。1号和6号染色体上含有超过半数(280)的tRNA基因。其余tRNA基因分布于其他各染色体。但22和Y染色体上没有tRNA基因。,已知基因的特性,许多基因长度超过100Kb,最常的基因(肌营养不良蛋白基因,DMD)长2.4Mb 肌连蛋白基因(Titin gene)含有最大编码序列 80780 bp,外显子数量最多(178),最长单外显子(17106bp)人体基因外显子平均长度145 bp.分析了53295个内含子,98.12%的内含子的剪切位点是 GC-AT模式 人类许多基因存在选择性剪接:22号染色体:642个转录子(in 245 gene),2.6个转录子/基因 19号染色体:1859个转录子(in 544 gene)3.2个转录子/基因,人类基因组编码序列的功能,六.人类基因组的单核苷酸多态性(single nucleotide polymorphisms,SNP),什么是 SNP?将来自两个不同个体的两条DNA序列进行“对位比较”(alignment position by position),在大面积相同的背景下,出现了单个核苷酸的差异,这种差异以一定的频率出现在群体中,这就是SNP.物种SNP反映的是进化历史上点突变带来的遗传进化标志,对于研究人种进化非常有用。许多基因变异造成的人类表型变化可以追述到SNP的变异。个体特性、疾病易感性以及对特定药物的敏感性等特质都与SNP相关。,SNP数量巨大,SNP的出现频率约1/10001/2000,也就是说在32亿碱基对中存在约3.2M个SNP。这还仅仅是两套基因组之间的比较,多套基因组进行比较,SNP位点肯定要大得多。目前估计人类基因组中的SNP会超过7 百万。如果两、三万个基因不足以解释人类个体的多样性,那么巨大数量的SNP的存在是足以解释人类多样性的。,人类基因组计划宣告成功完成,没有达到人们对它的期望Finally,it is not escaped our notice that the more we learn about the human genome,the more there is to explore.最主要的是为我们的继续研究提供了基础为全世界的科学家搭建了共享平台“We shall not cease from exploration.And the end of all our exploring will be to arrive we started,and know the place for the first time”.,the U.S.Department of Energy has developed the Genomes to Life(GTL)program.A central focus of GTL is environmental microbial biology as a way to approach global environmental problems,and its key goal is to achieve,over the next 10 to 20 years,a basic understanding of thousands of microbes and microbial systems in their native environments.This focus demands that we address huge gaps in knowledge,technology,computing,data storage and manipulation,and systems-level integration.,The Genomes to Life Program(GLP),Thank you for your attention!,