基因检测结果风险评估和生物信息学.ppt
基因检测结果风险评估和生物信息学,郑征 M.D.青岛大学 生物化学与分子生物教研室,序言:所有表型(疾病)都是遗传和环境共同作用的结果,2,外显率(Penetrance)是指一定环境条件下,群体中某一基因型(通常在杂合子状态下)个体表现出相应表型的百分率。外显率为100%时称完全外显(complete penetrance),低于100%时则为不完全外显(incomplete penetrance)或外显不全。临床中:外显率100%意味着所有携带某种遗传变异的人最终都会罹患相应的疾病,常为单基因遗传病,如Huntington病BRCA1基因变异的女性有85%将会最终发展为乳腺癌,外显率为85%;男性外显率则不到1%,序言:所有表型(疾病)都是遗传和环境共同作用的结果,3,基因检测:预测遗传因素对个人健康的影响指导生活方式(运动、饮食等)规避诱发疾病的风险因素指导用药(剂量、替换)进一步诊断、治疗、预防,一、基因检测报告的内容:1.商业化检测案例,(1)23andMe在2013年初提供的基因检测服务项目Carrier Status:48项遗传变异位点检测Drug Response:20项药物反应检测Disease Risk:119项疾病患病风险检测Traits:57项遗传特征检测,4,一、基因检测报告的内容:1.商业化检测案例,(2)华大医学目前提供的基因检测项目(卫计委评估公布的第一批高通量测序技术临床应用试点单位之一),5,一、基因检测报告的内容:1.商业化检测案例,(2)华大医学目前提供的单基因基因检测项目:各种套组Gene Test Panel,6,一、基因检测报告的内容:1.商业化检测案例,(3)Pathway Genomics目前提供的基因检测项目,7,一、基因检测报告的内容:2.检测结果示例,8,(1)一脉基因的检测报告样例,一、基因检测报告的内容:2.检测结果示例,9,(1)一脉基因的检测报告样例,一、基因检测报告的内容:2.检测结果示例,10,说明:参考碱基和基因型为正链;SNPedia结论:红色、绿色、蓝色、灰色分别表示有害、正常、有益突变和样品未覆盖;SIFT:基于同源蛋白氨基酸保守性的预测;Polyphen2:基于同源蛋白的三维结构预测;MutationTaster预测:基于进化保守性、剪切位点改变和mRNA水平的变化引起的蛋白质特征丢失等信息预测;-(空数据值):表示突变位点不在基因编码区。,(1)一脉基因的检测报告样例,一、基因检测报告的内容:2.检测结果示例,11,(2)Pathway Genomics的检测报告样例,一、基因检测报告的内容:2.检测结果示例,12,(2)Pathway Genomics的检测报告样例,一、基因检测报告的内容:2.检测结果示例,13,(2)Pathway Genomics的检测报告样例,二、基因检测报告的形成:1.支撑报告的基础研究,14,检测报告中的注意事项及免责声明,二、基因检测报告的形成:1.支撑报告的基础研究,15,(1)HGP(Human Genome Project,人类基因组计划)(2)International HapMap Project(国际人类基因组单体型图计划)(3)GWAS(Genome Wide Association Study,全基因组关联分析)(4)GRS(Genetic risk score,遗传风险评分),二、基因检测报告的形成:1.支撑报告的基础研究,16,(1)Human Genome Project(人类基因组计划)测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,绘制人类基因组图谱,辨识其载有的基因及其序列,破译人类遗传信息。,二、基因检测报告的形成:1.支撑报告的基础研究,17,(2)International HapMap Project(国际人类基因组单体型图计划)HapMap是人类基因组中常见遗传多态位点的目录,它描述了这些变异的形式、在DNA上存在的位置、在不同人群间的分布状况。不同个体的碱基的差别是目前最常见的遗传多态现象,这些遗传上的差别称为单核苷酸多态性或SNPs(发音为“snips”)。HapMap通过识别在人类基因组中常见的大约一千万个SNPs的大多数,来确定人类的大部分遗传多样性的分子基础。SNPs也是进行基因定位的分子标记。比如说基因的改变会增加罹患高血压的风险,研究者可以比较高血压患者和正常人的SNPs。如果某一个SNP在高血压患者中很常见,就可以把这个SNP作为标记来定位和识别与这一疾病相关的基因。,二、基因检测报告的形成:1.支撑报告的基础研究,18,(3)GWAS(Genome Wide Association Study,全基因组关联分析)是指在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病的关联研究,是通过对大规模的群体DNA样本进行全基因组高密度遗传标记(如SNP或CNV等)分型,从而寻找与复杂疾病相关的遗传因素的研究方法,全面揭示疾病发生、发展与治疗相关的遗传基因。,复杂性状GWAS分析方法的原理是,借助于SNP分子遗传标记,进行总体关联分析,在全基因组范围内选择遗传变异进行基因分型,比较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确认其与目标性状之间的相关性。,二、基因检测报告的形成:1.支撑报告的基础研究,19,(3)GWAS(Genome Wide Association Study,全基因组关联分析),基因组水平研究SNP与疾病的相关性,人类的疾病分为单基因疾病和复杂性疾病。单基因疾病是指由于单个基因的突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病表型。复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有近千个。GWAS技术的重大革新及其应用,极大地推动了基因组医学的发展。,二、基因检测报告的形成:1.支撑报告的基础研究,20,(3)GWAS(Genome Wide Association Study,全基因组关联分析),基因组水平研究SNP与疾病的相关性,a1)计算疾病的Risk通过队列研究(cohort study)计算得出,二、基因检测报告的形成:1.支撑报告的基础研究,21,(3)GWAS(Genome Wide Association Study,全基因组关联分析),基因组水平研究SNP与疾病的相关性,a2)计算每种基因型(genotype)的绝对Risk每个risk为绝对风险,是指某种基因型的人患某种疾病的风险,二、基因检测报告的形成:1.支撑报告的基础研究,22,(3)GWAS(Genome Wide Association Study,全基因组关联分析),基因组水平研究SNP与疾病的相关性,a3)计算每种基因型(genotype)的相对风险 Relative RiskRR=两个risk的比值用于衡量遗传变异对于患病风险的“影响程度”,TT基因型的解释:1.7倍的患病风险,或患病风险增加了70%,TC基因型的解释:1.2倍的患病风险,或患病风险增加了20%,二、基因检测报告的形成:1.支撑报告的基础研究,23,(3)GWAS(Genome Wide Association Study,全基因组关联分析),基因组水平研究SNP与疾病的相关性注:这里Risk和Odds的概念与流行病学中的患病率(prevalence rate)和发病率(incidence rate)不同,b1)计算患病几率Odds通过对照研究(case-control study)计算得出,二、基因检测报告的形成:1.支撑报告的基础研究,24,(3)GWAS(Genome Wide Association Study,全基因组关联分析),基因组水平研究SNP与疾病的相关性,b2)计算每种基因型(genotype)的OddsOdds=疾病人数/健康人数,二、基因检测报告的形成:1.支撑报告的基础研究,25,(3)GWAS(Genome Wide Association Study,全基因组关联分析),基因组水平研究SNP与疾病的相关性,b3)计算每种基因型(genotype)的Odds ratioOR值=两个Odds的比值,TT基因型的解释:患病几率高,为不患病的2.1倍,TC基因型的解释:患病几率高,为不患病的1.9倍,二、基因检测报告的形成:1.支撑报告的基础研究,26,(4)遗传风险评分(Genetic risk score,GRS)需要科学的算法 简单相加遗传风险评分(SC-GRS),简单易用,早期应用较多;OR值权重遗传风险评分(OR-GRS),依赖GWAS、Meta分析等SNP权重数据,目前应用广泛;直接logistic回归遗传风险评分(DL-GRS),基于原始数据拟合logistic回归模型估计的SNP权重;多基因遗传风险评分(PG-GRS),依赖现有数据,以哑变量的形式考虑每个SNP;可释方差遗传风险评分(EV-GRS),基于既往风险评分方法,考虑SNP效应和最小等位基因频率。,二、基因检测报告的形成:1.支撑报告的基础研究,27,SC-GRS公式:=G1+G2+.+GiOR-GRS公式:=ln(OR1)G1+ln(OR2)G2+.+ln(ORi)Gi,(4)复杂疾病遗传风险评分(Genetic risk score,GRS),注:D=1为病例,D=0为健康对照,Gi为第i个遗传易感位点(如SNP)的风险等位基因的数量,二、基因检测报告的形成:1.支撑报告的基础研究,28,(4)复杂疾病遗传风险评分(Genetic risk score,GRS),二、基因检测报告的形成:2.生物信息学的促进,29,生物信息学(bioinformatics)是一门新的前沿交叉学科,采用数理和信息科学的理论、技术和方法研究生命现象,理解和组织与生物分子相关的信息。,生物信息学对二代测序类基因检测的支持:样本检测序列回帖、拼接查找突变比对变异、变异信息数据库计算评分算法、打分软件报告解读功能注释数据库,三、基因检测报告的解读:1.遗传咨询师,30,2015年12月17日,美国医学遗传学与基因组学学会(ACMG)对个人基因检测服务提出了新的要求:实验室的CLIA资质认证 遗传咨询专家的资质认证 检测目的的明确性 检测方法的科学性 个人隐私的保护遗传咨询专家:在基因检测服务过程中,必须有遗传学专业人士,如持证的医学遗传学家和遗传咨询师,对消费者的选择和决定给予帮助。目的是降低基因检测的风险:选择的检测项目不完整 选择的检测项目不恰当 购买尚没有明确临床意义的检测项目 检测结果的误读,及导致的不恰当的治疗和预防,三、基因检测报告的解读:2.报告判读,31,尚没有基因检测报告的国家标准,报告中常见的描述方式有:文献报道GGG基因的突变会导致DDD疾病。已发表的研究表明XXX变异将导致XXX酶功能失活。文献报道XXX突变在3名无亲属关系的患者中导致了XXX疾病。VVV突变导致GGG基因中一个高度保守的半胱氨酸残基被精氨酸替代,而被替代的氨基酸位于由GGG基因编码的酶的重要功能结构域中。,三、基因检测报告的解读:2.报告判读,32,三家公司基因检测报告的解读与点评 来源:顾大夫的博客门诊患者,男性,8岁,自幼运动障碍,父母体健,非近亲婚配。患者父母希望明确诊断,尽可能治疗,并希望通过基因检测明确致病基因,生育健康后代。他们在多家医院就诊,由不同的医生分别联系了3家第三方基因检测公司进行基于二代测序的基因检测,但结果引起了困惑。,简要病历患者足月剖腹产,生后无窒息。1岁6个月步态不稳,2岁后学会说话,吐字不清,语速慢,动作不灵活,姿势异常,经常便秘,“憋尿”,需要家长提醒。7岁后行走能力下降,姿势更加异常。面部表情动作不灵活,情绪欣快,智力较同龄人差。曾经服用小剂量美多巴1周,出现手抖即停药。神经系统查体:基本合作。构音障碍,轻度前屈姿势,眼动充分,未见眼震。四肢肌力V级,肌张力上肢适中,下肢增高,腱反射上肢适中,下肢活跃,病理征可疑(欠合作)。痉挛步态,双手持物姿势异常。头颅MRI:小脑萎缩(图1),苍白球对称高信号(图2)。,图1,图2,三、基因检测报告的解读:2.报告判读,33,1).2014年8月,首诊医生联系第一个公司检测“四千种单基因遗传病基因突变筛查”,检测报告提示有2个突变位点可能与发病有关,分别为PLA2G6基因的同义突变c.1077CT,p.359SS,SNP数据库已收录,但是SNP数据库和千人基因组无分布率信息;ARID1B基因的错义突变c.2170CT,p.724PS,未见报道。PLA2G6基因为神经退行性病伴脑铁沉积症致病基因之一,为常染色体隐性遗传模式;ARID1B基因为常染色体显性遗传智力发育迟滞12型致病基因。未见父母验证结果。,报告结合患者表型特征进行了相关数据库的检索,对于结果给予了一定的解读,三、基因检测报告的解读:2.报告判读,34,2).2015年6月由于从第一个公司检测结果难以判定致病基因,患者一家在第二家医院就诊,医生送检第二家公司检测“脑白质病”组套:未发现PLP1基因突变。该基因突变引起X连锁遗传脑白质营养不良,突变方式包括重复突变、点突变及基因缺失等;表型变异较大,主要包括佩-梅病(PMD)和遗传性痉挛性截瘫2型(SPG2);检出PLA2G6错义突变c.1634AG,p.Lys545Arg,未见报道;父母未检出该突变。,三、基因检测报告的解读:2.报告判读,35,3).2015年6月,患者一家在第三家医院就诊,患者父母要求在第三家公司进行基因检测,由于患者表现为明显的小脑萎缩,检测“共济失调-痉挛性截瘫”组套:检出PLA2G6基因的两个突变:错义突变c.1634AG,p.Lys545Arg,未见报道;同义突变c.1077CT,p.359SS,文献检索提示可能存在致病性;父母验证发现,母亲携带同义突变c.1077CT,父亲未发现突变。,三、基因检测报告的解读:2.报告判读,36,神经退行性病伴脑铁沉积症(NBIA)是一组遗传性神经系统疾病,特征为铁沉积在基底节引起进行性加重的肌张力障碍、痉挛、帕金森病样表现,神经精神异常,视神经萎缩或者视网膜变性。发病年龄可从婴幼儿到中年后期,进展速度不一。部分类型出现认知功能下降,大多数病例认知障碍相对轻微。部分类型存在小脑萎缩。迄今已经发现10种致病基因的突变可引起NBIA:PANK2,PLA 2G6,C19orf12,FA2H,ATP13A2,WDR45,COASY,FTL,CP,DCAF17。较常见的3种致病基因:PANK2,对应PKAN病 PLA2G6,对应PLAN病,表现为小脑萎缩,不同病例基底节铁沉积的程度不同 C19orf12,对应MPAN病,基因报告判读病例特征:常染色体隐性遗传,以姿势异常为主要表现,头颅MRI显示小脑萎缩和苍白球对称高信号,提示神经退行性病伴脑铁沉积症,患者小脑明显萎缩,提示PLAN(PLA2G6突变引起)可能性大。综合3家公司的检测结果:PLA2G6基因的2个突变:错义突变c.1634AG,p.Lys545Arg,未见报道;同义突变c.1077CT,p.359SS,已报道。母亲携带同义突变c.1077CT;父亲未发现突变。患者父亲生殖细胞携带错义突变c.1634AG可能性大(虽然未检出);母亲携带的同义突变c.1077CT致病性不明。同一基因的不同突变可引起不同遗传模式的表型,但是已报道的PLAN家系均为常染色体隐性遗传模式,单纯一个错义突变c.1634AG是否足以导致疾病,难以确认。,牛评论1.同义突变的仍可能导致剪切异常,可查阅文献,或使用预测工具:c.1077位于外显子7最后一个碱基,splicing位点分析软件预测影响到内含子剪接;2.配子突变受环境影响,每批都可能发生突变;3.配子检测未发现错义突变,也不能排除,还需做产前检测;4.新生儿突变的确定,需结合亲子鉴定,排除非生父的可能。,三、基因检测报告的解读:2.报告判读,37,给予患者家庭的建议关于治疗:基于患者的临床表型,并综合3个公司的结果,患儿为PLA2G6突变引起神经退行性病伴脑铁沉积症。针对痉挛症状,可以试用小剂量巴氯芬。PLA2G6基因编码iPLA2beta酶,催化磷脂水解为DHA。PLA2G6突变小鼠模型表现为DHA代谢下降,研究显示补充DHA可以改善iPLA2beta酶抑制引起的皮质纹状体功能障碍,推荐PLA2G6突变患者服用DHA。(Mazzocchi-Jones D.Impaired corticostriatal LTP and depotentiation following iPLA2 inhibition is restored following acute application of DHA.Brain Res Bull.2015;111:6975.)关于生育:目前已经检出PLA2G6基因2个突变,错义突变c.1634AG,p.Lys545Arg,同义突变c.1077CT,p.359SS。其中错义突变很可能源于患者父亲的生殖细胞嵌合体,患者母亲携带的同义突变致病性无法确认。产前检测如果胎儿携带2种突变,发病风险极高;如果携带错义突变,具有一定的发病风险;如果携带同义突变,应为携带者;如果不携带2种突变,发病的风险很小。,三、基因检测报告的解读:2.报告判读,38,对于3个公司检测结果及报告解读的点评第1个检测公司:“四千种单基因遗传病基因突变筛查”覆盖面广,未指明检测方向,对于表型复杂的疾病是一种选择。但测序区域大,覆盖率存在问题,没有检出患者的错义突变c.1634AG。报告中提到的另一个可能与发病有关的基因为ARID1B,常染色体显性遗传智力发育迟滞12型致病基因,而患者具有明显的肌张力障碍,但是智力障碍不明显,头颅MRI显示明显的小脑萎缩和苍白球对称高信号,与此病不符。报告的解读中结合表型特征检索数据库,提供了较为详细的信息,但是存在2个问题:(1)Hallervorden-Spatz syndrome一般特指 PKAN(PANK2相关神经退行性病),在解读中提到Hallervorden-Spatz病2b和2a型是由PLA2G6基因突变引起(临床资料不精确);(2)解读繁琐,重点不突出。第2个检测公司:“脑白质病”组套涵盖了神经退行性病伴脑铁沉积症,检出PLA2G6错义突变c.1634AG,p.Lys545Arg,父母验证未检出这一突变,图表清晰,一目了然。存在的问题:未报告同义突变,第3个公司出具检测报告后,患者父母追问当时就诊的医生,经过咨询,公司答复:检出同义突变,认为与发病无关所以未报告(遗传学、分子生物学知识缺乏)。第3个检测公司:“共济失调-痉挛性截瘫”组套涵盖可能出现小脑萎缩的疾病致病基因,包括PLA2G6,报告了错义突变c.1634AG,p.Lys545Arg,同义突变c.1077CT,并进行了父母验证,母亲携带同义突变,父亲未检出突变。存在的问题:(1)仅凭文献报道,不能推断同义突变c.1077CT致病性;(2)表述方式不够清晰,患者与父母的验证测序图对应关系不够一目了然,报告的格式有待改进。,三、基因检测报告的解读:2.报告判读,39,二代测序基因检测及解读需要注意的问题1.由于医学发展的历史原因,疾病的命名多样复杂,早期采用表型命名综合征,随着基因学研究的发展,致病基因定位克隆,疾病表型名称与致病基因名称重叠交错,体现了遗传性疾病的遗传异质性和临床变异性,以及疾病谱研究进展。基因检测的相关表型信息来自临床,详细可靠的临床资料至关重要。2.基于二代测序的目标序列捕获panel设计:随着疾病相关研究进展以及知识信息经验的积累,一组表型与一组候选致病基因之间逐渐建立链接,但是需要充分考虑表型变异的情况和不同类型疾病表型重叠交叉现象,针对一类疾病的基因检测panel中尽可能涵盖表型相关的已知致病基因。3.基于二代测序的全基因组范围的筛查:包括已知单基因遗传病基因筛查,全外显子捕获,全基因组测序,可能存在覆盖度的问题,如果重点关注基因的外显子及外显子内含子交界区的覆盖度未达到100%,有可能遗漏突变位点。4.生殖腺嵌合体:在胚胎发育的不同阶段如果发生突变,可以产生组织部分性或者全身性嵌合体,如果突变只发生在胚胎早期生殖细胞形成过程中,这种变异的细胞系只占生殖腺的一部分,称为生殖腺嵌合体,机体其他组织细胞不携带突变。这是患者父母验证时需要注意的问题。5.既往有文献报道不足以证明突变的致病性,需要结合受检者具体临床表现并结合相关研究信息进一步分析。6.基因检测报告的描述方式:基因检测报告大多数面向非遗传专业的医生和患者,因此应力求图表和文字条理清晰简洁,检测公司需要将患者的临床表现结合表型数据库进行细致的相关分析,以提供尽可能准确的信息和尽可能合理的解读。作者:顾卫红,卫生部中日友好医院神经内科副主任医师,三、基因检测报告的解读:2.报告判读,40,SNP的命名一、正式命名RefSNP号,即rs号。大多数SNP数据库均采用。通过rs号能在NCBI的dbSNP中正确找到SNP位点,即可查询到SNP的具体序列信息。二、SNP的不规范命名方法,一般仅是对SNP在序列上的描述CYP2D6*10,是CYP2D6的几种常见的SNP的习惯命名。g.4300CT,代表CYP2D6基因在NCBI中Genomic DNA的序列NG_012879.1中第4300位碱基C突变为T。g.为genomic的缩写。100CT和C188T一样是指SNP在cDNA中的位置。C188T代表在整段cDNA上第188位的位置。100CT则是去除了5UTR,从ATG开始数起的第100位的位置,一般也表示为c.100CT。这里的c.就是指condon。P34S或者p.Pro34Ser,这个很好理解,就是蛋白序列上第34个氨基酸的变化。但有很多内含子的SNP或者lncRNA的SNP不会有这样的表示方法。三、仅知不规范命名,如何查SNP位点的序列在搜索引擎如Google、Bing、PubMed里搜“不规范命名 rs”,或者到专业SNP数据库如SNPedia、dbSNP中,人工搜寻SNP位点对应的rs号,只有拿到rs号才能找到正确的SNP具体信息。,四、基因检测与精准医疗:1.精准医疗的发展,41,精准医疗(Precision Medicine)是以个体化医疗为基础、随着基因组测序技术快速进步以及生物信息与大数据科学的交叉应用而发展起来的新型医学概念与医疗模式。其本质是通过基因组、蛋白质组等组学技术和医学前沿技术,对于大样本人群与特定疾病类型进行生物标记物的分析与鉴定、验证与应用,从而精确寻找到疾病的原因和治疗的靶点,并对一种疾病不同状态和过程进行精确分类,最终实现对于疾病和特定患者进行个性化精准治疗的目的,提高疾病诊治与预防的效益。,第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少;对于第二部密码,目前则只能用统计学的方法进行分析;无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。,四、基因检测与精准医疗:2.生物信息学,(1)生物分子数据及其关系,(2)生物信息学的主要研究内容数据管理序列比对基因组序列分析 基因表达分析基因功能注释蛋白质结构预测还有:7.基因-蛋白质相互作用网络8.整个系统调控网络,四、基因检测与精准医疗:2.生物信息学,44,(3)数据库基因检测的数据来源数据库(database)是将各种数据集中起来、按特定的方式进行组织并允许通过计算机对其内容进行查询、管理和修订维护的一种数据系统。生物学数据库所存储的原始数据常常需要经过不同程度整辑(curation),包括注释、层级分析,以及与其他相关数据库的交叉引证(cross-referencing)等。,四、基因检测与精准医疗:2.生物信息学,四、基因检测与精准医疗:2.生物信息学,a)数据库的信息检索Entrez是国家生物技术信息中心(The National Center for Biotechnology Information,NCBI)的一个综合性检索系统,作为NCBI数据库及其检索操作的通用门户入口,将各独立数据库在统一的界面下联为一体,使得包括核酸和蛋白质序列、蛋白质结构、基因组全序列与基因物理图谱、基因表达以及生物医学文献和种属分类等在内的一系列数据库,拥有统一规范的检索模式。,b)常用数据库介绍PubMedPubMed是美国国家医学图书馆(National Library of Medicine,NLM)所属的国家生物技术信息中心(NCBI)建立和维护的生物医学信息检索系统,向公众提供免费的MEDLINE收录文献信息。PubMed界面除了包含期刊全文出版商网址的链接外,还与综合分子生物学数据库进行链接,以方便用户对DNA和蛋白质序列、基因绘图数据、蛋白质三维构象和人类孟德尔遗传在线等多种常用数据的交叉印证与检索。近年来,PubMed陆续增加了对一些第三方生物学数据和测序中心数据等的互引。,四、基因检测与精准医疗:2.生物信息学,四、基因检测与精准医疗:2.生物信息学,c)常用数据库介绍GenBankGenBank是美国国立卫生研究院发起和维护的基因序列数据库,属于以NIH、EMBL和DDBJ为主的序列数据库国际合作组织,汇集并详细注释所有公开的核酸和蛋白质序列。每个记录代表一个独立、连续并带有注释的DNA或RNA片段。,d)常用数据库介绍OMIMOMIM(Online Mendelian Inheritance in Man,人类孟德尔遗传在线资源)包括了迄今所有已知的人类遗传病、遗传决定性状及其相关基因,除了各种疾病的临床特征、诊断、鉴别诊断、治疗和预防等相关信息的扼要描述外,还提供已知有关致病基因的连锁关系、染色体定位、组成结构和功能及动物模型等资料,并附有详细的参考文献。,四、基因检测与精准医疗:2.生物信息学,四、基因检测与精准医疗:2.生物信息学,e)常用数据库介绍 ENCODEENCODE是ENCyclopedia Of DNA Elements的简称。在对源于147种不同组织类型的超过15兆兆字节的原始数据进行分析的基础上,该项目已初步确定了具有开放和关闭特征的基因及其在不同类型细胞中“开关”情况的差异,获得了迄今最为广泛和深入的人类基因组分析信息。,e)常用数据库介绍 GEOGEO(Gene Expression Omnibus,高通量基因表达谱数据库),四、基因检测与精准医疗:2.生物信息学,51,(2)序列对比序列比对(sequence alignment)包括双序列的对比(pairwise comparison)和多序列的比对分析(multiple alignment)。常用相似性(similarity)或同源性(homology)的量化指标来表示序列间的类同关系或程度。生物信息学的基本任务是对各种生物分析序列进行分析,从大量的序列信息中获取基因结构、功能和进化等知识。而在序列分析中,将未知序列同已知序列进行相似性比较是一种强有力的研究手段,通过进行生物分子序列的相似性比较:从序列的片段测定,拼接 基因的表达分析 RNA和蛋白质的结构功能预测 物种亲缘树的构建,四、基因检测与精准医疗:2.生物信息学,52,二代测序(NGS)等高通量测序技术的临床应用,四、基因检测与精准医疗:3.高通量测序,Whole Genome Sequencing vs.Whole Exome Sequencing,谢谢,53,