临床遗传学常用的生物信息.ppt
《临床遗传学常用的生物信息.ppt》由会员分享,可在线阅读,更多相关《临床遗传学常用的生物信息.ppt(82页珍藏版)》请在三一办公上搜索。
1、临床遗传学与生物信息学:工具与资源,刘春宇,主要内容,定义与背景主要数据对象及特点常用数据库资源与工具临床遗传学实验室的基本信息学装备与管理生物信息学的基本技能,定义,生物信息学(Bioinformatics)是研究生物数据的采集、处理、存储、传播,分析和解释等各方面的学科,是生命科学和计算机科学相结合形成的一门学科。是通吃所有现在与未来的OMICS的学科。生物信息学应用服务于科研与临床。,精准医学背景下的遗传学和生物信息学,科研:基因定位、突变检测、基因型分析、疾病易感基因的关联分析、基因与蛋白的调控、结构与功能预测分析临床:突变检测、基因型分析,和已知相关基因的信息查询和临床指导,生物信息
2、学是现代遗传学研究的灵魂,遗传学数据量大 一个人携带数百万的多态或突变2万余编码蛋白的基因表达,数十万甚至更多的剪接本,非编码调控基因、分子种类多SNVs,CNVs,INDELs,SVs可遗传的、新生的、体细胞的影响编码的,调控的数据到知识的转化依赖信息的分析与整合知识到临床实践的转化依赖信息的管理与发布,主要数据对象,遗传学数据表型数据,单基因病VS多基因病,?,突变与多态性,?,American College of Medical Genetics ACMG Minimum List(56 genes),Ambry Exon screen 293 genes for 229 diseas
3、es,对临床医生最重要关键信息,DNA变异:区分致病突变、易感基因与常见多态变异影响到的什么基因基因名称功能如果影响基因的功能蛋白质编码表达量,信息的有效性和适用范围,基因型与表型的关系可行动性(Actionable),大合作大数据的重要性,基因型与表型的关系BRCA1 的突变为例人群中已经发现数千种变异,致病性如何?,常用数据库资源与工具,基因组与序列各类图谱序列基因组与表观基因组变异与表型OMIM,GWAS catalog,DNA变异数据查询,UCSC genome browser(位置)http:/genome.ucsc.edu/cgi-bin/hgTracks?clade=mammal
4、&org=Human&db=hg19&position=BRAC1&hgt.positionInput=BRAC1&hgt.suggestTrack=knownGene&Submit=submit&hgsid=423900655_v4S6u9fIecnW2XqxxDOTaqapW1v3&pix=1045 NCBI ClinVar(变异与疾病)http:/www.ncbi.nlm.nih.gov/clinvar/?term=PTEN%5Bgene%5D,基因的相关信息,GeneCardshttp:/www.genecards.org/cgi-bin/carddisp.pl?gene=BRCA1&
5、search=aa389e880a9c80096d5a96c63a2975f6,常见病的易感基因,GWAS Cataloghttp:/www.genome.gov/page.cfm?pageid=26525384#searchForm,基因表达的信息,BRCA1http:/www.genecards.org/cgi-bin/carddisp.pl?gene=BRCA1&search=aa389e880a9c80096d5a96c63a2975f6,遗传学以外的生物信息学,临床大数据人口资料影像学生理生化病理治疗与疗效生物测量可穿戴设备,计算需求,100 TB PB存贮空间64 1000+CPU
6、32-64+G 内存并行运算,流程化,数据关联,备份,临床遗传学实验室的基本信息学装备与管理,计算机一般以Linux操作系统为佳,配以较大容量内存(16 GB以上)、硬盘存贮空间(4 TB以上),以及数据备份系统如需要处理原始NGS数据,则应需要高性能、上千CPU的并行计算机集群(cluster)或网格(grid)因分析处理的数据不同,会需要使用到以上提到的各类商业或非商业的软件、数据库。而这些软硬件安装、使用、维护,都需要计算机专业人员提供,生物信息学的基本技能,大规模数据格式变换、处理常用数据库、软件的使用数据库管理与查询基本编程、计算,小结,临床遗传学的研究和应用建立在DNA测序及相关数
7、据分析基础上临床遗传学实验室,尤其是分子遗传为手段的实验室,离不开生物信息的技术支持,熟练掌握数据分析方法、了解相关数据资源的专才是临床遗传学实验室的重要构成其他临床遗传学工作者也有必要对数据及分析方法、工具、及资源有基本的了解,对数据分析过程中涉及的数据文件类型有所了解生物信息学与大数据,分析流程,质控序列比对,拼装发现变异变异注释,基因定位,以家系或群体样本,通过连锁或关联分析,以统计概率判断基因在基因组中位置数据分析流程:数据质量评估与控制、过滤确定基因型数据进一步过滤(按等位基因频率等)群体结构分析关联或连锁分析,分析软件,大体分为:连锁分析基于家系数据的参数连锁(parametric
8、)与非参数连锁(non-parametric)分析关联分析基于家系基于群体正常-对照也可分为单点分析和多点分析,还有数量性状分析及基因-基因相互作用分析等群体结构(population structure)分析针对全基因组的基因型数据不少软件兼有多种分析的功能,常用的家系关系和基因型错误检查软件,PedcheckPREST(Pedigree RElationship Statistical Test)Plink可在全基因组型数据中检查家系关系、孟德尔遗传错误及性别错误,Imputation软件,用于推测基因组中未分型的标记BeagleIMPUTEMACH,常用连锁分析软件,LINKAGE/FA
9、STLINKGeneHunter和GeneHunter-PlusMerlinSOLARSimwalkFBAT/PBAT相关软件的总结对比可参考:Dudbridge,F.A survey of current software for linkage analysis.Hum.Genomics 1,63-65(2003)http:/www.soph.uab.edu/ssg/linkage/linkageanalysis,全基因组关联分析(GWAS)软件,Plink(http:/pngu.mgh.harvard.edu/purcell/plink/)最广泛使用的软件Golden Helix(htt
10、p:/&Variation Suite(SVS)较为广泛使用的商用全基因组关联分析软件Bioconductor 的GWASTools(http:/www.bioconductor.org/packages/release/bioc/html/GWASTools.html)支持大型GWAS数据和注释的存储,及GWAS数据的清理和分析GCTA(http:/(http:/animalgene.umn.edu/)图形化工具,提供SNP影响效应图、GWAS 结果视图,变异检测,变异检测,DNA变异常见类型:单核苷酸多态(SNP)和短片段插入缺失(Indel)缺失(deletion)插入(insertio
11、n)倒位(inversion)易位(translocation)拷贝数变异(CNV)DNA 测序是确定基因型的方法之一,更是在样本基因组中发现新变异的终极手段,DNA测序分析,针对单个小扩增片段进行的Sanger测序全基因组或全外显子组的第二代测序(Next-generation sequencing,NGS)第三代测序因目前暂未普及,应用较少,在此不做分析讨论,基于Sanger测序的数据分析,测序仪提供的数据分析软件,如:ABI的Sequencing Analysis Software商业软件,处理原始测序数据trace 文件(或称chromatogram)以识别变异,如:DNASTAR的L
12、asergeneGene Codes的SequencherSoftgenetics的Mutation Surveyor免费软件,如:Phred/Phrap/Consed/PolyPhredSNPdetector,DNASTAR http:/,快速组装比对序列片段用即时互动视图和过滤工具检测和分析SNP可直接访问dbSNP、COSMIC和GERP数据库可大规模比较多个样本间或多个群体样本之间的SNP,并鉴定SNP对基因的影响程度,Lasergene 工具包可分析Sanger测序和NGS数据,可从多个/群体样本的Sanger测序数据中鉴定和比较潜在的致病变异,Softgenetics http:/
13、,工具包MUTATION Surveyor 专门针对Sanger测序的序列进行变异检测可在15分钟之内分析由Applied Biosystems Genetic Analyzers、MegaBACE 或Beckman CEQ 电泳系统产生的高达2000个Sanger测序文件,支持多种格式分析结果SNP、Indel和体细胞变异具有较高的准确性和灵敏度能自动下载GenBank氨基酸序列,进行序列比对、DNA甲基化检测、多变区间的变异检测、杂合Indel的分解识别de-convolution(这是MUTATION Surveyor的主要特色和卖点)、线粒体DNA序列分析和定量、自定义变异编码与报告等
14、,杂合性Indel检测输出图例,图中正向显示一杂合性TT缺失的de-convolution,基于NGS的数据分析,项目总体流程,Pabinger S,et al.Briefings In Bioinformatics,2013,NGS数据分析基本流程,NGS数据分析基本流程,原始下机数据转换成fastq格式测序质量评估,评估数据产量和质量,并根据需要去除接头污染和低质量序列,如:FastQC可对Illumina和ABI SOLiD测序序列质量进行快速评估FASTX-Toolkit和Galaxy即可评估序列质量,还可去除污染碱基和低质量碱基并对序列进行质量过滤将序列比对到参考基因组上,生成SAM
15、或BAM文件比对工具如:BWA,bowtie2,Illumina的Hiseq Analysis Software,SOAP等,FASTQ 格式,FASTQ 文件示例,该文件包含一条序列:SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!*(*+)%+)(%).1*-+*)*55CCFCCCCCCC65A FASTQ文件将每条序列用四行表示:第一行 以“”打头,后跟着序列ID,可加上序列描述(类似于FASTA文件的标题行);第二行 是序列内容;第三行 以+打头,后面的序列ID和描述可有可无;第四行 是第二行序列
16、每个位点的质量值,字符个数必须与第二行完全相同。,变异检测运用 GATK/MuTect/VarScan/Atlas2/Samtools/SVDetect/Polymutt等工具包,查找 SNP和 Indel、缺失、插入、倒位、易位、CNV等实践显示,多种不同软件共同识别的变异有更高的可靠性,因此有建议使用consensus calls生成VCF(Variant Call Format)文件变异注释运用 Annovar、SeattleAnnotation、GenomeTrax等工具对每一变异筛查dbSNP、1000genomes、PolyPhen、SIFT、ESP、HGMD、OMIM、KEGG
17、Pathway、CNV、DGV等数据库,评估表型或疾病风险,VCF 格式,#fileformat=VCFv4.0#fileDate=20110705#reference=1000GenomesPilot-NCBI37#phasing=partial#INFO=#INFO=#INFO=#INFO=#INFO=#INFO=#FILTER=#FILTER=#FORMAT=#FORMAT=#FORMAT=#FORMAT=#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2 Sample3 2 4370 rs6057 G A 29.N
18、S=2;DP=13;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,.2 7330.T A 3 q10 NS=5;DP=12;AF=0.017 GT:GQ:DP:HQ 0|0:46:3:58,50 0|1:3:5:65,3 0/0:41:3 Variant Call Format(VCF)是用于存储基因序列变异的特定文本文件格式,该格式是随着大规模基因分型和DNA测序而出现的,如千人基因组计划。它包含描述元数据的行,然后是数据表头行,后面的数据行每行包含基因组中一个位置的信息(如变异信息)。,6.变异筛选(举例
19、,并非唯一方案),显性,隐性,SNP和indel变异检测软件,GATK针对外显子和全基因组重测序数据检测SNP和indel,基因分型少量样本/多个样本的群体变异检测均可较高灵敏度和准确性,目前应用很广MuTect适于混杂的不纯肿瘤样本,检测体细胞SNP运用精密的统计模型,假阳性产出率很低VarScan/VarScan2适于靶向测序,外显子和全基因组重测序数据单个样本/多个样本(群体样本,如体细胞变异)共有或独有的种系变异、杂合性丢失(LOH)、肿瘤与正常肿瘤外显子-正常体细胞CNVVarScan2特别针对肿瘤外显子测序检测体细胞突变和CNV,GATK Best Practices(http:/
20、www.broadinstitute.org/gatk/guide/best-practices),Atlas2全外显子测序的变异检测综合分析包采用逻辑回归模型和简单启发式过滤法检测出的SNP和Indel准确性高、灵敏度高Ploymutt检测家系内的SNP和点突变能结合家系遗传关系找出家系内共有变异,给出每个变异的可信度,并提供一些过滤功能Samtools针对外显子和全基因组重测序数据包含一系列工具分析处理序列比对结果可检测SNP和Indel变异,其检出的SNP准确性略高于GATK,但灵敏度稍低,Indel的准确性较低,Hiseq Analysis Software(HAS)Illumina开
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 临床 遗传学 常用 生物 信息
链接地址:https://www.31ppt.com/p-2347326.html