高通量测序的应用与进展.ppt
高通量测序应用与进展,报告纲要,高通量测序简介高通量测序平台的介绍高通量测序的应用范围及案例分析相关生物信息学分析软件介绍,高通量测序简介,高通量测序:一次性对几百万到十亿条DNA分子进行并行测序,又称为下一代测序技术,其使得可对一个物种的转录组和基因组进行深入、细致、全貌的分析,所以又被称为深度测序。High-throughput Sequencing Next Generation Sequencing Deep Sequencing,3,高通量测序流程,文库扩增,低通量,A Sanger测序 B 高通量测序,并行测序高通量,无需建立文库,两端加测序接头,PCR扩增,报告纲要,高通量测序简介高通量测序平台的介绍高通量测序的应用范围及案例分析相关生物信息学分析软件介绍,高通量测序技术的起源与发展,1992年Lynx Therapeutics MPSS2003年Polony Sequencing(哈佛)2005年454 Pyrosequencing2006年Solexa Sequencing-by-Synthesis2007年ABI SOLiD2008年Helicos tSMS Sequencing2010年Ion torrent Semiconductor Sequensing2011年Pacific Biosciences SMRT Sequensing,6,高通量测序技术的传承关系图,Lynx MPSS,Solexa,ABI SOLiD,454,Ion Torrent,Helicos,SMRT,Illumina Solexa,Roche 454,Polony Seq,ABI Ion Torrent,现有主要高通量测序仪开发商,454 Pyrosequencing,基于磁珠的焦磷酸测序:,A 磁珠制备设备,B 454测序仪,C 454测序原理,454 测序流程,454 测序流程与Base Calling,454 的特点与主要应用,读长较长,400600bp通量较低,1Run 1M 序列,400600Mb相对成本较高主要应用:de novo测序,Illumina Solexa简介,桥式PCR边合成边测序可逆终止物,HiSeq 2000,Illumina Solexa 测序流程,Illumina Solexa 桥式PCR,diol,diol,1st cycle denaturation,Illumina Solexa Base Calling,T T T T T T T G T,T G C T A C G A T,Solexa 的特点与主要应用,读长较短,100150bp通量高,25G每天,120-150G每Run主要应用:RNA测序、表观遗传学研究,ABI SOLiD 简介,SOLiDSequencing by Oligo Ligation/DetectionOligo连接测序:通过连接酶连接,再对oligo上荧光基团进行检测,SOLiD 5500 xl,ABI SOLiD测序前期制备,A 样品片段化磁珠连接,B 乳化PCR3末端修饰,C 磁珠富集转到测序玻片,ABI SOLiD测序原理,ABI SOLiD荧光结合和结果示例,SRR029969.1 VAB_5551_12_381_F3 length=35T11.0203.3.1113211010332111302330201+SRR029969.1 VAB_5551_12_381_F3 length=35!36!8/8:!:!4626=(8.)43),(95,A.SOLiD Oligo荧光基团模式图,B.SOLiD 测序结果示例(Color Space),SOLiD 的特点与主要应用,读长较短,50-75bp精度高,可达Q40通量高,20-30G每天,1Run 可达120G主要应用:基因组重测序、SNP检测等,三种平台的技术差异,三种平台的效能参数差异,报告纲要,高通量测序简介高通量测序平台的介绍高通量测序的应用范围及案例分析相关生物信息学分析软件介绍,高通量测序应用范围,DNA测序全基因组de novo测序基因组重测序宏基因组测序人类外显子组捕获测序RNA测序转录组测序小RNA测序电子表达谱测序表观基因组研究ChIP-SeqDNA甲基化测序,基因组测序,基因组测序是对物种的基因组DNA打断后进行高通量测序,根据是否有已知基因组数据主要分为de novo全基因组测序和基因组重测序。De novo 基因组测序是对未知基因组序列的物种进行基因组从头测序,利用生物信息学分析手段对序列进行拼接、组装,从而获得该物种的基因组图谱。全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。,基因组测序策略,Paired-End,Mate-End,基因组测序流程两种测序策略,Paired-end 原理,29,Paired-end 基因组重排分析,Paired-end和测序深度对测序效果的影响,Jun Wang,et al.Nature 456,60-65(6 November 2008),基因组测序的生物信息学分析,数据产出处理:图像识别与Base Calling去除接头序列、检测与去除污染序列等;基因组组装:原始数据统计、测序深度分析、组装结果统计等;基因组注释:Coding Gene注释、RNA分类注释、重复序列注释等;基因功能注释:GO功能分类、Interpro功能分类等;比较基因组及分子进化分析:SNP/InDel/CNV检测等。,References,1、Erin D.Pleasance,Philip J.Stephens,Sarah O Meara,et al.A small-cell lung cancer genome with complex signatures of tobacco exposure.Nature,2010,463:184-190.2、Michael James Clark,Nils Homer,Brain D.O Connor,et al.U87MG Decoded:The Genomic Sequence of a Cytogenetically Aberrant Human Cancer Cell Line.PloS Genetics,2010,6(1):e1000832.3、Wei Chen,Reinhard Ullmann,Claudia Langnick,et al.Breakpoint analysis of balanced chromosome rearrangements by next-generation paired-end sequencing.European Journal of Human Genetics,2010,18:539-543.4、Van Tassell CP,Smith TP,Matukumalli LK,Taylor JF,Schnabel Rd,et al.Whole-genome sequencing and variant discovery in C.elegans.Nat Methods,2008,5(2):183-188.5、Jun Wang,Wei Wang,Ruiqiang Li,et al.The diploid genome sequence of an Asian individual.Nature 456,60-65(6 November 2008)6、Huang SW,Li RQ,Wang J,et al.The Genome of the Cucumber(Cucumis sativus Linnaeus).Nature Genetics 2009;doi:10.1038/ng.4757、David Hernandez,et al.De novo bacterial genome sequencing:Millions of very short reads assembled on a desktop computer.Genome Res.2008.18:802-809,33,基因组重测序案例分析,Erin D.Pleasance,et al.The compendium of somatic mutations in a small-cell lung cancer genome.Nature,2010,463:184-190.此研究用高通量测序对一个小细胞肺癌细胞系NCIH209基因组进行重测序,以探讨吸烟引发该细胞系基因组中特定碱基及其周围序列的突变及细胞损伤修复原理。,肺癌基因组变异情况统计图,基因组重排和CNV分析,从头基因组测序案例,David Hernandez,et al.De novo bacterial genome sequencing:Millions of very short reads assembled on a desktop computer.Genome Res.2008.18:802-809 此研究对Staphylococcus aureusstrain MW2和Helicobacter acinonychisstrain Sheeba两种细菌基因组进行从头测序,并比较了几种拼接方法的效果。,多种拼接软件拼接结果比较,多种拼接软件拼接结果比较,五种拼接方法的拼接结果比对,宏基因组测序,宏基因组测序是对某一特定环境,如肠道、土壤、海水等中的所有微生物进行基因组测序。通过此方法可对该环境中的微生物种类和优势物种进行检测,揭示微生物群落多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系。自然环境中很多微生物无法分离培养,而此方法无需对微生物进行分离培养。宏基因组测序方法现在有全基因组的宏基因组测序和16S/18S rRNA宏基因组测序。,全基因组的宏基因组测序,通过高通量测序技术,对环境样品的总 DNA 直接进行全基因组的宏基因组测序,能够实现微生物群落的物种分类研究、群落结构、系统进化、功能注释以及物种间的代谢网络研究,挖掘具有应用价值的基因资源,开发新的微生物活性物质。与传统的 Sanger法相比,速度快,性价比高,周期短,单个样品的测序量可以接近饱和。,宏基因组测序信息分析主要内容,拼接组装物种分类组成分析基因预测和功能注释生成Profiling table主成分分析(PCA)筛选与样品分组显著相关的因子多样品间比较分析,16S/18S rRNA宏基因组测序,16S/18S rRNA是微生物群落分析和细菌进化研究以及分类研究最常用的靶分子,采用新一代测序技术,对16S/18S rDNA的可变区进行测序分析,不需进行克隆筛选,能全面的反映微生物群体的物种组成,真实的物种分布及丰度信息。,16S/18S rRNA测序信息分析内容,物种分类、物种丰度分析OTU(OperationalTaxonomic Units)分析多样性分析系统进化分析多样品间的比较分析,References,Meyer,F;Paarmann D,DSouza M,Olson R,Glass EM,Kubal M,(2008).The metagenomics RAST server-a public resource for the automatic phylogenetic and functional analysis of metagenomes.BMC Bioinformatics9:0.doi:10.1186/1471-2105-9-386.George I et al.(2010).Application of Metagenomics to Bioremediation.Metagenomics:Theory,Methods and Applications.Caister Academic Press.Wong D(2010).Applications of Metagenomics for Industrial Bioproducts.Metagenomics:Theory,Methods and Applications.Caister Academic Press.Nelson KE and White BA(2010).Metagenomics and Its Applications to the Study of the Human Microbiome.Metagenomics:Theory,Methods and Applications.Caister Academic Press.CharlesT(2010).The Potential for Investigation of Plant-microbe Interactions Using Metagenomics Methods.Metagenomics:Theory,Methods and Applications.Caister Academic Press.Allen,EE;Banfield,JF(2005).Community genomics in microbial ecology and evolution.Nature Reviews Microbiology3(6):489498.Zheng,Hao;Wu,Hongwei(2010).Short prokaryotic DNA fragment binning using a hierarchical classifier based on linear discriminant analysis and principal component analysis.J Bioinform Comput Biol.8(6):9951011.,人类外显子组捕获测序,外显子组是指全部外显子区域的集合,该区域包含合成蛋白质所需要的重要信息,涵盖了与个体表型相关的大部分功能性变异。与全基因组重测序相比,外显子组测序只需针对外显子区域的DNA,覆盖度更深、数据准确性更高,更加简便、经济、高效。,46,人类外显子组捕获测序原理,人类外显子组捕获测序分析流程,检测序列变异分析示例,检测到SNP数统计,序列InDel检测,References,1、Wei X,Walia V,et al.Exome sequencing identifies GRIN2A as frequently mutated in melanoma.Nat Genet.2011 Apr 15.Epub ahead of print2、Janel O.Johnson,J.Raphael Gibbs,et al.Exome Sequencing in Brown-Vialetto-Van Laere Syndrome.Am J Hum Genet.2010 October 8;87(4):567569.3、Teer JK,Mullikin JC.Exome sequencing:the sweet spot before whole genomes.Hum Mol Genet.2010 Oct 15;19(R2):R145-51.Epub 2010 Aug 12.4、Ley TJ,Mardis ER,Ding L,et al.DNA sequencing of a cytogenetically normal acute myeloid leukaemia genome.Nature 2008;456(7218):66-725、Gnirke A,Melnikov A,Maguire J,et al.Solution hybrid selection with ultra-long oligonucleotides for massively parallel targeted sequencing.Nat Biotechnology 2009;27(2):182-9.6、Murim Choia,Ute I.Scholla,Weizhen Jia,et al.(2010)Genetic diagnosis by whole exome capture and massively parallel DNA sequencing.PNAS.106:19096-19101.7、Sarah B Ng,Kati J Buckingham,Choli Lee,et al.(2010)Exome sequencing identifies the cause of a mendelian disorder.Nature Genetics42,30-35.,50,人类外显子组捕获测序案例,Wei X,Walia V,et al.Exome sequencing identifies GRIN2A as frequently mutated in melanoma.Nat Genet.2011 Apr 15.Epub ahead of print 黑色素瘤发生率一直在上升,此研究对黑色素瘤细胞进行外显子组捕获测序,发现了和其相关的高频突变基因。,七个新发现的非同义高频突变位点,单个基因中突变位点分析,基因GRIN2A模式图,箭头表示突变位点,转录组测序简介,转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA(Non-codingRNA)。第二代测序系统可精确检测单个碱基,并且不受到研究中先验信息的干扰,科研人员能够快速地获得某一物种特定器官或组织在某一状态下几乎所有mRNA转录本序列,从而能够开展:UTRs区域界定、可变剪切研究、低丰度新转录本发现、融合基因鉴定、cSNP(编码序列单核苷酸多态性)研究等。,转录组测序测序流程,转录组测序测序流程,无参考序列测序流程,有参考序列测序流程,转录组主要分析内容,References,Maher CA,Kumar-Sinha C,Cao X,et al.Transcriptome sequencing to detect gene fusions in cancer.Nature,2009 Mar 5;458(7234):97-101.Guojie Zhang,Guangwu Guo,Xueda Hu,et al.Deep RNA sequencing at single base-pair resolution reveals high complexity of the rice transcriptome.Genome Res.2010 May;20(5):646-54.Murchison EP,Tovar C,Hsu A,et al.The Tasmanian devil transcriptome reveals Schwann cell origins of a clonally transmissible cancer.Science.2010 Jan 1;327(5961):84-7.Brain B.Tuch,Rebecca R.Laborde,Xing Xu et al.Tumor Transcriptome Sequencing Reveals Allelic Expression Imbalances Associated with Copy Number Alterations.PloS ONE,2010,5(2):e9317Fuchou Tang,Catalin Barbacioru,Ellen Nordman et al.RNA-Seq analysis to capture the transcriptome landscape of a single cell.Nature Protocols,2010,ePub Febrary 25.Sohrab P.Shah,Ryan D.Morin,Jaswinder Khattra et al.Mutational evolution in a lobular breast tumor profiled at single nucleotide resolution.Nature,2009,461:809-813Zhao et al.Transcriptome-guided characterization of genomic rearrangements in a breast cancer cell line.PNAS 106(6):1886-91.(2009)Gregory R,Darby AC,Irving H,et al.A de novo expression profiling of Anopheles funestus,malaria vector in Africa,using 454 pyrosequencing.PLoS One.2011 Feb 25;6(2):e17418.Crawford JE,Guelbeogo WM,Sanou A,Traor A,Vernick KD,et al.(2010)De NovoTranscriptome Sequencing inAnopheles funestusUsing Illumina RNA-Seq Technology.PLoS ONE 5(12):e14202.doi:10.1371/journal.pone.0014202,有参考序列转录组测序案例,Maher CA,Kumar-Sinha C,Cao X,et al.Transcriptome sequencing to detect gene fusions in cancer.Nature,2009 Mar 5;458(7234):97-101.此研究使用454和Solexa两种高通量测序平台对前列腺癌细胞系VcaP和LNCaP转录组进行测序,以检测和研究前列腺癌细胞系中基因融合表达情况。,基因融合分析,基因嵌合分析流程,MIPOL1-DGKB基因融合模式,无参考序列转录组测序案例,Crawford JE,Guelbeogo WM,Sanou A,Traor A,Vernick KD,et al.(2010)De NovoTranscriptome Sequencing inAnopheles funestusUsing Illumina RNA-Seq Technology.PLoS ONE 5(12):e14202.doi:10.1371/journal.pone.0014202 此研究通过对3个按蚊样品进行高通量测序,通过拼接组装后,和相近物种进行比较基因组学分析。,De novo 序列拼接、组装和比对流程,拼接结果统计,拼接和变异检测分析流程图,比较基因组分析,各类功能基因中氨基酸在物种间差异比例,差异同源蛋白GO分类,进化关系分析,电子表达谱测序,对特定处理条件下的全基因组基因表达谱进行分析,已被广泛用于功能基因组学和医学等研究领域。电子表达谱测序(Digital Gene Expression,DGE)又称为基因表达标签测序(mRNA tag profiling),其原理是通过两种酶切作用对基因中一段长度为21nt的序列标签进行测序。由于其测序只针对表达的基因进行测序,产生的数据量相对较小,是研究基因表达谱的经济而快速的研究手段。又称Tag-SAGE,电子表达谱测序流程图,NlaIII限制性酶切,电子表达谱分析内容,图像识别与原始碱基数据读取。去污染、去接头,标签序列计数统计。基因组比对与统计,基因序列比对获得所表达的基因列表基因差异表达分析。聚类与表达类型分析。GO基因富集与分类分析。Pathway富集与分类分析。蛋白相互作用网络分析。反义链转录本与新转录本检测。,References,Morrissy AS,et al.Next-generation tag sequencing for cancer gene expression profiling.Genome Res.2009.19(10):1825-1835.t Hoen PA,et al.Deep sequencing-based expression analysis shows major advances in robustness,resolution and inter-lab portability over five microarray platforms.Nucleic Acids Res,2008.36(21):e141(1-11).style7 3.Hegedus Z,et al.Deep sequencing of the zebrafish transcriptome response to mycobacterium infection.Mol Immunol,2009.46(15):2918-2930.Audic S and Claverie JM.The significance of digital gene expression profiles.Genome Res.1997.7(10):986-995.Zhenhua Jeremy Wu,Clifford A.Meyer,Sibgat Choudhury,et al.Gene expression profiling of human breast tissue samples using SAGE-Seq.Genome Res.2010.20:1730-1739AndreaL.Eveland,NamikoSatoh-Nagasawa,AlexanderGoldshmidt,et al.Digital Gene Expression Signatures for Maize Development.Plant Physiol.,2010154:1024-1039Peter Ruzanov and Donald L.Riddle.Deep SAGE analysis of the Caenorhabditis elegans transcriptome.Nucleic Acids Research,2010,Vol.38,No.10Saurabh Saha,Andrew B.Sparks,Carlo Rago,et al.Using the transcriptome to annotate the genome.Nature Biotechnology(2002)20,508-512,电子表达谱测序案例分析,Morrissy AS,et al.Next-generation tag sequencing for cancer gene expression profiling.Genome Res.2009.19(10):1825-1835.此研究用高通量电子表达谱测序(Tag-SAGE)和传统LongSAGE测序方法对癌症细胞进行研究,比较两种方法效果,揭示了电子表达谱在基因发现中的诸多优势,可发现更多的基因,减少GC偏好。,两种方法所检测到的基因数比较,GC偏好性和低丰度转录本检测效果,小RNA测序,小 RNA是指长度在21-31nt的内源性非蛋白质编码RNA,广泛存在于高等和低等生物体内,其对mRNA的转录及转录后水平等生命过程起到调节作用。现已知小RNA可归纳成三类:微RNA(miRNA),小干扰RNA(siRNA)和与piwi相互作用的RNA(piRNA)。miRNA长度为2124nt,产生于有典型茎环二级结构的原转录本(pri-miRNA),在动植物的目标mRNA的降解与抑制方面发挥重要作用。siRNA,长度在1925nt,产生于长双链RNA,同样在动植物的目标mRNA的降解与抑制方面发挥重要作用。piRNA,长度2631nt,由与其相互作用的Piwi蛋白定义,目前研究表明其在配子形成的过程中起作用。,小RNA测序流程图,小RNA测序分析内容,基本分析:原始数据读取,去接头、去污染序列,长度分布统计,基因组比对等。高级分析:Small RNA的分类注释miRNA/siRNA/piRNA的鉴定新miRNA预测 差异表达miRNA聚类分析等,References,1、Eugene Berezikov,Nicolas Robine,Anastasia Samsonova,et al.Deep annotation of Drosophila melanogaster microRNAs yields insights into their processing,modification,and emergence.Genome Res.2011.21:203-2152、Mi S,Cai T,Hu Y,Chen Y,Hodges E,et al.(2008)Sorting of Small RNAs into Arabidopsis Argonaute Complexes is Directed by the 5 Terminal Nucleotide.Cell.3、Montgomery TA,Howell MD,Cuperus JT,Li D,Hansen JE,et al.(2008)Specificity of ARGONAUTE7-miR390 Interaction and Dual Functionality in TAS3 Trans-Acting siRNA Formation.Cell4、Morin RD,O Connor MD,Griffith M,Kuchenbauer F,Delaney A,et al.(2008)Application of massively parallel sequencing to microRNA profiling and discovery in human embryonic stem cells.Genome Res.5、Hafner M,Landgraf P,Ludwig J,Rice A,Ojo T,et al.(2008)Identification of microRNAs and other small regulatory RNAs using cDNA library sequencing.Methods 44(1):3-12.,小RNA测序案例分析,Eugene Berezikov,Nicolas Robine,Anastasia Samsonova,et al.Deep annotation of Drosophila melanogaster microRNAs yields insights into their processing,modification,and emergence.Genome Res.2011.21:203-215 此研究对黑腹果蝇miRNA进行深度测序,通过对其测序结果的注释和分析,揭示了黑腹果蝇中miRNA的编辑、修饰等机制。,果蝇三种组织中MiRNA表达情况,MiRNA表达模式分析,新miRNA预测,miRNA编辑情况分析与统计,ChIP-Seq,ChIP-Chromatin Immunoprecipitation染色质免疫共沉淀,是指通过蛋白免疫相互作用,用抗体把和染色质相互作用的蛋白,如组蛋白、转录因子等,沉淀下来,从而所获取与其相结合的DNA序列。ChIP-Seq就是通过高通量测序对ChIP所得到的序列进行测序,从而进行蛋白和DNA相互作用相关研究。,ChIP-Seq测序流程,ChIP-Seq分析内容,ChIP Sequencing结果与参考基因组序列进行比对ChIP Sequencing reads在全基因组的分布唯一比对reads在repeats区域的分布唯一比对reads在各基因功能元件上的分布唯一比对reads的全基因组覆盖深度全基因组peak 扫描peak扫描peak长度分布统计peak的全基因组覆盖度peak在基因功能元件上的分布特征Peak相关基因分析筛选与GO功能富集分析多个样品的差异分析基于peak相关基因的差异分析基于peak的差异分析,ChIP-Seq分析流程,原始数据,数据清理,序列比对,Peak 扫描,Peak相关基因,Unique Mapped序列分布分析,Peak 分布,Genome Browser可视化,GO功能分析,多个样品的差异分析,ChIP-Seq 分析结果示例,ChIP-Seq分析结果示例,References,Johnson DS,Mortazavi A et al.(2007)Genome-wide mapping of in vivo proteinDNA interactions.Science 316:14971502 Jothi et al.(2008)Genome-wide identification of in vivo proteinDNA binding sites from ChIP-Seq data.Nucl Acids Res 36(16)52215231.Bernstein,BE et al.(2005)Genomic maps and comparative analysis of histonemodifications in human and mouse.Cell 120,169181.Robertson G et al.(2007)Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing.Nature Methods 4:651657.Schmid et al.(2007)ChIP-Seq Data reveal nucleosome architecture of human promoters.Cell 131:831832,DNA甲基化测序,DNA甲基化对机体发育和基因表达有很重要的调控作用,和各种癌症的发生和发展也有很大相关性,所以对基因组DNA甲基化进行研究是一直来的热门课题。通过高通量测序来研究DNA甲基化现在主要有两种方法,一种是MeDIP,是通过与DNA甲基化位点相结合的抗体,进行免疫共沉淀,然后对所得DNA序列进行测序。另一种是Bisulfite Sequencing,是通过Bisulfite处理基因组来区分甲基化位点。,MeDIP 原理,MeDIP-Seq分析内容,1.MeDIP-seq序列与参考序列的比对2.MeDIP-seq序列数据在全基因组的分布趋势2.1MeDIP-seq测序reads在全基因组上每条染色体上的分布2.2MeDIP-seq测序reads在全基因组上的覆盖深度2.3MeDIP-Seq测序reads在CG、CHG和CHH位点上的覆盖深度2.4MeDIP-Seq测序reads在不同基因功能元件上的分布2.5MeDIP-Seq测序reads在不同OE含量区域中的分布3.统计MeDIP-seq序列富集区域(peak)的信息3.1Peak扫描3.2Peak长度数量及比例分布统计3.3单个样品Peak的OE含量分布统计3.4寻找Peak相关基因3.5统计Peak在不同基因功能元件上的分布4.基于Peak的多样品间差异分析4.1分析两个样品间的Peak相关差异基因4.2对两个样品间的差异基因进行GO功能富集分析及pathway功能分析,89,Bisulfite Sequencing原理,90,Bisulfite Sequencing分析内容,1.Bisulfite-seq序列与参考序列的比对2.深度和覆盖度分析2.1C碱基有效测序深度的累积分布2.2不同reads测序深度下的基因组覆盖度3.计算C碱基的甲基化水平4.全基因组甲基化数据分布趋势分析4.1