欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    大规模表达序列标签测定及分析.ppt

    • 资源ID:6385547       资源大小:971KB        全文页数:54页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大规模表达序列标签测定及分析.ppt

    大规模表达序列标签(EST)测定及分析,中山大学生科院,主要内容,什么是EST?EST的应用 EST序列测定及分析过程实例:家猪脑组织EST分析,ESTs的来源 上世纪80年代,对cDNA序列进行大规模测序的想法就曾提出,但对此一直存在争论,有人认为这种方法能发现成千上万的新基因;而反对者则认为cDNA序列缺少重要的基因调控区域的信息。90年代初Graig Venter 提出了EST的概念,并测定了609条人脑组织的EST,宣布了cDNA大规模测序的时代的开始(Adams et al.,1991)。,93年前ESTs数据收录于GenBank,EBI和DDBJ。1993年NCBI(National Center of Biotechnology Information)建立了一个专门的EST数据库dbEST来保存和收集所有的EST数据。,什么是 ESTs?,ESTs(Expressed Sequence tags)是从已建好的cDNA库中随机取出一个克隆,从5末端或3末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。,ESTs与基因识别 ESTs已经被广泛的应用于基因识别,因为ESTs的数目比GenBank中其它的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因(Boguski et al.,1994).在同一物种中搜寻基因家族的新成员(paralogs)。在不同物种间搜寻功能相同的基因(orthologs)。已知基因的不同剪切模式的搜寻。【注:不过很难确定一个新的序列是由于交替剪切产生的或是由于cDNA文库中污染了基因组DNA序列(Wolfsberg et al.,1997)】,ESTs与基因图谱的绘制 EST可以借助于序列标签位点(sequence-tagged sites)用于基因图谱的构建.STS本身是从人类基因组中随机选择出来的长度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。来自mRNA的3非翻译区的ESTs更适合做为STSs,用于基因图谱的绘制。其优点主要包括:由于没有内含子的存在,因此在cDNA及基因组模板中其PCR产物的大小相同;与编码区具有很强的保守性不同,3UTRs序列的保守性较差,因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。(James Sikela等,1991年)GeneMap 96 定位了16,000个基于基因的STS(Schuler et al.,1996);GeneMap 98 定位了30,000个基于基因的STS(Deloukas et al.,1998),而且基因图谱随着STS的定位正在不断的更新中。,ESTs与基因预测 由于EST来源于cDNA,因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。使用合适的比对参数,大于90的已经注释的基因都能在EST库中检测到(Bailey et al.,1998)。ESTs可以做为其它基因预测算法的补充,因为它们对预测基因的交替剪切和3 非翻译区很有效。,ESTs与SNPs 来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs(Buetow et al.,1999;Garg et al.,1999;Marth et al.,1999;Picoult-Newberg et al.,1999)。应注意区别真正的SNPs和由于测序错误(ESTs为单向测序得来,错误率可达2)而引起的本身不存在的SNPs。解决这一问题可以通过:提高ESTs分析的准确性。对所发现的SNPs进行实验验证。,利用ESTs大规模分析基因表达水平 因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到,所以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。CGAP 为研究癌症的分子机理,美国国家癌症研究所NCI的癌症基因组解析计划(Cancer Genome Anatomy Project,CGAP)构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库,并进行了大规模的EST测序,其中大部分的文库未经标准化或差减杂交处理。CGAP网站提供了多种工具用以分析不同文库间基因表达的差异,如:Digital Gene Expression Displayer(DGED)cDNA xProfiler 基因表达系列分析(Serial Analysis of Gene Expression,SAGE)基因表达系列分析是一种用于定量,高通量基因表达分析的实验方法(Velculescu et al.,1995)。SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签(约9-14个碱基对),这些短的序列被连接、克隆和测序,特定的序列标签的出现次数就反应了对应的基因的表达丰度。DNA微阵列或基因芯片的研究 高密度寡核苷酸cDNA 芯片或cDNA微阵列是一种新的大规模检测基因表达的技术,具有高通量分析的优点。在许多情况下,cDNA芯片的探针来源于3EST(Duggan et al.,1999),所以EST序列的分析有助于芯片探针的设计。,Serial analysis of gene expression(SAGE)技术流程,基因芯片或微阵列技术流程,几种大规模分析基因表达水平的方法的比较,ESTs很短,没有给出完整的表达序列;低丰度表达基因不易获得。由于只是一轮测序结果,出错率达2%-5%;有时有载体序列和核外mRNA来源的cDNA污染或是基因组 DNA的污染;有时出现镶嵌克隆;序列的冗余,导致所需要处理的数据量很大。,ESTs数据的不足,EST技术流程,一、cDNA文库构建,非标准化的cDNA文库的构建。(可用于基因表达量的分析)经标准化或扣除杂交处理的cDNA文库。(富集表达丰度较低的基因)OligoT cDNA文库。随机引物cDNA文库。,cDNA文库的构建及其均一化扣除杂交处理,For subtraction of cDNA libraries the procedure is similar to normalization,except that the PCR products arise from a different library(whose genes are to be subtracted from the original library),Reference:Bonaldo,M.F.,et.al,1996.Normalization and subtraction:Two approaches to facilitate gene discovery.Genome Res.6:791-806.,扣除杂交技术的发展,扣除杂交技术最早应用是在20世纪80年代初,当时的目的是为了构建 非洲爪蟾的胚囊 cDNA文库【Science(Wash DC)222,135139】和制备差异表达基因的特异探针【PNAS.81,21942198】。差异表达的基因通过检测样本cDNA(tester)和过量的对照样本mRNA(driver)的相互杂交而得到。在检测样本cDNA(tester)和对照样本mRNA(driver)同时表达的基因会形成mRNA/cDNA 杂交分子,而检测样本特异表达的基因则保持单链状态。单链分子和双链分子通过羟磷灰石层析而分离,分离得到的单链分子是检测样本特异表达的基因。差异表达的cDNA可以直接被克隆或通过cDNA文库筛选而得到。这个方法后来又得到改进,包括用生物素标记【Nucl.Acids 14,1002710044】和oligo(dT)30-latex标记cDNA,以增加单双链分子的分离效率。后来,通过PCR选择性cDNA扩增技术被应用到扣除杂交中,以克服以往扣除杂交中需要大量起始mRNA的缺点,并可以同时提高基因克隆地效率【Nucl.Acids Res.19,7097-7104】。扣除技术的进一步成熟是在1996年,Gurskaya 等(1996)和Diatchenko 等(1996)同时发表了关于扣除杂交的改进方法,其主要的技术方法类似,这个技术叫抑制性扣除杂交技术(Suppression Subtractive Hybridization,SSH)【Anal.Biochem.240,9097;PNAS.93,6025-6230】。,SSH的原理与基本过程,原理:SSH的基本原理是以抑制PCR为基础的DNA扣除杂交方法。所谓抑制PCR,是利用链内退火优于链间退火,比链间退火更稳定,从而使非目的系列片段两端反向重复系列在退火时产生类似于“锅柄”的结构,无法与引物配对,选择性地抑制了非目的基因片段的扩增。同时,该方法运用了杂交二级动力学原理,即丰度高的单链cDNA在退火时产生同源杂交的速度要快于丰度低的单链cDNA,从而使原来在丰度上有差别的单链cDNA相对含量达到基本一致。基本过程:分别抽提代测样本(tester)和 对照样本(driver)的mRNA,反转录成cDNA,用RsaI或HaeIII酶切,以产生大小适当的平头末端cDNA片段,将tester cDNA分成均等的两份,各自接上两种接头,与过量的driver cDNA变性后退火杂交,第一次杂交后有4种产物:a是单链tester cDNA,b是自身退火的tester cDNA双链,c是tester 和diver的异源双链,d是driver cDNA。第一次杂交的目的是实现tester单链 cDNA均一化(normalization),即使原来有丰度差别的单链cDNA的相对含量达到基本一致,由于tester cDNA中与driver cDNA序列相似的片段大都 和driver形成异源双链分子c,使tester cDNA中的差异表达基因的目标cDNA得到大量富集,第一次杂交后,合并两份杂交产物,再加上新的变性driver单链,再次退火杂交,此时,只有第一次杂交后经均等化和扣除的单链tester cDNA和driver cDNA一起形成各种双链分子,这次杂交进一步富集了差异表达基因的cDNA,产生了一种新的双链分子e,它的两个5端有两个不同的接头,正由于这两上不同的接头,使其在以后的PCR中被有效地扩增。,抑制性差减杂交技术(SSH)原理图(Diatchenko等,1996),二、序列测定及数据分析,测序方向的选择,根据不同的实验目的选择不同的测序方向:5端 5上游非翻译区校短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5端EST较好,大部分EST计划都是选用5端进行测序的,而且从5端测序有利于将EST拼接成较长的基因序列。3端 3端mRNA有一20200bp的plyA结构,同时靠近plyA又有特异性的非编码区,所以从3端测得EST含有编码的信息较少但研究也表明,10的mRNA3端有重复序列,这可以作为SSR标记;非编码区有品种的特异性,可以作为STS标记 两端测序 获得更全面的信息。,1.去除低质量的序列(Phred)2.应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactual sequences)。载体序列(ftp:/repository/vector)重复序列(RepBase,http:/)污染序列(如核糖体RNA、细菌或其它物种的基因组DNA等)3.去除其中的镶嵌克隆。4.最后去除长度小于100bp的序列。,序列前处理(pre-processing),镶嵌克隆的识别,Back-to-back poly(A)+tails.Linker-to-linker in middle of the sequence.Blastn/Blastx search.,ESTs的聚类和拼接 聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(overlapping)的ESTs整合至单一的簇(cluster)中。聚类作用:产生较长的一致性序列(consensus sequence),用于注释。降低数据的冗余,纠正错误数据。可以用于检测选择性剪切。ESTs聚类的数据库主要有三个:UniGene()TIGR Gene Indices(http:/)STACK(http:/),(EST clustering tutorial,),不严格的和严格的聚类(loose and stringent clustering)loose clustering 产生的一致性序列比较长 表达基因ESTs数据的覆盖率高 含有同一基因不同的转录形式,如各种选择性剪接体 每一类中可能包含旁系同源基因(paralogous expressed gene)的转录本 序列的保真度低 stringent clustering 产生的一致性序列比较短 表达基因ESTs数据的覆盖率低 因此所含有的同一基因的不同转录形式少 序列保真度高,(EST clustering tutorial,),有参照的和无参照的聚类(Supervised and unsupervised clustering)Supervised clustering 根据已知的参考序列(如全长mRNA、已拼接好的一致性序列)聚类。Unsupervised clustering 没有根据参考序列进行分类。,聚类的算法 基于BLAST和FASTA的脚本(BLASTN and FASTAbased scripts)BLASTN和FASTA算法的本身目的在于寻找序列间的局部相似性或同源性,这与聚类的目的不同,即通过两个序列是否具有一致性的重叠或连续的比对来判断二者是否能归成一类。结合BLAST和FASTA查找的结果,采用解释性语言(如Perl)编写的脚本,具备了3方面的功能,即运行查找过程、解析(Parsing)查找的结果和按照用户定义的标准判断两个序列是否为一类。基于字的聚类(Wordbased clustering)基于字的聚类省略了所有的比对过程,其核心在于识别并计算序列间有多少长度为n的字(word)能够匹配,而且并未采用有关克隆的来源及注释信息,代表性的算法是d2_cluster。该算法为一种凝聚性(agglomerative)的聚类算法(即每一类从单一的序列开始,通过一系列的合并形成最后的类),它可以被描述为最小联接聚类(minimal linkage clustering)。即,假设两条序列A和B,如果二者存在一定水平的相似,那么将A、B归于一类;即便二者并没有任何相似性,若存在序列C,而且C同时与A、B都有足够的相似性,那么也将A、B归于一类。类和类之间的联接标准是识别两个序列在一定大小窗口中相同的碱基数。,常用的拼接软件,Phrap(http:/)CAP3(Xiaoqiu Huang,)d2_cluster(http:/),Cluster的连接,利用cDNA克隆的信息和5,3端Reads的信息,不同的Cluster可以连接在一起。,UniGene,Unigene 结合有指导的和无指导的方法,而且在聚类过程中使用了不同水平的严格度,聚类的算法为megablast,数据库不产生一致性序列。,TIGR Gene Index,TIGR Gene Index用的是有严格的和有指导的聚类方法,聚类的算法为类似于BLAST和FASTA的FLAST,该法得到的一致性序列较短,交替剪切得到的不同的基因属于不同的索引。,STACK,STACK 用不严格的和无指导的聚类方法,聚类的算法为d2_cluster,产生较长的一致性序列,同一索引中含有不同的剪切方法得到的基因。,Clean Short and Tight,TIGR-THC,UniGene,STACK,Long and Loose,基因注释及功能分类,注释:序列联配 Blastn,Blastx 蛋白质功能域搜索(二结构比对)Pfam Interpro,基因功能分类 手工分类 大部分以Adams 95年的文章中的采用分类体系为标准。【Adams.MD,et al.Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence.Nature.1995 377(6547 Suppl):3-174】计算机批量处理 利用标准基因词汇体系Gene Ontology,进行近似的分类。(http:/),GO的组织结构:定向无环图(directed acyclic graphs DAGs),各大数据库中基因或基因产物与GO术语的对照,其它分类系统与GO的对照表,后续分析,比较基因组学分析 基因表达谱分析 新基因研究 基因可变剪切分析 实验验证 MicroArray GeneChip RTPCR Northen bloting,实例介绍,家猪脑组织EST分析,文库信息,文库与序列质量检验聚类和重叠群分析ORF的寻找功能分类和注释表达谱分析交替剪接分析,分析过程,序列长度和质量处理,序列长度:无统一标准,一般认为100bp以上的 EST即可代表足够表达基因信息,序列质量处理,污染序列去除,包括载体序列、细菌基因组序列(Crossmatch)重复序列的屏蔽(RepeatMasker)低质量区去除(Q20)扔掉100bp以下的序列,序列长度和质量分布,聚类和重叠群(Contig)分析,High-quality ESTs 46011,Avg.full length:388.5,Avg.quality:35.9 per base,Based on phrap assembly,Contig 大小分布,BLAST search result(based on phrap assembly,e=1e-10),BLAST Search against human genome sequence(e=1e-5),功能分类和注释,按照Gene Ontology(基因分类标准词汇体系)的三个标准分子功能、生物学过程和细胞组分对序列注释,表达量比较实例,Apoptosis inhibitor protein(TCTP abundance comparison),

    注意事项

    本文(大规模表达序列标签测定及分析.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开