《表达序列分析》PPT课件.ppt
第六章 表达序列分析,第一节 引言,(二)什么是表达序列标签?(expressed sequence tag,EST),从已建好的cDNA库中随机取出一个克隆,从5末端或3末端进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。,基因组表达为RNA的序列:mRNA和功能RNA,一、表达序列与表达序列标签(一)什么是表达序列?,EST的获得途径,二、EST的用途,基因组物理图谱的绘制 基因识别的验证 基因表达谱的构建 发现新基因 电子PCR克隆 SNP(single nucleotide polymorphism)发现,(一)ESTs与基因图谱的绘制,基因组物理图谱的构建:借助序列标签位点(sequence-tagged sites,STS),物理图谱也称为STS图谱 EST是一种STS1995发表的人类基因组物理图谱含有15086个 STS,其中大多数为EST,平均密度为1个标记/199kb,(二)ESTs与基因预测的验证,某一个物种的基因组测序完成之后,首要任务是对基因组所包含的全部基因进行预测,而现有基因预测软件不能百分之百准确预测全部基因,此时需要对预测基因进行验证,每一条EST代表特定基因的部分序列,因此将预测基因同物种所有的EST进行比对,有助于基因预测的验证。,(三)ESTs与基因预测(Blast数据库搜索),在同一物种中搜寻基因家族的新成员(paralogs)在不同物种间搜寻功能相同的基因(orthologs)已知基因的不同剪切模式的搜寻,(四)ESTs与SNP位点预测,来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。应注意区别真正的SNPs和由于测序错误而引起的本身不存在的SNPs。解决这一问题可以通过:提高ESTs分析的准确性 对所发现的SNPs进行实验验证,(五)ESTs与基因表达谱的构建,(六)EST数据的不足,ESTs很短,没有给出完整的表达序列;低丰度表达基因不易获得(SAGE可以解决);由于只是一轮测序结果,出错率达2%5%;有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染;有时出现镶嵌克隆;序列的冗余,导致所需要处理的数据量很大。,第二节 EST数据分析,一、cDNA文库的构建与EST数据的实验获取,非标准化cDNA文库的构建,标准化 cDNA文库的构建(杂交方法如扣除杂交),cDNA逆转录引物,检测低丰度表达基因不能用于表达谱研究,适用于表达谱研究测序成本较高,Oligo T引物随机引物,EST技术流程,二、EST数据库,1993年前:EST收录于GenBank,EBI和DDBJ1993年 NCBI 建立dbEST,常用的EST数据库,(一)dbEST(database of EST),Genbank的一部分63,236,621条数据(20091016),描述:,向dbEST提交数据,按格式编辑数据通过E-mail提交更新数据,dbEST数据格式,Publication文件:文献文件,文献发表信息Library文件:文库文件,实验信息Contact文件:联系人文件,联系信息EST文件:EST数据文件,核心数据,在dbEST中检索数据,利用Entrez检索系统登录NCBI FTP下载:ftp.ncbi.nih.gov/repository/dbEST 例:在Entrez中检索人类血红蛋白EST数据,1.检索栏内输入关键词,如“HBB Human”,2.检索结果,3.检索结果的解读,数据记录的编号:DN991377数据记录的描述:数据记录的格式:Genbank格式、EST格式数据记录的下载:下载FASTA格式序列、下载Genbank格式的文本文件,(二)UniGene数据库,Genbank的一部分一条纪录为一个gene cluster,简介,查询UniGene,通过NCBI Ftp 下载:使用dbEST数据库检索例:检索人类血红蛋白亚基的UniGene数据,1.检索栏内输入关键词“HBB Human”,2.获得检索结果页面,3.检索结果解读,数据名称:数据描述:数据格式(主要字段):SELECTED PROTEIN SIMILARITIES:基因类中相似蛋白质集合GENE EXPRESSTION:基因表达信息SEQUECNES:与基因类相关的序列,如mRNA、EST等等,(三)Gene Indices数据库,The Institute of Genomic Research Database(TIGR)中的一个子库,简介,数据构成,42类动物47类植物15类原生生物10类真菌,三、EST数据分析方法,随机挑取克隆进行5或3端测序,序列前处理,聚类和拼接,基因注释及功能分类,去除低质量的序列(如使用Phred)应用BLAST、RepeatMasker或Crossmatch屏蔽数据组中不属于表达基因的赝象序列(artifactual sequences)载体序列(ftp:/ncbi.nlm.nih.gov/repository/vector)重复序列(RepBase,http:/www.girinst.org)污染序列(如核糖体RNA、细菌或其他物种的基因组DNA等)去除其中的嵌合克隆最后去除长度小于100bp的序列,(一)序列前处理,EST数据预处理流程,聚类目的:将来自同一个基因或同一个转录本的具有重叠部分(over-lapping)的ESTs整合至单一的簇(cluster)中聚类作用:产生较长的一致性序列(contigs),用于注释 降低数据的冗余,纠正错误数据。可以用于检测选择性剪切。ESTs聚类的数据库主要有三个:UniGene(http:/www.ncbi.nlm.nih.gov/UniGene)TIGR Gene Indices(http:/www.tigr.org/tdb/tgi/)STACK(http:/www.sanbi.ac.za/Dbases.html),(二)ESTs的聚类,PhrapCAP3TIGR AssemblerStaden Package,(三)ESTs序列聚类拼接的主要软件,4种ESTs聚类和拼接软件比较,(四)序列注释和分析,一级序列同源性比对:使用BLAST等工具蛋白质结构域和功能位点搜索基因功能分类:Gene Ontology 表达量比较分析:不同组织或发育阶段基因表达量比较通路分析可变剪切分析,第三节 基因表达系列分析,Serial analysis of gene expression,一、SAGE技术原理简介,基因表达系列分析(Serial Analysis of Gene Expression,SAGE):1995,Velculescu高通量、平行性检测,简介,三个基本要点,9-14bp的短核苷酸序列“标签”(Tag)可以特异确定一个转录本串联体(多聚体)分子批量分析mRNA 各转录本的表达水平可以用特定标签被测得的次数定量,SAGE技术原理,二、SAGE技术方案,构建SAGE文库,多聚体分子的克隆与测序,标签序列的提取,SAGE技术方案,三、SAGE技术应用前景,全基因组表达谱分析与比较,深入认识基因调控网络,四、SAGE数据库与分析软件,1.NCBI SAGE数据库(GEO),2.SAGEnet,3.The Mouse SAGE Site,4.其他SAGE数据库,(一)SAGE数据库,1.NCBI SAGE数据库:GEO,Gene Expression Omnibus,2000,NCBIGEO数据库四个基本实体 1)提交者,2)平台,3)样本,4)系列,GEO简介,GEO数据库查询:在EntreZ中查询,Entrez GEO数据集 查询所有的实验注解 Entrez GEO表达谱查询样品和系列纪录,GEO数据库查询:在GEO主页查询,例:查询GDS325数据集的结果,数据记录的相关信息,Expression Profiles:表达谱数据,Data Analysis Tools:分析工具,Sample subsets:样本子集,GEO数据分析,Find genes 工具:快速寻找指定基因Cluster heatmap工具:样本层次聚类图Query Group A versus B 工具:子集比较查询Experiment design and Value distribution:数据集的数值分布GEO BLAST:使用BLAST搜索感兴趣序列的表达谱数据Subset effects:子集效应,提供不同子集之间的差异信号,Find genes,Cluster heatmap,Experiment design and Value distribution,GEO数据提交与更新,创建GEO账号:GEO主页点击“Create a new account”选择提交方式 Direct Deposit/Update:直接提交 Web Deposit/Update:Web交互方式提交准备数据,执行提交,2.SAGEnet,SAGEnet是一个关于SAGE技术方法、文档、资讯以及收录SAGE数据的网络资源库主要内容:FINDNGS:SAGE技术介绍 RESOURCES:资料及数据下载 PUBLICATIONS:SAGE出版物 CONFERENCES:相关会议信息 CONTACS US:联系获取SAGE资料,3.The MOUSE SAGE Site,小鼠SGAE数据库,由捷克科学院分子遗传研究所构建,4.其他SAGE数据库,GutSAGE:StormSAGE:GermSAGE:,(二)SAGE分析软件,对SAGE数据分析主要包括从原始的序列中得到标签列表,比较来自不同组织细胞或不同生理状态乃至不同物种的标签及其出现频率,在相应数据库中搜索匹配序列,进行基因功能的分析或发现新的基因等。,SAGE300,与sagenet实验方案配套使用,WEBSAGE,对SAGE数据进行统计分析,鉴别差异表达的标签,绘制分析结果的散点图等。h/,ATCG,从标签序列来构建基因表达图谱 接受10bp的短SAGE标签、17bp的长SAGE标签、13bp的MPSS标签、16bp的MPSS或SBS标签,POWER-SAGE,对不同大小的样本和不同使用频率的标签的组合进行“虚拟”的SAGE实验分析,用以确定最好的实验方案邮件获取:,使用ATCG进行在线的SAGE标签数据分析,