不同光照条件转录组分析毒素合成相关基因.docx
第四章不同光照条件转录组分析毒素合成相关基因痴囊腔菌素作为,利用转录组进行研究的意义,前人研究进展。1材料与方法1.I材料以花生疮痴病菌1.N-JH-CO1.为试验材料.对该病原菌进行不同光照处理,TO1.持续黑暗处理,T02光照处理。1.2 RN3提取和定量病原菌RNA的提取,采用TrOZi1.法并加以改良。在1%琼脂糖凝胶上检测RNA降解和污染.使用NanoPhO1.OnIeter®分光光度计(IMP1.EN.CA,USA)检查RNA纯度”QubitRNAAssayKi(inQubit®2.0F1.uronwtcr(1.ifeTechno1.ogies.CA.USA)测量RNA浓度。使用RNANan。6000安捷伦牛.物分析仪2100系统的分析工具包(AgiIentTechnoIogies,CA.USA)。1.3 转录组测序的文库制备每个样品总量为3gRNA用作RNA样品制备物的输入材料。测序文库使用NEBNeXt®UhraERNA1.ibraryPrepKitfor1.1.1.uminaK(NEB.USA)按照制造商的建议产生,并将索引代码添加到每个样品的属性序列中。简言之,使用聚-T宾聚连接的磁珠从总RNA中纯化mRNA<.使用二价阳离子在高温卜.在NEBNcxtFirstStrandSynthesisReactionBuffer(5X)中进行裂解。第链CDNA使用随机六聚体引物和M-MU1.V逆转录酶(RNaseHC合成。随后使用DNA聚合的I和RNA的H进行第二徒eDNA合成“鼎余的突出端通过外切核酸梅/聚合的活性转化成平端。将DNA片段3,末端腺甘酸化后,连接带有发夹环结构的NEBNcxt接头,准备杂交。为了选择长度优选为15()200bp的CDNA片段,使用AMPUreXP系统(BeckmanCou1.ter,Bever1.y.USA)纯化文库片段。然后使用31.USER梅<NEB,USA),在PCR之前,在37C下使用大小选择的接头连接的CDNAI5分钟,然后在95C下5分钟。然后用PhusionHigh-Fide1.ityDNA聚合酹,Universa1.PCR引物和IndeX(X)引物进行PCRe最后,纯化PCR产物(AMPUreXP系统),并在Agi1.entBioana1.yzer21(X)系统上评估文库质量。1.4 聚类和测序使用TruSeqPEC1.usterKitv3-cBot-HS(II1.umia)根据制造商的说明在CBo1.簌生成系统上进行索引编码样品的聚类。簇生成后,在I1.IUminaHiscq2000平台上对文库制备物进行测序,并产生配对末端读数。1.5质量控制fastq格式的原始数据(原始数据)首先通过内部per1.脚本进行处理,在这个步骤中,通过税除包含适配器的读取,从原始数据读取包含poy-N和低质量读取,获得干挣的数据(干净的读取)。同时计算清洁数据的Q20,Q30,GC含量和序列重复度。所有的下游分析都基于高质量的清洁数据。16转录组装将所有库,样本的左边文件(read1.文件)合并成个大的IefJq文件,将正确的文件(read2文件)合并成一个大的right.fq文件使用Trinity(Grabherreta1.2011)基于Ieftft1.和right.fq完成转录组装,min_kmcr_cov默认设置为2,所有其他参数默认设置。1.7基因功能注释基因功能基丁以下数据库进行标注:NR(NCBI非冗余蛋白质序列);Pfam(蛋白质家族);KOG/COG/CggNOG(蛋白质的同源组群);SWiSS-Pm(手动注样和评论的蛋白质序列数据库):KEGG(京都基因和基因组百科全书):GO(基因本体)。1.8 差异表达分析在进行差异基因表达分析之前,对于每个测序文库,通过CdgCR程序包通过一个标度归一化因子来调整读取计数。两个样品的差异表达分析使用DEGSCq(2010)R包进行。使用q值调整P值(S1.Orey等,2003)。将qva1.ue<0.005&1Iog2(fo1.dchange)>1设置为显着差异表达的阀值。1.9 Go富集分析通过基于KO1.mogOrOV-SmirnoV测试的topGOR软件包实施差异表达基因(DEG)的基因本体论(GO),富集分析.1.10 KEGG途径富集分析KEGG(Kanehisaeta1.2(X)8)是从分了水平的信息,特别是大规模的分子数据集,了解生物系统的细胞,生物体和生态系统等高级功能和用途的数据库资源通过基因组测序和其他高通量:实验技术(hup:vvv.gcnomcjpkcgg)°我们使用KOBAS(Mao等人,2005)软件来测试KEGG途径中差异表达基因的统计富集。1.11 PPI(蛋白质蛋白质相互作用)DEG的序列是b1.ast(b1.astx)到相关物种的基因组(蛋白质相互作用存在于STRING数据库中:hup:Stringdb.o喀/)以获得这些DEG的预测PP1.然后在Cytoscapc中观察这些DEG的PP1.(ShannOn等人,2003).2结果1.6转录组装1.11.1 序碱基质量值喊基质增值(QUmiIysCorC或Q-SCOrC)是碱基识别(BascCa1.Iing)出错的概率的整数映射。通常使用的Phred质量:评估公式为:Q-r=-1.×*Og1.,P公式中,p为碱基识别出错的概率.下表给出r碱基质量值与碱基识别出错的概率的对应关系:表I城基质量值与碱基识别出错的概率的对应关系表裱基质值减基根别出错的概率碱基板别精度Q1.O1/1090%Q201/10099%Q301/100099.9%Q1.O1/1000099.99%破基质量值越高表明碱基识别越可靠,准确度越高.比如,对于底基质属值为Q20的碱基识别,100个碱基中有1个会识别出错,以此类推。1.11.3 序质忌控制在进行后续分析之前,首先需要确保所用Reads有足够高的质址,以保证序列组装和后续分析的准确。另外,一般RawData中会有极少部分的RCadS带有测序引物、接头等人工序歹U,需要将其从ReadS中截除。具体测序数据痂量控制如下:(1)截除Rea小中的测序接头以及引物序列:(2)过浦低质域值数据,确保数据演量.1.11.4 序数据产出统计该项目各样品C1.eanData统计见下表:表2样品测序数据评估统计表Samp1.esBMK-IDKeadNumberBaseNumberGCContent%>Q3039-黑暗TO1.25.583,2237.633.523.80255.20%89.69%39-光照T()220,391,7356,088,548,75055.30%89.37%注:SamP1.es:样品信息单样品名称:BMK-1D:百迈客样品分析编号:ReadNumber:C1.eanData中PairYndReadS总数:BaseNumber:C1.eanDaIa总碱基数:GCContent:C1.eanDataGC量,即QCanData中G和C两种碱基占总碱基的百分比:炬Q30:QCanData质址值大于或等于30的碱基所占的百分比。1.1.2 组装结果统计组装共得到14,199条Unigene,Unigene的N50为2,629,组装完整性较高,具体的统计信息见图和表JdqEnNua6cnQEoOA1.ength(nt)1.1.3 测序数据与组装结果的比对统计将各样品的C1.eanData与组装得到的TranSCriPt或Unigcnc库进行序列比对,比对结果统计见表4。比对到TranSCriPt或Unigene的ReadS称为MaPPedReads.MappedReads将用于后续的分析.表4测序数据与组装结果的比对统计表BMK-Ii)C1.eanKeadsMappedReadsMappedKatioTO1.25,583,22320,903,787si.71%T0220.391,73516,700.12281.90%注:BMK-ID:百迈客样品分析编号:C1.eanReads:C1.eanReads数目,以双端计:MappedReads:MappedReads数目,以双端计;MappedRatio:MappedReads在C1.eanReads中所占的比例.1.3 转录组测序文康质量评估1.3.1 11RNA片段化随机性检验11)RNA片段化后的插入片段大小选择,可以理解为从HiRNA序列中独立随机地抽取子序列,如果样本量(mRNA数目越大、打断方式和时间控制得越合适,那么目的RNA每个部分被抽取到的可能性就越接近,即mRNA片段化随机性越高,mRNA上覆盖的RCadS越均匀。通过MaPPedReads在件Unigene上的位置分布,模拟mRN片段化结果,检验nRNA片段化的随机程度,各样品MappedReads在nRNA转录本上的位理分布图如下:图8MaPPedReads在nRNA上的位以分布图1.3.2插入片段长度检脸插入片段长度的离散程度能直接反映出文库制备过程中切胶或陂珠纯化的效果。测序样品的插入片段长度模拟分布图如下:插入片段长度模拟分布图1.3.3 转录组测序数据饱和度检验充足的有效数据是信息分析准确的必耍条件。转录组测序检测到的基因数目与测序数据量成正相关性,即测序数据量越大,检测到的堆因数H越多。但一个物种的塘因数目是有限的,而I1.基因转录具有时间特异性和空间特异性,所以随着测存量的增加,检测到的基因数目会趋于饱和.为了评估数据是否充足,需要杳看随若测序数据批的增加,新检测到的博因是否越来越少或没有,即检测到的基因数目是否趋于饱和。使用各样品的MaPPedReadS对检测到的基因数目的饱和情况进行模拟,绘制曲线图如下:图10转,代组刈序数据饱和改模拟图1.4 Unigene功能注薜使用B1.ASTi21软件将Unigene序列与NR1.21、Swiss-Prot1.1.1.»GO©、COG应、KoGIz1、eggNOG4.51.bKEGG数据库比札使用KQBAS2.0此得到Unigene在KEGG中的KEGGOrtho1.ogy结果,预测完Unigcnc的H基酸序列之后使用HMMER1.1.I1.软件与Pfam1.U1.数据库比对,获得UnigCne的注释信息。NR数据库是NCB1.中的非冗余蛋白质数据库,包含了Swiss-ProtPIR(ProteinInformationResource)、PRF<ProteinResearchFoundation)、PDB(ProteinDataBank)蛋白质数据库及从GenBank和RefSeq的CDS数据翻译过来的蛋白质数据信息SWiSS-Prot数据库是由EB1.(欧洲生物信息学研究所)负贡维护的数据库,包含了仃相关参考文献且经过校对的蛋白质注释信息数据库,可信度很高.CoG(C1.ustei,SofOrtho1.ogousGroups)数据库是对基因产物进行同源分类的数据库,是个较早的识别直系同源基因的数据库,通过对多种生物的蛋白质序列大量比较而来的.KoG(euKaryoticOrtho1.ogousGroups)数据库针对真核生物,基于基因直系同源关系,结合进化关系将来自不同物种的同源基因分为不同的Ortho1.ogoUS簇,目前KOG有4852个分类。来自同一OrthO1.ogOUS的基因具有相同的功能,这样就可以将功能注糅直接继承给同一KOG簇的其他成员。CggNOG(v4.5)数据库包含了直系同源蛋白的功能描述和功能分类,结合了COG、KOG以及更多的蛋白质,它涉及的蛋白序列远超过了CoG和KOG数据库,而J1.它还添加了5228个病毒性蛋白.Pfam(Proteinfami1.y)数据库通过蛋白序列的比对建立了每个家族的氨基酸序列的HMM统计模型,是最全面的蛋白结构域注择的分类系统“蛋白质由一个或多个功能区域构成,这些功能区域叫做结构域(DOmain),它们具有一定序列保守性。不同的结构域赋予蛋白质不同的功能,通过识别蛋白质的结构域序列,可以预测蛋白质的功能。Go(GcncOntoIogy)数据库是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表来全面描述生物体中基因和基因产物的功能属性。该数据库总共仃三大类.分别是分子功能(Mo1.eCUIarFUnC1.ion)、细胞组分(Ce1.IU1.arCOmPOnen1.)和生物学过程(Bio1.ogica1.Process),各自描述了博因产物可能行使的分子功能,以及所处的细胞环境和参与的生物学过程。Go数据库中最电本的概念是节点,或条目(Tenn),每个节点都有一个名称,比如“Ce1.1.”、"Fibrob1.astGrowthFactorReceptorBinding"或者“Signa1.Transduction”,同时有个唯,的编号,形如“GOmnnnnnnZKEGG(KyotoEncyc1.opediaofGenesandGenonies)数据库是系统分析基因产物在细胞中的代谢途径以及这些基因产物功能的数据库。它整合r基因组、化学分子和生化系统等方面的数据,包括代谢通路(PATHwAY)、药物(DRUG)、疾病(D1.SEASE)、博因序列(GENES)及基因组(GENOME)等。利用该数据库有助于把基因及表达信息作为一个整体的网络进行研究。本项目通过选择B1.AST参数E-va1.uc不大于1.c-5和HMMER参数E-va1.uc不大于Ie-10.Jri终获得10.154个有注释信息的Unigeneo基因注糅的统计结果见卜表:表5Unigcnc注释统计表#Anno_Da(ubascAnn。IaIC(1.NUmbCr300<=kngth<1.(三)gth>=1000COG.nnotation43076943304GO-Anno<ation5305182KEGG-Anno1.a1.ion35337202546KOG_Annota1.ion55919154092Pfhm-Annota1.ion7665I3IS5814Swisspro1.Annotation58729014689eggNOG_AnnOIaIkm944717876638nr-Annotatin1.(X)6719536992A1.nno<a(ed1015419887026注:,Annota1.eddaiabases:表示各功能数据库:AnnOIaIed.Number:表示注择到该数据库的Unigene数:300<1.engh<10()0:表示注释到该数据库的Unigene长度大于等于300且小FIO(X)喊施的UnigCnC数:IsgthN100O:表示注释到该数据库的长度大于100O个碱基的UnigCnC数,1.6基因赛达分析1.6.1 UnigCne表达量计算采用BoWtia将测序得到的RCHdS与UnigCnC库进行比对,根据比对结果,结合RSEM进行表达量水平估计。利用FPKM值表示对应Unigcnc的表达丰度。FPKM17(FragmentsPerKi1.obascoftranscriptperMi1.1.ionmappedreads)是每百万Reads中来自比对到某一基因每千碱基长度的Reads数目,是转录组测序数据分析中常用的基因表达水平估算方法。FPKM能消除基因长度和测序量差异对计算基因表达的影响。FPKM计算公式MappedFragments(Mi1.Iions)×Transcript1.ength(kb)如下:CDNAFragmentsPPKM-图14FPKM计算公式公式中,CDNAFragments表示比对到某“转录本上的片段数目,即双示ReadS数目;MappedFragmCntS(Mi1.IiOnS浓示比对到转录本上的片段总数,以IoA6为单位;TranSCriPt1.engIh(kb):转录本长度,以10八3个喊基为单位。1.6.2 样品基因表达量总体分布1.7.1 梯品网相关性“牯将皮尔逊相关系数r(Pearson,SCorre1.ationCoefficient)作为样品间相关性的评估指标220-2越接近1,说明两个样品的相关性越强。对于设立生物学重复的项目,评估生物学重发的相关性对于分析转录组测序数据非常重要。首先,生物学重复的相关性可以检验牛物学实验操作的可重发性:其次,生物学重发的相关性可以评估差异表达基因的可靠性。最后,生物学选豆的相关性可以辅助异常样品的筛杳。该项目任意一对样品的r-2统计如下表:表8样品间相关性统计表samp1.eTO1.T02TO1.I0.8914T020.89M1对每组样品的基因表达量做相关性,相关性图如Corre1.ationP1.otIog1.(XFPKMN)VTO1.Zoi_00wdos>。一1.7.2 差异表达基因母选枪测差异表达基因时,需要根据实际情况选取合适的差异表达分析软件。对于有生物学重更的实验,采用edgeR23进行样品组间的差异表达分析,获得两个条件之间的差异表达基因集:对于没有生物学亚复的实验,则使用CdgCR24进行差异表达分析,获得两个样品之间的差异表达基因集。在差异表达分析过程中采用J'公认有效的Benjamini-Hochberg方法对原有假设检验得到的显著性P值(p-va1.ue)进行校正,并用:终采用校正后的p值,即FDR(Fa1.seDiscovcr>,Rate)作为差异表达基因筛选的关键指标,以降低对大量基因的表达值进行独立的统计假设检验带来的假阳性.在筛选过程中,将FDR小于0.05旦差异倍数FC(Fo1.dChange)大于等于1.5作为筛选标准。其中,FC表示两样品(组)间表达址的比值。MAPtot刖91.7.3 差异表达基因聚类分析对筛选出的差异表达基因做层次聚类分析,将具有相同或相似表达行为的基因进行聚类,用于展示不同实险条件下基因集的差异表达模式.