序列比对基础与BLAST入门.ppt
,序列比对基础与BLAST入门,生物信息学,序列比对基础与BLAST入门,教材 Page 68,第五章 本次课重点讲BLAST的使用 下次理论课对本次课的内容进行总结、补充和深化,上篇:序列比对基础,Your true value depends entirely on what you are compared with.Bob Wells,问题,什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序,一、序列比对(alignment)的概念、目的,比对(联配)将两条或多条(核苷酸或氨基酸)序列排列在一起,通过一定的算法找出序列之间最大相似性匹配的过程。,ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT,一、序列比对(alignment)的概念、目的,序列比对的主要目的在于阐明序列之间的同源性关系,以及从已知序列预测新序列的结构和功能。多序列比对还可以确定一群分子之间共享的结构域(domain)或模体(motif)。序列比对基于一种生物学推断(进化论):相似性 同源性 相似的结构和功能(问题:相似性等于同源性吗?),相似性与同源性的关系,相似性(similarity)是指两个序列之间的相关程度。比如说,A序列和B序列的相似性是85。这是个量化的关系。同源性(homology):是指两个序列具有共同的祖先,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为85则是不科学的。,相似性与同源性的关系,注意:序列相似不一定同源(相似可能是偶然的)序列不相似不一定不同源(高级结构相似)例如:肌红蛋白与球蛋白是同源蛋白,两者的三维结构非常相似,但氨基酸序列的相似性不到40%。,肌红蛋白,球蛋白,相似性与同源性的关系,总结:一般来说序列间的相似性越高的话,它们是同源序列的可能性就越大,所以经常可以通过序列的相似性来推测序列是否同源(统计学推断)。根据经验法则,序列长度大于100(bp或aa)时,蛋白质序列相似性程度需大于25%,核酸序列相似性程度需大于70%,才能判断同源性。,同源序列的两种形式,直系同源(Orthologs):在物种形成、分化过程中,由共同祖先基因衍生而来的同源基因(或蛋白)。直系同源物存在于不同物种间,如:人和鼠的肌红蛋白。旁系同源(Paralogs):在同一物种内,由于基因复制而产生的同源基因(或蛋白)。如:人类的1球蛋白和2球蛋白,人类的球蛋白和球蛋白。,旁系同源,直系同源,同源序列的两种形式,人球蛋白与人球蛋白?人球蛋白与鼠球蛋白?人球蛋白与鼠球蛋白?同源序列的两种形式代表了两个不同的进化事件。用于分子进化分析的序列必须是直系同源的,才能真实反映进化过程。,A group of myoglobin orthologs(直系同源),二、序列比对的形式,双序列比对(pairwise alignment)简单的双序列比对 序列对库的双序列比对多重序列的比对(Multiple sequence alignment)3条或3条以上的序列进行比对。主要用于构建系统发育树和蛋白质结构域研究等。,BLAST,三、序列比对的基本原理,提出比对要考虑的问题 专业算法(构建打分矩阵)数学编程 计算机搜索数据库 计算机给出比对结果(比对分数、显著性检验),打分,序列比对要考虑的问题 1,1、如何排列比较?(寻求序列之间最大相似性匹配!)我们不能够简单的将两个序列头尾对应的排比,而是对各种可能的排比方式都进行比较以找出最佳的比对结果。,ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT,ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT,序列比对要考虑的问题 2,2、是否存在插入和缺失?(gap,空位罚分的问题 教材Page71)连字号(-)标记插入或缺失的事件。,-AT-GCAT-GCATGC-ATGCATATATATATAT-ATATAT-GCATGCATGCATGCATGC|CGATCG-ATCG-AT-CG-ATATATATATATGCATATATATGCATGCATGCATGCAT,ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT,序列比对要考虑的问题 3,3、是否存在氨基酸的保守性替换?(相似性打分的问题)通常在某些位点上有一些氨基酸被另外一些理化特性相似的氨基酸所代替,这种突变可称为保守性替换。保守性替换一般不会影响蛋白质的结构和功能。与核苷酸序列比对不同,氨基酸序列比对不仅要考虑残基是否相同,还要考虑残基是否相似以及相似的不同程度。,LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE|.|:|:ALALTCGAQALIVT.QTMKGLDIQKVAGTWYSLAMAASD,1.极性中性氨基酸,2.碱性氨基酸,氨基酸分类,glycine 甘氨酸GlyGalanine 丙氨酸AlaAvaline 缬氨酸ValVleucine 亮氨酸LeuLisoleucine 异亮氨酸 IleIphenylalanine 苯丙氨酸PheFproline 脯氨酸ProPtryptophan 色氨酸TrpWserine 丝氨酸SerStyrosine 酪氨酸TyrYcysteine 半胱氨酸CysCmethionine 甲硫氨酸MetMasparagine 天冬酰氨 Asn Nglutarmine 谷氨酰胺Gln Qthreonine 苏氨酸ThrTaspartic acid 天冬氨酸Asp Dglutarmic acid 谷氨酸Glu Earginine 精氨酸 ArgRhistidine 组氨酸HisHlysine 赖氨酸LysK,非极性疏水性氨基酸,极性中性氨基酸,酸性氨基酸,碱性氨基酸,(芳香族氨基酸F、W、Y),(含硫氨基酸C、M),序列比对要考虑的问题 4,4、全局比对还是局部比对?全局比对(global alignment)对两条核苷酸或氨基酸序列的全长进行比对。局部比对(local alignment)对两条核苷酸或氨基酸序列的一部分进行比对。,TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR VQENFDVNKYLGTWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV,LPKLAGTWHSMA VNKYLGTWYEIE,局部比对通常比全局比对更有意义因为它能发现序列中的保守区域,序列比对要考虑的问题,综上所述,序列比对并非简单的事情,比对之前需考虑诸多问题。这些问题的解决依赖于数学及计算机科学的帮助。,三、序列比对的基本原理,提出比对要考虑的问题 专业算法(构建打分矩阵)数学编程 计算机搜索数据库 计算机给出比对结果(比对分数、显著性检验),打分,问题,什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序,四、序列比对(alignment)的应用,序列比对的主要目的在于阐明序列之间的同源性关系,以及从已知序列预测新序列的结构和功能。评价实验结果,为实验提供新思路指导进一步的实验设计(鉴定一条序列的身份,预测其功能)寻找和鉴定新基因的重要手段蛋白质结构预测和分子设计的基础(同源建模)研究生物进化和种属分类的基本方法(系统发生分析)比较基因组分析,问题,什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序,五、局部序列比对的工具,FASTABLAST,1.简单的双序列比对2.序列对库的双序列比对,今天你BLAST了吗?,一般认为,BLAST运行速度快,对蛋白质序列的搜寻更为有效,FASTA速度较慢,对核酸序列更为敏感。,下篇:BLAST入门,NCBI-BLAST,Basic Local Alignment Search Tool 基本局部比对搜索工具(1990)The BLAST algorithm is fast,accurate,and web-accessible.(教材 Page 74),一、BLAST搜索的基本步骤,1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数,NCBI-Blast,Popular Resources(常用资源),Step1:选择一个BLAST搜索类型,Step1:选择一个BLAST搜索类型,Step1:选择一个BLAST搜索类型,Nucleotide BLAST(blastn)1、确认一条DNA序列的身份 2、寻找与查询序列相似的DNA序列,1、,Step1:选择一个BLAST搜索类型,Protein BLAST(blastp)1、确认一条蛋白质序列的身份 2、寻找与查询序列相似的蛋白质序列,2、,Step1:选择一个BLAST搜索类型,Translated nucleotide query vs.protein database(blastx)查询一条DNA序列是否可能编码某种蛋白质,3、,Step1:选择一个BLAST搜索类型,Protein query vs.translated nucleotide database(tblastn)查询一个DNA数据库中是否存在某些DNA序列,它们编码与查询序列相同或相似的蛋白。,4、,Step1:选择一个BLAST搜索类型,Translated nucleotide query vs.translated nucleotide database(tblastx)查询一个DNA数据库中是否存在某些DNA序列,它们与查询序列编码相同或相似的蛋白。,5、,Step1:选择一个BLAST搜索类型,Step1:选择一个BLAST搜索类型,Align two sequences(bl2seq)简单的两条序列的比对,6、,Step1:选择一个BLAST搜索类型,blastn(Nucleotide-nucleotide BLAST)blastp(Protein-protein BLAST)blastx(Translated query vs.protein database)tblastn(Protein query vs.translated database)tblastx(Translated query vs.translated database)bl2seq(Align two sequences),Step1:选择一个BLAST搜索类型,ProgramInputDatabase 1blastnDNA DNA 1blastpprotein protein 6blastxDNA protein 6tblastnprotein DNA 36tblastxDNA DNA,DNA 可能编码六种蛋白质,5 CAT CAA 5 ATC AAC 5 TCA ACT,5 GTG GGT 5 TGG GTA 5 GGG TAG,5 CATCAACTACAA.AAACCTACCCAC 33 GTAGTTGATGTT.TTTGGATGGGTG 5,Step1:选择一个BLAST搜索类型,问题:为什么要将DNA序列翻译成蛋白质序列后进行比对?蛋白质序列比对能提供更多的信息,较之DNA序列比对,更能发现序列间的同源关系。1.密码子的简并性决定了蛋白质序列比对更符合实际情况;2.氨基酸的打分系统比碱基的复杂,因此其比对更为灵敏;3.蛋白质比DNA进化慢,也就是说DNA序列变化较快,蛋白 质序列变化较慢,可用于远源关系序列的比较研究;4.蛋白质序列的长度比相应的DNA序列要短许多,蛋白质序 列数据库比DNA序列数据库小得多,这样随机序列的干扰 就少。,Step1:选择一个BLAST搜索类型,1、Enter QuerySequence,2、Choose Search Set,3、Program Selection,一、BLAST搜索的基本步骤,1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数,Step2:输入你要查询的序列,在搜索框中复制粘贴一条DNA或蛋白质序列复制粘贴一条FASTA格式的DNA或蛋白质序列输入查询序列的索引号(accession number)或gi号 注意:当你输入的是DNA序列时,BLAST将自 动对两条互补链都进行搜索。,Step2:输入你要查询的序列,The sequence you give to blastp is the query sequence.Sequences similar to the query that blastp returns are the hits or matches.The database you search is the target database.,复制粘贴一条序列,复制粘贴一条FASTA格式序列,直接输入查询序列的索引号,Query subrange:From_To_设置查询序列的比对范围,Organism限定物种,Entrez Query使用entrez的限定词限制搜索范围,一、BLAST搜索的基本步骤,1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数(搜索参数、格式参数),Step2:选择要搜索的数据库(protein blast),Choose database(默认为:nr),BLAST 蛋白质序列数据库(6 种),BLAST 蛋白质序列数据库(6 种),nr:非冗余GenBank编码序列+RefSeq+PDB+SwissProt+PIR+PRFrefseq:NCBI的蛋白质参考序列swissprot:swissprot最近发布的蛋白质序列pat:专利序列pdb:pdb的蛋白质三维结构数据库env_nr:非冗余的环境采样编码序列,Step2:选择要搜索的数据库(nucleotide blast),通常选择Others(nr etc.),默认,BLAST 核酸序列数据库(14 种),nr:所有GenBank+EMBL+DDBJ+PDB refseq_mrna:NCBI的mRNA参考序列。refseq_genomic:NCBI的基因组参考序列。est:GenBank+EMBL+DDBJ的EST序列。est_others:人类和小鼠以外的EST序列。gss:基因组调查序列。,BLAST 核酸序列数据库(14 种),Htgs:高通量基因组测序序列。pat:核酸专利序列。Pdb:来自pdb的蛋白质三维结构序列数据alu_repeats:Alu重复序列。dbsts:GenBank+EMBL+DDBJ+PDB的STS序列。chromosome:完整的基因组和染色体序列。wgs:Whole Genome Shotgun,全基因组鸟枪法测序片段。env_nt:环境采样序列。,一、BLAST搜索的基本步骤,1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库 选择一个BLAST程序(nucleotide/protein blast)4.选择可选参数(搜索参数、格式参数),选择一个BLAST程序(nucleotide blast),通常选择 blastn(默认为:megablast),选择一个BLAST程序(protein blast),默认为:blastp,一、BLAST 搜索的基本步骤,1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数,Step4:选择可选的搜索参数,Algorithm parameters算法参数,General Parameters设置一般参数,Scoring Parameters设置打分参数,Filters设置过滤参数,1、,2、,3、,Step4:选择可选的搜索参数,1、Max target sequences(默认为:100),Step4:选择可选的搜索参数,2、Short queries(默认为:),Step4:选择可选的搜索参数,3、Expect 期望值(默认为:10),问题:期望值(E 值)是什么意思?,E值:是BLAST的一个非常重要的统计学指标。理解E值的前提:1、BLAST比对结果中,得分高、非常相似的两条序列 有可能是随机造成的,无生物学意义(不同源),但被BLAST报告出来。反之,得分低、不相似的两条序列也可能不是随机的,有生物学意义(同源),但被BLAST漏报。2、这样的话,BLAST输出的比对结果就会出现两种疏漏,假阳性(上述前一种情况)和假阴性(上述后一种情况)。且两种情况此消彼涨。即,当我们增加BLAST输出的搜索结果时,假阴性会减少(但假阳性增加);反之亦然。,问题:期望值(E 值)是什么意思?,理解E 值的前提:3、显然,BLAST在输出比对的结果时,需要在 减少假阳性(尽可能减少随机比对的输出)与减 少假阴性(尽可能不要漏报)之间寻找一个平 衡。4、E值正是用来解决这一平衡的统计学指标。,问题:期望值(E 值)是什么意思?,E值的定义:一次搜索中(特定的数据库、打分矩阵及相关参数),期望发生的比对得分等于或大于某一分数的随机比对数目。E10,我们期望在BLAST搜索结果中,比对得分等于或大于某一分数,属于随机匹配的比对数目为10个。E1 E0.01 E值越小,我们期望的,属于随机匹配的比对数目就会越少。,问题:期望值(E 值)是什么意思?,总结:从一次BLAST实践来讲,如果我们将E值调低,则BLAST返回的搜索结果就会变少(假阳性减少,但假阴性增加);反之,将E值调高,则返回的搜索结果就会增多(假阴性减少,但假阳性增加)。BLAST默认E值为10,也有文献建议通常情况下将E值设为1是一个比较好的平衡点。(我们将在BLAST结果判读中继续讨论E值的含义),Step4:选择可选的搜索参数,4、Word size 字段长度 blastp默认为:3 blastn默认为:11,5、Matrix 打分矩阵:blastp 提供5种打分矩阵PAM30、PAM70、BLOSUM45、BLOSUM62、BLOSUM80(默认为BLOSUM62)blastn无此选项,Step 4:选择可选的搜索参数,问题:为什么蛋白质序列比对需要我们选择打分矩阵?(参见教材 Page 70)当我们选择不同的打分矩阵时,BLAST的搜索结果会发生什么样的变化?(BLAST实习),6、Gap Costs 空位罚分blastp 默认为:空位开放11,空位延伸1,Step 4:选择可选的搜索参数,问题:为什么要在序列比对时引入空位,同时又要罚分?(教材 Page 71)基因在进化过程中往往会产生碱基的插入或缺失。这样,在进行序列比对时,为了更好地反映序列的相似性,也就必须考虑引入空位并进行罚分以控制空位插入的合理性。,7、过滤选项blastp过滤低复杂度区域,blastn过滤低复杂度区域及重复片段,问题:为什么要设置过滤选项?低复杂度区域、重复片段是什么意思?,低复杂度区域(Low Complexity Regions,LCR):是核酸和蛋白质序列中具有某种组成偏好的区域。如DNA序列中含大量aaaaaaaaaa、tttttttttt、或atatatatat的区域,蛋白质序列中富含某一种氨基酸如脯氨酸(PPPPP)的区域。低复杂度区域很常见,对序列比对会产生不良影响。因为低复杂度区域的碱基或氨基酸残基对评分贡献正分,使配对的显著性评分过高,从而检出大量的假阳性结果。低复杂度区域也可能是信号序列、疏水骨架、跨膜结构域等有用信息,因此,有时也应考虑关掉过滤功能。,重复片段(Repeat segment):是DNA序列中某些碱基组成在序列中重复出现的片段。如人类的Alu重复序列。重复片段在数据库序列中也很普遍,对序列比对的影响与低复杂度区域相似。GenBank专门设立了alu_repeats数据库,可用于判断查询序列中是否含有Alu重复序列。blastn提供了人类、啮齿类动物等10种生物的重复序列过滤功能。注意:BLAST的过滤功能过滤的是查询序列而不是数据库。,问题:为什么要设置过滤选项?低复杂度区域、重复片段是什么意思?,Step 4:选择可选的搜索参数,Filter(Low complexity regions,Repeats)过滤选项。Blastn 过滤低复杂度区域及重复片段;blastp 过滤低复杂度区域。Expect 期望值。默认为10。Matrix 打分矩阵。blastp 提供5种打分矩阵,默认为 BLOSUM62;blastn无此选项。,一、BLAST 搜索的基本步骤,1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数 Then click“BLAST”,二、BLAST 搜索结果及其判读,我们以一个蛋白质的blastp查询为例:1.选择blastp搜索类型 2.输入一个查询号NP_006735 3.默认选择nr数据库 4.默认可选参数,1、进入新页面:Formatting Request,2、进入新页面:Formatting Results,该次查询任务的RID号,自动搜索保守结构域,Conserved Domains(保守结构域),2、进入新页面:Formatting Results,该次查询任务的RID号,自动搜索保守结构域,3、BLAST搜索结果页面,1、顶部:描述项,2、体部1:比对结果彩图,3、体部2:比对结果列表,4、体部3:两两比对结果,4、BLAST搜索结果页面(顶部:描述项),1.搜索类型和程序版本,2.数据库及其大小,5、BLAST搜索结果页面(体部1:比对结果彩图),6、BLAST搜索结果页面(体部2:比对结果列表),比对信息(从左往右阅读):1、序列的标识号及简单的描述(序列名称)。2、Score(Bits)比特分,由原始分数转化而来,便于比较。3、E Value,E值。在本次搜索中(特定的数据库、打分矩阵及相关参数),比对得分等于或大于414分的随机比对数目为110-114(1e-114)。4、相关链接。U表示UniGene,G表示Gene。,E 值与P 值的关系,EP100.9999546050.9932620520.8646647210.632120560.10.09516258(about 0.1)0.050.04877058(about 0.05)0.0010.00099950(about 0.001)0.00010.0001000,当E值0.1时,EP。,E Value(E值)与比对结果的判读:在本次搜索中,比对得分等于或大于414分的随机比对数目为110-114(1e-114)。在本次搜索中,比对得分等于或大于414分属于随机比对的概率为110-114(1e-114)。该序列与查询序列属于随机匹配的概率为110-114。该序列与查询序列不可能是随机匹配。该序列与查询序列极可能是同源序列。E值是判断两条序列是否同源的重要统计学指标,7、BLAST 搜索结果页面(体部2:比对结果列表最下端),在设置搜索参数时,若E 10,则BLAST搜索结果只提交E 10的比对序列。E 100?E 1?,比对得分与E值是一种反向的关系一个高分对应着一个低的E值分数越高,E值越低,属于随机匹配的可能性越小,8、BLAST搜索结果页面(体部3:两两比对结果),两两比对结果的描述:Score=248 bits(633)Expect=1e-64Identities=112/189(59%)一致性百分比Positives=146/189(77%)正性(相似性)百分 比Gaps=1/189,比对结果的判读(统计学经验专业知识),E值:E110-4,E(0.05/数据库的序列总数)。比 如:E(0.05/500万)110-8 参考E值:blastn:E110-6;blastp:E110-3经验法则(针对蛋白质序列):如果两个序列的长度都大于100,在适当地加入空位之后,它们配对的一致性达到25%以上,则两个序列相关;(DNA:一致性达到70%以上)如果配对的一致性小于15%,则不管两个序列的长度如何,它们都不可能相关;如果两个序列的一致性在15%25%之间,它们可能是相关的也可能不相关(模糊区)。专业知识,比对结果的判读:Score=248 bits(633)Expect=1e-64Identities=112/189(59%)一致性百分比Positives=146/189(77%)正性(相似性)百分比Gaps=1/189 该序列与查询序列极可能是同源序列。,9、BLAST搜索结果页面(底部:相关参数的总结),数据库类型及规模,打分矩阵及空位罚分,五、局部序列比对的工具,BLAST,1.简单的双序列比对2.序列对库的双序列比对,Choosing two sequences is a bit likearranging a boxing match between two opponents:The idea is to get the most exciting fight.,Align two sequences(bl2seq),Align two sequences(bl2seq)简单的两条序列的比对,Sequence 1,Sequence 2,点矩阵作图(点阵图),Score=250 bits(130)Expect=9e-63Identities=240/295(81%),Half day on the web,half month in the lab.,saves you,-Alan Bleasby,