序列比对基础与BLAST入门.ppt
《序列比对基础与BLAST入门.ppt》由会员分享,可在线阅读,更多相关《序列比对基础与BLAST入门.ppt(116页珍藏版)》请在三一办公上搜索。
1、,序列比对基础与BLAST入门,生物信息学,序列比对基础与BLAST入门,教材 Page 68,第五章 本次课重点讲BLAST的使用 下次理论课对本次课的内容进行总结、补充和深化,上篇:序列比对基础,Your true value depends entirely on what you are compared with.Bob Wells,问题,什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序,一、序列比对(alignment)的概念、目的,比对(联配)将两条或多条(核苷酸或氨基酸)序列排列在一起,通过一定的算法找出序列之间最大相似性匹配的过程
2、。,ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT,一、序列比对(alignment)的概念、目的,序列比对的主要目的在于阐明序列之间的同源性关系,以及从已知序列预测新序列的结构和功能。多序列比对还可以确定一群分子之间共享的结构域(domain)或模体(motif)。序列比对基于一种生物学推断(进化论):相似性 同源性 相似的结构和功能(问题:相似性等于同源性吗?),相似性与同源性的关系,相似性(similarity)是指两个序列之
3、间的相关程度。比如说,A序列和B序列的相似性是85。这是个量化的关系。同源性(homology):是指两个序列具有共同的祖先,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为85则是不科学的。,相似性与同源性的关系,注意:序列相似不一定同源(相似可能是偶然的)序列不相似不一定不同源(高级结构相似)例如:肌红蛋白与球蛋白是同源蛋白,两者的三维结构非常相似,但氨基酸序列的相似性不到40%。,肌红蛋白,球蛋白,相似性与同源性的关系,总结:一般来说序列间的相似性越高的话,它们是同源序列的可能性就越大,所以经常可以通过序列的相似性来推测序列是否同源(统计学
4、推断)。根据经验法则,序列长度大于100(bp或aa)时,蛋白质序列相似性程度需大于25%,核酸序列相似性程度需大于70%,才能判断同源性。,同源序列的两种形式,直系同源(Orthologs):在物种形成、分化过程中,由共同祖先基因衍生而来的同源基因(或蛋白)。直系同源物存在于不同物种间,如:人和鼠的肌红蛋白。旁系同源(Paralogs):在同一物种内,由于基因复制而产生的同源基因(或蛋白)。如:人类的1球蛋白和2球蛋白,人类的球蛋白和球蛋白。,旁系同源,直系同源,同源序列的两种形式,人球蛋白与人球蛋白?人球蛋白与鼠球蛋白?人球蛋白与鼠球蛋白?同源序列的两种形式代表了两个不同的进化事件。用于分
5、子进化分析的序列必须是直系同源的,才能真实反映进化过程。,A group of myoglobin orthologs(直系同源),二、序列比对的形式,双序列比对(pairwise alignment)简单的双序列比对 序列对库的双序列比对多重序列的比对(Multiple sequence alignment)3条或3条以上的序列进行比对。主要用于构建系统发育树和蛋白质结构域研究等。,BLAST,三、序列比对的基本原理,提出比对要考虑的问题 专业算法(构建打分矩阵)数学编程 计算机搜索数据库 计算机给出比对结果(比对分数、显著性检验),打分,序列比对要考虑的问题 1,1、如何排列比较?(寻求序
6、列之间最大相似性匹配!)我们不能够简单的将两个序列头尾对应的排比,而是对各种可能的排比方式都进行比较以找出最佳的比对结果。,ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT,ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT,序列比对要考虑的问题 2,2、是否存在插入和缺失?(
7、gap,空位罚分的问题 教材Page71)连字号(-)标记插入或缺失的事件。,-AT-GCAT-GCATGC-ATGCATATATATATAT-ATATAT-GCATGCATGCATGCATGC|CGATCG-ATCG-AT-CG-ATATATATATATGCATATATATGCATGCATGCATGCAT,ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT,序列比对要考虑的问题 3,3、是否存在氨基酸的保守性替换?(相似性打分的问题)
8、通常在某些位点上有一些氨基酸被另外一些理化特性相似的氨基酸所代替,这种突变可称为保守性替换。保守性替换一般不会影响蛋白质的结构和功能。与核苷酸序列比对不同,氨基酸序列比对不仅要考虑残基是否相同,还要考虑残基是否相似以及相似的不同程度。,LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE|.|:|:ALALTCGAQALIVT.QTMKGLDIQKVAGTWYSLAMAASD,1.极性中性氨基酸,2.碱性氨基酸,氨基酸分类,glycine 甘氨酸GlyGalanine 丙氨酸AlaAvaline 缬氨酸ValVleucine 亮氨酸LeuLisoleucine 异亮
9、氨酸 IleIphenylalanine 苯丙氨酸PheFproline 脯氨酸ProPtryptophan 色氨酸TrpWserine 丝氨酸SerStyrosine 酪氨酸TyrYcysteine 半胱氨酸CysCmethionine 甲硫氨酸MetMasparagine 天冬酰氨 Asn Nglutarmine 谷氨酰胺Gln Qthreonine 苏氨酸ThrTaspartic acid 天冬氨酸Asp Dglutarmic acid 谷氨酸Glu Earginine 精氨酸 ArgRhistidine 组氨酸HisHlysine 赖氨酸LysK,非极性疏水性氨基酸,极性中性氨基酸,酸
10、性氨基酸,碱性氨基酸,(芳香族氨基酸F、W、Y),(含硫氨基酸C、M),序列比对要考虑的问题 4,4、全局比对还是局部比对?全局比对(global alignment)对两条核苷酸或氨基酸序列的全长进行比对。局部比对(local alignment)对两条核苷酸或氨基酸序列的一部分进行比对。,TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR VQENFDVNKYLGTWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV,LPKLAGTWHSMA VNKYLGTWYEIE,局部比对通常比全局比对更有意义因为它能发现序列中的
11、保守区域,序列比对要考虑的问题,综上所述,序列比对并非简单的事情,比对之前需考虑诸多问题。这些问题的解决依赖于数学及计算机科学的帮助。,三、序列比对的基本原理,提出比对要考虑的问题 专业算法(构建打分矩阵)数学编程 计算机搜索数据库 计算机给出比对结果(比对分数、显著性检验),打分,问题,什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序,四、序列比对(alignment)的应用,序列比对的主要目的在于阐明序列之间的同源性关系,以及从已知序列预测新序列的结构和功能。评价实验结果,为实验提供新思路指导进一步的实验设计(鉴定一条序列的身份,预测其功能)寻
12、找和鉴定新基因的重要手段蛋白质结构预测和分子设计的基础(同源建模)研究生物进化和种属分类的基本方法(系统发生分析)比较基因组分析,问题,什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序,五、局部序列比对的工具,FASTABLAST,1.简单的双序列比对2.序列对库的双序列比对,今天你BLAST了吗?,一般认为,BLAST运行速度快,对蛋白质序列的搜寻更为有效,FASTA速度较慢,对核酸序列更为敏感。,下篇:BLAST入门,NCBI-BLAST,Basic Local Alignment Search Tool 基本局部比对搜索工具(1990)The
13、 BLAST algorithm is fast,accurate,and web-accessible.(教材 Page 74),一、BLAST搜索的基本步骤,1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数,NCBI-Blast,Popular Resources(常用资源),Step1:选择一个BLAST搜索类型,Step1:选择一个BLAST搜索类型,Step1:选择一个BLAST搜索类型,Nucleotide BLAST(blastn)1、确认一条DNA序列的身份 2、寻找与查询序列相似的DNA序列,1、,Step1:选择一个BLAST搜索类
14、型,Protein BLAST(blastp)1、确认一条蛋白质序列的身份 2、寻找与查询序列相似的蛋白质序列,2、,Step1:选择一个BLAST搜索类型,Translated nucleotide query vs.protein database(blastx)查询一条DNA序列是否可能编码某种蛋白质,3、,Step1:选择一个BLAST搜索类型,Protein query vs.translated nucleotide database(tblastn)查询一个DNA数据库中是否存在某些DNA序列,它们编码与查询序列相同或相似的蛋白。,4、,Step1:选择一个BLAST搜索类型,T
15、ranslated nucleotide query vs.translated nucleotide database(tblastx)查询一个DNA数据库中是否存在某些DNA序列,它们与查询序列编码相同或相似的蛋白。,5、,Step1:选择一个BLAST搜索类型,Step1:选择一个BLAST搜索类型,Align two sequences(bl2seq)简单的两条序列的比对,6、,Step1:选择一个BLAST搜索类型,blastn(Nucleotide-nucleotide BLAST)blastp(Protein-protein BLAST)blastx(Translated que
16、ry vs.protein database)tblastn(Protein query vs.translated database)tblastx(Translated query vs.translated database)bl2seq(Align two sequences),Step1:选择一个BLAST搜索类型,ProgramInputDatabase 1blastnDNA DNA 1blastpprotein protein 6blastxDNA protein 6tblastnprotein DNA 36tblastxDNA DNA,DNA 可能编码六种蛋白质,5 CAT C
17、AA 5 ATC AAC 5 TCA ACT,5 GTG GGT 5 TGG GTA 5 GGG TAG,5 CATCAACTACAA.AAACCTACCCAC 33 GTAGTTGATGTT.TTTGGATGGGTG 5,Step1:选择一个BLAST搜索类型,问题:为什么要将DNA序列翻译成蛋白质序列后进行比对?蛋白质序列比对能提供更多的信息,较之DNA序列比对,更能发现序列间的同源关系。1.密码子的简并性决定了蛋白质序列比对更符合实际情况;2.氨基酸的打分系统比碱基的复杂,因此其比对更为灵敏;3.蛋白质比DNA进化慢,也就是说DNA序列变化较快,蛋白 质序列变化较慢,可用于远源关系序列的
18、比较研究;4.蛋白质序列的长度比相应的DNA序列要短许多,蛋白质序 列数据库比DNA序列数据库小得多,这样随机序列的干扰 就少。,Step1:选择一个BLAST搜索类型,1、Enter QuerySequence,2、Choose Search Set,3、Program Selection,一、BLAST搜索的基本步骤,1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数,Step2:输入你要查询的序列,在搜索框中复制粘贴一条DNA或蛋白质序列复制粘贴一条FASTA格式的DNA或蛋白质序列输入查询序列的索引号(accession number)或gi号
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列 基础 BLAST 入门
链接地址:https://www.31ppt.com/p-6416035.html