生物竞赛 生物信息学部分 核酸序列比较ppt课件.ppt
《生物竞赛 生物信息学部分 核酸序列比较ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物竞赛 生物信息学部分 核酸序列比较ppt课件.ppt(43页珍藏版)》请在三一办公上搜索。
1、1,序列比较第一部分,2,1 认识序列,序列(sequence)就是个字符串(string)。s=abcdefghijklmnopqrstuvwxyzsi代表序列s的第i个字符,比如s4=ds=abcde,序列s是序列s的子序列(substring),3,nameCTCCTGACCTCAGGCGATTCGCCCGCCTCGGCCTCCCAAAGTGCTAGGATTACAGGCGTGAGCCACCACGCCCGGCCACACTAACTTTTTAAGAGCCAAGAGTTCGATCGGTAGCGGGAGCGGAGAGCGGACCCCAGAGAGCCCTGAGCAGCCCCACCACCACCGCTG
2、GCCTAGCTACCATCACACCCCGGGAGGAGCCGCAGCTGCCGCAGCCGGCCCCAGTCACCATCACCACAACCTTGAGCAGCGAGGCCGAGACCCAGCAGCCGCCCGCCGCTTGCCGCTCGCCGCCCCCCGCCCTCAGCGCCGGTGACACCACGCCCGGCACTACGGGCAGCGGCACAGGAAACGGTGGCCCGGGAGGCTTCACATCAGCAGCACCTGCCGGCGGGGACAAGAAGGTCATCGCAACGAAGGT核酸序列:由4个不同的字母(碱基)排列组合而成。(DNA序列,RNA序列)FASTA格式:第一行:大
3、于号加名称或其它注释第二行以后:每行60个字母(也有80的,不一定),1 认识序列:核酸序列,4,nameMHHHHHHSSGRENLYFQGKLPEPQFYAEPHTYEEPGRAGRSFTREIEASRIHIEKIIGSGDSGEVCYGRLRVPGQRDVPVAIKALKAGYTERQRRDFLSEASIMGQFDHPNIIRLEGVVTRGRLAMIVTEYMENGSLDTFLRTHDGQFTIMQLVGMLRGVGAGMRYLSDLGYVHRDLAARNVLVDSNLVCKVSDFGLSRVLEDDPDAAXTTTGGKIPIRWTAPEAIAFRTFSSASDVWSFGVVMWEV
4、LAYGERPYWNMTNRDVISSVEEGYRLPAPMGCPHALHQLMLDCWHKDRAQRPRFSQIVSVLDALIRSPESLRATATVS蛋白质序列:由20个不同的字母(氨基酸)排列组合而成。FASTA格式:第一行:大于号加名称或其它注释第二行以后:每行60个字母(也有80的,不一定),1 认识序列:蛋白质序列,5,在麻将连连看中,你需要用眼睛从一推麻将牌中找出一对相同的麻将牌。,2 序列相似性,数据库中的序列相似性搜索,6,对于一个蛋白质或核酸序列,你需要从序列数据库中找到与它相同或相似的序列。不可能再用眼睛去比较每一对序列,因为数据库中有太多序列,甚至用眼睛比较一对序列都
5、是不可能做到的。,BLAST,2 序列相似性,数据库中的序列相似性搜索,7,序列相似性的重要性,相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能,因此对于一个已知序列但未知结构和功能的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构和功能的蛋白质的结构和功能。,相似的序列,相似的结构 相似的功能,2 序列相似性,8,结构相似?功能相似?,序列相似性的重要性,相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能,因此对于一个已知序列但未知结构和功能的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,则可以推测
6、这个未知结构和功能的蛋白质的结构和功能。,2 序列相似性,9,结构相似?功能相似?,序列相似性的重要性,相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能,因此对于一个已知序列但未知结构和功能的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构和功能的蛋白质的结构和功能。,2 序列相似性,10,一致度:如果两个序列(蛋白质或核酸)长度相同,那么它们的一致度定义为他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度的百分数。相似度:如果两个序列(蛋白质或核酸)长度相同,那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数
7、目和占总长度的百分数。问题:哪个残基与哪个残基算作相似答:残基两两相似的量化关系被替换记分矩阵所定义。,序列一致度(identity)与相似度(similarity),2 序列相似性,11,1.等价矩阵(unitary matrix):最简单的替换记分矩阵,其中,相同核苷酸之间的匹配得分为1,不同核苷酸间的替换得分为0。由于不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中较少使用。2.转换-颠换矩阵(transition-transversion matrix):核酸的碱基按照环结构特征被划分为两类,一类是嘌呤(腺嘌呤A、鸟嘌呤G),它们有两个环;另一类是嘧啶(胞嘧啶C、胸腺嘧啶
8、T),它们只有一个环。如果DNA碱基的替换保持环数不变,则成为转换,如A G、C T;如果环数发生变化,则成为颠换,如A C、A T等。在进化过程中,转换发生的频率远比颠换高。为了反映这一情况,通常该矩阵中转换的得分为-1,而颠换的得分为-5。3.BLAST矩阵:经过大量实际比对发现,如果令被比对的两个核苷酸相同时得分为+5,反之为-4,则比对效果较好。这个矩阵广泛地被DNA序列比较所采用。A T C G A T C GA T C GA 1 0 0 0 A 1-5-5-1 A 5-4-4-4 T 0 1 0 0 T-5 1-1-5 T-4 5-4-4C 0 0 1 0 C-5-1 1-5 C-
9、4-4 5-4G 0 0 0 1 G-1-5-5 1 G-4-4-4 5,3 替换记分矩阵,DNA序列的替换记分矩阵,12,1.等价矩阵(unitary matrix):与DNA等价矩阵道理相同,相同氨基酸之间的匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。2.PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比较中最广泛使用的记分方法之一,基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1自乘n
10、次,可以得到PAM-n,即发生了更多次突变。3.BLOSUM矩阵(blocks substitution matrix):BLOSUM矩阵是通过关系较远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似性较高(85%)的序列比对,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。即,BLOSUM矩阵的相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的。和PAM矩阵一样,BLOSUM矩阵也有不同编号,如BLOSUM-80,BLOSUM-62。80代表该矩阵是由一致性80%的序列计算而来,同理,62是指该矩阵由一致性62%的序列计算而来。,3 替换记分矩阵,蛋
11、白质序列的替换记分矩阵,13,1.等价矩阵(unitary matrix):与DNA等价矩阵道理相同,相同氨基酸之间的匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。2.PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一,基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1自乘n次,可以得到PAM-n,即发生了更多次突变。3.BLOSUM矩阵(blocks substit
12、ution matrix):BLOSUM矩阵是通过关系较远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似性较高(85%)的序列比对,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。即,BLOSUM矩阵的相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的。和PAM矩阵一样,BLOSUM矩阵也有不同编号,如BLOSUM-80,BLOSUM-62。80代表该矩阵是由一致性80%的序列计算而来,同理,62是指该矩阵由一致性62%的序列计算而来。,3 替换记分矩阵,蛋白质序列的替换记分矩阵,PAM-250矩阵对角线上的数值为匹配氨基酸的得分;其他位置上,0的得
13、分代表对应氨基酸对为相似氨基酸。,14,1.等价矩阵(unitary matrix):与DNA等价矩阵道理相同,相同氨基酸之间的匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。2.PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一,基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1自乘n次,可以得到PAM-n,即发生了更多次突变。3.BLOSUM矩阵(blocks su
14、bstitution matrix):BLOSUM矩阵是通过关系较远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似性较高(85%)的序列比对,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。即,BLOSUM矩阵的相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的。和PAM矩阵一样,BLOSUM矩阵也有不同编号,如BLOSUM-80,BLOSUM-62。80代表该矩阵是由一致性80%的序列计算而来,同理,62是指该矩阵由一致性62%的序列计算而来。,3 替换记分矩阵,蛋白质序列的替换记分矩阵,15,BLOSUM-62对角线上的数值为匹配氨基酸的得分;其
15、他位置上,0的得分代表对应氨基酸对为相似氨基酸。,3 替换记分矩阵,蛋白质序列比对的替换记分矩阵,16,3 替换记分矩阵,蛋白质序列替换记分矩阵,PAM-?还是 BLOSUM-?BLOSUM-80 BLOSUM-62 BLOSUM-45 PAM-1 PAM-120 PAM-250亲缘关系较近的 亲缘关系较远的序列之间的比对 序列之间的比对对于关系较远的序列之间的比较,由于PAM-250是推算而来,所以其准确度受到一定限制,BLOSUM-45更具优势。对于关系较近的序列之间的比较,用PAM或BLOSUM矩阵做出的比对结果,差别不大。最常用的:BLOSUM-62,17,一致度:如果两个序列(蛋白质
16、或DNA)长度相同,那么它们的一致度定义为他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度的百分数。相似度:如果两个序列(蛋白质或DNA)长度相同,那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。问题:哪个残基与哪个残基算作相似答:残基两两相似的量化关系被替换记分矩阵所定义。,序列一致度(identity)与相似度(similarity),2 序列相似性,序列 1:CLHK序列 2:CIHL,一致度=2/4=50%相似度=3/4=75%,18,序列一致度(identity)与相似度(similarity),2 序列相似性,BLOSUM-62对
17、角线上的数值为匹配氨基酸的得分;其他位置上,0的得分代表对应氨基酸对为相似氨基酸。,19,一致度:如果两个序列(蛋白质或DNA)长度相同,那么它们的一致度定义为他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度的百分数。相似度:如果两个序列(蛋白质或DNA)长度相同,那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。问题:哪个残基与哪个残基算作相似答:残基两两相似的量化关系被替换记分矩阵所定义。,序列一致度(identity)与相似度(similarity),2 序列相似性,序列 1:CLHK序列 2:CIHL,一致度=2/4=50%相似度=3/
18、4=75%,20,一致度:如果两个序列(蛋白质或DNA)长度相同,那么它们的一致度定义为他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度的百分数。相似度:如果两个序列(蛋白质或DNA)长度相同,那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。问题:哪个残基与哪个残基算作相似?答:残基两两相似的量化关系被替换记分矩阵所定义。,序列一致度(identity)与相似度(similarity),2 序列相似性,如果两个序列的长度不同怎么计算一致度与相似度?,seq 1:CLHKAseq 2:CIHL,21,比较两个序列的方法:打点法、序列比对法打点法
19、:最简单的比较两个序列的方法,理论上可以用 来完成。,Seq1:THEFASTCATSeq2:THEFATCAT,T H E F A S T C A TT x x xH xE xF xA x xT x x xC xA x xT x x x,length(seq1)=10length(seq2)=910 x 9=90 次比较,Seq 1,Seq 2,4 序列两两比较:打点法,22,对角线及对角线的平行线代表两条序列中相同的区域,1.THEFA2.TCAT3.AT,Seq1:THEFASTCATSeq2:THEFATCAT,T H E F A S T C A TT x x xH xE xF xA
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物竞赛 生物信息学部分 核酸序列比较ppt课件 生物 竞赛 信息学 部分 核酸 序列 比较 ppt 课件

链接地址:https://www.31ppt.com/p-2129643.html