序列的同源比较及分子系统学和分子进化分析.ppt
《序列的同源比较及分子系统学和分子进化分析.ppt》由会员分享,可在线阅读,更多相关《序列的同源比较及分子系统学和分子进化分析.ppt(54页珍藏版)》请在三一办公上搜索。
1、2023/10/28,1,第四章序列的同源比较及分子系统学和分子进化分析,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,2023/10/28,2,主要内容,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,第一节、序列相似性比较,第二节、系统发育分析,2023/10/28,3,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,第一节、序列相似性比较,一、序列相似性比较简介二、序列相似性比较基础知识三、两个序列相似性比较方法四、两个序列相似性比较软件与操作五、多个序列相似性比较软件与操作,2023/10/28,4,生物信息学,
2、第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,一、序列相似性比较简介,1、序列比较的根本任务是:发现序列之间的相似性辨别序列之间的差异2、目的:相似序列 相似的结构,相似的功能 判别序列之间的同源性推测序列之间的进化关系,2023/10/28,5,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,3、序列比较的理论基础:进化学说,一、序列相似性比较简介,进化分歧进化趋同直向同源(orthologous):不同种属的同源序列,是基因复制的结果。如:血红素和血红素。共生同源(paralogous):同一种属的同源序列,是物种行成的结果。如:人和鼠的血红素。,20
3、23/10/28,6,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,4、序列比较的基本操作是:比对(align),是指这两条序列中各个字符的一种一一对应关系,或字符对比排列。序列的比对是一种关于序列相似性的定性描述,它反映在什么部位两条序列相似,在什么部位两条序列存在差别。最优比对揭示两条序列的最大相似程度,指出序列之间的根本差异。,一、序列相似性比较简介,2023/10/28,7,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,(1)假设有两条长度相近的、来自同一个字母表的序列,它们之间非常相似,仅仅是有一些细微的差别,例如字符的插入、字符的
4、删除和字符替换,要求找出这两条序列的差别。这种操作实际应用比较多,例如,有两个实验室同时测定某个基因的DNA序列,其结果可能不一样,需要通过序列比较来比较实验结果。,5、序列比较可以分为四种基本情况,(2)假设有两条序列,要求判断是否有一条序列的前缀与另一条序列的后缀相似,如果是,则分别取出前缀和后缀。该操作常用于大规模DNA测序中序列片段的组装。,一、序列相似性比较简介,2023/10/28,8,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,(3)假设有两条序列,要求判断其中的一条序列是否是另一条序列的子序列。这种操作常用于搜索特定的序列模式。,(4)假设有两条序列
5、,要求判断这两条序列中是否有非常相似的子序列。这种操作可用于分析保守序列。,一、序列相似性比较简介,2023/10/28,9,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基础知识,1、字符串的操作2、编辑距离3、打分矩阵,2023/10/28,10,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基础知识,1、字符串的操作,特定的符号 代表字母表 A*代表由字母表A中字符所形成的一系列有限长度序列或字符串或序列的集合 a、b、c代表单独的字符 s、t、u、v代表A*中的序列|s|代表序列s的长度,2023/
6、10/28,11,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基础知识,1、字符串的操作,为了说明序列s子序列和s中单个字符,在s中各字符之间用数字标明分割边界例如,设s=ACCACGTA,则s可表示为 0A1C2C3A4C5G6T7A8,2023/10/28,12,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基础知识,1、字符串的操作,S的子序列与子串S的子序列:选取s中的某些字符(或删除s中的某些字符)而形成s的子序列 例如:TTT 是 ATATAT的子序列。S的子串:是由s中相继的字符所组成。例如
7、:TAC是AGTACA的子串,但不是TTGAC的子串(是子序列)。子串是子序列 子序列不一定是子串,2023/10/28,13,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基础知识,2、编辑距离,GCATGACGAATCAG TATGACAAACAGC,GCATGACGAATCAG TATGAC-AAACAGC,定性的描述定量的数值相似度距离,2023/10/28,14,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基础知识,2、编辑距离,两条序列的相似程度的定量计算相似度,它是两个序列的函数,其值越大,
8、表示两个序列越相似 两个序列之间的距离。距离越大,则两个序列的相似度就越小,对于两条长度相等的序列,海明距离等于对应位字符不同的个数。,使用距离不够灵活:序列长度可能不同;两条序列中各位置上的字符并一定是真正的对应关系。,2023/10/28,15,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基础知识,2、编辑距离,字符编辑操作(Edit Operation),字符编辑操作可将一个序列转化为一个新序列 Match(a,a)字符匹配;Delete(a,-)从第一条序列删除一个字符,或在第二条序 列相应的位置插入空白字符;Replace(a,b)以第二
9、条序列中的字符b 替换第一条序列 中的字符a,ab;Insert(-,b)在第一条序列插入空位字符,或删除第二条 序列中的对应字符b。,2023/10/28,16,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基础知识,2、编辑距离,ACCGACAATATGCATA ATAGGTATAACAGTCA,ACCGACAATATGCATA ACTGACAATATGGATA,第二条序列头尾颠倒,第二条序列替换成互补碱基,2023/10/28,17,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基础知识,2、编辑距离
10、,2023/10/28,18,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基础知识,3、打分矩阵,在打分矩阵中,详细地列出各种字符替换的得分,从而使得计算序列之间的相似度更为合理。在比较蛋白质时,我们可以用打分矩阵来增强序列比对的敏感性。打分矩阵是序列比较的基础,选择不同的打分矩阵将得到不同的比较结果,而了解打分矩阵的理论依据将有助于在实际应用中选择合适的打分矩阵。,2023/10/28,19,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基础知识,3、打分矩阵,(1)、核酸打分矩阵设DNA序列所用的字母
11、表为=A,C,G,T a.等价矩阵 b.BLAST矩阵 c.转移矩阵(transition,transversion)(嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T),2023/10/28,20,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基础知识,3、打分矩阵,(1)、核酸打分矩阵 等价矩阵 等价矩阵是最简单的一种打分矩阵,其中,相同核苷酸匹配的得分为“1”,而不同核苷酸的替换得分为“0”(没有得分)。BLAST矩阵 BLAST 是目前最流行的核酸序列比较程序,这也是一个非常简单的矩阵,如果被比的两个核苷酸相同,则得分为“+5”,反之得分
12、为“-4”。转换-颠换矩阵 核酸的碱基按照环结构分为两类,一类是嘌呤(腺嘌呤A,鸟嘌呤G),它们有两个环;另一类是嘧啶(胞嘧啶C,胸腺嘧啶T),它们的碱基只有一个环。如果DNA碱基的变化(碱基替换)保持环数不变,则称为转换(transition),如AG,CT;如果环数发生变化,则称为颠换(transversion),如AC,AT 等。在进化过程中,转换发生的频率远比颠换高,其中转换的得分为“-1”,而颠换的得分为“-5”。,2023/10/28,21,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,等价矩阵表,转移矩阵,BLAST矩阵,二、序列相似性比较基础知识,3、
13、打分矩阵,2023/10/28,22,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,(2)、蛋白质打分矩阵,二、序列相似性比较基础知识,3、打分矩阵,(i)等价矩阵(ii)氨基酸突变代价矩阵GCM(iii)疏水矩阵(iv)PAM矩阵(Point Accepted Mutation)(v)BLOSUM矩阵(Blocks Amino Acid Substitution Matrices),其中Rij代表打分矩阵元素i、j分别代表字母表第i和第j个字符。,2023/10/28,23,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基
14、础知识,3、打分矩阵,遗传密码矩阵GCM GCM 矩阵通过计算一个氨基酸残基转变到另一个氨基酸残基所需的密码子变化数目而得到,矩阵元素的值对应于代价。如果变化一个碱基,就可以使一个氨基酸的密码子改变为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1;如果需要2 个碱基的改变,则替换代价为2;以此类推。注意,Met 到Tyr 的转变是仅有的密码子三个位置都发生变化的转换。Glx 代表Gly、Gln或Glu,而Asx 则代表Asn 或Asp,X 代表任意氨基酸。GCM常用于进化距离的计算,其优点是计算结果可以直接用于绘制进化树,但是它在蛋白质序列比对尤其是相似程度很低的序列比对中很少被使用。,2
15、023/10/28,24,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基础知识,3、打分矩阵,疏水矩阵是根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。若一次氨基酸替换疏水特性不发生太大的变化,则这种替换得分高,否则替换得分低。,2023/10/28,25,第四章:序列的同源比较及分子系统学和分子进化分析,二、序列相似性比较基础知识,3、打分矩阵,PAM 矩阵 是第一个广泛使用的最优矩阵,它是基于进化原理的,建立在进化的点接受突变模型PAM(Point Accepted Mutation)基础上,通过统计相似序列比对中的各种氨基酸替换发生率而得到
16、该矩阵。Dayhoff 和她的同事们研究了71 个相关蛋白质家族的1572 个突变,发现蛋白质家族中氨基酸的替换并不是随机的,由此,断言一些氨基酸的替换比其他替换更容易发生,其主要原因是这些替换不会对蛋白质的结构和功能产生太大的影响。如果氨基酸的替换是随机的,那么,每一种可能的取代频率仅仅取决于不同氨基酸出现的背景频率。然而,在相关蛋白中,取代频率大大地倾向于那些不影响蛋白质功能的取代,换句话说,这些点突变已经被进化所接受。这意味着,在进化历程上,相关的蛋白质在某些位置上可以出现不同的氨基酸。,2023/10/28,26,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,
17、二、序列相似性比较基础知识,3、打分矩阵,PAM 矩阵 一个PAM 就是一个进化的变异单位,即1%的氨基酸改变。但是,这并不意味着经过100 次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次改变,甚至可能变回到原先的氨基酸。因此,另外一些氨基酸可能不发生改变。,2023/10/28,27,生物信息学,第四章:序列的同源比较及分子系统学和分子进化分析,吉林大学,二、序列相似性比较基础知识,3、打分矩阵,两个相同的残基之间的相似性分值越高,比较保守,不容易突变;两个相同的残基之间的相似性分值越低,比较容易突变;,两个不同的残基之间的相似性分值越高,进化过程中容易发生互换;两个不同的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列 同源 比较 分子 系统学 进化 分析
链接地址:https://www.31ppt.com/p-6416042.html