蛋白质预测.ppt
《蛋白质预测.ppt》由会员分享,可在线阅读,更多相关《蛋白质预测.ppt(81页珍藏版)》请在三一办公上搜索。
1、蛋白质预测,序列-结构-功能,Protein structure prediction:The holy grail of bioinformatics,一、蛋白质结构,氨基酸蛋白质一级序列:氨基酸按照一定顺序进行排列(一般含有 300500AA,最大:巨肌蛋白,有2700AA;最小:甜味二肽,有2 AA)二级结构:肽链中局部肽段的构象超二级结构:两个或几个二级结构被多肽连接起来,进一步合成有特殊几何排 列的局部空间结构结构域/三级结构:蛋白质的空间结构四级结构:特定三级结构的肽链通过非共价键而形成的大分子体系,氨基酸的分类:1.体积;2.亲疏水性3.极性;4.正负电荷5.酸碱性;6.脂肪族/
2、芳香族三个比较特殊的氨基酸:脯氨酸(P,Pro):是环状的亚氨基酸,易形成顺式肽链;甘氨酸(G,Gly):碳原子上有两个氢,没有侧链,不和其它残基互作,没有位阻;半胱氨酸(C,Cys):高度化学反应活性,易形成二硫键。,1.氨基酸,维持和稳定蛋白质高级结构的因素:1.静电作用:严格服从库仑定律2.氢键:在二级结构形成中,十分重要3.范德华力:蛋白质分子巨大,此力不可忽视4.亲疏水性:三级结构中,至关重要5.配位键:例如金属蛋白6.二硫键:蛋白质的稳定十分有用7.其它因素:翻译后修饰,Primary structure=the linear amino acid sequence,Seconda
3、ry structure=spatial arrangement of amino-acid residues that are adjacent in the primary structure,2.二级结构,规则的二级结构:1)螺旋:最常见 每圈螺旋含有3.6AA,平均11AA 其它一些螺旋:310螺旋,螺旋,2)折叠:平均6.5AA,可看成被拉伸的螺旋;单股折叠不稳定,会形成片层;,An antiparallel sheet.Adjacent strands run in opposite directions.Hydrogen bonds between NH and CO group
4、s connect each amino acid to a single amino acid on an adjacent strand,stabilizing the structure.,A parallel sheet.Adjacent strands run in the same direction.Hydrogen bonds connect each amino acid on one strand with two different amino acids on the adjacent strand.,部分规则二级结构:1)转角:、转角转角对蛋白质的功能和进化有重要意义
5、。2)环3)无规卷曲 许多特殊的生物学功能都发生在无规卷曲或其他非规则的结构中。,3.二级结构预测,蛋白质 序列:二级结构:,二级结构预测,蛋白质 序列:二级结构:,Q L M G E R I R A R R K K L KE E E E E C C C H H H H H H H,E 代表折叠C 代表无归卷曲H 代表螺旋,1)二级结构预测概述蛋白质的二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。二级结构预测问题是模式分类问题二级结构预测的目标:判断每一段中心的残基是否处于螺旋、折叠、无归卷曲(或其它状态)之一的二级结构态,即三态。,基本策略(1)相似序列相似结构
6、,QLMGERIRARRKKLK,QLMG ERIRARRKKLK,结构?,A,基本策略(2)分类分析,螺旋,提取样本,参数提取,学习分类规则,预测.-Gly-Ala-Glu-Phe-.,2)二级结构预测的参数大体分为三代:第一代是基于单个氨基酸残基统计分析从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析统计的对象是氨基酸片段片段体现了中心残基所处的环境在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据,第一代和第二代参数预测方法对三态预测的准确率一般都小于70%第三代方法(考虑多条序列,综合算
7、法)运用长程信息和蛋白质序列的进化信息准确度有了比较大的提高,一般能上70%。,(1)经验参数法由Chou 和Fasman在70年代提出来是一种基于单个氨基酸残基统计的经验预测方法。通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。例如:谷氨酸(Glu)主要出现在螺旋中 天冬氨酸(Asp)和甘氨酸(Gly)主要分布在转角中 脯氨酸(Pro)也常出现在转角中,但是基本不会出现在 螺旋中,一个氨基酸残基的构象倾向性因子定义为Pi=Ai/Ti(i=,t)式中下标 i 表示构象态如螺旋、折叠、转角等;Ti 是所有被统计残基处于构象态 i 的比例
8、;Ai 是第A种残基处于构象态 i 的比例;Pi 大于1表示该残基倾向于形成二级结构构象i,Pi小于1则表示倾向于形成其它构象。,%,%,%,发现关于二级结构的经验规则基本思想是在序列中寻找规则二级结构的成核位点和终止位点。扫描输入的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列,然后对于成核区域进行扩展,不断扩大成核区域,直到倾向性因子小于1.0为止。规则:(i)螺旋规则(ii)折叠规则(iii)转角规则(iv)重叠规则,延伸 成核区 延伸,(i)螺旋规则沿蛋白质序列寻找螺旋核相邻的6个残基中如果有至少4个残基倾向于形成螺旋,则认为是螺旋核。从螺旋核向两端延伸直至四肽片段的
9、螺旋倾向性因子的平均值P1.03,则预测为螺旋。,延伸 螺旋核 延伸,(ii)折叠规则相邻6个残基中若有4个倾向于形成折叠,则认为是折叠核。折叠核向两端延伸直至4个残基的平均折叠倾向性因子P1.05,则预测为折叠。,(iii)转角规则转角的模型为四肽 四肽片段 Pt 的平均值大于1.0,并且 Pt 的均值同时大于 P 的均值以及 P 的均值。则可以预测这样连续的4个氨基酸形成转角。,(iv)重叠规则对于螺旋和折叠的重叠区域,按Pa和P的相对大小进行预测若Pa大于P,则预测为螺旋;反之,预测为折叠。,(2)GOR方法一种基于信息论和贝叶斯统计学的方法GOR将蛋白质序列当作一连串的信息值来处理GO
10、R方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响。,两个事件S和R的条件概率P(S|R)即在R发生的条件下,S发生的概率定义信息为:若S和R无关,则 I(S;R)=0若R的发生有利于S的发生,则I(S;R)0若R的发生不利于S的发生,则I(S;R)0,I(S;R)在二级结构预测中的含义R代表中心氨基酸及其所处环境S代表二级结构类型I(S;R)代表中心氨基酸处于 S 的信息值,(3)Lim方法立体化学方法 氨基酸的理化性质对二级结构影响较大在进行结构预测时考虑氨基酸残基的物理化学性质如疏水性、极性、侧链基团的大小等,根据残基各方面的性质及残基之间的组合预测
11、可能形成的二级结构。“疏水性”是氨基酸的一种重要性质,疏水性的氨基酸倾向于远离周围水分子,将自己包埋进蛋白质的内部。,(4)同源分析法将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,预测出待预测片段的二级结构。该方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。,假设已知二级结构的氨基酸片段T=STNGIYWT的二级结构为CHHHHHT H代表螺旋,T代表转角,C代表无规卷曲,待预测二级结构的氨基酸片段U=ATSGVFL,序列比对:T=S T N G I Y WU=A T
12、 S G V F L直接将T的构象态赋予U,更为合理的方法:是将待预测二级结构的蛋白质U与多个同源序列进行多重比对,对于U的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。,(5)模式识别的方法(机器学习),常见判别模型,支持向量机神经网络距离系数(马氏距离)K近邻算法马尔科夫模型Fisher判别决策树,(6)综合方法综合方法不仅包括各种预测方法的综合,而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。多个程序同时预测,综合评判一致结果序列比对与二级结构预测双重预测首先预测蛋白质的结构类型然后再预测二级
13、结构,参考文献:Proteins,2006,64:575-586.Journal of Protein Chemistry,1999,18:473-480.Amino Acids,2008,35:607-614.Biochemical and Biophysical Research Communications,2002,294:621-625.Journal of Computational Biology,2006,13:1489-1502.Protein Engineering,1999,12:1041-1050.Talanta,2007,71:2069-2073.Bioinforma
14、tics,2006,22:1809-1814.BMC Bioinformatics,2006,7:301.Proteins,2006,65:453-462.Journal of Theoretical Biology,2007,248:354-366.Polymer,2005,46:4314-4321.Journal of Computational Biology,2008,15:65-79.BMC Bioinformatics,2007,8:357.Artificial Intelligence in Medicine,2004,31:117-136.Proteins,2007,66:83
15、8-845.Neurocomputing,2008,72:262-268.BMC Bioinformatics,2008,9:49.,A surprising result!,Chameleonsequences,The“Chameleon”sequence,TEAVDAATAEKVFKQYANDNGVDGEWTYDDATKTFTVTEK,TEAVDAWTVEKAFKTFANDNGVDGAWTVEKAFKTFTVTEK,sequence 1 sequence 2,Replace both sequences withan engineered peptide(“chameleon”),Sour
16、ce:Minor and Kim.1996.Nature 380:730-734,a-helix b-strand,3.超二级结构,概念:两个或几个二级结构单元被连接多肽连接起来,进一步组合成特殊的几何排列的局域空间结构。(supersecondary structure,或简称motif)分类:简单超二级结构:-loop-、-loop-、-loop-、-loop-复杂超二级结构:简单超二级结构的组合,4.结构类型,折叠子概念:反映了一个蛋白质核心结构的拓扑结构模式。我国王志新院士估计自然界共存在约650个折叠模式,约1150个蛋白质超家族。不同的折叠子属于不同的结构类型。结构类型分类:1)全
17、类蛋白:=40%,=40%,=15%,60%反平行4)/类蛋白:=15%,60%平行,请看演示,SCOP库分类,5.三级结构/结构域,1)三级结构定义:蛋白质的肽链中所有肽键和残基间的相对位置。稳定蛋白质三级结构主要依靠非共价键和疏水作用。二硫键对蛋白质的稳定和三级结构的形成起相当重要的作用,曾统计一个蛋白质平均含有三对二硫键;最多为17对,7对以上已很少;不含二硫键的也有一定数量。,大多数蛋白质都是球状蛋白,亲水的残基在表面,疏水残基在内部。纤维状蛋白结构简单,整条肽链几乎是单一的二级结构。,2)结构域定义:蛋白质中构象单元组成的一些实体,具备一定的三级结构,有特定的,但不完全的生物活性。有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 蛋白质 预测
链接地址:https://www.31ppt.com/p-5780580.html