欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    蛋白质预测.ppt

    • 资源ID:5780580       资源大小:2.17MB        全文页数:81页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    蛋白质预测.ppt

    蛋白质预测,序列-结构-功能,Protein structure prediction:The holy grail of bioinformatics,一、蛋白质结构,氨基酸蛋白质一级序列:氨基酸按照一定顺序进行排列(一般含有 300500AA,最大:巨肌蛋白,有2700AA;最小:甜味二肽,有2 AA)二级结构:肽链中局部肽段的构象超二级结构:两个或几个二级结构被多肽连接起来,进一步合成有特殊几何排 列的局部空间结构结构域/三级结构:蛋白质的空间结构四级结构:特定三级结构的肽链通过非共价键而形成的大分子体系,氨基酸的分类:1.体积;2.亲疏水性3.极性;4.正负电荷5.酸碱性;6.脂肪族/芳香族三个比较特殊的氨基酸:脯氨酸(P,Pro):是环状的亚氨基酸,易形成顺式肽链;甘氨酸(G,Gly):碳原子上有两个氢,没有侧链,不和其它残基互作,没有位阻;半胱氨酸(C,Cys):高度化学反应活性,易形成二硫键。,1.氨基酸,维持和稳定蛋白质高级结构的因素:1.静电作用:严格服从库仑定律2.氢键:在二级结构形成中,十分重要3.范德华力:蛋白质分子巨大,此力不可忽视4.亲疏水性:三级结构中,至关重要5.配位键:例如金属蛋白6.二硫键:蛋白质的稳定十分有用7.其它因素:翻译后修饰,Primary structure=the linear amino acid sequence,Secondary structure=spatial arrangement of amino-acid residues that are adjacent in the primary structure,2.二级结构,规则的二级结构:1)螺旋:最常见 每圈螺旋含有3.6AA,平均11AA 其它一些螺旋:310螺旋,螺旋,2)折叠:平均6.5AA,可看成被拉伸的螺旋;单股折叠不稳定,会形成片层;,An antiparallel sheet.Adjacent strands run in opposite directions.Hydrogen bonds between NH and CO groups connect each amino acid to a single amino acid on an adjacent strand,stabilizing the structure.,A parallel sheet.Adjacent strands run in the same direction.Hydrogen bonds connect each amino acid on one strand with two different amino acids on the adjacent strand.,部分规则二级结构:1)转角:、转角转角对蛋白质的功能和进化有重要意义。2)环3)无规卷曲 许多特殊的生物学功能都发生在无规卷曲或其他非规则的结构中。,3.二级结构预测,蛋白质 序列:二级结构:,二级结构预测,蛋白质 序列:二级结构:,Q L M G E R I R A R R K K L KE E E E E C C C H H H H H H H,E 代表折叠C 代表无归卷曲H 代表螺旋,1)二级结构预测概述蛋白质的二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。二级结构预测问题是模式分类问题二级结构预测的目标:判断每一段中心的残基是否处于螺旋、折叠、无归卷曲(或其它状态)之一的二级结构态,即三态。,基本策略(1)相似序列相似结构,QLMGERIRARRKKLK,QLMG ERIRARRKKLK,结构?,A,基本策略(2)分类分析,螺旋,提取样本,参数提取,学习分类规则,预测.-Gly-Ala-Glu-Phe-.,2)二级结构预测的参数大体分为三代:第一代是基于单个氨基酸残基统计分析从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析统计的对象是氨基酸片段片段体现了中心残基所处的环境在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据,第一代和第二代参数预测方法对三态预测的准确率一般都小于70%第三代方法(考虑多条序列,综合算法)运用长程信息和蛋白质序列的进化信息准确度有了比较大的提高,一般能上70%。,(1)经验参数法由Chou 和Fasman在70年代提出来是一种基于单个氨基酸残基统计的经验预测方法。通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。例如:谷氨酸(Glu)主要出现在螺旋中 天冬氨酸(Asp)和甘氨酸(Gly)主要分布在转角中 脯氨酸(Pro)也常出现在转角中,但是基本不会出现在 螺旋中,一个氨基酸残基的构象倾向性因子定义为Pi=Ai/Ti(i=,t)式中下标 i 表示构象态如螺旋、折叠、转角等;Ti 是所有被统计残基处于构象态 i 的比例;Ai 是第A种残基处于构象态 i 的比例;Pi 大于1表示该残基倾向于形成二级结构构象i,Pi小于1则表示倾向于形成其它构象。,%,%,%,发现关于二级结构的经验规则基本思想是在序列中寻找规则二级结构的成核位点和终止位点。扫描输入的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列,然后对于成核区域进行扩展,不断扩大成核区域,直到倾向性因子小于1.0为止。规则:(i)螺旋规则(ii)折叠规则(iii)转角规则(iv)重叠规则,延伸 成核区 延伸,(i)螺旋规则沿蛋白质序列寻找螺旋核相邻的6个残基中如果有至少4个残基倾向于形成螺旋,则认为是螺旋核。从螺旋核向两端延伸直至四肽片段的螺旋倾向性因子的平均值P1.03,则预测为螺旋。,延伸 螺旋核 延伸,(ii)折叠规则相邻6个残基中若有4个倾向于形成折叠,则认为是折叠核。折叠核向两端延伸直至4个残基的平均折叠倾向性因子P1.05,则预测为折叠。,(iii)转角规则转角的模型为四肽 四肽片段 Pt 的平均值大于1.0,并且 Pt 的均值同时大于 P 的均值以及 P 的均值。则可以预测这样连续的4个氨基酸形成转角。,(iv)重叠规则对于螺旋和折叠的重叠区域,按Pa和P的相对大小进行预测若Pa大于P,则预测为螺旋;反之,预测为折叠。,(2)GOR方法一种基于信息论和贝叶斯统计学的方法GOR将蛋白质序列当作一连串的信息值来处理GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响。,两个事件S和R的条件概率P(S|R)即在R发生的条件下,S发生的概率定义信息为:若S和R无关,则 I(S;R)=0若R的发生有利于S的发生,则I(S;R)0若R的发生不利于S的发生,则I(S;R)0,I(S;R)在二级结构预测中的含义R代表中心氨基酸及其所处环境S代表二级结构类型I(S;R)代表中心氨基酸处于 S 的信息值,(3)Lim方法立体化学方法 氨基酸的理化性质对二级结构影响较大在进行结构预测时考虑氨基酸残基的物理化学性质如疏水性、极性、侧链基团的大小等,根据残基各方面的性质及残基之间的组合预测可能形成的二级结构。“疏水性”是氨基酸的一种重要性质,疏水性的氨基酸倾向于远离周围水分子,将自己包埋进蛋白质的内部。,(4)同源分析法将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,预测出待预测片段的二级结构。该方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。,假设已知二级结构的氨基酸片段T=STNGIYWT的二级结构为CHHHHHT H代表螺旋,T代表转角,C代表无规卷曲,待预测二级结构的氨基酸片段U=ATSGVFL,序列比对:T=S T N G I Y WU=A T S G V F L直接将T的构象态赋予U,更为合理的方法:是将待预测二级结构的蛋白质U与多个同源序列进行多重比对,对于U的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。,(5)模式识别的方法(机器学习),常见判别模型,支持向量机神经网络距离系数(马氏距离)K近邻算法马尔科夫模型Fisher判别决策树,(6)综合方法综合方法不仅包括各种预测方法的综合,而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。多个程序同时预测,综合评判一致结果序列比对与二级结构预测双重预测首先预测蛋白质的结构类型然后再预测二级结构,参考文献:Proteins,2006,64:575-586.Journal of Protein Chemistry,1999,18:473-480.Amino Acids,2008,35:607-614.Biochemical and Biophysical Research Communications,2002,294:621-625.Journal of Computational Biology,2006,13:1489-1502.Protein Engineering,1999,12:1041-1050.Talanta,2007,71:2069-2073.Bioinformatics,2006,22:1809-1814.BMC Bioinformatics,2006,7:301.Proteins,2006,65:453-462.Journal of Theoretical Biology,2007,248:354-366.Polymer,2005,46:4314-4321.Journal of Computational Biology,2008,15:65-79.BMC Bioinformatics,2007,8:357.Artificial Intelligence in Medicine,2004,31:117-136.Proteins,2007,66:838-845.Neurocomputing,2008,72:262-268.BMC Bioinformatics,2008,9:49.,A surprising result!,Chameleonsequences,The“Chameleon”sequence,TEAVDAATAEKVFKQYANDNGVDGEWTYDDATKTFTVTEK,TEAVDAWTVEKAFKTFANDNGVDGAWTVEKAFKTFTVTEK,sequence 1 sequence 2,Replace both sequences withan engineered peptide(“chameleon”),Source:Minor and Kim.1996.Nature 380:730-734,a-helix b-strand,3.超二级结构,概念:两个或几个二级结构单元被连接多肽连接起来,进一步组合成特殊的几何排列的局域空间结构。(supersecondary structure,或简称motif)分类:简单超二级结构:-loop-、-loop-、-loop-、-loop-复杂超二级结构:简单超二级结构的组合,4.结构类型,折叠子概念:反映了一个蛋白质核心结构的拓扑结构模式。我国王志新院士估计自然界共存在约650个折叠模式,约1150个蛋白质超家族。不同的折叠子属于不同的结构类型。结构类型分类:1)全类蛋白:=40%,=40%,=15%,60%反平行4)/类蛋白:=15%,60%平行,请看演示,SCOP库分类,5.三级结构/结构域,1)三级结构定义:蛋白质的肽链中所有肽键和残基间的相对位置。稳定蛋白质三级结构主要依靠非共价键和疏水作用。二硫键对蛋白质的稳定和三级结构的形成起相当重要的作用,曾统计一个蛋白质平均含有三对二硫键;最多为17对,7对以上已很少;不含二硫键的也有一定数量。,大多数蛋白质都是球状蛋白,亲水的残基在表面,疏水残基在内部。纤维状蛋白结构简单,整条肽链几乎是单一的二级结构。,2)结构域定义:蛋白质中构象单元组成的一些实体,具备一定的三级结构,有特定的,但不完全的生物活性。有研究表明,蛋白质中不同的肽段是由不同的外显子所编码。一般认为分子量大于2kD的易形成两个或两个以上的结构域。,3)结构类型的预测:分类:全型,全型,+型(分离型),/型(相间型),无规卷曲型,其他类型在较复杂的蛋白质中,结构域基本可归结为:含有序列类似的结构域;含有两种不同的结构域;多结构域。,一些蛋白质中不同结构域的结构特征,6.四级结构,定义:特定三级结构的肽链通过非共价键而形成的大分子体系时的组合方式。分类标准:1)按亚基的种类:即一个四级结构的蛋白包含几种亚基。2)按亚基的数目分类3)按装配过程:随机装配或成核装配4)与化学反应相关,蛋白质结构预测主要有两大类方法:(1)理论分析方法通过理论计算(如分子力学、分子动力学计算)进行结构预测。(2)统计的方法 对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。,7.蛋白质空间结构预测,统计方法可分为三类:1)比较建模法(comparative modeling method)2)反向折叠法(inverse folding or threading)3)从头预测法(ab initio prediction method)这些方法都是建立在氨基酸的一级结构决定高级结构的理论基础之上。,1)比较建模法:又称为同源建模。目前最成熟的预测方法,Swissprot等使用的modeller等软件;2)反向折叠法:一种较新的方法,跳过二级结构预测,直接预测三级结构。具体过程是根据已知蛋白质结构的模式作为模板,寻找最匹配模板,再根据平均势函数进行判断。假设是蛋白质折叠类型有限。3)从头预测法:序列-二级结构-超二级结构-结构类型-三级结构,基于蛋白质一级序列信息,利用生物信息学手段预测蛋白质的二级结构、超二级结构、结构类,三个必要条件:A)数据集:具有统计性、无冗余、一般要求相似性较低;B)参数:类别之间要有差异,能够代表各自的类别;最常用的参数是氨基酸的含量,最近Chou构建的伪氨基酸组分能够很好的应用到分类中;C)判别模型:不同的模型适合不同的分类问题。,Second structure prediction,以文章-turn types prediction in proteins using the support vector machine.Journal of Theoretical Biology.数据库:490 non-homologous proteins(25%)contained 1281-turn which include 1182 inverse-turn and 99 classic-turn.每个turn只含有三个氨基酸。参数:20种氨基酸写成A=10。0,一个1,19个0,这样三肽就是一个60维的向量。算法:支持向量机结果:Sn=67.20,Sp=35.80,Ac=93.40.,问题:正负数据集差异太大预测敏感性和特异性不高可能的改善办法:参数重新选择改善算法,超二级结构参考文献:Proteins,2006,65:49-54.Advances in Engineering Software,1999,30:347-352.Proteins,2006,65:922-929.Journal of Computational Biology,2002,9:261-276.Genome Information,2003,14:196-205.J.Peptide Res.2003,61:159-162.Peptides,2003,24:665-669.Journal of Protein Chemistry,1998,17:363-376.J.Peptide Res.2003,61:243-251.Analytical Biochemistry,2000,286:1-16.Protein Journal,2008,27:115-122.Peptides,2003,24:629-630.Journal of Peptide Science,2002,8:297-301.Nucleic Acids Research,2006,34:2085-2097.,Protein structural class prediction,以文章 Using pseudo-amino acid composition and support vector machine to predict protein structural class.Journal of Theoretical Biology.2006,243:444-448.为例数据库:52 all-,61 all-,45/,46+(Identity30%)。参数:PseAAC,包含了氨基酸的亲疏水性质和关联性质,以及氨基酸的频率算法:支持向量机结果:Sn(1,2,3,4)=0.885,0.967,0.778,0.739 Sp(1,2,3,4)=0.958,0.922,0.686,0.872,参考文献:非常多.Amino Acids,2007,33:623-629.Physica A,2007,386:581-589.Journal of Theoretical Biology,2008,250:186-193.Amino Acids,2008,35:581-590.Journal of Theoretical Biology,2008,253:388-392.Computational Biology and Chemistry,2003,27:373-380.Biochimie,2000,82:783-785.Journal of Protein Chemistry,1998,17:209-217.Biochimica et Biophysica Acta,2000,1476:1-2.,Protein quaternary structure prediction,参考文献:Amino Acids,2008,Nov 27.Xiao X,Lin WZ.BMC Bioinformatics,2006,4:187Bioinformatics,2003,19:2390-2396.Proteins,2003,53:282-289.Amino Acids,2006,30:461-468.Bioinformatics,2001,17:551-556.Amino Acids,2008,35:591-598.Journal Proteome Research,2009,Feb.18.Shen HB,Chou KC.,亚细胞是指细胞的亚结构,是把细胞进一步分成一些分隔空间。真核生物与原核生物的亚细胞结构不同。,二、蛋白质亚细胞定位,1、真核生物亚细胞结构 真核生物亚细胞结构复杂,亚细胞位置有十几种,大体上分为:质膜、细胞质、细胞核、细胞骨架、内质网、高尔基体、溶酶体、过氧化物酶体、线粒体、叶绿体、液泡。其中,内质网、高尔基体、溶酶体、过氧化物酶体、线粒体、细胞核、叶绿体、液泡等有界膜的细胞器称为细胞内膜,质膜和细胞内膜统称为生物膜。2、原核生物亚细胞结构 原核生物的亚细胞结构简单,原核生物的亚细胞位置少,大体分为:细胞质、细胞壁、内膜、周质膜、外膜、细胞外。,蛋白质在核糖体上合成后,如果氨基酸序列中有分选信号,由信号肽指导到胞液外相应亚细胞位置,如果没有信号肽指导则留在胞液中。不同的亚细胞位置具有不同的功能,蛋白质处于哪个位置就行使哪个位置的功能。这样,我们通过预测未知功能蛋白的亚细胞位置就可以知道该蛋白的功能。,按照物种:原核生物 革兰氏阳性菌 革兰氏阴性菌 分支杆菌 真核生物 人类 鼠 植物按照功能:凋亡蛋白亚细胞定位按重要位置:线粒体蛋白预测 分泌蛋白预测细分细胞位置:亚细胞核定位 亚线粒体定位,3.蛋白质亚细胞定位预测的方法,1)所考虑的信息参数分可以分成以下四种:(1)基于信号肽的方法来预测蛋白质亚细胞定位(2)基于氨基酸组份或氨基酸物理化学性质的方法来预测蛋白质亚细胞定位(3)基于蛋白质功能注解的方法来预测蛋白质亚细胞定位(4)基于系统发生的分布图、结构域投影或结合进化和结构信息的方法来预测蛋白质亚细胞定位,2)数学方法有:(1)支持向量机方法(2)距离判别方法(3)神经网络方法(4)K近邻方法(5)隐马尔可夫模型,4、常用的软件,PSORT http:/www.psort.nibb.ac.jp/TargetP http:/www.cbs.dtu.dk/services/TargetP/MitoProt http:/bioinformer.ebi.ac.uk/newsletter/archives/2/mitoprotii.html Predotar http:/www.inra.fr/Internet/Produits/PredotarNNPSL http:/predict.sanger.ac.uk/nnpsl SubLoc http:/,Locnet http:/www.rostlab.org/services/loctarget/Target http:/bioinformatics.albanyedu/ptargetPslpred http:/www.imtech.res.in/raghava/pslpred/Eslpred:http:/www.imtech.res.in/raghava/eslpred/http:/,5、常用的数据库及各数据库预测情况,数据库一:12类真核生物亚细胞数据库(7559)2003年方法:SVMs方法 参数:氨基酸组份 结果:57.9%人类12类亚细胞数据库(2041)2006年 方法:KNN 参数:Go+PseAA 结果:745/919=81.1%954/1122=85.0%,数据库二 Gram-negative bacteria(5类)1.0 共1441个蛋白(单定位 1302个),2003年:PSORT-B(1.0)Total=74.8%方法:Bayesian Network 参数:六种分析模式2005年:PSORTb(2.0)Total=82.6%2005年:PSLpred Total=91.2%方法:SVM 参数:氨基酸组份、物理化学性质、PSI_BLAST2006年:GNBSL Total=93.4%方法:SVM 参数:六种模式相结合,数据库三 5个物种数据库(2004年)(animal,plant,fungi,GN,GP),预测步骤 1、BLAST比对。2、从Swissprot中提取同类Text以获取潜在特征。3、利用概率预测结果:,数据库四 Humandb(2233)Yeastdb(1889)Mousedb(2416),方法:PSLT(Bayesin network)(2004年)参数:Interpro motif、signal peptides、transmembrane domain 结果:,数据库五 真核(4类)、原核(3类)数据库,1999年Yuan Markov方法 原核:89.4%真核:73.0%2001年Hua SVM方法 原核:91.4%真核:79.4%2001年Feng ZP曲线方法 原核:90.4%2003年Chou 利用gene ontology、functional domain、seudo-amino acid组合方法 原核:94.7%真核:92.9%2004年Manoj(india)SVM 方法(20+400+33+5=458个参数)真核:88.0%2005年Gao Qing Bin 最近邻居方法 原核:92.5%真核:86.3%2006年 Guo Jian PNN(概率神经网络)+SVM方法 真核:93.0%,数据库六 sub-nuclear 数据库,六类共504个蛋白2005年Lei等方法:SVM 参数:氨基酸组份 Total=51.4%2006年Lei等方法:Go+最近邻居法 Total=65.2%九类共370个蛋白2005年Chou等方法:KNN 参数:伪氨基酸组份 Total=64.32%,文献资料:很多在NCBI的Pubmed输入“subcellular location prediction”即可检索到115篇文章。,膜蛋白的种类:5类,三、膜蛋白的分类预测,1.Type I transmembranetype,2.II transmembrane,3.Multipass Transmembrane,4.lipid chain-anchored membrane,5.GPI-anchored membrane.,众多的生物过程和药物靶位点都是在膜上进行。,更具体的研究,预测外膜蛋白(outer membrane protein)预测膜蛋白的跨膜区域预测多跨膜蛋白质(、),酶的分类蛋白质翻译后修饰位点预测信号肽/剪切位点预测二硫键预测DNA结合蛋白识别离子通道预测抗菌肽/致病蛋白预测G蛋白偶联受体分类,四、其他研究较多的预测问题,

    注意事项

    本文(蛋白质预测.ppt)为本站会员(sccc)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开