基于序列特征的固有无序蛋白结合位点的统计分析(本科毕业论文).doc

上传人：仙人指路1688

文档编号：4022614

上传时间：2023-04-01

格式：DOC

页数：23

大小：322.50KB

《基于序列特征的固有无序蛋白结合位点的统计分析(本科毕业论文).doc》由会员分享，可在线阅读，更多相关《基于序列特征的固有无序蛋白结合位点的统计分析(本科毕业论文).doc（23页珍藏版）》请在三一办公上搜索。

1、基于序列特征的固有无序蛋白结合位点的统计分析xxx （物理与电子信息学院，山东德州253023）摘要本文以Disprot和BSDP数据库中的固有无序蛋白的结合位点为研究对象，构建9种结合位点数据集，利用MATLAB进行统计结合位点各种氨基酸的频率，结果发现，蛋白质与蛋白质相互作用的结合位点最多，蛋白质与ATP/GTP相互作用的结合位点最少，而且还可以得知各种类型结合位点的氨基酸具有明显的偏好性。该研究有助于认识固有无序蛋白质与其它成份的相互作用特征、为进一步挖掘固有无序蛋白质的序列特征，进而为发展预测固有无序蛋白质与蛋白质、DNA、RNA、配体、辅因子等物质结合位点的软件奠定了良好的基础

2、。关键词固有无序蛋白；无序区；序列分析；结合位点1引言1.1固有无序蛋白质蛋白质是构成生物体最重要的两类大分子之一，蛋白质翻译在整个生物过程中发挥着非常重要的作用。传统思想认为，蛋白质要实现生物功能，必须先折叠成一个稳定的三维结构，因此形成了蛋白质结构决定其功能的主流观点，对蛋白质科学的研究已经取得了一系列成就，创造了现代蛋白质科学的“大爆炸”时代1。然而，随着基因工程方法和实验技术的发展以及基因组计划的开展，在上个世纪90年代初，人们发现有些蛋白质或蛋白质序列中的一部分区域在生理条件下不具有一个确定的三维结构，但依然能够正常行使生物学功能。后来发现，这类蛋白质越来越多，并逐渐形成了一

3、种新的蛋白质类型，称为固有无序蛋白质2,3,4（intrinsically disordered proteins，简称为IDPs）。固有无序蛋白质的特征是整条链或链的一部分并不具有严格的三维结构，原子位置及主链二面角没有特定的平衡值而是随着时间发生很大的变化。经过十多年的研究，人们发现这类蛋白质在生物体内普遍存在而且十分丰富5,6，可以位于细胞的不同部位。研究还发现，真核生物体中含有的固有无序蛋白质数量远远高于古细菌和细菌中的固有无序蛋白7,8，即生物进化的一个重要特点是蛋白质中无序区的含量在增加。固有无序蛋白质概念的提出既是对蛋白质科学的挑战，也是科学研究的巨大机遇，为了深入认识固有无序蛋

4、白质的性质，研究其序列特征、进化过程中结构的保守性以及功能等是十分重要的科学问题。1.2固有无序蛋白质的生物学功能无序蛋白质在生物体内是普遍存在的。例如利用预测算法DISOPRED2对古细菌细菌和真核生物的蛋白质组序列进行的分析表明，长度大于30个氨基酸的无序区域在这三个物种中的比例分别为2.0%、4.2%和33.0%9。对目前存在的大量基因库数据进行预测，分析蛋白质的结构无序与蛋白质功能之间的关联，通过这种方法人们发现无序蛋白质在诸如转录和翻译调控细胞信号转导蛋白磷酸化及小分子存储等过程中发挥着重要的作用；另一方面无序蛋白质又似乎给生物体系带来一些不利的影响，经常与多种疾病联系在一起。与人类

5、癌症相关的蛋白质中有79%的蛋白质有无序片段；在心血管疾病有关的蛋白质中，无序蛋白质的含量也高达57%。DisProt数据库将所有固有无序蛋白质分为7大功能和1组未知功能，并且将这7种功能又细分为28 种更具体的功能。按照Disprot 数据库的功能划分方法，将此数据库中所有固有无序蛋白质分为以下8组：分子伴侣、熵链、金属吸附器、位点修饰、分子组装、分子识别效应器、分子识别抗氧剂和未知功能。1.3固有无序蛋白质的序列氨基酸（Amino acid）是构成蛋白质的基本单位，赋予蛋白质特定的分子结构形态，使它的分子具有生化活性。固有无序蛋白质可以指整个蛋白质在生理环境下缺乏稳定的结构，也可以指蛋白质

6、中的一部分区域没有结构，这部分区域通常称为无序区。这类蛋白质在氨基酸序列上具有显著的特征。其中最显著的特征是它们的疏水残基含量较低，同时拥有较高的未被中和的电荷因此不能形成一个稳定的疏水核心，在疏水性电荷图上无序蛋白质与有序蛋白质明显存在于不同的区域图。另外无序蛋白质氨基酸序列的复杂性也较有序蛋白质的低，序列上常常出现重复的区域。Radivojac对此进行过研究，得出不同的氨基酸残基也具有不同的促进无序结构形成的倾向的结论：Gly、Trp、Tyr、Ile、Phe、Val、Leu、His、Thr、Asn比较有利于有序结构的形成；Asp、Met、Lys、Arg、Ser、Glu、Pro、Gln有利于

7、无序的形成，而其它残基的作用则比较中性。无序蛋白质的出现还与氨基酸残基的预期堆积密度（用一定距离内的近邻残基数目来表征）有关联，预期堆积密度低的序列倾向于形成无序蛋白质，密度高的倾向于形成淀粉状聚集结构，而预期堆积密度适中的序列则倾向于形成有序球状蛋白。1.4蛋白质结合位点预测的意义在后基因组时代，生命科学的中心任务是阐明基因组所表达的真正执行生命活动的全部蛋白质的表达规律和生物功能。蛋白质与配体相互作用以及蛋白质结构与功能之间的关系是后基因组时代研究的核心内容，而蛋白质的结合位点的预测是这些研究领域的理论基础，同时也是基于结构的药物设计中至关重要的步骤，对计算机辅助药物设计和复合物结构预测具

8、有重要意义，也是生物信息学领域一个重要的研究热点。蛋白质与其他蛋白质、DNA和RNA的相互作用是实现许多细胞功能的途径10。近年来，随着X-射线晶体衍射和核磁共振等技术的日趋完善，越来越多高分辨率的复合物三维结构被测出，这使得人们能够从原子水平上研究蛋白质与其他蛋白质、DNA和RNA相互作用的结合位点。近年来，对此领域的研究发展较快，已有大量文献利用机器学习算法，力求寻找最合适的特征参数来分析及预测蛋白质与生物大分子相互作用时序列中的结合残基11。固有无序蛋白质也是蛋白质，它往往与其他蛋白质、DNA 和RNA等通过结合位点结合来行使功能，结构上的柔性和在复合物状态能发生无序-有序转变的特性使其

9、能够与蛋白质、DNA 和RNA等发生广泛的相互作用，从而行使诸多重要的生物学功能。已有研究通过对固有无序蛋白质在形成复合物状态下的分子内和分子间相互作用进行分析发现，固有无序蛋白质与受体分子之间的相互作用要强于固有无序蛋白质分子内的相互作用，因此固有无序蛋白质在结合状态下的有序结构主要是由残基分子与其他生物分子间形成的非共价键相互作用力来稳定12，如氢键、静电相互作用力以及范德华力等。也有研究表明，固有无序蛋白质复合物的界面通常由连续的氨基酸构成，而由有序蛋白质构成的复合物的界面则由多个不连续的序列组成13，因此要形成同样大小的结合界面，固有无序蛋白质只需要较短的序列，有利于减小体积，降低细胞

10、内的拥挤程度14。这表明对固有无序蛋白质相互作用位点的预测会更进一步了解固有无序蛋白质的表达规律和生物功能。1.5课题研究思路和意义课题以DisProt15数据库中固有无序蛋白质为研究对象，利用BSDP（Binding Sites of Disordered Proteins http:/211.64.35.129/bsdp/index.php）数据库，利用编程软件Matlab7.0进行统计得到新的结合位点数据。具体工作为：首先利用Disprot数据库下载所有固有无序蛋白，经过去冗余处理后，再利用BSDP数据库构建固有无序蛋白质-蛋白质、固有无序蛋白质-DNA、固有无序蛋白质-RNA复合物、固

11、有无序蛋白与辅因子、固有无序蛋白与金属、固有无序蛋白与配体、固有无序蛋白与ATP/GTP、固有无序蛋白与其它物质结合位点的数据集。在此基础上，研究了固有无序蛋白与其它因子相互作用结合位点的氨基酸序列的偏好性。本研究工作，有助于认识固有无序蛋白质与其它成份的相互作用特征、了解现有蛋白质与核酸以及其他物质作用位点预测对固有无序蛋白情况的适用性、进一步挖掘固有无序蛋白质的序列特征，进而为发展固有无序蛋白质与蛋白质、DNA、RNA、配体、辅因子等物质的预测软件奠定了良好的基础。2数据来源及去冗余处理2.1固有无序蛋白质数据来源目前，经实验确认的固有无序蛋白质的数目日益增加，为方便这些数据的管理和注释，

12、人们开始建立有关IDPs的数据库。Megan和Dunker等创立了系统描述固有无序蛋白的DisProt数据库（http:/www.disprot.org/index.php），该数据库展示了IDPs的实验特征和生物学功能，给出了多种不同实验技术得到的IDPs的大量范例，包括许多IDPs及其区域的功能信息，而且把IDPs及其无序区域的结构和功能系统地联系起来了。本工作以固有无序蛋白质数据库DisProt为研究对象，下载了数据库中最新的固有无序蛋白质版本6.01，发布日期为2012年10月15日，共有无序蛋白质的数目是684个，无序区为1513个。通过编程分析得到最长的序列有18534个氨基酸，最

13、短的序列只有33个氨基酸，平均为489个氨基酸。2.2固有无序蛋白质数据去冗余处理由于蛋白质序列数据库中都含有大量的冗余序列，冗余序列通常不能提供更多的信息，而且不利于数据的统计分析，而且它们要占用更多的计算机存储和处理资源。去除这些冗余信息具有很高的实用价值，不但可以减小数据库的大小提高序列搜索的速度，而且有助于对数据的统计分析。2.2.1去冗余软件人们通常认为相似的生物序列具有相似的生物功能和结构，也具有相似的进化历史。一般可以通过三种方式来确定序列之间的相似度，即序列片段过滤、序列比对以及二者结合的方式。序列片段过滤可以通过计算序列片段的数目来断定序列之间的相似度在某个阈值之内，速度较

14、快；序列比对是一种常用的序列之间相似性分析和比较的方法，可以分为全局比对和局部比对两种方法，序列比对方法可以获得较为精确的相似度，但通常占用较多的时间；出于对精确度和速度的折中，可以采用上述两种方法结合的方式来确定序列之间的相似度，即首先设置一些过滤策略来减少序列之间比对的次数，再在必要时采用序列比对来确定序列之间的相似度，我们现在所了解的是著名的去冗余程序CD-HIT16,17（http:/weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi）就是采用了这种方式来实现的。本研究用CD-HIT进行去冗余处理，将相似度阈值设为30%。 2.2.2

15、去冗余结果（1）去冗余前，蛋白质共有684条序列，最长序列有18534个氨基酸，最短序列有33个氨基酸，平均为489个氨基酸。去冗余后，蛋白质共有549个序列，最长为18534个氨基酸，最短为33个氨基酸，平均长度为525个氨基酸。可以得到处理前和处理后最长序列和最短序列的氨基酸个数相同，处理前的平均氨基酸个数稍比处理后要短，但基本相同，说明相似度阈大于30%蛋白质序列的氨基酸多数在平均数以下。（2）把氨基酸的的长度分成7块，分别统计了去冗余前后固有无序蛋白序列的条数，统计结果见表2-1，从表中可以看出序列长度大多集中在33-1883之间，序列长度4658-17609之间一条序列都没有。表2-

16、1 去冗余前后氨基酸长度及含量对比长度去冗余前序列条数去冗余后序列条数33-958616486958-188352491883-2808872808-3733653733-4658114658-176090017609-1853411（3）氨基酸的个数和百分含量的对比。通过使用Matlab7.0对所下载的所有蛋白质序列进行编程，得到了去冗余前后所有氨基酸的总数及各种氨基酸的个数。通过对这些数据进行处理，可以更清楚的看到去冗余前后各种氨基酸的变化情况，如表2-2所示。为了更好的比较去冗余去前后氨基酸组成的变化，做了图2-1和图2-2。表2-2去冗余前后氨基酸的个数和百分含量的对比氨基酸种类去冗

17、余前后氨基酸个数去冗余前后氨基酸百分含量G22865194887.50%6.76%A25111215557.50%7.48%V20789180316.21%6.25%I15318134004.58%4.65%L27922241228.30%8.37%F1071592713.20%3.22%P20047168635.99%5.85%M744163052.22%2.19%W341528921.02%1.00%C499842631.49%1.48%S26305226897.86%7.87%T19180165915.73%5.75%N13768121104.11%4.20%Q16145137374.8

18、2%4.76%Y888476622.66%2.66%H716360592.14%2.10%D18925165375.66%5.74%E26171227547.82%7.89%K22512195426.73%6.78%R16938144225.06%5.00% 图2-1去冗余前后各氨基酸个数图2-2去冗余前后各种氨基酸含量结论：通过对数据的处理分析，可以得到去冗余前氨基酸总数为334623个，去冗余之后，氨基酸总数为288302个。从图2-1可以更直观的看出去冗余前各氨基酸总数比去冗余之后稍高，这是因为蛋白质序列经过去冗余后，相似度大于30%的序列去掉了，因此氨基酸的数目都有所降低。从图2-

19、2可以看出20中氨基酸在序列中所占百分含量总体趋势去冗余前后变化不大，各氨基酸含量总趋势也是不变的。但是从表2-2中可以看出去冗余后较去冗余前Ala、Pro、Met、Cys、Gln、His、Ary含量下降；Val、Ile、Leu、Phe、Trp 、Ser、Thr、Asn、Tyr、Asp、Glu、Lys含量略有升高。由此结果也可以看出，去冗余后确实各种氨基酸的含量和去冗余前有所变化，这一结果也进一步体现出去冗余的重要性。后面蛋白质序列数据的分析都是对去冗余后的序列进行分析的。2.3结合位点数据集的来源及分析方法BSDP数据库主要是无序蛋白质结合位点信息的数据库，从BSDP数据库中得到固有无序蛋白

20、质-蛋白质、固有无序蛋白质-DNA、固有无序蛋白质-RNA、固有无序蛋白与辅因子、固有无序蛋白与金属、固有无序蛋白与配体、固有无序蛋白与ATP/GTP、固有无序蛋白与其它物质以及固有无序蛋白所有相互作用的结合位点，共九组数据。运用软件MATLAB7.0编写程序（见附录）来统计相互作用的结合位点中各种氨基酸占所有氨基酸的比例，并画出柱状图。3固有无序蛋白结合位点氨基酸组成偏好性分析3.1各种相互作用类型中固有无序蛋白质结合位点的统计分析首先统计了八组物质与固有无序蛋白的结合位点的总个数以及无序区和有序区结合位点的分布（见图3-1 a：蛋白质与DNA结合位点 b：蛋白质与RNA结合位点 c：蛋白质

21、与蛋白质结合位点 d：蛋白质与辅因子结合位点 e：蛋白质与金属结合位点 f：蛋白质与配体结合位点 g：蛋白质与ATP/GTP 结合位点 h.其它结合位点）。具体数据为固有无序蛋白中一共有3575个结合位点，其中无序区中有1484个结合位点；在有序区中有2091个结合位点。由图中可以看出蛋白质和蛋白质结合位点最多，Protein-ATP/GTP 的结合位点最少。表明固有无序蛋白行使功能时与蛋白质结合情况居多，而与ATP/GTP结合情况较少。图3-1各类相互作用固有无序蛋白质结合位点的统计结果3.2固有无序蛋白与蛋白质结合位点的统计分析图3-2为固有无序蛋白与蛋白质结合位点的统计图，图中横坐标大

22、写英文字母为20种氨基酸的单字母英文缩写，纵坐标为结合位点中各氨基酸所占比例（下图同）。通过该图我们可以发现在结合位点中各种氨基酸均有出现且频率不等。氨基酸Trp，Met，Val，Arg频率较高，比较受欢迎，而氨基酸Ser，Qln，His频率较低，不太受欢迎。图3-2固有无序蛋白与蛋白质结合位点的统计结果3.3固有无序蛋白与DNA结合位点的统计分析图3-3为固有无序蛋白与DNA结合位点的统计图，通过该图我们可以发现在结合位点中各种氨基酸出现频率相差较大。氨基酸Arg，Trp，Gly频率较高，比较受欢迎，而氨基酸His在无序区没有出现，另外氨基酸Met，Ser，Fhe，Phe，Asp频率较低，不

23、太受欢迎。图3-3固有无序蛋白与DNA结合位点的统计结果3.4固有无序蛋白与RNA结合位点的统计分析图3-4为固有无序蛋白与RNA结合位点的统计图.通过图3-4与图3-3相比我们可以发现，两图氨基酸的频率有些相近，氨基酸Trp，Gly频率较高，比较受欢迎，氨基酸Met，Ser，Fhe，Pro，Asp，His频率较低，不太受欢迎。这可能由于DNA和RNA都是核酸，具有相似的核苷酸组成，因此在选择与其结合的氨基酸残基时具有相近的偏好。图3-4固有无序蛋白与RNA结合位点的统计结果3.5固有无序蛋白与ATPAGP结合位点的统计分析图3-5为固有无序蛋白与ATPAGP结合位点的统计图，可以发现，总体来

24、说结合位点较少，一半以上的氨基酸在结合位点中没有出现，在出现的氨基酸中Gly的频率较高，在结合位点中比较受欢迎。氨基酸Ala，Trp，Met，Val，Gln，Glu，Asp也有出现，但频率较低，不是很受欢迎。3.6固有无序蛋白与辅因子结合位点的统计分析通过图3-6我们可以发现，无序蛋白与辅因子的结合位点中氨基酸Ala，Gln频率较高，比较受欢迎，而氨基酸The，Phe，Asn，Pro，His，Asp没有出现，其余氨基酸虽有出现但频率较低，在结合位点中不太受欢迎。图3-5固有无序蛋白与ATPAGP结合位点的统计结果图3-6固有无序蛋白与辅因子结合位点的统计结果3.7固有无序蛋白与配体结合位点的统

25、计分析由图3-7我们可以发现，固有无序蛋白与配体的结合位点中氨基酸Trp，His频率较高，而氨基酸Ala，Ser，Lys，Arg，Phe，Pro，Asp没有出现，其余氨基酸虽有出现，但频率较低。图3-7固有无序蛋白与配体结合位点的统计结果3.8固有无序蛋白与金属离子结合位点的统计分析图3-8固有无序蛋白与金属结合位点的统计结果通过图3-8我们发现，固有无序蛋白与金属离子结合位点中氨基酸Met，Gly，Gln，Lys出现的频率较高，氨基酸Ala，Thr，Leu，Gly，Asn，Tyr，Asp出现的频率较低，其余氨基酸没有出现。3.9固有无序蛋白其它结合位点的统计分析通过图3-9我们可以发现，固有

26、无序蛋白的其它结合位点中，氨基酸Met，Gly，Cys出现频率较高，比较受欢迎，而氨基酸Leu，Pro没有出现，另外，氨基酸Ser，Arg，Phe出现的频率较低，在结合位点中不太受欢迎。图3-9固有无序蛋白与其它离子结合位点的统计结果3-9固有无序蛋白与其它离子结合3.10 固有无序蛋白结合所有位点中各种氨基酸的统计图3-10为所有相互作用类型中固有无序蛋白结合位点中各种氨基酸的统计结果。通该图，我们可以发现在无序组蛋白与其它物质相互作用时，结合位点的各种氨基酸的频率不同，综合考虑各种相互作用，氨基酸Trp，Met，Val，Gly所占比例较高，而氨基酸Ser，Phe，His所占比例较低。这表明

27、在各种相互作用中氨基酸Trp，Met，Val，Gly比较受欢迎，而氨基酸Ser，Phe，His不太受欢迎。另外，同是受欢迎的氨基酸在各种相互作用中受欢迎的程度却是不同的，同样地，不受欢迎的氨基酸在各种相互作用中不受欢迎的程度也是不同的。这可能与氨基酸的极性与非极性有关，氨基酸所带的电荷、偶极矩以及侧链体积都有可能影响它的结合频率。图3-10所有相互作用类型中固有无序蛋白质结合位点的统计结果 4结论自从20世纪90年代固有无序蛋白质被发现以来，短短的十几年时间里，关于固有无序蛋白质的研究，从当初的萌芽期迅速发展成一个重要且富有活力的蛋白质科学研究领域。论文以DisProt、BCDP数据库中固有

28、无序蛋白质结合位点为研究对象，利用编程软件Matlab7.0对数据进行统计得到新的数据，然后对数据进行分析，得到以下结论：（1）去冗余后各种氨基酸的含量和去冗余前有所变化，这一结果也进一步体现出去冗余的重要性，为我们在后面分析数据时的处理提供了借鉴。（2）在八种相互作用中，固有无序蛋白与蛋白质相互作用的结合位点最多，表明固有无序蛋白在行驶功能时与蛋白质结合具有明显的偏好性。而固有无序蛋白中蛋白质与ATP/GTP相互作用的结合位点最少。（3）通过分析可以得知：在蛋白质和蛋白质的结合位点中，氨基酸Trp，Met，Val，Arg频率较高，而氨基酸Ser，Qln，His频率较低；在蛋白质与DNA的结合

29、位点中，氨基酸Arg，Trp，Gly频率较高，氨基酸Met，Ser，Fhe，Phe，Asp频率较低，而氨基酸His在无序区没有出现；在蛋白质与RNA的结合位点中氨基酸Trp，Gly频率较高，氨基酸Met，Ser，Fhe，Pro，Asp，His频率较低；在蛋白质与ATPAGP的结合位点中，氨基酸中Gly的频率较高，氨基酸Al，Trp，Met，Val，Gln，Glu，Asp也有出现，但频率较低，其余氨基酸没有出现；在蛋白质与辅因子的结合位点中，氨基酸Ala，Gln频率较高，而氨基酸The，Phe，Asn，Pro，His，Asp没有出现，其余氨基酸虽有出现但频率较低；在蛋白质与配体的结合位点中，氨基

30、酸Trp，His频率较高，而氨基酸Ala，Ser，Lys，Arg，Phe，Pro，Asp没有出现,其余氨基酸虽有出现，但频率较低；在蛋白质与金属结合位点中，氨基酸Met，Gly，Gln，Lys出现的频率较高，氨基酸Ala，Thr，Leu，Gly，Asn，Tyr，Asp出现的频率较低，其余氨基酸没有出现；在无序组蛋白的其它结合位点中，氨基酸Met，Gly，Cys出现频率较高，而氨基酸Leu，Pro没有出现，氨基酸Ser，Arg，Phe出现的频率较低。固有无序蛋白质是一类具有特殊序列、结构特征，行使特殊功能的一类特殊蛋白质，目前成为蛋白质研究领域的热点之一。以上关于固有无序蛋白质中相互作用位点的

31、氨基酸偏好性分析将会为今后蛋白质与其它分子结合位点预测工作提供新的思路和数据支持。随着可得到的固有无序蛋白质与DNA、RNA、蛋白质复合物等结合物结构数据的不断增多，我们可以从原子水平上发现更多的相互作用过程中的规律，以加深对这种相互作用机制的理解，从而在理论上为药物的开发和疾病的治疗提供可靠的帮助。参考文献1 Uversky VN .Natively unfolded proteins: a point where biology waits for physics. Protein Sci .2002,11: 739-756.2 Dunker AK, Obradovic Z, Romero

32、 P, Garner EC, Brown CJ. Intrinsic protein disorder in complete genomes. Genome Inform Ser Workshop Genome Inform .2000, 11: 161-171.3 Dunker AK, Oldfield CJ, Meng J, Romero P, Yang JY, et al. The unfoldomics decade: an update on intrinsically disordered proteins. BMC Genomics.2008 ,9 Suppl 2: S1.4

33、Nishikawa K . Natively unfolded proteins: An overview. BIOPHYSICS .2009,5: 58-59.5 Radivojac P, Iakoucheva LM, Oldfield CJ, Obradovic Z, Uversky VN, et al. Intrinsic disorder and functional proteomics. Biophys J.2007, 92: 1439-1456.6 Burra PV, Kalmar L, Tompa P . Reduction in structural disorder and

34、 functional complexity in the thermal adaptation of prokaryotes. PLoS One .2010, 5: e12069.7 Pavlovic-Lazetic GM, Mitic NS, Kovacevic JJ, Obradovic Z, Malkov SN, et al. Bioinformatics analysis of disordered proteins in prokaryotes. BMC Bioinformatics. 2012,12: 66.8 Xue B, Dunker AK, Uversky VN . Ord

35、erly order in protein intrinsic disorder distribution: disorder in 3500 proteomes from viruses and the three domains of life. J Biomol Struct Dyn .2012,30: 137-149.9 Sethi D, Garg A, Raghava GP. DPROT: prediction of disordered proteins using evolutionary information. Amino Acids.2008, 35: 599-605.10

36、 Bellay J, Han S, Michaut M, Kim T, Costanzo M, et al. Bringing order to protein disorder through comparative genomics and genetic interactions. Genome Biol.2013, 12: 14.11 Muppirala UK, Honavar VG, Dobbs D Predicting RNA-protein interactions using only sequence information. BMC Bioinformatics.2013,

37、12: 489.12 Dosztanyi Z, Csizmok V, Tompa P, Simon I The pairwise energy content estimated from amino acid composition discriminates between folded and intrinsically unstructured proteins. J Mol Biol 2005,347: 827-839.13 Meszaros B, Tompa P, Simon I, Dosztanyi Z Molecular principles of the interactio

38、ns of disordered proteins. J Mol Biol 2007,372: 549-561.14 Gunasekaran K, Tsai CJ, Kumar S, Zanuy D, Nussinov RExtended disordered proteins: targeting function with less scaffold. Trends Biochem Sci 2013,28: 81-85.15 吴建盛, 栋胡, 伍洪涛, 谢建明, 啸孙蛋白质-核酸复合物界面氨基酸与核苷酸偏好性分析. 生物物理学报 2010,26: 234-244.16 Shen J,

39、 Zhang J, Luo X, Zhu W, Yu K, et al.Predicting protein-protein interactions based only on sequences information. Proc Natl Acad Sci U S A 2007,104: 4337-4341.17 Wu J, Liu H, Duan X, Ding Y, Wu H, et al.Prediction of DNA-binding residues in proteins from amino acid sequences using a random forest mod

40、el with a hybrid feature. Bioinformatics 2009,25: 30-35.Studies on Binding Sites Based on Sequence Characteristics Intrinsically Disordered Proteins StatisticsYan Zhiduo(College of Physics and Electronic Information, Dezhou University, Dezhou Shandong, 253023)Abstract Taking Disprot and BSDP intrins

41、ically disordered proteins binding sites in the database as the research object, build 9 kinds of binding site data sets, using MATLAB to statistics the binding sites of various amino acids frequency, it was found that the interaction sites of protein and protein is the most, interaction sites of pr

42、oteins and ATP/GTP is the least, and we can learn that all kinds of binding site of amino acid has obvious preferences. The study is helpful to know the intrinsically chaotic characteristics of protein interactions with other ingredients, to further excavate the intrinsically unordered sequence char

43、acteristics of protein, and it has laid a good foundation for the development of the software which prediction binding sites of intrinsically disordered protein and protein, DNA, RNA, ligands, cofactors and so on.Keywords Intrinsically disordered proteins; Disordered region; Analysis of junctional s

44、equential； Binding site致谢首先，我衷心的感谢我的指导老师xxx老师给予我的帮助。在这次论文的完成过程中是x老师不厌其烦的引导我，我从论文选题时的一窍不通到现在论文的成型都离不开x老师的指导与关心，x老师对我的指导为我指明了正确的方向，对我的鼓励使我勇于面对困难，对我的鞭策让我充满了前进的动力。借此机会，向王老师表示衷心的谢意！其次，我感谢大学里教过我的所有老师，为我的专业知识打下了坚实的基础；同时还要感谢所有的同学们，这个相处融洽、团结向上的集体给我的大学生活增添了许多美好的回忆。正是因为有了你们的支持和鼓励。此次毕业论文才会顺利完成。最后，我要感谢我的舍友以及好友们

45、对我的关心、帮助与照顾，正是由于你们的关心使得我大学四年充满了美好的回忆，我所收获的这份友情将值得我珍藏一生。同时还要感谢我的母校-德州学院对我的大力栽培。本文参考了大量的文献资料，在此，向各学术界的前辈们致敬！我还要感谢含辛茹苦培养我长大的父母，谢谢您们！待添加的隐藏文字内容2谨以此文献给我的亲人，是亲人的理解才使我能够顺利完成本科阶段的学习，你们默默的支持和无私的关爱是我不断拼搏和永远前进的动力源泉。感谢各位老师在百忙之中审阅和评议我的论文。附录：氨基酸统计程序clearclc A=0; W= 0; M= 0; S= 0; T= 0; V=0; Q=0; L=0; K=0; E=0; R=0; G=0; F=0; N=0; P=0; Y=0; I=0; H=0; C=0; D=0; X=0; B=0; Z=0; U=0; sum_Aa=0;seq_header,Sequence=fastaread(文件1位置文件1名.txt);for k=1:length(seq_header) A=A+length(strfind(Sequencek,A); W=W+length(strfind(Sequencek,W); M=M+length(strfind(Sequencek,M); S=S+length(strfind(Sequen