基于序列特征的固有无序蛋白结合位点的统计分析(本科毕业论文).doc
《基于序列特征的固有无序蛋白结合位点的统计分析(本科毕业论文).doc》由会员分享,可在线阅读,更多相关《基于序列特征的固有无序蛋白结合位点的统计分析(本科毕业论文).doc(23页珍藏版)》请在三一办公上搜索。
1、 基于序列特征的固有无序蛋白结合位点的统计分析xxx (物理与电子信息学院,山东德州253023)摘 要 本文以Disprot和BSDP数据库中的固有无序蛋白的结合位点为研究对象,构建9种结合位点数据集,利用MATLAB进行统计结合位点各种氨基酸的频率,结果发现,蛋白质与蛋白质相互作用的结合位点最多,蛋白质与ATP/GTP相互作用的结合位点最少,而且还可以得知各种类型结合位点的氨基酸具有明显的偏好性。该研究有助于认识固有无序蛋白质与其它成份的相互作用特征、为进一步挖掘固有无序蛋白质的序列特征,进而为发展预测固有无序蛋白质与蛋白质、DNA、RNA、配体、辅因子等物质结合位点的软件奠定了良好的基础
2、。关键词 固有无序蛋白; 无序区; 序列分析; 结合位点1引言1.1固有无序蛋白质蛋白质是构成生物体最重要的两类大分子之一,蛋白质翻译在整个生物过程中发挥着非常重要的作用。传统思想认为,蛋白质要实现生物功能,必须先折叠成一个稳定的三维结构,因此形成了蛋白质结构决定其功能的主流观点,对蛋白质科学的研究已经取得了一系列成就,创造了现代蛋白质科学的“大爆炸”时代1。然而,随着基因工程方法和实验技术的发展以及基因组计划的开展,在上个世纪90年代初,人们发现有些蛋白质或蛋白质序列中的一部分区域在生理条件下不具有一个确定的三维结构,但依然能够正常行使生物学功能。后来发现,这类蛋白质越来越多,并逐渐形成了一
3、种新的蛋白质类型,称为固有无序蛋白质2,3,4(intrinsically disordered proteins,简称为IDPs)。固有无序蛋白质的特征是整条链或链的一部分并不具有严格的三维结构,原子位置及主链二面角没有特定的平衡值而是随着时间发生很大的变化。经过十多年的研究,人们发现这类蛋白质在生物体内普遍存在而且十分丰富5,6,可以位于细胞的不同部位。研究还发现,真核生物体中含有的固有无序蛋白质数量远远高于古细菌和细菌中的固有无序蛋白7,8,即生物进化的一个重要特点是蛋白质中无序区的含量在增加。固有无序蛋白质概念的提出既是对蛋白质科学的挑战,也是科学研究的巨大机遇,为了深入认识固有无序蛋
4、白质的性质,研究其序列特征、进化过程中结构的保守性以及功能等是十分重要的科学问题。1.2固有无序蛋白质的生物学功能无序蛋白质在生物体内是普遍存在的。例如利用预测算法DISOPRED2对古细菌细菌和真核生物的蛋白质组序列进行的分析表明,长度大于30个氨基酸的无序区域在这三个物种中的比例分别为2.0%、4.2%和33.0%9。对目前存在的大量基因库数据进行预测,分析蛋白质的结构无序与蛋白质功能之间的关联,通过这种方法人们发现无序蛋白质在诸如转录和翻译调控细胞信号转导蛋白磷酸化及小分子存储等过程中发挥着重要的作用;另一方面无序蛋白质又似乎给生物体系带来一些不利的影响,经常与多种疾病联系在一起。与人类
5、癌症相关的蛋白质中有79%的蛋白质有无序片段;在心血管疾病有关的蛋白质中,无序蛋白质的含量也高达57%。DisProt数据库将所有固有无序蛋白质分为7大功能和1组未知功能,并且将这7种功能又细分为28 种更具体的功能。按照Disprot 数据库的功能划分方法,将此数据库中所有固有无序蛋白质分为以下8组:分子伴侣、熵链、金属吸附器、位点修饰、分子组装、分子识别效应器、分子识别抗氧剂和未知功能。1.3固有无序蛋白质的序列氨基酸(Amino acid)是构成蛋白质的基本单位,赋予蛋白质特定的分子结构形态,使它的分子具有生化活性。固有无序蛋白质可以指整个蛋白质在生理环境下缺乏稳定的结构,也可以指蛋白质
6、中的一部分区域没有结构,这部分区域通常称为无序区。这类蛋白质在氨基酸序列上具有显著的特征。其中最显著的特征是它们的疏水残基含量较低,同时拥有较高的未被中和的电荷因此不能形成一个稳定的疏水核心,在疏水性电荷图上无序蛋白质与有序蛋白质明显存在于不同的区域图。另外无序蛋白质氨基酸序列的复杂性也较有序蛋白质的低,序列上常常出现重复的区域。Radivojac对此进行过研究,得出不同的氨基酸残基也具有不同的促进无序结构形成的倾向的结论:Gly、Trp、Tyr、Ile、Phe、Val、Leu、His、Thr、Asn比较有利于有序结构的形成;Asp、Met、Lys、Arg、Ser、Glu、Pro、Gln有利于
7、无序的形成,而其它残基的作用则比较中性。无序蛋白质的出现还与氨基酸残基的预期堆积密度(用一定距离内的近邻残基数目来表征)有关联,预期堆积密度低的序列倾向于形成无序蛋白质,密度高的倾向于形成淀粉状聚集结构,而预期堆积密度适中的序列则倾向于形成有序球状蛋白。1.4蛋白质结合位点预测的意义在后基因组时代,生命科学的中心任务是阐明基因组所表达的真正执行生命活动的全部蛋白质的表达规律和生物功能。蛋白质与配体相互作用以及蛋白质结构与功能之间的关系是后基因组时代研究的核心内容,而蛋白质的结合位点的预测是这些研究领域的理论基础,同时也是基于结构的药物设计中至关重要的步骤,对计算机辅助药物设计和复合物结构预测具
8、有重要意义,也是生物信息学领域一个重要的研究热点。蛋白质与其他蛋白质、DNA和RNA的相互作用是实现许多细胞功能的途径10。近年来,随着X-射线晶体衍射和核磁共振等技术的日趋完善,越来越多高分辨率的复合物三维结构被测出,这使得人们能够从原子水平上研究蛋白质与其他蛋白质、DNA和RNA相互作用的结合位点。近年来,对此领域的研究发展较快,已有大量文献利用机器学习算法,力求寻找最合适的特征参数来分析及预测蛋白质与生物大分子相互作用时序列中的结合残基11。固有无序蛋白质也是蛋白质,它往往与其他蛋白质、DNA 和RNA等通过结合位点结合来行使功能,结构上的柔性和在复合物状态能发生无序-有序转变的特性使其
9、能够与蛋白质、DNA 和RNA等发生广泛的相互作用,从而行使诸多重要的生物学功能。已有研究通过对固有无序蛋白质在形成复合物状态下的分子内和分子间相互作用进行分析发现,固有无序蛋白质与受体分子之间的相互作用要强于固有无序蛋白质分子内的相互作用,因此固有无序蛋白质在结合状态下的有序结构主要是由残基分子与其他生物分子间形成的非共价键相互作用力来稳定12,如氢键、静电相互作用力以及范德华力等。也有研究表明,固有无序蛋白质复合物的界面通常由连续的氨基酸构成,而由有序蛋白质构成的复合物的界面则由多个不连续的序列组成13,因此要形成同样大小的结合界面,固有无序蛋白质只需要较短的序列,有利于减小体积,降低细胞
10、内的拥挤程度14。这表明对固有无序蛋白质相互作用位点的预测会更进一步了解固有无序蛋白质的表达规律和生物功能。1.5课题研究思路和意义课题以DisProt15数据库中固有无序蛋白质为研究对象,利用BSDP(Binding Sites of Disordered Proteins http:/211.64.35.129/bsdp/index.php)数据库,利用编程软件Matlab7.0进行统计得到新的结合位点数据。具体工作为:首先利用Disprot数据库下载所有固有无序蛋白,经过去冗余处理后,再利用BSDP数据库构建固有无序蛋白质-蛋白质、固有无序蛋白质-DNA、固有无序蛋白质-RNA复合物、固
11、有无序蛋白与辅因子、固有无序蛋白与金属、固有无序蛋白与配体、固有无序蛋白与ATP/GTP、固有无序蛋白与其它物质结合位点的数据集。在此基础上,研究了固有无序蛋白与其它因子相互作用结合位点的氨基酸序列的偏好性。本研究工作,有助于认识固有无序蛋白质与其它成份的相互作用特征、了解现有蛋白质与核酸以及其他物质作用位点预测对固有无序蛋白情况的适用性、进一步挖掘固有无序蛋白质的序列特征,进而为发展固有无序蛋白质与蛋白质、DNA、RNA、配体、辅因子等物质的预测软件奠定了良好的基础。2数据来源及去冗余处理2.1固有无序蛋白质数据来源目前,经实验确认的固有无序蛋白质的数目日益增加,为方便这些数据的管理和注释,
12、人们开始建立有关IDPs的数据库。Megan和Dunker等创立了系统描述固有无序蛋白的DisProt数据库(http:/www.disprot.org/index.php),该数据库展示了IDPs的实验特征和生物学功能,给出了多种不同实验技术得到的IDPs的大量范例,包括许多IDPs及其区域的功能信息,而且把IDPs及其无序区域的结构和功能系统地联系起来了。本工作以固有无序蛋白质数据库DisProt为研究对象,下载了数据库中最新的固有无序蛋白质版本6.01,发布日期为2012年10月15日,共有无序蛋白质的数目是684个,无序区为1513个。通过编程分析得到最长的序列有18534个氨基酸,最
13、短的序列只有33个氨基酸,平均为489个氨基酸。2.2固有无序蛋白质数据去冗余处理 由于蛋白质序列数据库中都含有大量的冗余序列,冗余序列通常不能提供更多的信息,而且不利于数据的统计分析,而且它们要占用更多的计算机存储和处理资源。去除这些冗余信息具有很高的实用价值,不但可以减小数据库的大小提高序列搜索的速度,而且有助于对数据的统计分析。2.2.1去冗余软件人们通常认为相似的生物序列具有相似的生物功能和结构,也具有相似的进化历史。一般可以通过三种方式来确定序列之间的相似度,即序列片段过滤、序列比对以及二者结合的方式。序列片段过滤可以通过计算序列片段的数目来断定序列之间的相似度在某个阈值之内,速度较
14、快;序列比对是一种常用的序列之间相似性分析和比较的方法,可以分为全局比对和局部比对两种方法,序列比对方法可以获得较为精确的相似度,但通常占用较多的时间;出于对精确度和速度的折中,可以采用上述两种方法结合的方式来确定序列之间的相似度,即首先设置一些过滤策略来减少序列之间比对的次数,再在必要时采用序列比对来确定序列之间的相似度,我们现在所了解的是著名的去冗余程序CD-HIT16,17(http:/weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi)就是采用了这种方式来实现的。本研究用CD-HIT进行去冗余处理,将相似度阈值设为30%。 2.2.2
15、去冗余结果(1)去冗余前,蛋白质共有684条序列,最长序列有18534个氨基酸,最短序列有33个氨基酸,平均为489个氨基酸。去冗余后,蛋白质共有549个序列,最长为18534个氨基酸,最短为33个氨基酸,平均长度为525个氨基酸。可以得到处理前和处理后最长序列和最短序列的氨基酸个数相同,处理前的平均氨基酸个数稍比处理后要短,但基本相同,说明相似度阈大于30%蛋白质序列的氨基酸多数在平均数以下。(2)把氨基酸的的长度分成7块,分别统计了去冗余前后固有无序蛋白序列的条数,统计结果见表2-1,从表中可以看出序列长度大多集中在33-1883之间,序列长度4658-17609之间一条序列都没有。表2-
16、1 去冗余前后氨基酸长度及含量对比长度去冗余前序列条数去冗余后序列条数33-958616486958-188352491883-2808872808-3733653733-4658114658-176090017609-1853411(3)氨基酸的个数和百分含量的对比。 通过使用Matlab7.0对所下载的所有蛋白质序列进行编程,得到了去冗余前后所有氨基酸的总数及各种氨基酸的个数。通过对这些数据进行处理,可以更清楚的看到去冗余前后各种氨基酸的变化情况,如表2-2所示。为了更好的比较去冗余去前后氨基酸组成的变化,做了图2-1和图2-2。表2-2去冗余前后氨基酸的个数和百分含量的对比氨基酸种类去冗
17、余前后氨基酸个数去冗余前后氨基酸百分含量G22865194887.50%6.76%A25111215557.50%7.48%V20789180316.21%6.25%I15318134004.58%4.65%L27922241228.30%8.37%F1071592713.20%3.22%P20047168635.99%5.85%M744163052.22%2.19%W341528921.02%1.00%C499842631.49%1.48%S26305226897.86%7.87%T19180165915.73%5.75%N13768121104.11%4.20%Q16145137374.8
18、2%4.76%Y888476622.66%2.66%H716360592.14%2.10%D18925165375.66%5.74%E26171227547.82%7.89%K22512195426.73%6.78%R16938144225.06%5.00% 图2-1去冗余前后各氨基酸个数 图2-2去冗余前后各种氨基酸含量 结论:通过对数据的处理分析,可以得到去冗余前氨基酸总数为334623个,去冗余之后,氨基酸总数为288302个。从图2-1可以更直观的看出去冗余前各氨基酸总数比去冗余之后稍高,这是因为蛋白质序列经过去冗余后,相似度大于30%的序列去掉了,因此氨基酸的数目都有所降低。从图2-
19、2可以看出20中氨基酸在序列中所占百分含量总体趋势去冗余前后变化不大,各氨基酸含量总趋势也是不变的。但是从表2-2中可以看出去冗余后较去冗余前Ala、Pro、Met、Cys、Gln、His、Ary含量下降;Val、Ile、Leu、Phe、Trp 、Ser、Thr、Asn、Tyr、Asp、Glu、Lys含量略有升高。由此结果也可以看出,去冗余后确实各种氨基酸的含量和去冗余前有所变化,这一结果也进一步体现出去冗余的重要性。后面蛋白质序列数据的分析都是对去冗余后的序列进行分析的。2.3结合位点数据集的来源及分析方法BSDP数据库主要是无序蛋白质结合位点信息的数据库,从BSDP数据库中得到固有无序蛋白
20、质-蛋白质、固有无序蛋白质-DNA、固有无序蛋白质-RNA、固有无序蛋白与辅因子、固有无序蛋白与金属、固有无序蛋白与配体、固有无序蛋白与ATP/GTP、固有无序蛋白与其它物质以及固有无序蛋白所有相互作用的结合位点,共九组数据。运用软件MATLAB7.0编写程序(见附录)来统计相互作用的结合位点中各种氨基酸占所有氨基酸的比例,并画出柱状图。3固有无序蛋白结合位点氨基酸组成偏好性分析3.1各种相互作用类型中固有无序蛋白质结合位点的统计分析首先统计了八组物质与固有无序蛋白的结合位点的总个数以及无序区和有序区结合位点的分布(见图3-1 a:蛋白质与DNA结合位点 b:蛋白质与RNA结合位点 c:蛋白质
21、与蛋白质结合位点 d:蛋白质与辅因子结合位点 e:蛋白质与金属结合位点 f:蛋白质与配体结合位点 g:蛋白质与ATP/GTP 结合位点 h.其它结合位点)。具体数据为固有无序蛋白中一共有3575个结合位点,其中无序区中有1484个结合位点;在有序区中有2091个结合位点。由图中可以看出蛋白质和蛋白质结合位点最多,Protein-ATP/GTP 的结合位点最少。表明固有无序蛋白行使功能时与蛋白质结合情况居多,而与ATP/GTP结合情况较少。 图3-1各类相互作用固有无序蛋白质结合位点的统计结果3.2固有无序蛋白与蛋白质结合位点的统计分析图3-2为固有无序蛋白与蛋白质结合位点的统计图,图中横坐标大
22、写英文字母为20种氨基酸的单字母英文缩写,纵坐标为结合位点中各氨基酸所占比例(下图同)。通过该图我们可以发现在结合位点中各种氨基酸均有出现且频率不等。氨基酸Trp,Met,Val,Arg频率较高,比较受欢迎,而氨基酸Ser,Qln,His频率较低,不太受欢迎。图3-2固有无序蛋白与蛋白质结合位点的统计结果3.3固有无序蛋白与DNA结合位点的统计分析图3-3为固有无序蛋白与DNA结合位点的统计图,通过该图我们可以发现在结合位点中各种氨基酸出现频率相差较大。氨基酸Arg,Trp,Gly频率较高,比较受欢迎,而氨基酸His在无序区没有出现,另外氨基酸Met,Ser,Fhe,Phe,Asp频率较低,不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 序列 特征 固有 无序 蛋白 结合 统计分析 本科毕业 论文

链接地址:https://www.31ppt.com/p-4022614.html