博士论文转录因子结合位点和动物毒素的分析与预测.doc

资源ID：3924565 资源大小：8.79MB 全文页数：89页
资源格式： DOC 下载积分：8金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要8金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

博士论文转录因子结合位点和动物毒素的分析与预测.doc

10126-20709042 分类号密级 U D C 编号论文题目转录因子结合位点和动物毒素的分析与预测研究生：指导教师：教授专业：生物物理学研究方向：理论生物物理2010 年 3 月 30 日原创性声明本人声明：所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成果。除本文已经注明引用的内容外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得内蒙古大学及其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名：指导教师签名：日期：日期：在学期间研究成果使用承诺书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：内蒙古大学有权将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘，允许编入有关数据库进行检索，也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权，作者在学期间取得的研究成果属于内蒙古大学。作者今后使用涉及在学期间主要研究内容或研究成果，须征得内蒙古大学就读期间导师的同意；若用于发表论文，版权单位必须署名为内蒙古大学方可投稿或公开发表。学位论文作者签名：指导教师签名：日期：日期：转录因子结合位点和动物毒素的分析与预测摘要转录因子结合位点的识别是阐明基因转录调控机制的重要环节，准确的转录因子结合位点的预测算法将有助于人们识别转录因子的目标基因，进而研究其在上游调控区中的位置对转录调控的影响。然而，目前存在的预测转录因子结合位点的算法所得结果的特异性普遍较低，因此有必要提出一种新的有效的理论预测算法。动物毒素能直接作用于药物作用靶点，这使得动物毒素成为研究药物靶点的重要工具。动物毒素还在离子通道的研究、药物发现和杀虫剂的合成方面有广泛的应用。因此，预测动物毒素就变得非常重要，有必要提出一种能准确鉴别动物毒素的理论算法。窗体底端本文以转录因子结合位点、动物毒素、神经毒素、细胞毒素、突触前神经毒素和突触后神经毒素作为研究对象，利用位置关联性打分方程(position correlation scoring function, PCSF)、离散增量(increment of diversity, ID)、支持向量机(Support Vector Machine, SVM)和朴素贝叶斯分类器(Naive Bayes Classifier, NB)四类算法对它们进行了预测研究。本文的研究工作如下：首先，从转录因子结合位点数据库JASPAR选出8种实验上证实的没有冗余的转录因子结合位点数据，结合位置保守性和伪计数，构建了位置关联方程，通过定义位置关联性打分方程的最佳阈值，使得打分方程在此最佳阈值下所得结果的假阳率较低。同时为了比较打分方程在转录因子结合位点方面的预测能力，本文将打分方程与MATCHTM中所使用的位置权重矩阵进行了比较，结果显示打分方程的预测能力优于位置权重矩阵的预测能力。其次，从动物毒素数据库ATDB下载了全部的动物毒素，用Saha和Raghava工作中提供的非毒素的蛋白质序列作为负集，利用PISCES软件对动物毒素和非毒素进行序列相似性比对，构建了序列相似小于25%、40%、60%、80%和90%的数据集合。分别选取20种氨基酸组分、400种二肽组分、6种亲疏水组分、36种二肽亲疏水组分作为离散增量算法的参数，对不同序列相似性的动物毒素数据集进行了预测。结果表明：离散增量算法在以二肽组分作为参数时预测结果最好；5种不同序列相似性的动物毒素数据集的预测结果随序列相似性变化较小。为了进一步提高动物毒素的预测精度，本文对4种不同的离散增量值进行组合并作为支持向量机的输入参数，对动物毒素进行了预测，结果显示：支持向量机的预测结果优于离散增量算法的预测结果。同时本文还对神经毒素和细胞毒素进行了预测。此外，为了将支持向量机和其它的预测算法进行比较，这里将支持向量机应用到Saha和Raghava构建的神经毒素的数据库上，预测结果显示：本文所使用的支持向量机的预测结果优于Saha和Raghava所提出的算法取得的预测结果。最后，本文从Swiss-Prot数据库上下载了突触前和突触后神经毒素的蛋白质序列，参照数据库给出的注释信息，统计了突触前和突触后神经毒素的二硫键类型及其二硫键数目的分布。从ATDB和Swiss-Prot数据库上下载了突触前和突触后神经毒素的蛋白质序列，分别构建了序列相似性小于80%的数据集1和数据集2。本文采用了5种方法选取参数：(1)：蛋白质序列的二肽参数；(2)：MRMR软件提取的50个二肽参数；(3)：MEME搜索到的模体特征；(4)： Prosite搜索到的模体特征；(5)：Interpro搜索到的模体特征。本文还对这5种参数进行了组合，一共得到了12类参数，并将这12类参数作为离散增量和朴素贝叶斯分类器的参数，在Jackknife检验下，对数据集1和2进行预测。预测结果表明：(1)：增加模体参数的预测结果好于二肽参数时的预测结果；(2)：使用模体参数和50个二肽参数时，突触前神经毒素和突触后神经毒素的预测结果最好。关键词：转录因子结合位点；动物毒素；模体特征；离散增量；朴素贝叶斯分类器Analysis and prediction of transcription factor binding sites and animal toxinsAbstractThe identification of transcription factor binding sites is an important step towards the understanding of the transcription regulation. Reliable prediction of transcription factor binding sites can help to identify the target genes of transcription factors and infer the relationship between the positions of binding sites and regulation activity of transcription factors. But the specificity of recognition results achieved by the current algorithms is quite low; therefore, algorithms that can identify binding sites more efficiently are required. The animal toxins are directed against a wide variety of pharmacological targets, making them good tools for studying the properties of these targets. The animal toxins are used in the studies of ion channels, drug discovery and formulation of insecticides. So, prediction of the animal toxins is become very important, it is necessary to propose a computational method to identify the animal toxins. In this thesis, six important issues that are transcription factor binding sites, animal toxins, neurotoxins, cytotoxins, presynaptic neurotoxins and postsynaptic neurotoxins are predicted by using position correlation scoring function (PCSF), increment of diversity (ID), support vector machine (SVM) and Naive Bayes classifier (NB). The main contributions are summarized as follows:First, 8 non-redundant experimentally known transcription factor binding sites are extracted from JASPAR database. Based on pseudo-counts and the conservation analysis of transcription factor binding sites, a novel position correlation scoring function algorithm (PCSF) is proposed. In order to reduce the false positive, the optimal cutoffs are defined for the position correlation scoring function (PCSF). Testing is performed to compare the recognition accuracy of PCSF algorithm with position weight matrix (PWM) that is used in MATCHTM, the predictive results indicates that the PCSF algorithm is better than PWM algorithm.Second, the animal toxin sequences are downloaded from Animal Toxin Database (ATDB), the non-toxin dataset described in the work of Saha and Raghava is used as the negative dataset. Both animal toxin and non-toxin datasets are culled by the PISCES software, the datasets with less than 25%, 40%, 60%, 80% and 90% sequence identity are used. Baed on 20 amino acid compositions, 400 dipetide compositions, 6 amino acid hydropathy compositions and 36 hydropathy dipeptide compositoons, the ID algorithm is applied to predict the animal toxins and non-toxins. The predictive results indicate that the best predictive results are obtained by selecting dipeptide compositions as imputing parameters. For improving the successful rates of the animal toxins, 4 kinds of ID values as inputting the parameters of SVM are combined, and the overall prediction accuracy of SVM is better than ID algorithm. In addition, neurotoxins and cytotoxins are also predicted. In order to compare SVM with other approaches, SVM is also used to predict neurotoxins that described in the work of Saha and Raghava, the higher predictive success rates than the previous algorithms are obtained by SVM.Finally, the protein sequences for presynaptic and postsynaptic neurotoxins are obtained from Swiss-Prot. The distriution of disulfide bond numbers and classes are studied according to the annotation information provided by Swiss-Prot. Based on ATDB and Swiss-Prot, two neurotoxin datasets which the sequence identity is less than 80% are obtained. Five feature extraction methods are used in this paper: (1): the dipeptide compositions; (2): 50 features extract by MRMR software; (3): the motif features discoveried by MEME; (4): the motif features discoveried by Prosite; (5): the motif features discoveried by Interpro. By selecting 12 kinds of hybrid parameters as the inputting parameters of ID algorithm and NB classifier, two datasets are predicted. The predictive results of jackknife tests show that: (1): the predictive results based on extracted motif features are better than the 400 dipeptide features; (2): by using motif features and 50 extracted features, the best predictive results are obtained.Keywords: transcription factor binding sites; animal toxins; motif features; increment of diversity; Naive Bayes classifier目录摘要IAbstractIV第一章绪论11.1 引言11.2 研究课题的背景和意义21.3 国内外研究现状和进展41.3.1 转录因子结合位点研究现状和进展41.3.2 动物毒素研究现状和进展51.4数据库和软件介绍61.5 论文结构安排6第二章理论研究方法介绍82.1位置权重矩阵算法82.2离散增量算法92.2.1 离散量和离散增量92.2.2 最小离散增量算法102.3支持向量机算法112.4朴素贝叶斯分类器122.4.1贝叶斯定理122.4.2朴素贝叶斯分类器122.4.3条件概率的计算132.5 特征选取算法142.5.1 氨基酸组成分信息142.5.2 氨基酸序列的二肽组分信息142.5.3 氨基酸亲疏水性分布信息152.6基于互信息的特征参数选择162.6.1最大相关性172.6.2最小冗余性172.6.3连续变量的MRMR算法172.7分类系统评价18第三章转录因子结合位点的预测203.1 引言203.2 数据库的选取203.3.1 位置权重矩阵的构建223.3.2 位点保守性参量的定义223.3.3 位置关联性打分方程的定义223.4 结果和讨论233.4.1 位置关联性打分方程最佳阈值的确定233.4.2 最小假阴率阈值233.4.3 最小假阳率阈值233.4.4 最佳阈值233.5 Jackknife检验243.6 与其它方法的比较253.7 讨论26第四章基于离散增量和支持向量机的动物毒素的预测274.1 引言274.2动物毒素的预测274.2.1 数据库的构建274.2.2 预测方法介绍284.2.3 结果与讨论294.2.4 结论334.3神经毒素的预测344.3.1 神经毒素研究的意义344.3.2数据库的选取344.3.3 结果和讨论344.4 与其它方法的比较36第五章突触前和突触后神经毒素的分析及预测385.1 引言385.2 数据集的获取及其来源分析385.3突触前和突触后神经毒素二硫键的研究395.3.1突触前和突触后神经毒素二硫键信息395.3.2突触前神经毒素中磷脂酶A2金属离子结合位点研究415.4 ATDB数据库中突触前和突触后神经毒素的预测445.4.1 数据集的获取445.4.2离散增量的预测结果445.4.3序列模体特征的提取455.4.4预测结果与讨论515.5 Swiss-Prot数据库中突触前和突触后神经毒素的预测545.5.1数据集的获取545.5.2 特征参数的构成545.5.3预测结果与讨论56第六章总结和展望596.1 工作总结596.2 工作展望60参考文献62附录77致谢81攻读博士学位期间发表和完成的论文目录82第一章绪论1.1 引言21世纪是生命科学的时代，也是信息时代。随着生物学和医学的迅速发展，特别是人类基因组计划的顺利推进，有关核酸、蛋白质的序列和结构数据呈指数增长。生物分子数据的积累速度在不断地快速增加。这些数据具有丰富的内涵，其中隐藏着丰富的生物学知识。如何充分利用这些数据，通过数据分析、处理，揭示这些数据的内涵，得到有用的信息，将是生物学家和数学家所面临的一个严峻的挑战。基于以上的背景上，一门新的学科生物信息学就应运而生了1, 2。生物信息学是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一，同时也将是21世纪自然科学的核心领域之一。生物信息学的基本任务是对各种生物大分子序列进行分析，从大量的序列信息中获取基因结构、功能和进化等知识。生物信息学的研究重点主要体现在基因组学和蛋白质组学两方面，具体地说就是从核酸和蛋白质序列出发，分析序列中表达的结构和功能的生物信息3。生物信息学的产生和发展对于生命科学的研究具有划时代的意义。它第一次大量地在生物学中引入了数学模型，标志着生物学已经从实验学科向理论学科转变，这对于生物学而言是一次从量变到质变的飞跃。在生物信息学形成以前，一切生物学理论的发展都是通过大量实验证据所得到经典理论，然而在生物信息学出现之后，可以将生物学理论研究用于指导、设计和验证实验生物学。这将会大大缩短实验周期，使得实验生物学的目的更加明确4。生物信息学的发展将对生命科学本身的发展产生革命性的影响，其研究成果将极大地促进生命科学其它研究领域的进步。在推动生命科学相关学科发展的同时，生物信息学的发展将对农学、医药、食品和环境等领域产生巨大的影响5。可以说，生物信息学作为现代信息科学、计算机科学、生命科学、数学、统计学、物理学、化学等诸多学科发展到20世纪末而相互渗透形成的新兴交叉学科，已经成为当今生命科学乃至整个自然科学的重大前沿领域之一，同时也将会是21世纪自然科学的核心领域之一。1.2 研究课题的背景和意义所有生物的遗传信息，都是以基因的形式储藏在细胞内的DNA或RNA分子中的。随着个体的发育，DNA分子能有序地将其所承载的遗传信息，通过密码子-反密码子系统，转变成蛋白质分子，执行各种生理化学功能，完成生命的过程。这个从DNA到蛋白质的过程称为基因表达(gene expression)，对这个过程的调节就称为基因表达调控(gene regulation)6。根据中心法则可知，基因表达的过程起始于基因的转录，转录过程的调控在基因调控的过程中起着至关重要的作用。正确的转录调控使得生物体内的能量和资源得到正确的分配。转录调控决定了基因中的遗传信息在一个合适的时间以及合适的地方被转录到mRNA分子中。转录过程的激活、抑制和调节主要通过转录因子蛋白与其在基因组序列中对应的结合位点之间的交互作用来实现。转录调控因子(transcription factors, TFs)有序地结合在目标基因启动子序列中的特殊位点，启动基因的转录和控制基因的转录效率。这些位点被称为转录因子结合位点(transcription factor binding sites, TFBSs)，又被称为顺式调控元件(cis-regulatoryelements)7, 8。细胞接受到某种外界刺激后，激活某些转录因子，这些激活的转录因子与DNA分子上相应的结合位点结合，将RNA聚合酶吸引到相应基因的转录因子起始位点附近，启动转录过程的发生。真核生物与原核生物的基因有着巨大的区别，所以它们的转录结合位点与调控的方式也有明显不同。首先介绍一下原核生物的调控机理，转录因子与基因上游的启动子的一部份序列相互结合，从而起到调控作用。这一段与部分启动子序列相结合的DNA片段就叫做转录因子的结合位点。一般来说，在原核细胞中，结合位点是基因上游区域的一段保守序列，约9-20个碱基。真核生物的基因结构更加复杂，其调控机理比原核生物复杂得多，其中最明显的就是内含子的存在，使得调控的作用位置具有更高可操纵性。真核生物基因在无转录因子时处于不表达状态，RNA聚合酶自身无法启动基因转录，只有当转录因子结合在其识别的DNA序列上后基因才开始表达。由于转录调控的重要意义，所以在转录调控研究的初期，转录因子结合位点的预测就成为一个热点问题。如果能正确的预测出基因的调控区中有哪个转录因子的结合位点，那么就可以了解这个基因受到哪些转录因子的调控，可能会在什么情况下表达，进而构建转录调控网络9。转录因子结合位点的长度通常都不长，一般从五个碱基到几十碱基不等，而且其碱基组成也很灵活；另外，转录因子结合位点在基因组中的分布范围也比较广。对于原核基因组，长度一般为10到30个碱基，而对于真核基因组，其长度更短，通常为5到15个碱基。与其它常见的序列信号相比，转录因子结合位点除了长度较短以外，其碱基组成也更加灵活，允许较多的错配。这些特征造成位点信号的保守性偏弱，特异性不强，很容易与长序列中随机出现的类似信号混淆在一起。另外，转录因子结合位点在基因组中的分布范围比较广，虽然大多数集中位于转录单元或基因上游的启动子区域内，但也有一些分布在转录单元或基因的下游，甚至在内含子或编码区内。即便只考虑启动子区域，对于真核基因组其范围也常常能达到数千碱基对。因此，在预测结果中，人们常常很难分辨出哪些位点是真正能结合转录因子的功能位点，哪些是没有真正功能的结合位点。人们迫切需要一个能够给出较高生物学价值的转录因子结合位点预测算法。生物毒素是指生物或微生物在其生长繁殖过程中或在一定条件下产生的对其它生物物种有毒害作用并不可复制的化学物质，也称为天然毒素。已知化学结构的生物毒素有数千种，依据来源可以把生物毒素分为动物毒素、植物毒素和微生物毒素10。动物毒素常以某种特异性的方式作用于特定细胞受体、离子通道和生物靶分子，对不同的离子通道及神经突触产生不同的作用效果。因此，利用动物毒素不仅可以鉴定和分离这些物质，而且可以探索其作用方式与生理机制11。在这方面，科学家们已经利用河豚毒素、乌头碱等动物毒素搞清楚钠离子通道和多种通道亚型的功能及作用位点，基本阐明了其调控机制。此外，在立体化学、多肽与蛋白质化学等生命科学的研究中，一些具有复杂立体结构的动物毒素，如刺尾鱼毒素的合成都是有机合成化学中的重大成就。在化学生物学、化学生态学等的研究方面，动物毒素也正在显示出越来越重要的作用。如在化学生物学的研究中，人们以蝰蛇毒素为工具研究血友病的过程中，发现了可活化凝血因子的酶，成功地阐明了凝血机制。过去20年来动物毒素的药用价值已取得重大进展，从动物毒素中筛选到了一些毒素分子可以用于治疗一些疾病或开发新型药物12。例如芋螺毒素被证实对脑外伤、脑缺血性损伤和脊髓损伤引起的痉挛有一定的治疗作用，已被开发成镇痛药物13, 14；目前最有效的降压药物之一卡托普林(Captopril)是由美洲矛头腹蛇蛇毒中的多肽结构改造而来的；在蛇毒中分离出可以治疗血小板异常疾病的多肽，比普通药物的活力可以高500倍；眼镜蛇的细胞毒素具有强有效的抗肿瘤作用。随着科学技术的不断发展，相信今后将会有更多动物的毒素成为重要新药来源。因此有必要提出鉴别动物毒素的理论算法。1.3 国内外研究现状和进展1.3.1 转录因子结合位点研究现状和进展实验上测定转录因子结合位点的方法和技术主要有电泳迁移率改变分析法、足迹法、染色质免疫沉淀法、染色质免疫共沉淀和芯片结合技术、富集的配体系统进化技术。电泳迁移率改变分析(EMSA)也称DNA迁移率变动实验15，该方法可以鉴定某种DNA结合蛋白以及这种蛋白与特异基因序列结合的能力。足迹法(foot printing)16是一种能够测定DNA结合蛋白的精确结合位点的技术。染色质免疫沉淀技术(ChIP)近年被广泛用于研究体内转录调控因子与靶基因启动子上特异性核苷酸序列的结合，并已成为研究染色质水平基因表达调控的最有效的方法。基本原理是在活细胞状态下固定蛋白质与DNA复合物，并将其随机切断为一定长度的染色质小片段，然后通过免疫学方法沉淀此复合体，特异性地富集目的蛋白结合的DNA片段，通过对目的片段的纯化与检测获得蛋白质与DNA相互作用的信息。染色质免疫沉淀技术可以得到大量与特定转录因子结合的DNA 片段。配合覆瓦芯片(tilingarray)或者第二代高通量测序技术检测这些DNA片段，就形成了ChIP-chip17和ChIP-seq18技术。富集的配体系统进化技术SELEX19，是一种通过体外反复选择和放大，从巨大的核苷酸组合库中筛选特定核苷酸序列的方法，其基本原理是从大量的随机序列的寡核苷酸库中鉴定出一种数量很少的具有独特性质的核酸序列。目前常用的转录因子结合位点数据库有：TRANSFAC20-22、JASPAR23-26、TRRD27-29和DATF30, 31。近些年来随着基因芯片等高通量数据的出现，计算方法在转录因子结合位点的分析中得到了广泛的应用。共有序列(consensus sequence)法是最早用于搜寻转录因子结合位点的方法32。不同基因的启动子区域中，不同转录因子结合位点并不完全相同，将与同一个转录因子结合位点的所有DNA片段按照对应位置进行排列，在每一个位置上选择最可能出现的碱基，就组成了该转录因子结合位点的共有序列。但共有序列法在构造一致序列时忽略了某些位置上出现的弱势碱基信息，这些弱势碱基信息的丢失为进一步评价和使用结合位点带来了困难和不可靠性33。随着研究的深入，人们发现位置频率矩阵(position frequency matrix, PFM)能够更精确的描述转录因子结合位点的性质7, 34-36。尽管位置频率矩阵算法有一定的优越性，但位置频率矩阵所得结果的敏感性和特异性水平仍较低37, 38。此外，基于已知结合位点模式的预测算法的预测准确度非常有限。例如：Fickett利用转录因子MyoD的结合位点模型对MyoD的转录因子结合位点进行预测研究，大概平均500bp左右就能得到一个预测位点，这样在整个人类基因组的全序列中可以得到大约106个预测结果，但其中真正有功能的位点还不到103个，这就是说在所预测得到的结果中有生物学意义的位点只有所有预测位点数的千分之一，这样的预测结果很难为生物学家提供真正有用的信息。目前，除上面所说的基于已知转录因子结合位点模式的预测算法外，还有一类转录因子结合位点的识别算法。这类算法的具体步骤是：在得到一组候选启动子序列后，利用具体算法对候选启动子序列进行搜索，找到具有统计显著性的片段作为转录因子结合位点的可能片段。基于此原理且比较有名的算法有CONSENSUS39、MEME40、W-AlignACE41和Gibbs Motif Sampler42。MEME算法基于最大期望值原理，它的优点是具有较高的敏感度，但计算较为复杂，计算时间长；Gibbs Motif Sampler计算速度快，但需要多次重复实验才能得到稳定的结果，且Gibbs Motif Sampler算法找到的序列片段还需要和相应的转录因子联系起来，以确定哪些转录因子参与转录调控，这就使得对预测结果的分析变得较为困难，所以这类算法就目前来说也不是较好的算法。1.3.2 动物毒素研究现状和进展动物毒素的鉴定通常采用化学分析法和生物试验法。化学分析方法主要有点迹显色法、纸层析法、薄层层析法、液相色谱法、高效液相色谱法、放射性免疫测定法、气-质联用分析法等方法。生物试验常用的方法主要有动物毒性试验和草履虫试验等方法。近几年来，国内外研究小组采用理论计算的方法对动物毒素进行了广泛的研究，并取得一系列有意义的研究成果。在Swiss-Prot数据库中，专门构建对动物毒素进行解释的子库: Toxin Annotation Program43。2008年，国内的He等人的研究小组44，构建了关于动物毒素最为全面的数据库：Animal Toxin Database。在2006年，Mondal等人的研究小组从Swiss-Prot蛋白质数据库上面下载芋螺毒素四个超家族的蛋白质序列45，同时构建非芋螺毒素的数据集。Mondal等人分别采用ISort predictor、Least Hamming distance、Least Euclidean distance和Multi-class SVMs 的方法对四个芋螺毒素超家族和非芋螺毒素进行预测。2007年，Lin和Li利用IDQD的方法对Mondal等人构建的芋螺毒素数据库进行预测46，取得较好的预测结果；Saha和Raghava从Swiss-Prot蛋白质数据库上下载神经毒素和非神经毒素的蛋白质序列47，并提出基于FNN、RNN和SVM预测的算法，分别对神经毒素和非毒素、不同来源和不同功能的神经毒素进行预测和研究。Saha和Raghava同时构建细菌毒素和非毒素的数据集48，采用支持向量机的方法对细菌毒素和非毒素、细菌毒素中的内毒素和外毒素、不同功能的外毒素进行预测，取得了一定的研究成果。1.4数据库和软件介绍本文主要用到了以下几种数据库和软件：(1)转录因子结合位点数据库：JASPAR23-26；(2)蛋白质数据库：Swiss-Prot49-56；(3)功能模体和二级结构数据库：Prosite57-64、PDB65和InterPro66-69；(4)动物毒素数据库：Animal Toxin Database(ATDB)44；(5)模体绘图软件：Weblogo70, 71；(6)模体搜寻软件：MEME40。1.5 论文结构安排论文主要研究转录因子结合位点和动物毒素的预测问题。首先，分析了JASPAR转录因子结合位点数据库中人类和果蝇的转录因子结合位点，构建位置关联性打分函数，并提出位置关联性打分函数的最佳阈值，对这两类结合位点进行预测，取得较好的结果。随后针对不同的数据集合、用不同的特征提取的方法和不同的算法，对动物毒素和神经毒素进行预测。最后统计了动物毒素中突触前和突触后神经毒素的二硫键分布特性和突触前神经毒素磷脂酶A2中金属离子结合位点分布特性，并利用离散增量算法和朴素贝叶斯算法对突触前和突触后神经毒素进行预测，并得到一些有益结论，具体内容将在下面各个章节中给出。全文具体内容安排如下：第一章简要介绍论文研究工作的背景、国内外研究现状和论文中所用的生物信息学数据库。第二章对研究中主要应用的特征提取的方法和理论预测算法进行具体介绍，同时对预测算法中的检验和评价系统问题进行概述。第三章利用JASPAR数据库上的转录因子结合位点，构建位置关联性打分方程，提出最佳阈值，对转录因子结合位点问题进行预测和研究。第四章具体讨论动物毒素的预测问题。主要采用离散增量算法、离散增量结合支持向量机算法对动物毒素和神经毒素进行预测，分析不同的参数选取特征对预测结果的影响。第五章主要对突触前神经毒素和突触后神经毒素二硫键和突触前神经毒素中金属离子结合位点进行了研究，利用离散增量算法和朴素贝叶斯分类器对突触前神经毒素和突触后神经毒素进行预测。第六章在最后的总结和展望中，将对论文工作的研究成果进行系统的总结，并对进一步的研究工作进行展望。第二章理论研究方法介绍分类算法和特征提取是生物信息学预测系统中两项关键技术。本章介绍了分类算法和特征提取的算法。首先，第一部分介绍文中所使用到的位置权重矩阵算法、离散增量算法、支持向量机算法和朴素贝叶斯算法；第二部分着重介绍几种氨基酸序列特征提取方法，并在此基础上提出了氨基酸组分、伪氨基酸组分和MRMR特征提取方法；最后，给出分类系统的构建和评估方法。2.1位置权重矩阵算法位置

注意事项

本文（博士论文转录因子结合位点和动物毒素的分析与预测.doc）为本站会员（文库蛋蛋多）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。