偏原子电荷的快速预测数学建模论文.doc
《偏原子电荷的快速预测数学建模论文.doc》由会员分享,可在线阅读,更多相关《偏原子电荷的快速预测数学建模论文.doc(35页珍藏版)》请在三一办公上搜索。
1、2014河南大学第一届大学生数学建模竞赛承 诺 书我们仔细阅读了全国大学生数学建模竞赛章程和全国大学生数学建模竞赛参赛规则(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参
2、赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写): A 我们的参赛报名号为(如果赛区设置报名号的话) AS0209 所属学校(请填写完整的全名): 河南大学 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名): (论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。以上内容请仔细核对,提交后将不再允许做任何修改。如填写错误,论文可能被取消评奖资格。) 日期: 2014
3、 年 6 月 2 日赛区评阅编号(由赛区组委会评阅前进行编号):2014河南大学第一届大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):偏原子电荷的快速预测摘要本文讲述的就是寻找了一种方法,根据原子的拓扑指数使得能在最短的时间内较为准确的预测该原子的偏原子电荷的值。其中的创新点就是类比了模糊聚类分析里面定义相关系数的方法处理了如何从多个拓扑指数里面找到与单个拓扑指数最相似的那个。问题一,将用训练集中所给的数据进行分组,然后根据每
4、组数据建立一个函数模型,其次用平均数的方法求出能够代表本组拓扑指数的一个特征拓扑指数,最后用欧式距离法找到与待预测原子的拓扑指数最相似的那个特征拓扑指数,并找出该特征拓扑指数所对应的函数模型,将待预测的拓扑指数带入其中便得到它的偏原子电荷的值。问题二,将第一问中得出的偏原子电荷,与实际的偏原子电荷进行比对,利用定义的夹角余弦法计算出两者之间的相似度,发现该模型对于训练集中的数据误差大于测试集中的数据的误差。对此我们也做了两幅图直观将结果展示出来。问题三,计算预测速度,预测速度也是一个模型的的重要衡量标尺,由此计算建立出来的模型在处理一组数据时需要3秒左右,具有很快的计算速度。关键词:拓扑指数、
5、函数模型、特征拓扑指数、模糊聚类分析、欧式距离、夹角余弦、评价、快速一、问题重述偏原子电荷与原子的很多性质密切相关,例如化学位移,因而是科学研究中一个很重要的基础数据。该数值不能够直接由实验测定,而是由量化方法计算,其中一种重要的方法是NBO(Natural Bond Orbital)。但是,量化计算方法耗时太长,不能作为化学信息学软件(例如chemoffice)的插件,难以为广大用户使用。基于此,生成一个有商业竞争力的插件是十分必要的,建立数学模型是其中重要的一步。请完成下面三个问题:(1)根据训练集中的数据,建立偏原子电荷的数学模型,以此预测未知原子的偏原子电荷;(2)建立的模型需要采用训
6、练集和测试集的数据进行评价,给出具体的评价方法(例如:相关系数(R2)、均方根差(RMSE)与结果;(3)预测速度也是评价模型的重要标准。因而请给出:用所建立的模型预测测试集中全部原子的偏原子电荷所需的时间。提供的数据(H.rar文件):train.txt是训练数据集,test.txt是测试数据集。每行代表一个原子的拓扑指数(第1136列元素)和该原子的偏原子电荷(第137列)。二、问题分析该问题的核心就是基于原有的数据,如何用数学模型建立起偏原电子与该原子的拓扑指数的关系,并且能达到任给一组拓扑指数,用所建的模型快速预测出其偏原子电荷的效果。对此分了几个步骤做。(1)首先,对全部数据按照偏原
7、电子数进行从大到小的排列,并根据偏原电子数进行适当的划分,共分得52组,每组数据建立一个线性方程组,解得解后用每组解建立一个函数共得到52个函数。(2)然后,再建立一个简单模型整合出每组中所有拓扑指数的一个代表(就是能够代表这组拓扑指数的特征数,在这里我们称它为特征拓扑指数)。(3)求出所要预测的原子的拓扑指数与每组特征拓扑指数的相似度(这里我们人为定义了一个近似度的计算方法),求出最大相似度所对应的那个特征拓扑指数。(4)最后将所要预测的原子的拓扑指数带入那个特征拓扑指数所对应的方程中,即得到预测的偏原子电荷数。这就是所建的模型。(5)第二问中要求给出具体评价方法即是在第一问第三步骤中所定义
8、的近似度的方法,因为它解决的就是两个向量之间的相似度问题,而且我们也将这两组数据画出图形,这样就可以从直观上和数值上全面地评价这个模型。对于第三个问题,会运用matlab计算出该模型的预测速度。三、问题假设(1)假设train.txt训练数据集和test.txt测试数据集中所给的数据都是相对准确的。(2)假设原子的拓扑指数与偏原子电荷之间有一定的线性关系。四、符号说明,两个向量中的元素 ,向量中元素的平均值两向量之间的夹角两向量的相关系数两向量之间的距离五、模型建立与求解1分组将数据导入到excel里面,根据偏原子电荷数从大到小排列,并将排列好的偏原子数列用matlab画出图像。Y=训练集中的
9、偏原子电荷;X=1:1:3036;Plot(x,y,*)由图像特殊的点人为的大致划分三个部分如图所示,B点以前共分了8组数据(每组数据不一定相等),B点以后,为了计算方便,平均每60个数据分为一组,得到44组数据,其中最后一个组有26个数据。这样根据每组数据对应的拓扑指数及假设(2)可以构建一个线性方程组CX=D(其中C表示每组数据的拓扑指数所构成的矩阵,D表示与每行拓扑指数所对应的偏原子电荷),进而求出X=CD(X即拓扑指数的系数行向量),最终会得到52组X。在这里定义一个函数,形如Y=XA,其中Y是因变量是一个数表示偏原子电荷数,X是拓扑指数的系数行向量,A是自变量,也是一个行向量表示一个
10、原子的拓扑指数。这样就得到了52个函数。(matlab编程见附录)。2求特征拓扑指数每组数据的拓扑指数可以看出成一个矩阵(列数大于行数),将矩阵的每一列的值相加求平均,得到一行平均数,这一行平均数我们定义它为就是该组数据的特征拓扑指数。视为它代表了这一组的特征,原因为这组数据有相接近的偏原子电荷数。这样,就得到了52组特征拓扑指数,而且它与52个函数一一对应。3定义相似度由于定义的这个相似度是找到最佳的拓扑指数的关键,尤为重要。所以类比模糊数学里面的相似系数的定义方法我们定义了三种方法,然后再测试寻找最优方法。(1)夹角余弦法(2)相关系数法(3)欧式距离法把每组特征拓扑指数和待预测的拓扑指数
11、都看成1行136列的矩阵,每种方法解决的都是待测拓扑指数与特征拓扑指数的相似度,方法(1)的cos值的范围是01且值越接近1说明夹角越小说明两个向量越相似。同样方法(2)的r值的范围也是01,值越靠近1说明越相似。方法(3)的d的值的范围是0+,d的值越接近0说明两个向量越接近。经多个随机数据(test.txt测试数据集里面的数据)的测试,发现三种方法做出的结果都一样,但是由于方法(3)形式简单用时最少,所以最终决定用方法(3)即欧氏距离法。4预测找到最佳相似度所对应的那组特征拓扑指数后也就确定了用哪个方程预测,接下来只需将待预测的这组拓扑指数带入对应方程,即得到了它的偏原子电荷数。(matl
12、ab编程见附录)六、模型评价与结论1模型评价总体来说,此模型运用了分组归类法、线性方程组的数值解法、统计学、模糊数学等方法,运用的数学软件工具有matlab、MathType编辑器,还有excel作为辅助工具。最终得出一套完整的预测方案。该方案最大的优点就是快速便捷,我们把所有的的编程汇总到一块,实现了任意输入一个拓扑指数,在不到4秒的时间就出现了结果。这样就解决了第一问,用夹角余弦法计算出train.txt训练数据集中真实偏原子电荷数与预测的偏原子电荷数的cos值为0.8081,test.txt测试数据集中真实偏原子电荷数与预测的偏原子电荷数的cos值为0.8136。夹角余弦的程序:func
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 原子 电荷 快速 预测 数学 建模 论文
链接地址:https://www.31ppt.com/p-4222995.html