数学建模优秀论文化验结果的检验处理.doc
化验结果的处理摘要医学化验是协助医生诊断疾病的重要手段。在化验过程中,医院希望可以用简便的判别方法,通过尽量少的化验指标判别出就诊人员是否患病。本篇论文针对于化验结果的处理提出了Ca含量判别法和费希尔判别等判别法,并采用逐个剔除的方法来排除无关紧要的元素,从而减少化验指标,找出关键元素。针对问题一的求解中,我们首先尝试采用四种方法:Ca含量判别法,欧式判别法,马氏判别法和费希尔判别法,通过运用这四种方法分别计算1-60号病例的化验结果来检验其的正确率来进行筛选,算得四种方法的综合正确率分别为:98.50%,88.34%,86.67%和93.34%,所以最终决定采用准确率较高的Ca含量判别法和费希尔判别法来作为诊断就诊人员是否患有肾炎的最终方法。在问题二中我们分别用了Ca含量判别法和费希尔判别法对61-90号的30名就诊人员进行诊断,结果分别为11名患者,19名正常和14名患者,16名正常。结果大致一样,只有三名就诊人员的诊断结果存在差异。对于问题三中,我们先通过作出 1-60号病例中七种元素的含量图,从中可以明显的看出Zn,Na这两种元素的含量对于诊断是否患病并没有什么影响,即是小作用因素,可以忽略不计,造成影响的元素只可能是Ca,Cu,Mg,Fe,K, 其中Ca含量的大小直接影响到就诊人员是否患病,因为从图中可以看出患病者和正常人的Ca含量是以1000为临界值的,故Ca的含量对于诊断结果的判定是很重要的,即所占的权重比较大,而Cu,Mg,Fe,K的作用不是很明显,所以我们通过分别计算剔除了Cu,Mg,Fe,K后诊断的准确率来分析这四种元素的对于诊断结果影响的权重,通过计算准确率分别为:85%,93%,93%,93%,故可看出剔除Cu对于诊断结果准确率的影响最大,而Mg,Fe,K对于诊断结果的影响不如Cu大,故本着化验方便快捷的原则我们得出最主要的影响因素为:Ca和Cu的含量。问题四中,我们用Ca和Cu的含量作为61-90号就诊人员进行诊断的两项指标,最后算得有17人患病,13人正常。问题五中,重复问题二和问题四,我们运用Ca含量判别法和七项指标的费希尔判别法算得的结果一致率达83.3%,运用七项指标的费希尔判别法和两项指标的费希尔判别法算得的结果一致率高达93.33%,所以我们可以进一步得出结论: Ca和Cu的含量才是作为判断的最为主要的指标,而是否化验其余五种元素对于诊断结果的影响很小,即就诊人员只需化验Ca和Cu的含量基本上就可以判定是否患病,这样就大大节省了看病的时间以及人力和财力。关键字:Ca含量判别法,费希尔判别法,MATLAB,Excel一、问题重述人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表B.1是确诊病例的化验结果,其中130号病例是已经确诊为肾炎病人的化验结果;3160号病例是已经确定为健康人的结果。表B.2是就诊人员的化验结果。我们的问题是:根据表B.1中的数据,提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验你提出方法的正确性。按照1提出的方法,判断表B.2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。能否根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。根据3的结果,重复2的工作。对2和4的结果作进一步的分析。二、模型的假设1. 题中给出的数据和判断结果真实无误;2. 除去表中的七项指标外,忽略其余指标对肾炎判别的影响;3. 病人的指标变化完全由肾炎引起的,健康人没有患影响这七项指标的其他疾病;4. 没该病的个体都是健康体;5. 检测是在同等条件下进行的,即同样的外界环境和生理条件;6. 假设表1给出的数据完全正确,没有误诊并且在化验过程中没有任何错误;7. 假设表2的化验结果完全正确,在化验过程中没有出现错误和较大的误差;8. 假设各种元素对于判别是否是肾炎的影响是相互独立的。三、符号说明符号含义健康人和肾炎患者的总体,X到样本的欧式距离,第组的均值向量的均值向量,的协方差阵,X到样本的马氏距离,组间的离差组内的离差与的比值费希尔判别法的判别函数费希尔判别法判别函数的系数费希尔判别法的判别函数的临界值四、模型的建立关于此化验结果的处理我们首先尝试四种方法来判别是否患病,然后评定其优劣再进行筛选。方法一,Ca含量判别法:我们用Matlab软件分别作出1-60号病例七种元素化验结果的含量图:根据上面的图像容易看出,对肾炎影响最大的就是钙元素的含量,且以1000为临界值。若Ca含量在1000以上则为健康人,若在1000以下则为肾炎患者。方法二,欧式距离判别法:利用距离判别法求出各类的均值。问题可以归述为现有k个m维的总体G1,G2,Gk。他们的分布特征已知,对于给定了一个新的总体X,要判断其是否属于那个总体。首先利用距离判别法求出各类的均值。判别的准则是任给一次观测X,他与第i类的均值距离最近,那么它就属于第i类。首先计算X到样本G1,G2的距离d(X,G1),d(X,G2).则:记。若采用欧氏距离,则可以计算出:进而比较的大小,按距离大小来进行分类。用Excel中的函数算出两个总体的均值(即重心):然后再利用以上两个式子分别算出和,若,则该人健康,若>则该人为肾炎患者。方法三,马氏距离判别法:如果采用马氏距离,设和分别表示的均值向量和协方差阵,则:将判断结果与准确结果进行对比,同理,也是根据和的比较来确定是否患病,若>,则该人为健康,若<,则该人为肾炎患者。方法四,费希尔判别法:如果采用判别分析的费希尔判别法构造一个判别函数,其中系数确定的原则是使得两组差别最大,而使每个组内的离差最小。对于一个新的样本,只需将其m个指标值带入判别函数求出相应的y,然后与临界值比较饥渴确定该样本属于哪一类。下面确定待定的系数:设表示组间的离差表示组内的离差要求P尽可能的大,而F尽可能的小。也就是要求尽可能的大。利用多元函数取得极大值的条件(偏导数全为零且矩阵负定)。上式两边分别对求偏导数得.由极值存在的必要条件可知,进而得到化简得其中,于是我们得到线性方程组矩阵形式为,解出利用Matla编程解出所以判别函数为由此求出并且我们以两组样本均值的平均值作为临界值。比其大的属于第一组,比其小的属于第二组。最终模型的确立:根据上面的运算结果判断,分别统计出他们各自的正确率:正确率 判别方法 Ca含量判别欧氏距离判别马氏距离判别费希尔判别30个病人正确率97%100%73.33%96.67%30健康正确率100%76.67%100%90%总人数正确率98.50%88.34%86.67%93.34%从表中的结果可以明显看出Ca含量判别法和费希尔判别法的正确率明显高于两种距离判别方法,所以我们选择Ca含量判别法和费希尔判别法来进行诊断。五、模型的求解1问题一的求解:根据以上建立的四种模型得出其运算结果分别为:方法一,Ca含量判别法运行结果:判断的结果与正确结果对比,如下(1表示患病,0表示正常)表1病例号判断结果准确结果病例号判断结果准确结果111310021132003113300411340051135006113600711370081138009113900101140001111410012114200131143001411440015114500161146001711470018014800190149002011500021115100221152002301530024115400251155002611560027115700281158002911590030116000由上表可以看出采用Ca含量判别时130号有3例判断错误,分别是18,19,23,而3160号判断全部正确。方法二,欧式距离判别法运行结果:用Excel分别算出,将判断结果与准确结果进行对比,结果如下表,1表示患病,0表示正常。表1(130)病例号判断结果准确结果病例号判断结果准确结果134.9981828.85811311579.302361.220002110.6381821.7691132648.1121229.938103219.7231994.3181133928.7081028.247104284.5591673.0771134868.371977.262105359.6781917.22011351638.457346.914006506.3972210.71011362342.603567.096007443.9231983.48111371403.012477.135008165.5701890.0351138581.6491528.637109279.8621973.84811391046.8331037.7840010118.5801891.16411406142.2824344.04100111402.7922507.9791141545.3121479.7271012177.2621789.31811421873.574107.1180013364.1761554.8551143571.6741310.5001014169.8321898.65111441509.324386.0790015137.5801912.85311453192.8051366.8500016207.2071903.09411461170.828741.8520017302.5861552.96811471829.09797.2420018750.2801095.58711481408.196713.2120019779.2931481.92511494674.9312870.3380020450.0421999.86511502918.7231099.9900021544.3112244.99011512501.168770.5000022217.3331934.26911521669.702229.9340023562.7461389.32211531524.231357.5810024694.1702404.8061154975.299898.1110025441.4151730.56711553128.0421312.7600026146.3561921.26411562419.953622.7210027436.5791937.14411573161.7981332.7030028302.6062108.22811581482.995444.1600029664.8312082.61611591472.295424.2020030482.8091543.3721160905.078955.72510表2(3160) 从上表可以看出采用欧式距离判别法时对130号判断全部正确,而对3160号判断时有7例判断错误,分别是32,33,34,38,41,43,60。方法三,马氏距离判别法运算结果:用Excel分别算出结果如下表2,1表示患病,0表示正常。表2病例号判断结果准确结果病例号判断结果准确结果12.32151.616113154.7913.1890023.24767.315113212.3005.4510038.7978.306013316.9592.5330043.14586.883113453.9804.27800511.37013.497113562.4232.10600617.7957.1750136146.5025.2010079.7818.674013753.0271.2320082.43719.96211389.3767.83100910.35914.713113996.9807.43700102.3656.45211402941.50017.663001113.8976251.5001141528.81816.11400125.125129.140114253.9465.733001310.1453.234014330.7102.98200143.4575.6241144119.2133.32800152.98929.0611145369.40213.23200167.8755.967014623.4777.30400172.87821.824114781.1861.81000187.4202.3770148120.8985.37400199.65324.8421149528.34714.81000205.279487.3561150265.2905.39300218.720582.4911151334.3479.02200225.28919.474115276.5944.52000233.6252.241015365.1059.11200246.92644.231115429.9487.37400255.2555.1650155239.7205.94000264.37943.0341156147.8972.76700275.30434.5661157244.1279.94700284.84138.2591158110.35910.37700297.5992084.900115960.2202.961003012.34517.379116020.2824.69100由上表可以看出利用马氏距离判别时3160判断全部正确,而在130号出现了8例错误,分别是3,6,7,13,16,18,23,25.方法四,费希尔判别法运算结果:用Matlab算出的值分别与的值比较,得出如下结果:病例号与比较判断结果正确结果病例号与比较判断结果正确结果1-0.0383 >1131-0.2151 <002-0.0571 >1132-0.1318 <003-0.0612 >1133-0.1473 <004-0.0471 >1134-0.1759 <005-0.0768 >1135-0.2151 <006-0.0636 >1136-0.2718 <007-0.0727 >1137-0.1989 <008-0.0224 >1138-0.1012 >109-0.0558 >1139-0.1077 >1010-0.0474 >1140-0.3274 <00110.0397 >1141-0.2438 <0012-0.0502 >1142-0.2297 <0013-0.1350 <0143-0.1493 <0014-0.0657 >1144-0.2910 <0015-0.0615 >1145-0.4240 <0016-0.0700 >1146-0.1797 <0017-0.0276 >1147-0.2168 <0018-0.1268 >1148-0.1746 <0019-0.0123 >1149-0.2485 <00200.0177 >1150-0.3257 <00210.0387 >1151-0.3265 <0022-0.0329 >1152-0.2009 <0023-0.1168 >1153-0.1661 <0024-0.0024 >1154-0.1864 <0025-0.1211 >1155-0.3281 <0026-0.0055 >1156-0.2775 <0027-0.0196 >1157-0.3353 <00280.0178 >1158-0.2544 <0029-0.0230 >1159-0.1808 <0030-0.0375 >1160-0.1283 >10由上表可以看出采用费希尔判别时130号有1例判断错误,是13号;3160中有3例判断错误,分别是38,39,60.2问题二的求解:分别用Ca含量判别法和费希尔判别法对6190号进行判断。表1.Ca含量判别法病例号Ca含量与临界值1000相比判断结果病例号Ca含量与临界值1000相比判断结果61323<176672<162542<1771521>0631332>0781544>064503<1791062>065547<1802278>066790<1812993>067417<1822056>068943<1831025>069318<1841633>0701969>0851068>0711208>0862554>072328<1871211>073265<1882157>0742220>0893870>0751606>0901806>0从表中可以得出:患病者:61,62,64,65,66,67,68,69,72,73,76正常人:63,70,71,74,75,77,78,79,80,81,82,83,84,85,86,87,88,89,90表2.费希尔判别法病例号与比较判断结果病例号与比较判断结果61-0.0278>176-0.0819>162-0.0942>177-0.1473<063-0.1438<078-0.1759<064-0.0196>179-0.0866>165-0.0925>180-0.2177<066-0.103>181-0.2615<067-0.1894<082-0.2109<068-0.1197>183-0.0415>169-0.0954>184-0.1536<070-0.2311<085-0.0765>171-0.0906>186-0.2297<072-0.0524>187-0.1431<073-0.0616>188-0.2909<074-0.1933<089-0.4239<075-0.1312<090-0.1797<0丛表中可以看出:患病者:61,62,64,65,66,68,69,71,72,73,76,79,83,85正常人:63,67,70,74,75,77,78,80,81,82,84,86,87,88,89,903问题三的求解:根据第一题中的图像可以看出Zn,Na的含量显然对诊断结果,而Ca显然有影响,故而下面只需Mg,Cu,Fe,K对诊断结果的影响即可。剔除元素判别式临界值正确率对B.2的判断剔除Cu85%14个正常,16个患病剔除Mg93%13个正常,17个患病剔除Fe93%17个正常,13个患病剔除K93%17个正常,13个患病由上面可以看出Ca,Cu的含量对诊断结果影响大。于是我们可将Ca,Cu两项指标作为判断是否患病的主要指标4问题四的求解:我们用上面的两项指标来对B.2进行判断,结果如下表。病例号判断结果病例号判断结果611761621770630780641791651800661810671820681831691841700851711860721870731880740890751900其结果为:61,62,64,65,66,67,68,69,71,72,73,75,76,79,83,84,85,患病者:正常人:63,70,74,77,78,80,81,82,86,87,88,89,90.5问题五的求解:首先对问题二进一步分析,Ca含量判别的结果患病者:61,62,64,65,66,67,68,69,72,73,76正常人:63,70,71,74,75,77,78,79,80,81,82,83,84,85,86,87,88,89,90费希尔判别法的结果患病者:61,62,64,65,66,68,69,71,72,73,76,79,83,85正常人:63,67,70,74,75,77,78,80,81,82,84,86,87,88,89,90两种判别法一致的结果是:61,62,63,64,65,66,68,69,70,72,73,74,75,76,77,78,80,81,82,84,86,87,88,89,90.相同的百分率达到了83.3%。我们将二者一致的部分单独再做为一组,并且认为诊断结果是正确的。重复费前面的的步骤。直至对所有病例得到可靠的判别结果。再对问题四的进一步分析,通过比较用费希尔判别法(七项指标)和费希尔判别法(两项指标)对B.1的化验结果进行对比,一致的结果是:61,62,63,64,65,66,68,69,70,71,72,73,74,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90.相同的百分比达到93.33%。因此我们可以认为将Ca和Cu作为判断的主要指标是可靠的。六、模型的优缺点Ca含量判别法的优缺点:优点:一目了然,方便简单快捷,准确率很高。缺点:稍微比较片面,易忽略其余因素的影响。费希尔判别法的优缺点:优点:判别函数是线性函数,使用起来比较方便容易。本文采用的费希尔判别模型对总体的分布类型没有要求;缺点:在均值差别很小的情况下,容易产生误判。七、模型的应用与推广这种判别在实际生活中很多,所以这些判别法在日常发挥着很多的作用,除了看病即对于化验结果的处理等外,还在地质学中判断有矿无矿,工厂判断产品合格不合格,为新发现的物种分类都可以用这些方法进行分析。九、参考文献1. 西北工业大学数学建模指导委员会,数学建模简明教程,高等教育出版社,2008年9月;2. 主编:刘焕彬,库在强,廖小勇,陈文略,张忠诚,数学模型与实验,科学出版社,2008年5月;3. 范金城,梅长林,数据分析,北京:科学出版社,2002年;4. 姜启源,大学数学实验(第2版),北京:清华大学出版社,2010年12月;5. 刘卫国,MATLAB程序设计与应用(第二版),北京:高等教育出版社,2006年7月。附录附录1(确诊病例的化验结果和就诊人员的化验结果):表B.1 确诊病例的化验结果病例号ZnCuFeCaMgKNa116615.824.5700112179513218515.731.570112518442731939.8025.9541163128642415914.239.789699.2239726522616.223.860615270.321861719.299.2930718745.5257720113.326.655110149.4141814714.530.065910215468091728.857.8655175.798.43181015611.532.56391071035521113215.917.757892.4131413721218211.311.3767111264672131869.2637.195823373.0347141628.2327.162510862.4465151506.6321.06271401796391615910.711.761219098.53901711716.17.0498895.51365721818110.14.0414371841015421914620.723.8123212815010922042.310.39.7062993.74398882128.212.453.137044.14548522215413.853.36211051607232317912.217.9113915045.22182413.53.3616.813532.651.6182251755.8424.980712355.61262611315.847.362653.61686272750.511.66.3060858.958.91392878.614.69.7042170.81334642990.03.278.1762252.37708523017828.832.499211270.21693121319.136.2222024940.01683217013.929.8128522647.93303316213.219.8152116636.21333420313.090.8154416298.903943516713.114.1227821246.31343616412.918.6299319736.394.53716715.027.0205626064.62373815814.437.0102510144.672.53913322.831.016334011808994015613532267471090228810411698.00308106899.153.02894224717.38.65255424177.9373431668.1062.81233252134649442096.4386.9215728874.0219451826.4961.738704321433674623515.623.4180616668.81884717319.117.0249729565.82874815119.764.220314031828744919165.435.053613921376885022324.486.0360335397.74795122120.115531723681507395221725.028.223433731104945316422.235.52212281153549541738.9936.016242161032575520218.617.7378522531.067.35618217.324.8307324650.71095721124.017.0383642873.53515824621.593.2211235471.71955916416.138.0213515264.32406017921.035.0156022647.9330表B.2 就诊人员的化验结果病例号ZnCuFeCaMgKNa6158.25.4229.7323138179513621