葡萄酒综合评价的数学模型建模论文.doc
葡萄酒综合评价的数学模型 学生姓名:王磊(数应1002班) 指导教师:王惟摘 要:文章通过分析附件中的数据.借助spss软件,运用t检验法讨论了两组评酒员对葡萄酒评价结果的可信度.然后利用主成分分析法得出综合主成分值并对酿酒葡萄进行分级,并根据配对样本检验法和双变量相关性分析法研究酿酒葡萄与葡萄酒的理化指标之间的联系.最后用多元线性回归法分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,从而得出相关结论:相关性越强即说明线性关系越明显,表明对其质量的影响越大.关键词:主成分分析;t检验;多元线性回归;spss软件;双变量相关性分析;理化指标 Mathematical Model of Comprehensive Evaluation of Wine Student: Wang Lei Instructor: Wang WeiAbstract: This article takes an analysis of the data in the attachment. With the help of spss software, we can use t-test to discuss the credibility of evaluation results of wine about two groups wine taster and use principal component analysis method to obtain the comprehensive principal component scores which can be used to get the classification of wine grapes. According to the paired samples test and bivartite correlation analysis method, we can study the contact of the physicochemical indexes between wine grapes and wine. Finally, by using the multivariate linear regression method to analyze the influence of physicochemical indexes of wine grapes and wine on wines quality. We can draw the related conclusion: the stronger correlation, the better obvious linear relationship, indicating effect on quality of wine more.Key words: principal component analysis; t- independent sample test; multiple linear regression; spss software; bivariate correlation analysis; physicochemical indexphysicochemical index physicochemical index目 录1 问题的提出 12 问题的分析 13 基本假设 24 符号说明 25 模型的建立与求解 25.1 问题一的模型建立与求解 2 5.1.1 分析红葡萄酒评价差异性 2 5.1.2 分析白葡萄酒评价差异性 3 5.1.3 分析评价结果可信度 5 5.2 问题二的模型建立与求解 6 5.3 问题三的模型建立与求解 8 5.4 问题四的模型建 145.4.1 红葡萄理化指标对葡萄酒质量的影响 14 5.4.2 红葡萄酒理化指标对葡萄酒质量的影响 156 模型的评价 167 模型的推广 16参考文献 171 问题的提出确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评.每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量.酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量.附件一给出了某一年份一些葡萄酒的评价结果,附件二和附件三分别给出了该年份这些葡萄酒和酿酒葡萄的成分数据.尝试建立数学模型讨论下列问题:问题一:分析附件一中两组评酒员评价结果有无显著性差异,哪一组结果更可信?问题二:根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒红葡萄进行分级.问题三:分析酿酒红葡萄与红葡萄酒的理化指标之间的联系.问题四:以酿酒红葡萄为例,分析酿酒红葡萄和红葡萄酒的理化指标对红葡萄酒质量的影响,并论证能否用红葡萄和葡萄酒的理化指标来评价红葡萄酒的质量?2 问题的分析 针对问题一,判断两组评酒员的评价结果有无显著性差异和结果的可靠性比较,通过计算平均值和方差来观察.根据每一位评酒员的总分求和,再求平均值,得出红白葡萄酒的整体平均值,对两组评分进行t-双样本等方差检验.根据t检验结果来分析两组评酒员评分结果是否存在显著差异性,通过描述四组数据的置信区间和均值标准差来确定他们评价结果的可靠性.针对问题二,根据酿酒葡萄的理化指标和葡萄酒的质量,使用主成分分析的方法对这些酿酒葡萄进行分级.首先对原始数据进行标准化处理,计算出相关系数矩阵,通过计算出的特征值来选择数个主成分,通过spss软件求解出主成分,根据主成分来确定各酿酒葡萄的综合主成分分值,最后根据综合主成分值的高低对葡萄进行分级.针对问题三,根据附件二中提供的酿酒红葡萄与红葡萄酒的理化指标数据,分析他们之间的联系.首先通过excel对数据进行处理,挑选出两者共有的理化指标,多次测量的求取其平均值作为参考数据,整理归纳之后,利用spss软件进行双变量相关性分析. 针对问题四,分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量.分析附件二中的红葡萄酒和红葡萄所有的一级理化指标,使用多元线性回归的方法对理化指标进行处理,相关性强即说明线性关系比较明显,对其质量的影响较大.3 基本假设(1).两组评酒员之间的分数是相对独立的,每个评酒员之间互不影响;(2).两组评酒员是随机分配的,两个总体分布都服从正态分布;(3).用来检验的葡萄都是采摘的新鲜的葡萄,葡萄酒也没有受到污染;(4).假设评酒员的系统误差较小,忽略不计;(5).只考虑红葡萄酿成红葡萄酒,白葡萄酿成白葡萄酒,而不考虑多种葡萄混合酿成的葡萄酒;(6).假设题目中所给出的数据和其他内容都真实可信.4 符号说明 :表示第组红葡萄酒评酒员评分的平均(,); :表示第组白葡萄酒评酒员评分的平均(,); :各个酿酒红葡萄综合主成分得分(,); :用红葡萄酿成的红葡萄酒的质量; :表示酿酒红葡萄第种主成分的特征值(,); :酿酒红葡萄样品对各个主成分的得分.5 模型的建立与求解5.1 问题一的模型建立与求解5.1.1 分析红葡萄酒评价差异性首先根据附件一中的数据,分析红葡萄酒的评价结果,利用excel分别计算出每组的10位评酒员对27种红葡萄酒样品的平均值,如表1所示.由表1计算可知, ,由此可见,第一组评酒员对红葡萄酒的评价略高.但是,仅凭平均值的差异不能完整地反映出这两组评价结果的差异性,所以根据表1中的数据,设显著性水平,置信度为,建立零假设:,运用spss软件进行独立样本t检验,检验结果如表2、表3所示.表1 红葡萄酒样品平均值酒样品1酒样品2酒样品3酒样品4酒样品5酒样品6酒样品7一组62.780.380.468.673.372.271.5二组68.17474.671.272.166.365.3酒样品8酒样品9酒样品10酒样品11酒样品12酒样品13酒样品14一组72.381.574.270.153.974.673二组6678.268.861.668.368.872.6酒样品15酒样品16酒样品17酒样品18酒样品19酒样品20酒样品21一组58.774.979.359.978.678.677.1二组65.769.974.565.472.675.872.2酒样品22酒样品23酒样品24酒样品25酒样品26酒样品27一组77.285.67869.273.873二组71.677.171.568.27271.5 表2 组统计量样本N均值标准差均值的标准误均值12773.0567.34261.413122770.5153.97800.7656分析表2、表3可知,对两组评酒员的数据做方差齐性检验,得出的值为3.861,值为,由于值大于显著性水平,所以认为不能拒绝零假设,即两组数据的方差相等,再通过t检验的结果知双侧的概率值均大于显著性水平.综上所述,认为两组评酒员对红葡萄酒的评价结果无显著性差异.5.1.2 分析白葡萄酒评价差异性同上述解决方法一样,首先根据附件一中的数据,利用excel分别计算出每组的10位品酒员对28种白葡萄酒样品的平均值,如表4所示.由表4计算可知,由此可见,第二组品酒员对白葡萄酒的评价略高.同样,根据表4中的数据,设显著性水平,置信度为,建立零假设:,运用spss软件进行独立样本t检验,检验结果如表5、表6所示.表3 独立样本检验方差方程的 Levene 检验均值方程的 t 检验FSig.tDfSig.(双侧)均值差值标准误差值差分的 95% 置信区间下限上限均值假设方差相等3.8610.0551.581520.1202.54071.6071-0.68425.7657假设方差不相等1.58140.0520.1222.54071.6071-0.70735.7888 酒样品1酒样品2酒样品3酒样品4酒样品5酒样品6酒样品7一组8274.278.379.47168.477.5二组77.975.875.676.981.575.574.2酒样品8酒样品9酒样品10酒样品11酒样品12酒样品13酒样品14一组71.472.974.372.363.365.972二组72.380.479.871.472.473.977.1酒样品15酒样品16酒样品17酒样品18酒样品19酒样品20酒样品21一组72.47478.873.172.277.876.4二组78.467.380.376.776.476.679.2酒样品22酒样品23酒样品24酒样品25酒样品26酒样品27酒样品28一组7175.973.377.181.474.881.3二组79.477.476.179.574.37779.6 表4 白葡萄酒样品平均值 表5 组统计量样本N均值标准差均值的标准误均值12874.3714.45860.842622876.5323.17090.5993 表6 独立样本检验方差方程的 Levene 检验均值方程的 t 检验FSig.tdfSig.(双侧)均值差值标准误差值差分的 95% 置信区间下限上限均值假设方差相等2.7460.103-2.090540.041-2.16071.0340-4.2337-0.0878假设方差不相等-2.09048.7490.042-2.16071.0340-4.2388-0.0826分析表5、表6可知,对两组品酒员的数据做方差齐性检验,得出的值为,值为,由于值大于显著性水平,所以认为不能拒绝零假设,即两样本的方差相等.再通过t检验可知,对应第一行的t检验结果,t统计量的值为,对应的概率值为,故拒绝原假设,即两组品酒员对白葡萄酒样品的评价有显著性差异.5.1.3 分析评价结果可信度分析可信度,由于置信区间越大,置信度越小;置信区间越小,置信度越大.可根据置信区间的大小和样本的标准差来综合判断评价结果的可信度.在spss中对四组数据进行单个样本t检验,得到了样本统计量表和单个样本t检验的表格,如表7、表8所示. 表7 单个样本统计量N均值标准差均值的标准误红一2773.0567.34261.4131红二2770.5153.97800.7656白一2874.374.4590.843白二2876.5323.17090.5993表8 单个样本检验检验值 = 0 TdfSig.(双侧)均值差值差分的 95% 置信区间下限上限红一51.699260.00073.055670.15175.960红二92.108260.00070.514868.94172.088白一88.265270.00074.37172.6476.10白二127.713270.00076.532175.30377.762由表7、表8可以明显看出,第一组评酒员对红、白葡萄酒的评价的置信区间略大于第二组评酒员对红白葡萄酒评价的置信区间,并且第一组品酒员对红、白葡萄酒评分的均值标准误差大于第二组品酒员对红、白葡萄酒评分的均值标准误差,所以认为第二组品酒员对红、白葡萄酒的评价更具有可信度.通过上述的分析可知,评酒师通过感官评价葡萄酒质量,带有一定的主观性,因此有必要根据酿酒葡萄和葡萄酒的理化指标来评价葡萄酒的质量.5.2 问题二的模型建立与求解 讨论酿酒红葡萄的分级,根据酿酒红葡萄的理化指标和红葡萄酒的质量对酿酒葡萄进行分级.主成分分析法原理:主成分分析是把原来多个变量化为少数几个综合指标的一种分析统计方法, 主成分因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息.主成分个数提取原则为主成分对应的特征值大于1的前m个主成分.特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准.在考虑酿酒葡萄的理化指标时,主要分析一级理化指标,忽略二级理化指标对酿酒葡萄分级的影响.根据题可知,酿酒红葡萄有30个一级理化指标,首先在excel中求出各个理化指标的均值,然后在spss中进行主成分分析,得到了解释的总方差,见附表1. 根据附表1,选择特征值大于1 的前八个主成分,为消除量纲不同的影响,在spss中对理化指标进行标准化处理,得到了标准化矩阵,用标准化矩阵乘以成分得分系数矩阵就可以得到酿酒葡萄样品对各个主成分得分.然后再由公式即可算出各个酿酒红葡萄样品的综合主成分得分.其中,. 计算出的综合主成分得分如表9所示. 表9 红葡萄综合主成分得分样品1样品2样品3样品4样品5样品6样品7综合得分样品8样品9样品10样品11样品12样品13样品14综合得分样品15样品16样品17样品18样品19样品20样品21综合得分样品22样品23样品24样品25样品26样品27综合得分由表9可知,可以对酿酒红葡萄分为三个等级,分别为优(,),中(,),差(,),分级表格见表10所示. 表10 酿酒红葡萄分级差(,)中(,)优(,)酿酒红葡萄样品、5.3 问题三的模型建立与求解 分析酿酒红葡萄与红葡萄酒的理化指标之间的联系. 通过excel对数据进行处理,挑选出酿酒葡萄和葡萄酒.共有的理化指标,多次测量的求取其平均值作为参考数据,利用spss软件双变量相关性分析,求出理化指标的相关系数,并分析它们之间的联系.相关系数的数值范围是介于与之间(即 ),常用小数形式表示,一般要取小数点后两位数字来表示,以便比较精确地描述其相关程度.两个变量之间的相关程度用相关系数的绝对值表示,其绝对值越接近1,表明两个变量的相关程度越高;其绝对值越接近0,表明两个变量的相关程度越低.如果其绝对值等于1,则表明两个变量完全直线相关,如果其绝对值等于0,表明两个变量完全不相关.相关系数的绝对值越大,相关性越强,相关系数越接近于或,相关度越强,相关系数越接近于,相关度越弱.“”号表示正相关,即.表示,“”号表示负相关,即0.具体的检验标准如表11所示. 表11 检验标准相关系数的值线性相关强度无线性相关极弱线性相关弱线性相关中等程度线性相关强线性相关极强线性相关 下面分析酿酒红葡萄与红葡萄酒的理化指标间的关系.采用spss软件对酿酒红葡萄和红葡萄酒共有的花色苷、单宁、总酚、总黄酮、白藜芦醇、色泽度共计6种理化指标进行配对样本t检验和双变量相关性分析,得到了成对样本相关系数和成对样本统计量两个表格如表12、表13所示. 表12 成对样本相关系数N相关系数Sig.对 1花色苷 & 花色苷酒270.9230.000对 2单宁 & 单宁酒270.7180.000对 3总酚 & 总酚酒270.8750.000对 4总黄酮 & 总黄酒270.8230.000对 5白藜芦醇 & 白藜芦醇酒270.0140.947对 6L* & L*酒270.4940.009对 7a* & a*酒27-0.5420.004对 8b* & b*酒270.0250.900 表13 成对样本统计量 均值N标准差均值的标准误对 1花色苷105.377052789.61552017.246515花色苷酒263.8994027230.03493244.270243对 2单宁13.88789276.6201381.274046单宁酒7.26611272.9044290.558958对 3总酚14.70907276.6304241.276026总酚酒6.26502272.5253690.486008对 4总黄酮8.21671274.8810880.939366总黄酒4.89732272.9850480.574473对 5白藜芦醇4.80332275.4741851.053507白藜芦醇酒3.630362272.89412980.5569755对 6L*26.2401271.156130.22250L*酒41.086672721.3686844.112405对 7a*1.8520272.131940.41029a*酒50.372962713.2687792.553578对 8b*-0.3405270.975280.18769b*酒22.08111277.5974511.462130 花色苷双变量相关性分结果如表14所示. 表14 相关性花色苷花色苷酒花色苷Pearson 相关性10.923*显著性(双侧)0.000N2727花色苷酒Pearson 相关性0.923*1显著性(双侧)0.000N2727 *. 在0.01水平(双侧)上显著相关对于理化指标花色苷,相关系数为,同时相伴概率值小于,故二者呈极强线性相关.相关图如图1所示. 图1 花色苷相关图单宁双变量相关性分析结果如表15所示. 表15 相关性单宁单宁酒单宁Pearson 相关性10.718*显著性(双侧)0.000N2727单宁酒Pearson 相关性0.718*1显著性(双侧)0.000N2727 *.在0.01水平(双侧)上显著相关对于理化指标单宁,相关系数为,同时相伴概率值小于,故二者呈强线性相关.相关图如图2所示.图2 单宁相关图总酚双变量相关性分析结果如表16所示. 表16 相关性 总酚总酚酒总酚Pearson 相关性10.875*显著性(双侧)0.000N2727总酚酒Pearson 相关性0.875*1显著性(双侧)0.000N2727 *.在0.01水平(双侧)上显著相关 对于理化指标总酚,相关系数为,同时相伴概率值为小于,故二者呈极强线性相关.相关图如图3所示.图3 总酚相关图总黄酮双变量相关性分析结果如表17所示. 表17 相关性总黄酮总黄酒总黄酮Pearson 相关性10.823*显著性(双侧)0.000N2727总黄酒Pearson 相关性0.823*1显著性(双侧)0.000N2727*. 在0.01水平(双侧)上显著相关对于理化指标总黄酮,相关系数为,同时相伴概率值小于,故二者呈极强线性相关.相关图见图4.图4 总黄酮相关图白藜芦醇双变量相关性分析结果如表18所示.表18 相关性白藜芦醇白藜芦醇酒白藜芦醇Pearson 相关性10.014显著性(双侧)0.947N2727白藜芦醇酒Pearson 相关性0.0141显著性(双侧)0.947N2727 对于理化指标白藜芦醇,相关系数为,同时相伴概率值大于,故二者呈极弱线性相关.于是不描述它们之间的相关图.L*双变量相关性分析结果如表19所示. 表19 相关性L*L*酒L*Pearson 相关性10.494*显著性(双侧)0.009N2727L*酒Pearson 相关性0.494*1显著性(双侧)0.009N2727 *. 在0.01水平(双侧)上显著相关对于理化指标L*,相关系数为,同时相伴概率值为大于,故二者呈中等程度线性相关,不描述他们之间的相关图. a*双变量相关性分析结果如表20所示. 表20 相关性 a*a*酒a*Pearson 相关性1-0.542*显著性(双侧)0.004N2727a*酒Pearson 相关性-0.542*1显著性(双侧)0.004N2727 *. 在0.01水平(双侧)上显著相关对于理化指标a*,相关系数为,同时相伴概率值小于故二者呈中等程度线性相关,不描述它们之间的相关图.b*双变量相关性分析结果如表21所示.对于理化指标b*,相关系数为,同时相伴概率值大于,故二者呈极弱线性相关,所以不描述他们之间的相关图.表21 相关性 b*b*酒b*Pearson 相关性10.025显著性(双侧)0.900N2727b*酒Pearson 相关性0.0251显著性(双侧)0.900N27275.4 问题四的模型建立与求解 分析酿酒红葡萄和红葡萄酒的理化指标对红葡萄酒质量的影响,并论证能否用红葡萄和红葡萄酒的理化指标来评价红葡萄酒的质量.红葡萄酒和红葡萄的理化指标与白葡萄酒和白葡萄的理化指标对葡萄酒质量的影响是不同的,因此需分开进行分别分析.在第一问中,由于第二组评酒员的评价结果更可信,所以采用第二组评酒员对红、白葡萄酒的评价结果作为葡萄酒的质量的数据反映. 5.4.1 红葡萄理化指标对葡萄酒质量的影响 在第二问中,酿酒红葡萄有三十个一级理化指标,将这三十个理化指标作为自变量,将红葡萄酒的质量作为因变量,先进行数据的标准化处理,再用标准化的数据进行多元线性回归分析,得到了系数表,见附表2.由附表2中回归方程的系数,既可以得到多元线性回归方程:其中,分别对应附表2中的氨基酸总量、蛋白质果皮颜色b*等自变量,为因变量红葡萄酒的质量. 可知,红葡萄酒的质量与苹果酸、多酚氧化酶、可溶性固形物、出汁率、果皮颜色L*、果皮颜色b*等呈较强负相关,与总酚、单宁、白藜芦醇、总糖、固酸比、果穗质量等呈较强正相关关系,可以用红葡萄的理化指标衡量葡萄酒的质量.5.4.2 红葡萄酒理化指标对葡萄酒质量的影响 根据题中的附件可知,红葡萄酒由九个一级理化指标,对这九个一级理化指标进行标准化,再进行多元线性回归,得到了系数表见表22.表22 系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-6.995E-150.1550.0001.000Zscore(花色苷酒)-1.1630.586-1.163-1.9840.064Zscore(单宁酒)0.5730.5190.5731.1050.284Zscore(总酚酒)-0.3840.758-0.384-.5060.619Zscore(总黄酒)0.4550.4880.4550.9320.364Zscore(白藜芦醇酒)0.3020.2710.3021.1120.282Zscore(DPPH)-0.2190.779-0.219-0.2820.782Zscore: L*酒-1.0510.635-1.051-1.6540.116Zscore: a*酒-0.1610.305-0.161-0.5280.604Zscore: b*酒-0.2250.250-0.225-0.9010.380a.因变量: Zscore(质量)由表22回归方程的系数,既可以得到多元线性回归方程: 其中,分别对应表22中花色苷酒、单宁酒b*酒等自变量,为因变量红葡萄酒的质量.可知红葡萄酒的质量与葡萄酒的花色苷、L*、总酚呈较强负相关,且花色苷和L*的影响比较显著,与单宁酒、酒总黄酮、白藜芦醇酒等理化指标成正相关关系.可以用红葡萄酒的理化指标衡量红葡萄酒的质量.由上述的分析可知,用红葡萄和红葡萄酒的理化指标来评价红葡萄酒的质量是有一定的道理的,理化指标各物质比例合适,达到一种平衡,红葡萄酒的质量就高,而求出的各理化指标的系数正是近似合理的搭配比例,各理化指标含量使得值越大红葡萄酒的质量就越好.通过所求出的线性相关关系,就可近似评价酒的质量,所以是可以用红葡萄和红葡萄酒的理化指标来评价红葡萄酒的质量.感官指标是评价葡萄酒质量的一个很重要指标,但感官指标是由附件三中给出的芳香类物质造成的,而这些芳香类物质也是来源于理化指标中的,这样就可以利用理化指标来评价葡萄酒的好坏,评酒师感官的效果是由芳香类物质造成的,这样就建立了理化指标和感官指标之间的联系,可以直接用理化指标来判断葡萄酒的质量.6 模型的评价 模型的优点:本文首先依据数理统计的相关知识,在spss中对两组数据进行T检验,快速而又直观地看出两组数据是否有显著差异性.其次,本文也利用多元回归分析、相关分析把较庞大的数据变得较直观、简洁,便于处理问题.模型的缺点:问题二中,我并没有良好的解决根据酿酒葡萄的理化指标和葡萄酒的质量分级葡萄这一问题,事实上,只是根据酿酒葡萄的理化指标来分级,通过主成分分析,计算综合主成分得分,这样没有考虑葡萄酒的质量在其中所起的作用.问题三中,附件中提到的芳香物质并没有得到的良好的处理,由于数据种类的多样化和数值的凌乱,直接省略了关于芳香物质的计算,根据一级理化指标来判断酿酒葡萄和葡萄酒,这一点也是我在解决过程中最大的不足之处.7 模型的推广本文主要在spss中进行数据分析,该模型用于生活实践中,也可以解决很多实际问题,例如医学实践中根据各种化验结果、疾病症状、体征判断患者患的是什么病;体育选材中根据运动员的体形、运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队继续培养;食品领域中根据各方面指标对食品品质的评价;经济领域中对商业银行的绩效评价,建立绩效评价指标体系等.参考文献1 姜启源,谢金星,叶俊.数学模型(第三版)M.北京:高等教育出版社,2003.2 彭定中.葡萄酒的评价模型J.湖南理工学院学报(自然科学版),2012(4).6203 张玉冰,高昆,殷樱.葡萄酒的评价.4 李洪成,姜宏华.SPSS数据分析教程M.北京:人民邮电出版社,2012.5 张兴.基于主成分分析法的葡萄酒质量的评价J.皖西学院学报,2013(2):53566 李振宇.酿酒葡萄的分级J.湘南学院学报,2013(2).23287 李运,李记明,统计分析在葡萄酒质量评价中的应用J.酿酒科技,2009(4):8082.8 何舒.葡萄酒质量评价的模型分析与优化J.衡水学院学报,2013(4):1318