《葡萄酒的评价数学建模论文.doc》由会员分享,可在线阅读,更多相关《葡萄酒的评价数学建模论文.doc(28页珍藏版)》请在三一办公上搜索。
1、2012高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,
2、在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写): A 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 兰州理工大学 参赛队员 (打印并签名) :1. 杨自升 2. 韩向东 3. 吴林峰 指导教师或指导教师组负责人 (打印并签名): 汪训洋 陈金淑 日期:2012年9月10日赛区评阅编号(由赛区组委会评阅前进行编号):2012高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):
3、全国评阅编号(由全国组委会评阅前进行编号):葡萄酒的评价摘 要评判葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员对葡萄酒样品进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。本文就葡萄酒质量的评价问题进行分析研究,针对如何对酿酒葡萄进行分级,酿酒葡萄与葡萄酒的理化指标之间的关系,以及酿酒葡萄与葡萄酒的理化指标对葡萄酒的质量的影响等问题,建立了相应的数学模型,并运用EXCEL、MATLAB等数学软件,分别就题目所提出的问题进行求解。对于问题一,我
4、们采用的是假设检验方法,得到了两组评酒员的评价结果有显著性差异,并且第二组结果更可信。对于问题二,我们应用了图表示可视化分类方法,并利用附件二中的数据得到了酿酒葡萄理化指标中的两种起决定性作用的主成分,即为氨基酸总量与褐变度,从而确定了葡萄酒的质量与酿酒葡萄理化指标之间的关系,最后将酿酒葡萄分成了三个等级。对于问题三,通过聚类分析和典型相关分析来确定酿酒葡萄与葡萄酒的理化指标之间的关系。为了能够在海量数据中找到两个样本之间的内在联系,我们先通过聚类分析对酿酒葡萄的理化指标进行分类如下表所示:(数字代表的含义见正文)糖类 酚类 持久度 酸度 酒精度微量元素色度果皮质地 1、16、17、18、20
5、、222、11、12、134、8、9、155、6、719、21314、2829、30 23、24、26、27再对简化后的两组样本进行典型相关分析,得到两种样本指标被对方解释的比例分别达到了100%和92.4%,较好的反映了酿酒葡萄与葡萄酒的理化指标之间的关系。对于问题四,我们应用多元线性回归模型进行了定性分析,论证了用葡萄和葡萄酒的理化指标可以评价葡萄酒的质量。关键词:葡萄酒评价 假设检验 可视化分类 聚类分析 典型相关分析 多元线性回归一、 问题重述1.1. 背景资料与条件确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其
6、总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。1.2. 需要解决的问题1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二、 问题分析1.3.1.2.2.1. 问题的重要性分析(社会背景) 众所周知,葡萄酒质量的好坏,主要靠感官品尝和理化指标分析的方法来确定。目
7、前我国规定,对葡萄酒的感官品尝主要从色泽,香气,口味,风格四个方面进行品评,而品评往往受到评酒人员的嗜好,习惯, 情绪,年龄,经验等因素的影响,评定常有一定程度的主观性和不确定性,这使评分的可靠性受到影响。如何解决以上一系列问题变得非常重要。 2.2. 有关方面在这个问题上做过的研究现有文献中大部分都从葡萄酒和酿酒葡萄的物理化学属性方面进行研究,一般只得到定性结果,很少见到定量具体分析,不利于葡萄酒质量的控制与提高。本文基于对所给三个附件数据的处理和分析,针对各具体问题提出了若干数学模型得到了较为满意的解答。三、 基本假设3.3.1. 模型一假设1) 假设一:假设各个评酒员的评判结果相互独立;
8、2) 假设二:假设样本数据不满足正态分布;3.2. 模型二假设1) 假设一:假设同一样本中各种成分相互独立;2) 假设二:假设附件二中的酿酒葡萄理化指标的二级指标影响较小;3.3. 本文引用数据、资料均真实可靠。四、 符号说明4.4.1. 模型一符号说明:表示随机变量;:表示样本均值;:表示样本方差;:表示样本容量;:表示酿酒红葡萄的对应的分级指标;:表示酿酒白葡萄的对应的分级指标;:酿酒葡萄的主成分指标:葡萄酒的理化指标:酿酒葡萄的典型变量:葡萄酒的典型变量五、 模型的建立与求解5.5.1. 问题一的求解1.2.3.4.5.5.1.5.1.1. 模型一概述 非正态总体区间估计:5.1.2.
9、模型一的运用与求解附件一所给的四个表格分别为:第一组为红葡萄酒品尝评分,第二组为红葡萄酒品尝评分。其中红葡萄酒有27组样品。另外的一组为白葡萄酒品尝评分,另外的第二组为白葡萄酒品尝评分。其中白葡萄酒有28组样品。 品酒员无论对红葡萄酒样品,还是白葡萄酒样品的评分,都是以100分为基准,其中,外观分析占有15分(澄清度:5分,色调:10分),香气分析占有30分(纯正度:6分,浓度:8分,质量:16分),口感分析占有44分(纯正度:6分,浓度:8分,持久性:8分,质量:22分),平衡/整体评价占有11分。评酒员通过对样品不同指标的评分,然后累加为此样品的最终得分。 通过对红葡萄酒,白葡萄酒,每组样
10、品最终得分的均值与方差的求解得到下表所示结果:表1: 红、白葡萄酒品尝评分的均值与方差红葡萄酒品尝评分白葡萄酒品尝评分均值方差均值方差第一组第二组第一组第二组第一组第二组第一组第二组样品162.768.192.900 81.878 样品18277.992.222 25.878 样品280.37439.789 16.222 样品274.275.8201.067 49.067 样品380.474.645.822 30.711 样品385.375.6365.122 142.489 样品468.671.2108.644 41.289 样品479.476.944.711 42.100 样品573.372
11、.162.011 13.656 样品57181.5126.444 26.278 样品672.266.359.733 21.122 样品668.475.5162.711 22.722 样品771.565.3103.610 62.678 样品777.574.239.167 42.178 样品872.36644.011 65.111 样品871.472.3183.600 31.122 样品981.578.232.944 25.733 样品972.980.492.767 106.267 样品1074.268.830.400 36.178 样品1074.379.8212.678 70.400 样品117
12、0.161.670.767 38.044 样品1172.371.4177.122 87.822 样品1253.968.379.656 25.122 样品1263.372.4115.789 140.044 样品1374.668.844.933 15.289 样品1365.973.9170.767 46.767 样品147372.630.000 23.156 样品147277.1114.222 15.878 样品1558.765.785.567 41.344 样品1572.478.4131.600 54.044 样品1674.969.918.100 20.100 样品167467.3178.000
13、 82.233 样品1779.374.588.011 9.167 样品1778.880.3144.178 38.456 样品1859.965.447.211 50.267 样品1873.176.7156.544 30.233 样品1978.672.647.378 55.156 样品1972.276.446.400 26.044 样品2078.675.826.044 39.067 样品2077.876.664.400 50.044 样品2177.172.2116.100 35.511 样品2176.479.2172.711 64.400 样品2277.271.650.622 24.267 样品2
14、27179.4138.667 53.600 样品2385.677.132.489 待添加的隐藏文字内容224.767 样品2375.977.443.656 11.600 样品247871.574.889 10.722 样品2473.376.1111.122 38.544 样品2569.268.264.622 43.733 样品2577.179.533.878 106.500 样品2673.87231.289 41.556 样品2681.374.372.900 102.900 样品277371.549.778 20.500 样品2764.877144.400 35.556 样品2881.379.
15、680.456 25.378 通过观察两表数据我们发现两组红葡萄酒的得分均值近似相等,两组白葡萄酒的得分均值也近似相等。而通过两组红葡萄酒得分方差的比较,我们发现,第一组红葡萄酒得分的方差波动明显比第二组的大。同样,通过对两组白葡萄酒得分的方差的比较,我们进一步发现,第一组白葡萄酒得分的方差波动明显比第二组的大。应用Excel软件,以及数据拟合,我们得到以上四组样本的均值与方差的柱形图如下:图1:两组红葡萄酒均值比较的柱形图 图2:两组红葡萄酒方差比较的柱形图 图3:两组白葡萄酒均值比较的柱形图 图4:两组白葡萄酒方差比较的柱形图通过对图形的直观观察我们发现:均值与方差并不服从正态分布。于是,
16、我们对所有红葡萄酒与白葡萄酒品尝评分做如下处理:在每一组中,将十位品酒员对每一酒样品的评分累加,然后再求均值与方差。第一组红葡萄酒的样本得分均值为730.5556,第一组样本方差为5391.41。第二组红葡萄酒的样本均值为705.1481,第二组红葡萄酒的样本方差为1582.439。当均值与方差不服从正态分布时,由非正态总体的区间估计,设置信系数为=95%(其中取),根据:非正态整体分布的置信区间公式: (1)并查表: =1.96可得,第一组与第二组红葡萄酒样本总均值的置信区间分别为:721.7972,739.3140与700.4031,709.8931,第二组红葡萄酒样本总均值的置信区间宽度
17、比第一组的置信区间宽度要窄,容易看出在对红葡萄酒的评价中,两组评酒员的评价结果有显著性差异,并且第二组的结果更为可信。同理,再由式(1)及可得,第一组与第二组白葡萄酒样本均值的置信区间分别为:736.5148,748.6994与761.6072,769.0356, 由第二组白葡萄酒样本均值的置信区间宽度比第一组的置信区间宽度窄,可知在对白葡萄酒的评价中,两组评酒员的评价结果有显著性差异,并且第二组的结果更为可信。5.1.3. 问题一结果综上,我们得出第一问的结论为:两组品酒员的评价结果有显著性差异,并且第二组结果更可信。5.2. 问题二的求解对于葡萄酒,由于酿酒葡萄的好坏与所酿葡萄酒的质量有直
18、接的关系,而葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,据此可根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。5.2.5.2.1. 模型二分析葡萄酒是一种成分复杂的酒精饮料,不同产地、年份和品种的葡萄酒成分不同。成分与葡萄酒的质量关系密切,是划分葡萄酒等级的重要依据。对于问题二的求解,可通过葡萄酒的等级和酿酒葡萄的理化指标来对酿酒葡萄进行分级。5.2.2. 酿酒葡萄理化指标数据的可视化质量评估5.2.2.1 葡萄酒数据 葡萄酒数据包括27个红葡萄酒样本和28个白葡萄样本,输入的变量包括客观的测试(如花色苷),输出变量基于感觉数据(葡萄酒专家提出的至少3个评价
19、的均值)。每位专家的葡萄酒质量分级介于 0 (极坏的) 和 10 (非常优秀)。极好的和极差的葡萄酒的样本都是少数, 评价为中间的葡萄酒样本最多,因此可以从葡萄酒专家的评分来确定葡萄酒的质量。由问题一的求解已经确定第二组品酒师的评分显著性差异较小,所以对葡萄酒的质量评价可借助于第二组评酒师的评分作为依据建立模型。5.2.2.2 酿酒葡萄理化指标数据 根据对酿酒葡萄理化测试得到的输入变量为30个,包括氨基酸总量(mg/100gfw),蛋白质(mg/100g),VC含量(mg/L),花色苷(mg/100g),鲜重(g),酒石酸(g/L),苹果酸(g/L),柠檬酸(g/L),多酚氧化酶活力((A/m
20、ingml)),褐变度(A/g*g*min*ml),DPPH自由基1/IC50(g/L),总酚(mmol/kg),单宁(mmol/kg),葡萄总黄酮(mmol/kg),白藜芦醇(mg/kg),黄酮醇(mg/kg),总糖(g/L),还原糖(g/L),可溶性固形物(g/l),PH值,可滴定酸(g/l),可滴定酸,干物质含量g/100g,果穗质量/g,百粒质量/g,果梗比(%),出汁率(%),果皮质量(g),果皮颜色。借助各项理化指标可对酿酒葡萄的质量进行评分。5.2.2.3 质量评估方法 随着信息技术的进展使得搜集、 存储和处理数据成为可能。数据挖掘、神经网络、模式识别、机器学习等技术都能在葡萄酒
21、分类中应用。 复杂的模型容易过拟合导致泛化能力减弱, 模型太简单导致学习能力有限。神经网络、支持向量机两种方法均有参数可以调整,能获得令人满意的效果。由于酿酒葡萄的理化指标参数为多元数据,因此采用图表示的可视化分类方法可取得比较好的效果。 采用图表示的可视化分类方法,一般使用星点图 (star plot) ,又称雷达图或蜘蛛图,是目前应用最广泛的对多元数据进行作图的方法。由于星点图是将正交坐标轴重新安排为非正交的坐标轴,即相交于圆心的径向坐标轴,因此可以在二维平面上同时显示多维数据。 从星点图的图表示可以看出,特征排序很重要外,相邻维之间的角度的作用也重要。星点图之所以能可视化,就是因为星点图
22、要求所有相邻维之间的角度的总和等于。 多维数据用图来表示,可能会形成有利于视觉上分类或聚类的很有特色的图形特征。这与传统的三大特征 (物理特征、结构特征和数学特征) 相对应。重心是星点图多边形提供的一种图形特征。从几何角度看,一个样本的星点图中的每一个三角形都产生一个重心。从几何上讲三角形三条中线相交于一点,这个交点叫做三角形的重心,而且三角形的重心与顶点的距离等于它与对边中点的距离的2倍。当然也可以利用三角形的重心坐标是 3个顶点坐标的平均值的性质,计算的结果是一样的。可以把三角形重心称为重心图形特征 (维数与原始特征维数一样)。星点图的重心图形特征提取方法如下: (2)其中,和表示诡异化特
23、征样本的第i维变量和第i+1维变量的值,一般由预处理计算得到:弧度为第i维变量和第i+1维变量间的夹角弧度。因此一个维特征的样本就会产生一个对应的维图形特征的样本。这样特征排序影响重心图形特征的问题就能够解决,它转化为一个特征选择问题。 因此,应用贝叶斯理论,这个规则表述如下:如果,所有的,那么指定属于类。这里是类概率密度函数,是类的先验概率。一般是未知的,需要从训练样本中估计。那么第个样本得到的结果就是一个回归值,一般这个回归值和那个类别标签距离近,第个样本就属于哪个类别。提出一种新的方法如下:对于第个样本,利用分类方法得到一个类别标签,利用回归方法得到一个排序的预测值 ,如果和 的绝对值小
24、于阈值 1,那么样本属于类;否则样本属于距离预测值最近的类。例如,第个样本的分类标签=5,排序的预测值=5.2,那么第个样本属于类别5;第个样本的分类标签=5,排序的预测值=6.2,那么第个样本属于类别6。基于以上理论,可用图表示的可视化分类方法对酿酒葡萄的理化指标进行分类,从而达到对葡萄的分级,进而来确定酿酒葡萄的理化指标与葡萄酒的理化指标间的关系。5.2.3 模型的应用与求解对酿酒葡萄的30种理化指标分别编号,以该编号和酿酒葡萄理化指标的含量建立二维直角坐标系,并以理化指标的编号为输入变量,酿酒葡萄理化指标的含量为变量值,借助matlab软件(相应的matlab程序见附录),做出27个红葡
25、萄样本和28个白葡萄样本的数据可视化平行坐标图。如图5 红葡萄数据的可视化平行坐标图和图6 白葡萄数据的可视化平行坐标图。图5 红葡萄数据的可视化平行坐标图图6 白葡萄数据的可视化平行坐标图从图5和图6分析所得,对于同一种葡萄,这几类数据在很多理化性质上几乎相同,只有第1个变量氨基酸总量和第9个变量褐变度不同,这说明这两大理化性质大大影响口味。因此要根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级,还需结合第二组品酒师对葡萄酒样本的打分和葡萄中氨基酸总量和褐变度来进一步对酿酒葡萄进行分级。相应的数据见附录中葡萄中氨基酸与褐变度及相应葡萄酒的评分数据。依以上数据,分别作出以葡萄中氨基酸
26、含量(褐变度)和葡萄酒相应的评分建立直角坐标系,作出分布图,如图7 红葡萄酒中氨基酸含量和葡萄酒相应的评分分布图,图8红葡萄酒中褐变度和葡萄酒相应的评分分布图,图9白葡萄酒中氨基酸含量和葡萄酒相应的评分分布图,图10白葡萄酒中褐变度和葡萄酒相应的评分分布图图7 红葡萄酒中氨基酸含量和葡萄酒相应的评分分布图图8 红葡萄酒中褐变度和葡萄酒相应的评分分布图 通过对图5.3和图5.4的分析,当红葡萄中氨基酸和褐变度含量比较低时,对葡萄酒的影响比较低,当含量较高时,可以依据褐变度(t)对红葡萄质量()进行分类如下: (3)其中-1代表酿酒葡萄质量较差,0代表酿酒葡萄质量中等,1代表酿酒葡萄质量较好。图9
27、白葡萄酒中氨基酸含量和葡萄酒相应的评分分布图图10白葡萄酒中褐变度和葡萄酒相应的评分分布图 通过对图5.5和图5.6的分析,得到对于白葡萄,氨基酸的含量对其所酿的葡萄的质量影响较大,因此可用白葡萄中氨基酸的含量()来衡量所酿的葡萄酒的质量(),具体分类如下: 其中-1代表酿酒葡萄质量较差,0代表酿酒葡萄质量中等,1代表酿酒葡萄质量较好。5.2.3. 模型二评价 应用以上图表示可视化分类模型,虽能对葡萄等级进行分级,但由于其并没有考虑酿酒葡萄中各成分理化指标的相互关系及对所酿葡萄质量的影响,所以其模型人具有许多不足之处,需对酿酒葡萄与葡萄酒的理化指标之间联系的进一步研究来完善该模型。5.3. 问
28、题三的求解在分析酿酒葡萄与葡萄酒的理化指标之间的关系时,本文使用了层次聚类分析和典型相关分析。5.3.1. 层次聚类分析根据聚类分析的原理可知,它的实质是建立一种分类方法,将一批样本数据按照它们在性质上的亲密程度在没有先验知识的情况下进行自动分类。这种类就是一个具有相似性的个体的集合,不同类之间具有明显的区别。层次聚类分析是根据观察值或变量之间的亲疏程度,将最相似的对象结合在一起,以逐次聚合的方式将观察值分类,直到最后所有样本都聚成一类。由第三问可知,要想分析酿酒葡萄与葡萄酒的理化指标之间的联系,必然要用到附件2-指标总表中的大量数据,如果不先对这些样本进行简化,就很难找到它们之间的内在关系。
29、而R型聚类分析使具有共同特征的变量聚在一起,以便从不同类中分别选出具有代表性的变量作分析,从而减少分析变量的个数。对于附件二指数总表,我们根据其中的一级指标(即标记为蓝色的)先大致把酿酒葡萄的理化指标分为30个,其中,1为氨基酸总量,2为蛋白质,3为VC含量,定义430依次为:花色苷、酒石酸、苹果酸、柠檬酸、多酚氧化酶活力、褐变度、DPPH自由基、总酚、单宁、葡萄总黄酮、白藜芦醇、黄酮醇、总糖、还原糖、可溶性固形物、PH值、可滴定酸、干物质含量、果穗质量、百粒质量、果梗比、出汁率、果皮质量、果皮颜色。定性考察酿酒葡萄的理化指标,可以看出,某些指标之间可能存在较强的相关性。比如红(白)葡萄中的总
30、糖、还原糖与可溶性固行物之间可能存在较强的相关性,总酚、单宁与葡萄总黄酮之间也可能存在较强的相关性。为了验证这种想法,运用MATLAB软件计算红葡萄30个一级指标之间的相关系数,得到的相关系数矩阵如表所示:(因样本的指标太多,在此只列出了前十个指标的相关系数矩阵,具体完整的相关系数矩阵参见附件一中的表格 (3)表2: 红葡萄理化指标的相关系数矩阵1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 1.00 1.00 0.02 -0.12 0.08 0.36 -0.07 0.08 -0.12 -0.15 0.11 2.00 0.02 1.00 -
31、0.01 0.43 0.47 -0.17 0.17 0.11 0.20 0.75 3.00 -0.12 -0.01 1.00 -0.11 -0.23 -0.14 -0.23 -0.27 0.07 0.00 4.00 0.08 0.43 -0.11 1.00 0.09 0.63 0.28 0.40 0.70 0.65 5.00 0.36 0.47 -0.23 0.09 1.00 -0.11 0.52 -0.13 -0.06 0.28 6.00 -0.07 -0.17 -0.14 0.63 -0.11 1.00 0.42 0.33 0.64 0.05 7.00 0.08 0.17 -0.23 0.
32、28 0.52 0.42 1.00 0.20 0.39 0.00 8.00 -0.12 0.11 -0.27 0.40 -0.13 0.33 0.20 1.00 0.56 0.10 9.00 -0.15 0.20 0.07 0.70 -0.06 0.64 0.39 0.56 1.00 0.30 10.000.11 0.75 0.00 0.65 0.28 0.05 0.00 0.10 0.30 1.00 可以看出某些指标之间确实存在很强的相关性,因此可以考虑从这些指标中选取几个有代表性的指标进行聚类分析。为此,把三十个指标根据其相关性进行R型聚类,再从每个类中选取代表性的指标。因为在聚类分析中如
33、果参与聚类的变量的量纲不同,就会导致错误的聚类结果。因此在聚类过程进行之前必须对每个理化指标的数据分别进行标准化处理,以消除量纲的影响。指标间相近性度量采用相关系数,类间相近性度量的计算选用类平均法。聚类树形图如下图图 11 红葡萄指标类聚树形图 从红葡萄指标聚类图中可以看出,可以将红葡萄的30个理化指标分为八类,分类结果如下( 中的代表聚为一类)2、10、11、12、13、26、4、6、8、9、15、25、5、7、19、21、1、16、17、18、20、22、3、14、28、29、30、23、24、27同理可得,白葡萄的前十个指标的相关系数矩阵如下表所示:表4: 红葡萄理化指标的相关系数矩阵
34、1 2 3 4 5 6 7 8 9 10 1 1.00 0.12 -0.30 -0.06 0.39 0.51 0.07 -0.33 -0.12 0.21 2 0.12 1.00 -0.23 -0.45 -0.34 0.21 -0.05 -0.28 0.46 0.10 3 -0.30 -0.23 1.00 0.08 0.04 -0.19 -0.34 0.12 0.15 0.07 4 -0.06 -0.45 0.08 1.00 0.21 0.02 0.01 0.35 -0.33 -0.30 5 0.39 -0.34 0.04 0.21 1.00 0.18 0.33 -0.02 0.02 -0.15
35、 6 0.51 0.21 -0.19 0.02 0.18 1.00 0.20 -0.24 -0.07 -0.02 7 0.07 -0.05 -0.34 0.01 0.33 0.20 1.00 0.14 0.01 -0.03 8 -0.33 -0.28 0.12 0.35 -0.02 -0.24 0.14 1.00 -0.06 -0.43 9 -0.12 0.46 0.15 -0.33 0.02 -0.07 0.01 -0.06 1.00 0.05 10 0.21 0.10 0.07 -0.30 -0.15 -0.02 -0.03 -0.43 0.05 1.00 图12 白葡萄指标类聚树形图依据
36、白葡萄指标聚类图中,同样可以将白葡萄30个理化指标分为以下八类2、9、11、12、13、15、1、6、10、16、17、18、20、22、28、30、3、5、2514、23、24、26、27、4、8、29、7、19、21对比以上得到的两种酿酒葡萄的指标类聚树形图和由它们将各自的30种理化指标的分类结果,我们不难发现,通过对两组指标分别用R型聚类分析归类之后,两种酿酒葡萄的归类区间有着明显的相似度,再结合它们内部的联系和所归的类与类之间的差异,可以得到如下的对应关系:表5:主成分列表糖类 酚类 持久度 酸度 酒精度微量元素色度果皮质地 1、16、17、18、20、222、11、12、134、8、
37、9、155、6、719、21314、2829、30 23、24、26、27再通过两组理化指标的相关系数可以得出各类的主要指标:依次为糖类中的总糖,酚类中的总酚,持久度的酚氧化酶活性,酸度中的苹果酸,酒精度中的PH值,微量元素VC含量,色度中的白芦藜醇,果皮质地中的果硬比。5.4. 典型相关分析 通常情况下,为了研究两组变量, 的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有个简单相关系数,这样又繁琐又不能抓住问题的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。 为此,我们可以分别在每组变量中找出第一对
38、线性组合,使其具有最大相关性, (5) 然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对本身具有次大的相关性。 (6) 与,与不相关,但和相关。如此继续下去,直到进行到步,两组变量的相关性提取完为止,可以得到组变量,这里。 研究两组随机变量之间的相关关系,可用复相关系数(也称全相关系数)。 复相关系数描述两组随机变量与之间的相关程度。其思想是先将每一组随机变量作线性组合,成为两个随机变量: , (7)再研究与的相关系数。由于,的投影与向量,有关,所以与,有关,。我们取在和的条件下使达到最大的,作为投影向量,这样得到的相关系数为复相关系数:。 将两组变量的协方差
39、矩阵分块得: , (8) 此时 (9)因此问题转化为在和的条件下求的极大值。 根据条件极值的求法引入Lagrange乘数,可将问题转化为求 (10)的极大值,其中, 是Lagrange乘数。由极值的必要条件得方程组: (11)将上二式分别左乘与,则得 (12) 注意,所以 代入方程组得: (13) 以左乘第二式得,所以 代入第一式得 同理可得 记 , (14) 则得 ,说明既是又是的特征根,就是其相应于和的特征向量。和的特征跟非负,非零特征跟的个数等于,不妨设为。设的特征跟排序为,其余个特征根为0,我们称为典型相关系数。相应解出的特征向量为从解出的特征向量为从而可得对线性组合: (15)称每一对变量为典型变量。求典型相关系数和典型变量归结为求和的特征根和特征向量。 又因为,当 时, 表示一切典型变量都是不相关的,并且其方差为一,其中与的同一对典型变量和之间的相关系数为,不同对的典型变量和()之间不相关,即协方差为0: 当总体的均值向量和协差阵未知时,无法求总体的典型相关系数和典型变量,因而需要给出样本的典型相关系数和典型变量。 设和为来自总体容量为的样本,这时,协差阵的无偏估计为
链接地址:https://www.31ppt.com/p-4031145.html