信息量准则AIC在玉米品种区域试验分析的应用论文.doc
《信息量准则AIC在玉米品种区域试验分析的应用论文.doc》由会员分享,可在线阅读,更多相关《信息量准则AIC在玉米品种区域试验分析的应用论文.doc(36页珍藏版)》请在三一办公上搜索。
1、信息量准则AIC在玉米品种区域试验分析的应用孙京波指导教师 胡希远摘 要:作物区域试验对育种和农业生产具有非常重要的意义。关于作物区域试验数据分析的模型和方法在文献中多种多样,对于实际试验分析者,究竟选用什么样的模型和方法分析作物区域试验才合理是目前必须解决的一个重要现实问题。本文通过SAS这一国际标准的分析软件,基于混合线性模型拟合的信息量准则(AIC)对玉米区域试验数据资料进行了有关模型的构建、筛选和处理,对各种模型在玉米品种区域试验数据拟合效果和稳定性分析结果进行了比较。结果发现不存在广泛最适的玉米品种稳定性分析模型,对不同的区域试验数据应利用AIC准则选用最佳的模型进行稳定性分析。关键
2、词:区域试验,玉米,方差分析,混合模型,信息量准则APPLICATION OF INFORMATION CRITERIA IN THE VARIETY REGIONAL TESTABSTRACTRegional trial production plays an important role in Agriculture, but data analysis methods of the experiment are varied with a bit confusing. In this paper , through SAS the analysis of the internationa
3、l standard software ,we will analyze the experimental data of corn for the model constructing ,slecting and treating. Meantime , the mixed model analysis is applied under the information criterion (AIC). The results showed thatthere is nooptimalmodel forstability analysisof maize varieties, but test
4、sof differentvarietiesof regionalstability analysis havethe best model. Keywords: Regional Trial,cornvariance, mixed model, Information cretion目录第一章 绪论41.1 研究背景41.2 模型选择方法及其研究现状41.3 拟研究的内容51.3.1 信息量准则在品种稳定性分析模型选择应用研究51.4 本研究的创新点6第二章 模型和模型选择准则62.1 模型的概念62.2 模型选择的两类标准62.2.1有效准则62.2.2相合准则62.3 模型选择的方法72
5、.3.1 AIC准则72.3.2 Cp统计量72.3.3 基于 F 检验的逐步回归法72.3.3.1 向前法82.3.3.2 向后法82.3.3.3 逐步法82.3.4 准则82.3.5 校正准则82.4 准则法和逐步回归法的优缺点9第三章 信息量准则在区域试验稳定性分析模型选择应用研究93.1 线性混合模型和模型选择应用于区试的必要性103.2 区域试验品种稳定性分析的发展113.3品种稳定性分析模型113.3.1.稳定性方差模型123.3.2 Finlay-Wilkinson回归模型123.3.3Eberhart-Russell回归模型123.3.4 AMMI-1模型133.3.5环境方差
6、模型133.4 稳定性模型分析的程序143.5模型评价与选择143.6 数据资料143.6.1 材料和方法143.6.2 试验数据初步分析163.6.3不同分析模型的数据拟合效果163.6.4不同品种稳定性分析模型对品种稳定性的评判18第四章结论32参考文献33致 谢34附件1:SAS 程序以2004年01组为例35第一章 绪论1.1研究背景及其研究现状区域试验布点多、范围广,能在较多样的生态环境和接近大田生产的条件下进行试验,有助于迅速明确新品种的推广价值和适应范围。而与之配套的方差分析却是工农业生产和科学研究中对试验数据进行分析的一种重要的数理统计方法,其应用极其广泛。但是,可供应用统计方
7、法和分析软件等因素的限制,传统上通常是依据一定试验设计中试验因子、环境因子及其之间互作等可能效应的多少来确定ANOVA模型,极少考虑针对特定试验数据的最佳ANOVA模型选择。因此ANOVA模型未必就一定能最佳体现所有试验数据的信息;即使偶尔有考虑ANOVA模型的选择问题,多是采用传统的具有一定局限性的F检验结果进行因子选择1。传统方差分析法分析结果的准确性及其研究结论的可靠性会受到不同程度地限制。由于多环境下品种与环境互作效应形成机理的复杂性,关于区域试验数据的分析目前还没形成一个普遍认可的最佳模型或方法。但是,Akaike于1973年从信息论的角度出发提出了AIC准则,赤池弘次建议,当要从一
8、组可供选择的模型中选出一个最佳模型时,选择AIC为最小的模型是可取的。在理论结构上看,AIC采用了最小限度的定义,具体化地采用了“吝啬原理”。由此看来,数据的拟合既好而又尽可能节省参数数目的模型才是最佳的。SAS中的proc mixed 程序具有广泛的实用性。胡希远已经对多误差试验分析的特点以及利用proc glm分析的局限性予以探讨,阐述分析利用PROC MIXED分析试验数据的原理方法和优点1。1.2模型选择方法及其研究现状建立模型包括模型选择和参数估计两个方面。参数估计已经发展到相当完满的程度,但是所有参数估计方法都是以给定模型为前提的,并没有考虑到模型本身不确定的问题。模型选择的过程和
9、方法通常包括以下几个步骤3-5:首先,根据所研究问题的特点和专业知识,以及样本数据提供的明显信息,提出若干可能的候选模型;其次,通过模型对样本数据的拟合从中选出一个或几个模型。为了充分利用样本数据包含的信息,要求模型对数据拟合要好,但是拟合度越好,模型一般越复杂。复杂的模型不仅 计算量大而且不利于运用模型解决实际问题。在进行模型选择时,以下三个方面的问题必须考虑:拟合度,复杂度和泛化能力。如果样本中所有可以用的信息不足以使模型选择的唯一性15,那么模型选择就是个不适定问题。为了进行模型选择,人们提出多种准则,如包括向前法,向后法和逐步回归选择法(以F 测验为基础的);复相关系数法(R2);均方
10、误差法(MSE)、修整的复相关系数准则(Rc2);预报平方和准则(交叉验证准则)和Mallows Cp准则等。模型选择的方法很多,最简单的就是比较所有备选模型的 。将最大的模型作为最优模型,但这种方法的弊端是它往往不考虑变量的模型构造的贡献而导致的模型多余的复杂度,而通常随着变量数目的增加而上升,因此将导致过度拟合的出现。其中F测验在农业科学领域最为常用。该准则的缺点是取不同的显著水平和选择方法所得到的模型选择的结果不同,形成最佳模型的非客观性,它最终只能提供一个“最佳”模型,不能将候选模型按照优劣排序,此外,由于多次测量和变量相关性的问题, 最终得到的模型也不一定是最佳模型6。马娄斯从预测的
11、观点基于残差平方和准则提出与AIC准则相似的Cp统计量准则。Cp准则是现今在回归模型中用得最普遍的模型选择准则。Cp准则有一个优点就是它不要假定分布类型是已知,然而在计算 Cp统计量时,怎样来估计未知参数误差方差没有十分令人满意的方法,而且误差方差的不同估计值还会影响变量选择的结果。所有这些模型除了各自的不足之外,共同的局限是:不能用于具有方差协方差结构等较复杂模型的选择6,7。上世纪70年代,赤池弘次将Kullbackleiber信息量和极大似然理论相结合,并利用似然估计渐进性质,推导了最佳模型选择的信息量准则8,称作AIC(Akaike Information Criterion ) 。该
12、准则具有严密的理论依据,使用简单,适用范围广,受到学者们的广泛关注。信息量准则除用于模型均值结构选择外,人们还将其用于模型最佳方差协方差结构的选择7,9-11。胡希远27进行的一些研究显示,在田间变异较小或者样本容量较小的条件下,从严格理论上讲,空间协方差为真模型,但实际上,区组设计方差分析模型所得固定效应估计及其差异显著性测定验结果和空间协方差模型的结果几乎无异。这时,如果运用AIC进行最佳模型选择,它将较多的选择区组设计方差分析模型,但这无妨有关效应估计和测验结果的有效性。目前关于模型选择的研究多是关于回归模型问题的研究,包括线性多元回归和曲线回归的研究,而关于试验分析,特别是农业试验分析
13、模型选择问题的研究目前仍鲜有研究报道。1.3研究内容1.3.1信息量准则在品种稳定性分析模型选择应用研究分析16组玉米品种多点试验数据,通过SAS中PROC MIXED程序并应用信息量准则(AIC)评估以下五种品种稳定性模型:稳定性方差模型、Finlay-Wilkinson回归模型、Eberhart-Russell回归模型、稳定性模型、AMMI-1模型、环境方差模型。最后分析不同品种的稳定应。1.4 本文创新点应用模型选择信息量准则(AIC)对玉米田间试验品种稳定性模型(或称线性混合模型)进行比较、筛选,证明信息量准则对田间试验模型选择是必要的。第二章 模型和模型选择准则2.1模型的概念模型是
14、对现实世界的一个特定对象,为了特定的目的,根据特有的内在规律,做出一些必要的简要假设,运用适当的数学工具,得到的一个数学结构。一个好的模型,除了能够最大限度地发掘提取先验和测量数据中的信息,还应该有较为简单的形式。一个好的模型,当然要很好的符合观察数据。很明显,模型设置的参数变量个数越多它对样本数据的拟合程度就越好。但是,参数多了在理论上处理就很麻烦。模型是科学研究的基础,参数模型是一种重要的模型类。对参数模型而言,模型选择和参数求解是数据处理中非常关键的问题,而参数模型的选择及评价包括模型类的选择和已知模型的阶数确定29。好的模型设定大体有三种含义:包含变量不多,不少,函数形式正确。2.2模
15、型选择的两类准则2.2.1 有效准则 当真模型不属于一组候选模型的时候,一种衡量准则所表现的尺度就是测量被选择模型和真模型之间的距离。在一组候选模型中总是存在一个和真模型最近的模型。定义被选择模型和真模型之间的距离与最近模型与真模型之间的距离的比值被称为观测效率。真模型是无限维的模型,或者候选模型集合中不包含真模型是在回归和时间序列中经常出现的假设。前面提过模型选择的目标是从一组有限维的候选模型中选出真模型的最好的近似。与真模型的距离最近的候选模型则是一个合适的选择。所要求的“最近”,需要有个定义好的距离或者信息测度来衡量,比如AIC准则中用到的Kullback-Leibler距离。2.2.2
16、 相合准则很多研究人员假设真模型是有限维的,而且真模型是被包含在候选模型集合当中的。在这样的假设下,模型选择的目的就是正确的从候选模型中选出真模型。如果一个模型选择准则渐进的以概率1选出真模型,则该准则被称为相合的。在这里,研究人员假设所有的变量都是可以测量的,并且假设可以列出的所有重要变量即足以满足所要了解的考察对象的性质。对于统计学家来说,这是一个很强的假设,但是在物理学领域当中他们的确是成立的。2.3 模型选择方法2.3.1 AIC准则AIC = - 2 lnL + 2q .2.1lnL为模型拟合极大似然值的自然对数值;q为模型中待估计方差协方差参数的数目。这是一个在统计分析特别是在统计
17、模型的选择中有着广泛应用的准则。其显著特点之一就是“吝啬原理 (Principle of parsimony)”的具体化。对一组数据,模型的拟和优度是同程度时,采用参数数目最少的模型为最优模型。AIC最小化模型法表明,由尽可能少的参数来表现模型是重要的。AIC在数学上并不复杂,但实践表明这一准则能够处理复杂的模型问题。但是AIC有一定的缺点,由AIC来进行判断的模型其分布类型必须是已知的。1973年,日本学者赤池Akaike(Akaike,1973)基于Fisher的极大对数似然准则提出Akaike信息准则(AIC),成为了70年代出现的信息理论方法的里程碑。AIC是通过真模型与拟合模型之间的
18、Kullbackleiber距离在大样本条件下导出来的,其复杂度只是考虑了参数个数。宋喜芳等12证明AIC信息量准则方差分析模型选择应用形式的数学推导。2.3.2 Cp统计量由 Mallows 提出的 Cp 统计量近年来受到广泛重视13-18 ,Cp 统计量准则主要用于多元线性回归分析时回归自变量的筛选。Cp统计量与AIC准则是相似的,事实上可以证明Cp与AIC渐进相等。在样本数较少的情况下,Cp准则可以节省参数。Cp准则还有一个优点就是它不需要假定分布类型是己知的。然而在计算Cp统计量时,怎样来估计未知参数误差方差仍没有十分令人满意的方法,而且误差方差的不同估计值还会影响变量选择的结果,这可
19、以说是Cp准则的一个缺点。.2.2其中N为样本观察数,P为模型的参数个数,为p 个变量的残差平方和,为协方差估计19。2.3.3 基于 F 检验的逐步回归法2.3.3.1 向前法在建立最优回归模型的逐步回归法当中,向前法是从回归方程仅含常数项开始,把自变量逐个引入回归方程。第一步,把与因变量Y有最大简单相关系数的变量作回归系数的显著性检验,若它显著的异于零,则把该自变量选入方程。而后在与余下的自变量中,考虑在消除了已选入变量的影响之后,对与Y由最大相关系数的变量,作回归系数显著性检验,己决定是否选入。这样做下去,一直到在排除已选入变量Y的影响之后,为选入变量对Y的回归系数的检验都不显著为止。这
20、一方法有一个明显的缺点,就是由于各自变量之间可能存在着相关关系,此后续变量的选入可能会是前面选入的自变量变得不重要。这样最后得到的“最优”回归方程可能会包含一些对Y影响不大的自变量。2.3.3.2 向后法向后法与向前法正好相反。它是将全部变量选入回归模型,即从全模型开始,然后逐个剔除对残差平方和贡献较小的变量。若一开始所有自变量的F值经检验后都显著,则“最优”回归方程就是全模型。不然,如果有若干个F值不显著,则剔除具有最小F值的变量。然后对剩下的变量建立新的回归方程。重复这个过程,直到剩下的自变量都不能剔除为止。2.3.3.3 逐步法逐步法即通常所称的逐步回归法,本质上是向前法,但吸收了向后法
21、的做法。前面己经指出向前法有一个缺点,就是后续变量的引入会使得一些己在回归方程中的自变量变得不重要。因此在逐步法当中,在每一步增加了对己选变量的显著性检验。也就是在每一步,经F检验选择进入方程的变量,而后又作F检验,看是否需要剔除某些自变量。这个过程一直进行到既没有变量需要进入也没有变量需要剔除为止。2.3.4 准则对一个回归模型的拟合优度的度量指标之一是 ,其定义为:.2.3其中 ESS 是解释平方和,RSS是残差平方和,TSS是总平方和。如此定义的介于0和1之间,越接近1,此回归模型拟合得越好。不足之处:首先,它是度量的样本数据内拟合优度,即度量了给定样本中所估计的值与实际值有接近程度,并
22、不能保证对样本外也能很好地预测。其次,由于在模型中增加更多的自变量的确使变大,但同时也使预测误差的方差也变大。2.3.5 校正准则作为对增加自变量个数来提高值的一种惩罚,为此亨利泰尔提出校正。记为.2.4相比较而言,校正的准则是一个比原来的更加优良些的指标。2.4 准则法和逐步回归法的优缺点逐步回归方法在应用上面临着一个较大的困难是F检验显著水平的选择。若显著水平选得太大则最后得到的方程含较多的自变量;相反,若显著水平选得太小,最后得到的方程所含的自变量则偏少。事实上,每一步是在一组相关的F变量中找出最大值或最小值作F检验。直观上供选择的自变量越多找出的最大值(或最小值) 也就越大 (或越小)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息量 准则 AIC 玉米 品种 区域试验 分析 应用 论文
链接地址:https://www.31ppt.com/p-4020763.html