第九章 回归的旋转设计ppt课件.ppt
第九章 回归的旋转设计,本章内容: 1 旋转设计的基本原理 2 二次正交旋转组合设计及其统计分析 3 通用旋转组合设计及其统计分析,本章学习目的与要求:,1.,2.,3.,1 旋转设计的基本原理,“回归的正交设计” 具有试验处理数比较少,计算简便,消除了回归系数之间的相关性等优点。但它也存在一定的缺点,即二次回归预测值 的方差随试验点在因子空间的位置不同而呈现较大的差异。由于误差的干扰,就不易根据预测值寻找最优区域。为了克服这个缺点,人们通过进一步研究,提出了回归的旋转设计(whirly design)。,1 旋转设计的基本原理,1.1 回归设计的旋转性,所谓旋转性是指试验因素空间中与试验中心距离相等的球面上各处理组合的预测值 的方差具有几乎相等的特性,具有这种性质的回归设计称回归旋转设计。利用具有旋转性的回归方程进行预测时,对于同一球面上的点可直接比较其预测值的好坏,从而找出预测值较优区域。,如何才能使试验设计具有旋转性呢?这就需要弄清楚旋转性对试验设计有什么要求以及获得旋转性必须满足哪些基本条件。首先必须明确的是:在旋转设计中,试验处理的预测值 的方差仅与因素空间中从试验点到试验中心的距离 有关而与方向无关,从而克服了通常因为不知道最优点在什么方向的缺陷。,这里应该解决的是二次回归正交的旋转性问题。下面以试验设计中常用的三元二次回归方程来讨论这个问题。,1 旋转设计的基本原理,在3个变量情况下,二次回归模型为:,即,它的结构矩阵为:,1 旋转设计的基本原理,此外,为了使旋转设计成为可能,还必须使信息矩阵 A 不退化(满秩)。为此,必须有不等式,(1330),式 (1330) 就是 m 元二次旋转设计的非退化条件。已经证明,只要使 N 个试验点不在同一个球面上,就能满足非退化条件。,最简单的情况是把 N 个试验点分布在 2 个或 3 个半径不等的球面上。如 m0 个点分布在半径为 0 的球面上(即在中心点重复 m0 次试验),另外 m1Nm0 个点均匀分布在半径为 (0)的球面上。,1 旋转设计的基本原理,综上所述,为了获得 m 元二次旋转设计方案,就要求既要满足旋转性条件式 (1329) ,又要满足非退化条件式 (1330) 。满足条件式 (1329)是旋转设计的必要条件,满足非退化条件式 (1330)是使旋转性成为可能的充分条件。两者结合起来才能使旋转性设计得以实现。实际操作上主要借助于组合设计来实现。因为组合设计中 N 个试验点 N mc+m +m0 ,分布在3个半径不相等的球面上。即,mc个点分布在半径,的球面上;,m个点分布在半,的球面上;,m0个点分布在半径,的球面上;,因此,采用组合设计选取的试验点,完全能够满足非退化条件式(1330) ,即信息矩阵 A 不会退化。此外,采用组合设计,其信息矩阵 A 的元素中,而它的偶次方元素,均不等于零,完全符合式(1329)的要求。,为了获得旋转设计方案,还必须根据旋转性条件式(1329)确定 值,,1 旋转设计的基本原理,事实上只要,求出 值就行了。,在组合设计下,当 mc2m (全实施)时,则前式变为,解此方程,即可建立全实施时 值的计算式,即,(1331),同理,当,当,当,1 旋转设计的基本原理,表1324 二次正交旋转组合设计参数表,为了便于设计,现将 m 个因素不同实施情况下的 值列于表1324。,2次旋转组合设计具有同一球面预测值 的方差相等的优点,但回归统计数的计算较繁琐。如果使它获得正交性就能大大简化计算手续。,1 旋转设计的基本原理,1.2 正交性的获得,在2次旋转组合计划中,1次项和交互项的回归系数 bi 和 bij 仍保持正交,但 b0 与 bij 之间,以及 bii 与 bjj 之间都存在相关,即不具正交性,它们之间的协方差分别为:,(1332),其中,1 旋转设计的基本原理,同样,对于 m 元二次旋转组合设计,上式中的 mc 和 m 也都是固定的。这样就只能通过调整中心点的试验处理数 m0 使 4 /22 1。由此可见,适当地选取 m0 ,就能使2次旋转组合设计具有一定的正交性。为了方便设计,已将 m 元不同实施的 m0 和 N 列入表1324中。,综上所述,只要对平方项施行中心化变换,并适当调整 就能获得二次正交旋转组合设计方案,这方面的计划见表1327和表1328。,对于 m 个因素的二元旋转组合设计,式(1333)中的m、mc和 都是固定的。因此,只有适当地调整 N 才能使 4 /22 1 ,而试验处理数,N mc+m +m0,二次回归旋转组合设计,具有同一球面上各试验点的预测值 的方差相等的优点,但它还存在不同半径球面上各试验点的预测值 的方差不等的缺点。为了解决这一问题,于是提出了旋转设计的通用性问题。所谓“通用性”,就是试验除了仍保持其旋转性外,还具有各试验点与中心的距离 在因子空间编码值区间 0 1 的范围内,其预测值 的方差基本相等的性质,即同时具有旋转性与通用性。这种设计称为通用旋转组合设计。如何才能满足其通用性呢?,1 旋转设计的基本原理,1.3 二次旋转组合设计的通用性,首先来看预测值 的方差,已知在 m 个因素情况下,其预测值 的方差,(1334),此式是在 2 1 的约定下得到的,这种约定并非本质的,只是为了讨论简单起见。由此可知,只有恰当确定 4 ,才能满足通用性的要求。,1 旋转设计的基本原理,(1335),那么,对 4 有什么要求呢?总的来说,它必须使式中 D( ) 在诸 i(0 1)区间的内插点)处的值与 1 处的值的差的平方和为最小,即:,式中,于是,对于不同的 m ,均可计算出满足式(1335)的 4,1 旋转设计的基本原理,当 4 确定后,由关系式(见1333)可以计算出不同 m 的试验处理数 N。,当计算结果不是整数时,N 可取其最靠近的整数。然后再由 m0N - mc - m,计算出不同 m 值的 m0 ,上述计算结果列于表1325。,表1325 二次通用旋转组合设计参数表,从以上可以看出,正交旋转的好处在于正交性,它是通过增加中心点的试验次数换来的,但有时并不合算。在某些实际问题中,反倒不如选用通用旋转设计。因为通用旋转设计,既能在 0 1 的较实用区域使方差 D( )基本不变,又在一定程度上减少了试验次数。,1 旋转设计的基本原理,从上述讨论结果看出,为了满足通用性要求,主要在于确定出适当的 m0 。因此,只要在中心点安排如表 1325 所列的 m0 次试验旋转组合设计便获得通用性。,2 二次正交旋转组合设计及其统计分析,设研究因素为 m 个,分别以 Z1,Z2,Zm,表示。在进行设计时,首先确定每个因素的上、下水平,进而计算零水平,以及变化间距。某因素零水平及变化间距的计算式为,2 二次正交旋转组合设计及其统计分析,2.1 二次正交旋转设计的一般方法,Z0j (Z1j + Z2j )/2,j (Z2j Z0j )/,式中 为待定参数,其值可以从表1324中查出。,对每个因素 Zj 各水平的取值进行线性变换,以实现其编码,x j (Z j Z0j )/j,这样,就将有单位的自然变量 Zj 变成了无单位的规范变量 xj ( j 1, 2, ,m),并可编制出因素水平的编码值表(表1326)。,表13-26 二次正交旋转设计因素水平编码值表,试验因素 Z1,Z2,Zm 经因素水平编码后,以变量 x1,x2,xm 表示,选用适当的二水平正交表,即可设计出二次回归正交旋转组合方案。,为了方便设计与统计分析,现将常用的二因素和三因素二次正交旋转组合设计的结构矩阵列于表1327和表1328。,2 二次正交旋转组合设计及其统计分析,表13-27 二元二次正交旋转组合设计的结构矩阵,2 二次正交旋转组合设计及其统计分析,表13-28 三元二次正交旋转组合设计的结构矩阵,(未完),2 二次正交旋转组合设计及其统计分析,(续前表13-27 ),二次回归正交旋转组合设计试验结果的统计分析,与二次回归正交组合设计试验结果的统计分析方法相似,这里不再赘述。,2 二次正交旋转组合设计及其统计分析,2.2 三因素(1/2)实施正交旋转组合设计示例,例133 采用三因素二次正交旋转设计组合设计,其试验因素水平编码见表1329。,表13-29 试验因素水平编码表,试验结果及统计分析如下:,2 二次正交旋转组合设计及其统计分析,表13-30 三因素二次回归正交旋转组合设计结构矩阵与结果计算表,(1)建立回归方程。三因素二次回归正交旋转组合设计结构矩阵与结果计算见表1330。初步得回归方程为:,(未完),2 二次正交旋转组合设计及其统计分析,初步得回归方程为:,(续前表13-30 ),2 二次正交旋转组合设计及其统计分析,表13-31 三因素二次回归正交旋转组合设计试验结果方差分析表,(2)回归方程的显著性测验:对所得三元二次回归方程 进行方差分析,见表1331。,2 二次正交旋转组合设计及其统计分析,剔除 x1, x3, x1x2, x1x3, x2和 x3 ,回归方程变为:,将中心化变换还原为 xj2, 得:,此时,,2 二次正交旋转组合设计及其统计分析,3 通用旋转组合设计及其统计分析,通用旋转组合设计与正交旋转组合设计基本相同,其组合计划中试验处理组合数 N ,也是由 3 部分组成,即:,3 通用旋转组合设计及其统计分析,3.1 通用旋转组合设计的一般方法,N mc+m +m0,上式中 mc 和 m 的数值与正交旋转组合设计完全相同,只是 N 和 m0 有所不同,其值可从表1225查出。,现将常用的三因素二次通用旋转组合设计的结构矩阵列于表1332。,表13-32 三元二次通用旋转组合设计的结构矩阵,3 通用旋转组合设计及其统计分析,3 通用旋转组合设计及其统计分析,3.2 通用旋转组合设计试验结果的统计分析,(1)建立二次回归方程。要建立回归方程,必须计算出回归系数,而回归系数,b (XX )-1(XY ),式中:(XX )-1为设计的相关矩阵;(XY )为常数项矩阵 B,在通用旋转设计下有:,3 通用旋转组合设计及其统计分析,所以回归系数,(1336),式(1336)中 K 、E、F、G 的值如表1333所示。,表13-33 二次通用旋转组合设计K 、E、F、G值表,3 通用旋转组合设计及其统计分析,注:令,则,由式(1336)计算出回归系数 b ,即可建立二次多项式回归方程。,3 通用旋转组合设计及其统计分析,(2)回归方程的显著性检验。, 计算平方和及自由度:如果 m 元二次通用旋转组合设计的 N 个试验结果以 y1,y2,yN 表示,则各项平方和及其自由度为:,(1337),在通用旋转组合设计中,一般中心点均需做重复试验。如果重复次数为 m0 试验结果以 y01,y02,y0m0表示,则它们的误差平方和及其自由度为:,(1338),可由误差项与剩余项比较计算失拟平方和及其自由度:,(1339),3 通用旋转组合设计及其统计分析, 失拟性检验:失拟性可用统计量,FLf F0.05 ,表示差异不显著,可直接对回归方程进行显著性检验;如果 FLf F0.05 ,差异显著,则表明存在影响试验结果的其他不可忽略的因素,需要进一步考察其原因,改变二次回归模型。,(1340), 回归方程的显著性检验:,(1341),进行显著性检验,如果 FRF0.05 ,则回归关系不显著,说明此回归方程不宜应用;如果 FRF0.05 和 F0.01 ,则回归关系显著或极显著,表明此回归方程可以应用。,3 通用旋转组合设计及其统计分析,(3)回归系数的显著性检验。当 FLf 检验结果不显著时,回归方程中各变量作用的大小,可通过 t 检验来判断。为此,需要计算各回归系数的 t 值,其计算式为:,(1342),式(1342)中 K 、mc、F、e 已如前述(参见表1334)。,3 通用旋转组合设计及其统计分析,3.3 四元二次通用旋转组合示例,例134 鸡肉乳酸发酵试验,对鸡肉乳酸发酵的产酸条件进行优化试验,采用二次通用旋转组合设计对盐浓度、糖浓度、发酵温度和发酵时间进行试验,采用四元二次通用旋转组合试验寻求最优发酵条件,试验因素及水平编码见表1334.,表13-34 鸡肉乳酸发酵产酸条件的四元二次通用旋转组合设计因素水平表,试验设计方案和试验结果见表1335。,3 通用旋转组合设计及其统计分析,表13-35 鸡肉乳酸发酵产酸条件的四元二次通用旋转组合设计方案及结果,(未完),3 通用旋转组合设计及其统计分析,(续前表13-35 ),3 通用旋转组合设计及其统计分析,(1)建立四元二次回归方程。根据计算,可建立四元二次多项式回归方程(计算从略)。,3 通用旋转组合设计及其统计分析,(2)回归方程的显著性检验。对鸡肉乳酸发酵产酸条件数学模型的方差分析见表1336。,3 通用旋转组合设计及其统计分析,从方差分析可以看出,回归达到极显著水平。说明本试验设计及分析效果都很好,各因素间显著与不显著也泾渭分明。因此没有必要做二次回归方差分析,可直接将 F1 的回归系数去掉而得到含酸量与各因素间的回归方程为:,Source DF Seq SS Adj SS Adj MS F PRegression 3 7.789 7.789 2.5962 1.08 0.387 Linear 3 7.789 7.789 2.5962 1.08 0.387Residual Error 16 38.597 38.597 2.4123 Lack-of-Fit 11 36.057 36.057 3.2779 6.45 0.026 Pure Error 5 2.540 2.540 0.5079 Total 19 46.385S = 1.553 R-Sq = 16.8% R-Sq(adj) = 1.2%,输出结果:线性回归方差分析表,此值很小说明线性回归效果不好,此值小于0.05时表示线性回归模型不正确,此值大于0.05时表示回归的效果不显著,线性回归结果,Source DF Seq SS Adj SS Adj MS F PRegression 9 36.465 36.465 4.0517 4.08 0.019 Linear 3 7.789 7.789 2.5962 2.62 0.109 Square 3 13.386 13.386 4.4619 4.50 0.030 Interaction 3 15.291 15.291 5.0970 5.14 0.021Residual Error 10 9.920 9.920 0.9920 Lack-of-Fit 5 7.380 7.380 1.4760 2.91 0.133 Pure Error 5 2.540 2.540 0.5079 Total 19 46.385S = 0.9960 R-Sq = 78.6% R-Sq(adj) = 59.4%,此值较大,说明二次多项式回归效果比较好。,此值大于0.05,表示二次多项式回归模型正确。,此值小于0.05的项显著有效,回归的整体、二次项和交叉乘积项都显著有效,但是一次项的效果不显著。,输出结果:二次多项式回归方差分析表,非线性回归结果,Term Coef(coded) SE Coef T P Coef(uncoded)Constant 10.4623 0.4062 25.756 0.000 12.4512A -0.5738 0.2695 -2.129 0.059 0.9626B 0.1834 0.2695 0.680 0.512 -2.2841C 0.4555 0.2695 1.690 0.122 -1.4794A*A -0.6764 0.2624 -2.578 0.027 -0.2676B*B 0.5628 0.2624 2.145 0.058 1.1164C*C -0.2734 0.2624 -1.042 0.322 -0.2388A*B -0.6775 0.3521 -1.924 0.083 -0.6001A*C 1.1825 0.3521 3.358 0.007 0.6951B*C 0.2325 0.3521 0.660 0.524 0.3060,输出结果:二次多项式回归系数及显著性检验,对因素实际值的回归系数,P值大的项不显著,对编码值的回归系数,