回归分析(2))回归方程的检验ppt课件.ppt
2.4 回归方程的显著性检验及精度估计,回归方程的显著性检验原因:杂乱无序,无相关关系的散点也可以拟合成一条直线或曲线,但无意义。内容:回归方程拟合度的检验 回归方程线性关系显著性检验 回归变量的显著性检验, 2.4 回归方程的显著性检验及精度估计,在解决工程实际问题时,一般说来,事先并不能断言 与 间一定具有线性关系。因此,当我们按线性回归模型来处理后,所得到的 关于 的线性回归方程是否能代表实际问题呢?这就是统计上常说的假设检验问题,即要检验线性回归方程是否有显著意义。如果显著,我们就可以用线性回归模型代表实际问题,否则该模型不能代表实际问题。,模型合适吗?,此外,在检验得知线性回归方程是显著之后,我们还可以进一步判断在线性回归方程中,哪些变量 是影响 的重要变量,哪些变量是不重要变量,由此分析可对回归方程作更进一步简化,从而得到最优回归方程。这就是所谓的对每个变量 要进行显著性检验问题。, 2.4 回归方程的显著性检验及精度估计,设 是已求得的回归方程。 是第 个试验点 代入回归方程所求的回归值。 这里称试验值(观察值) 与其平均值 的离差平方和为总离差平方和。记为, 2.4 回归方程的显著性检验方差分析, 2.4 回归方程的显著性检验方差分析,这里 作为样本函数即统计量,其自由度为 。如果观测值给定, 是确定的。现将 进行分解。, 2.4 回归方程的显著性检验方差分析,其中, ,事实上,由式(2.8)可知, 2.4 回归方程的显著性检验方差分析,又由式(2.5)知,上式最后等式右端每一项均等于0,于是因此式(2.12)中,记 称为回归平方和。,(2.12), 2.4 回归方程的显著性检验方差分析,它反映了自变量 的变化所引起的对 的波动。其自由度为 。 式(2.12)中,记 称为剩余平方和(或残差平方和),它是由试验误差以及其他因素引起的。它的大小反映了试验误差及其他因素对试验结果的影响程度,其自由度为 。, 2.4 回归方程的显著性检验方差分析,于是由式(2.13),我们可对所建立的回归方程能否代表实际问题作一个判断。这是因为在式(2.13)中,当 确定时, 越小, 越大,则 就越接近 。于是,我们可用 是否趋近于1来判断回归方程的回归效果好坏。,(2.13), 2.4 回归方程的显著性检验方差分析,由式(2.13) 定义 为复相关系数,显然 。 越接近1,回归效果就越好。, 2.4 回归方程的显著性检验方差分析,然而在实际工程计算中,当实验样本点较小时,计算出的一般都较接近1,这给我们判断所建的回归方程的回归效果是否显著带来麻烦,因此在实际计算中应注意变量个数与样本个数的适当比例,一般认为样本个数至少应是变量个数的5到10倍。, 2.4 回归方程的显著性检验方差分析,由于在解决实际问题时,我们往往不能事先断言变量 与变量 之间是否确有线性关系,在建立数学模型时,往往是先假定实际问题可能具有线性性,由此建立起线性回归模型。显然在这样的假设前提下所建立起的线性回归模型到底能否代表实际问题,或者通俗地说所建立的线性回归方程能否用于实际问题,需要判定(检验),该如何检验呢?这是统计学中假设检验问题。, 2.4 回归方程的显著性检验F检验,我们是这样考虑的,如果线性回归模型能代表实际问题(也就是线性回归模型显著),我们可以认为线性回归模型的系数 不全为零;如果线性回归模型不显著,我们认为线性模型系数 全为零。于是按统计假设检验原则提出假设:,为此应用统计量,不全为零,( ), 2.4 回归方程的显著性检验F检验,对于给定检验水平 ,查 分布表可得临界值 ,并由 检验,作出如下判断: 如果由统计量 计算所得的数值有 ,则表示在检验水平下,拒绝 ,从而认为线性回归模型有显著意义,即线性回归模型能代表实际问题,工程中可大胆使用该模型。 如果 ,则在检验水平 下,接受 ,即认为线性回归模型不显著,即线性回归模型不能代表实际问题,该模型在工程实际问题中不能使用。, 2.4 回归方程的显著性检验F检验,在多元线性回归模型中,我们并不满足于线性回归方程是显著的这个结论。因为回归方程显著并不意味着每个自变量 对因变量的影响都重要,也就是并不能说这 个变量在模型中都重要。换句话说模型中 个自变量中有重要的,也有不重要的自变量,一种自然的想法就是在模型中保留重要变量,剔除不重要或者可有可无的变量,按照这种思想来建立模型,实际上是对原线性回归模型进行精简。, 2.4 回归方程的显著性检验F检验,具体操作该如何进行呢?我们是这样考虑的,如果某个自变量 对 的作用不显著,也就是说 对 不重要(或可有可无),则认为它前面的系数 应取零值,因此检验自变量 是否显著(重要),就是等价于检验假设为此,应用统计量, 2.4 回归方程的显著性检验F检验,其中, 为式(2.10)中 的对角线上第 个元素。 对于给定的检验水平 ,查 分布表可得临界值 ,并由 检验作出如下判断:如果由统计量 计算所得的数值 则拒绝 ,即认为 对 是重要变量,应留在模型中; 如果 ,则在水平 之下接受 ,认为 对 不重要,可从模型中剔除。 一般一次 检验只剔除一个自变量,且这个自变量是所有不显著自变量中 值最小值,然后再建立回归模型,并继续进行检验,直到建立的回归模型及各个自变量均显著为止。, 2.4 回归方程的显著性检验F检验,2.5 线性回归模型预测精度估计,通过对模型及变量的显著性检验后,我们可用所建立的回归模型进行预测或控制。但用模型进行预测,所得结果的精度如何?即真值(实际值)与模型预测值的误差有多大?这是我们关心的问题,应该作出估计,为此给出剩余标准差 式中, 为进入回归模型的变量个数。,由统计学区间估计理论知,在随机变量服从正态分布情况下,任一给定的自变量值 ,所对应因变量 的真值 ,以95的概率落在区间 是 的回归值,即预测值 与真值 之差有95%的概率,使得 ,所以 越小其预测精度就越高。,2.5 线性回归模型预测精度估计,YYX代入由B为回归系数的方程后得到的因变量矩阵;U回归平方和;Q剩余平方和;R复相关系数;FF检验值,即回归方差与剩余方差之比;SS剩余标准差;Y1,Y2,Y3,f1,f2中间变量。,2Matlab函数:inv()矩阵求逆;mean()求均值;sum()求和;sqrtm()开方。,2.4.2 程序(略)2.4.3 例题例2.2 平炉炼钢过程的熔化期中,总的去碳量 与所加的两种矿料(天然矿石与烧结矿料)的量 , 及熔化时间 有关,熔化时间愈长则去碳量愈多。经实测某平炉的49组数据见表2.2,求 对 、 、 的线性回归方程。,表2.2 平炉炼钢过程的数据,预测,建立回归模型,解 打开数据文件dd2data.mat,将因变量数据录入一维数据矩阵Y1n中,将自变量数据录入mn维数据矩阵Xmn中,本题中自变量数m=3,样本容量n=49。执行程序如下: load dd1data dd1(X,Y,3,49),计算机运行结果如下:B = %回归方程系数 0.9838 0.1644 0.1173 0.0279,U = %回归平方和 14.2843Q = %剩余平方和 30.8513R = %复相关系数 0 .5843F = % F检验值 6.9451SS = %剩余标准差0.8280所以,回归方程为: Y=0.9838+0.1644 +0.1173 +0.0279,