SPSS(第7章回归分析).ppt
《SPSS(第7章回归分析).ppt》由会员分享,可在线阅读,更多相关《SPSS(第7章回归分析).ppt(85页珍藏版)》请在三一办公上搜索。
1、2023/2/22,1,第七章 回归分析,2023/2/22,2,7.1 线性回归分析一、一元线性回归 1、一元线性回归模型一元线性回归模型是两个变量之间的关系可通过有关的参数直接用直线关系来表达,其模型是yi=a+bXi+i Yi:Y在总体中的某一个具体的观测值 Xi:在研究总体中相应的另一个变量的X的具体观测值 a与b:分别称为回归常数和回归系数 i:是一个随机变量,其均值O,方差为2。,2023/2/22,3,2、一元线性回归模型假设1)Xi为自变量,是预先确定的,因而是一个非随机变量。它没有误差 尽管在实际观测中也可能产生观测误差,但其假设可忽略不计。2)当确定某一个Xi值时,相应的Y
2、就有许多Yi与之对应。Yi是一个随机变量,这些Yi构成了一个在X取值为Xi条件下的条件分布,并假设其服从正态分布。3)所有的i与j之间是相互独立的。3、一元线性回归模型的检验1)残差图的评价2)技术指标的检查对样本回归系数a、b的检验方差分析R2确定系数,i,2023/2/22,4,二、多元线性回归 1、多元线性回归模型多元线性回归模型是两个以上变量的回归问题。其模型是yi=a+b1x1j+b2 x2j+i 2、多元线性回归模型假设1)Xi可以是任意确定的变量,也可以是有意选定的变量。它作为自变量来解释因变量Y变动的原因,因此也称为解释变量。尽管在实际观测中也可能产生观测误差,但其假设可忽略不
3、计。2)对于每一个i,i都是正态独立分布,其均值0,方差为方差为2。3)每个因变量之间是相互独立的。4)因变量和正变量之间的关系是线性的。,2023/2/22,5,3、多元线性回归模型的评价1)残差图的评价2)技术指标的检查对样本回归系数的检验方差分析偏回归系数的显著性检验残差的正态型检验三、建立回归方程1、输入数据后,依次单击AnalyseRegressionLinear打开Linear Regression对话框。如图7-1,2023/2/22,6,图7-1 Linear Regression对话框,选入数值型变量作为因变量,选入一个或多个数值型变量作为自变量,采用不同的自变量、因变量可建
4、立不同的回归模型,可将使用的自变量、因变量和回归方法储存在以序号排列的模板中,按Previous 和Next按钮,随时调用。,为默认选项,所有所选自变量都进入回归模型如果F统计量充分小,在每一步考虑所有不在回归方程中的自变量,将使方程具有最小的F统计量值的变量加入这个方程。如果F统计量变的比较大,则将回归方程中刚加入的变量删除。按此法操作,直到回归模型中无变量可被删除且无再加变量止,在建回归模型前设定一定条件,建之时,根据条件删除自变量。为一种变量选择方法。先让所有的自变量进入回归方程中,再逐一删除。也为变量选择方法。与上一种相反,逐一的让自变量进入方程。,见图7-2,选择观测量标签,选择权重
5、的变量进入,见图7-6,见图7-3,见图7-5,见图7-4,2023/2/22,7,如图7-2 Set Rule 对话框,在对话框中设定运算式和观测值,共有6个选项:equal to等于、not equal to不等于、less than 小于、less than or equal to小于或等于、greater than 大于、greater than or equal to大于或等于。单击,在主对话框源变量框中选择观测量标签,输出复相关系数R等,输出ANOVA表。从模型中添加或删除自变量时复相关系数R的平方的变动大小。显示变量的均值、标准差和单侧检验水平显著性矩阵输出零阶相关系数、部分相关
6、系数、偏相关系数。输出每个变量的容限及诊断共线性统计。,输出相关残差的Durbin-Watson统计量、残差和预测值的统计量输出满足选择条件的观测量诊断表设置奇异值的判断条件输出所有有关测量的残差值,选择回归系数:输出有关回归系数及其相关测量输出回归系数的95%的置信区间输出协方差和相关矩阵。,图7-3 Statistics 对话框,2023/2/22,8,图7-4 Plots 对话框,X轴和Y轴中有一个是源变量标准化的预测值标准化的残差删除的残差修正后的预测值。用户的残差用户的删除的残差,输出带有正态曲线的标准化残差的直方图。输出标准化残差的正态概率图。对每一个自变量,会产生一个自变量与因变
7、量残差的散点图。,2023/2/22,9,图7-5 Saxe 对话框,保存模型对因变量的预测值保存标准化的预测值。当一个观测值未进入回归模型时,保存对这个观测值的预测值保存预测值的标准差。,当Mahalanobis距离对一个或某些自变量有极值时,就保存这个观测值。当从回归模型中排除一个观测时,对所有进入模型的观测的残差变动的测度。杠杆值测量一个点对于回归直线的影响。,保存对平均response的预测区间的上下界。保存一个观测量的预测区间的上下界。当选择了上述任一项后,选定置信区间,默认为95%。,保存模型的观测值和预测值之间的差别。保存标准化的残差。保存用户的残差。保存被排除进入相关系数计算的
8、观测量的残差。保存用户化的被删除的残差。,由于消除一个观测值而引起的相关系数的变化值。相关系数的变化值的标准化。由于消除一个观测值而引起的预测值的变化。预测值的变化的标准化。消除一个观测值后的协方差矩阵的模与未消除之前的协方差矩阵的模之比。后的而引起的相关系数的变化值。,如选中Coefficients Statistics,可将回归系数的结果保存到文件中。,2023/2/22,10,图7-6 Options 对话框,如一个变量的F统计量的p值是小于Entry值的,这个变量就进入模型。如一个变量的F统计量的p值是大于Removal值的,这个变量就从模型中删除。Entry值必须小于Removal值
9、且都为正。如想模型中有更多的变量就提高Entry值;如想模型中减少变量就减少Removal值。同上,选择此项不显示回归方程中常数项。,在任何分析项中都排除那些有缺省值的观测量。变量配对计算某些统计量时,排除那些有缺省值的观测量。用变量均值替换缺省值。,2023/2/22,11,三、实例1、模型背景说明模型考虑某种水泥在凝固时放出的热量(卡/克)Y与水泥中的下列四种化学成分所占的百分比有关:x1:3CaOAl2O3 x2:3CaOSiO2 x3:4CaOAl2O3 Fe2O3 x4:2CaO SiO2 测试的数据如表7在此表的基础上试图建立起最优的经验回归函数。数据文件:水泥(回归).sav,2
10、023/2/22,12,表71 测得的数据,2023/2/22,13,2、观察自变量和因变量之间是否有线性关系推广做出散点图,可以观察自变量和因变量之间是否有线性关系,其步骤:1)建立数据文件2)按Graphs Scatter 出现Scatterplot对话框,选择 Simple,打开Simple Scatterplot对话框。,图7-6 Simple Scatterplot 对话框,2023/2/22,14,从散点图可看出,水泥凝固时的散热量与第一种化学成分有明显的正线性相关。当化学成分x1的含量增加时,水泥凝固时的散热量增加;减少时,散热量也相应减少。通过检验,发现x1、x2与水泥凝固时的
11、散热量为正相关,而x3、x4与水泥凝固时的散热量为负相关。,图7-6 回归散点图,2023/2/22,15,3、建立回归模型,1)按Analyze Regression Linear,打开Linear Regression 对话框。2)将y选入 Dependent框中,将选入 x1、x2、x3、x4 Independent(s)框中。在Method 对话框中选择Stepwise作为回归方式。在Save对话框中选择Mahalanobis、Cooks、Leverage values复选项。在Plot 对话框中选择变量ZPRED 和ZRESID来做散点图,以判断模型是否服从线性相关的假设。3)单击O
12、K,4、回归结果分析,2023/2/22,16,Variables Entered/Removed,a.Dependent Variable:Y,列出回归方程模型的编号,显示那些变量在哪一步进入了回归方程,显示变量进入模型和从模型中被删除采用了何种方法,显示那些变量在哪一步从模型中删除了,表的纵轴则表示表示每一步的状态,即变量被加入还是被删除。,表中第二列:最后进入回归方程的变量为x4、x1,而变量x2、x3均没有进入方程。变量进入的标准为y的F统计量的p值小于或等于0.05,大于或等于0.05则被删除。,表72 变量的删除与进入表,2023/2/22,17,表723 回归模型的一般性统计量表
13、,表中第一列:列出了回归方程模型的编号;第二列表示回归方程的复相关系数;第三列为回归方程的复相关系数的平方;第四列表示调整了的复相关系数的平方。第五列为预测值的标准差。从表中可看出,随着自变量个数的增加,复相关系数及其平方相应增加,这表明回归效果是越来越好。还可看出,预测值的标准差越来越来小,这也正表明回归方程越来越符合观测情况。,a.Predictors(Constant),x4b.Predictors(Constant),x4,x1c.Dependent Variable:Y,2023/2/22,18,表中第一列为回归方程模型的编号;第二列列出了回归的平方和;第三列为回归的自由度;第四列为
14、均值平方;第五列为F值;第六列为统计量大于F值的概率。从表中可看出,当只有变量x4进入回归方程时,自变量与因变量之间完全无线性关系的概率为0.001;当x1也进入方程之后,自变量与因变量之间完全无线性关系的概率为0.000,这表明拒绝假设;所有的回归因子的系数为0。,表74 方差分析表,a.Predictors(Constant),x4b.Predictors(Constant),x4,x1c.Dependent Variable:Y,2023/2/22,19,a.Dependent Variable:Y,表75回归方程的回归系数分,表中B为B偏回归系数;Std.Error 为偏回归系数的标准
15、差。Beta为标准化的偏回归系数;t 为假设偏回归系数为0的t统计量;Sig为假设偏回归系数为0的假设检验的显著性水平值。第一列为y=117.513-0.735x4,表示水泥凝固时的散热量与第四种化学成分是负线性关系,即当第四种化学成分的含量越高,则水泥的散热量越小.这个回归方程的常数项为0的假设检验的显著性水平值为0.000,而x4也为0.001,都不显著。,2023/2/22,20,第二列为y=102.846+1.402x1-0.594x4,表示水泥凝固时的散热量多少与第一种化学成分是正线性相关的,而与第四种化学成分是负线性相关的。此时的回归方程的常数项为0的假设检验的显著性水平值为0.0
16、00,而x4也为0.000,都不显著。从分析中可看出,当进入回归模型的自变量增加时,导致因变量变动的因子增加时,来源于某一个因子的作用将会变小。这表明因变量变动的原因归到更多的因子,这更符合实际现象。偏回归系数的标准差也随着进入模型的自变量的增加而变小。这也表明了回归模型越来越接近真实情况。,2023/2/22,21,a.Predictors in the Model:(Constant),x4b.Predictors in the Model:(Constant),x4,x1c.Dependent Variable:Y,表76 排除在回归模型之外的变量表,从表中可看出,被回归模型排除的变量x
17、2时因为存在共线性问题,它的共线性容忍度的值为6.918E-02,故而排除了此变量。而相对于变量变量x3而言,因为回归系数为0的假设检验的显著性水平值为0.039,故而排除了此变量。从表中还可看出,变量x2与y呈负线性相关,变量x3与呈正线性相关。,2023/2/22,22,表76 残差统计量表,从残差统计量中描绘了残差一些基本统计量的情况,在此表中还存在Mahalanobis距离、Cooks距离和Leverage values,从这些值中可以判断观察数据中是否有影响点。,2023/2/22,23,从散点图中可看到,预测值分布在-2与1.5之间,预测值与学生化残差值不存在明显的关系,所以我们可
18、以断定回归方程满足线性与方差齐次的假设。,图7-7 回归散点图,2023/2/22,24,7.2 曲线回归,一、曲线回归简介 1、SPSS系统提供下列的回归曲线方程:Linear形式y=b0+b1xQuadratic形式,拟合二次方程:y=b0+b1x+b2x2Compound形式,拟合复合曲线模型:Growth形式,拟合等比级数曲线模型:Logarithmic形式,拟合对数方程:y=b0+b1ln(x)Cubic形式,拟合三次方程:y=b0+b1x+b2x2+b3x3S形式,拟合S形曲线:Exponential形式,拟合指数方程:y=b0 eb1xInverse形式:y=b0+b1/xPow
19、er形式,拟合乘幂曲线模型:y=b0 xb1Logistic形式,拟合Logistic曲线模型:,2023/2/22,25,二、实例分析1、模型背景说明(数据文件:金田白菜(曲线回归).sav)表7-7中的数据“金田”种白菜每隔一星期子叶增加的高度,表7-7“金田”种白菜每隔一星期子叶增加的高度,2023/2/22,26,2、观察自变量和因变量之间有何曲线关系通过做出散点图,观察自变量和因变量之间有何曲线关系,再选用合适的曲线方程来拟合。此时因变量为首次观测后的星期数,而自变量为子叶增加的高度,做散点图的步骤:,1)将数据输入SPSS系统中。2)按GraphsScatterSimple,打开S
20、imple Scatterplot 对话框。2)将y选入Y Axis框中,将x选入 X Axis 框中。单击OK。散点图如图78,2023/2/22,27,图7-6 回归散点图,从散点图可看出,因变量与自变量之间大致可用对数曲线来描述,选定要采用的曲线类型后,即可开始对曲线进行分析。,2023/2/22,28,3、建立回归模型,1)按Analyze Regression Curve Estimation,打开对话框。如图7-7。,对每一选定的模型给出方差分析表,在回归方程中将计算常数项。,对输出每一个选定的自变量和模型及因变量的散点图。,见图78,图7-7 Curve Estimation对话
21、框,2023/2/22,29,图78 Save 对话框,保存因变量的预测值。保存残差值。保存预测区间的上下界。在下拉框中选择预测区间的置信区间。,依据估计周期的观测,对每一个观测值都给出预测值。如选次项,则需输入自己所希望通过它们来预测值的观测数。此能用于时间序列中来预测值。只能以时间为自变量才可选此选项。,估计周期,2)将y选入 Dependent框中,将选入 Independent(s)框中。,2023/2/22,30,3)在Method 对话框中选择Logarithmic、Quadratic、Cubic选项。4)选中“Display ANOVA table”、“Include const
22、ant in equation”、“Plot models”复选项5)打开Save对话框,选择“Predicted value”、”Residuals”、和“Prediction intervals”复选项。6)单击OK,开始分析。,4、回归结果分析,2023/2/22,31,7-8 Logarithmic回归分析结果,1、Dependent variable.Y Method.LOGARITHListwise Deletion of Missing Data2、Multiple R.95773R Square.91724Adjusted R Square.89655Standard Erro
23、r 1.377473、Analysis of Variance:DF Sum of Squares Mean SquareRegression 1 84.118693 84.118693Residuals 4 7.589640 1.897410F=44.33343 Signif F=.00264、-Variables in the Equation-Variable B SE B Beta T Sig TX 8.811500 1.323379.957727 6.658.0026(Constant)-.936576 1.962626-.477.6581,表7-8:在1中,回归模型的因变量为Y,采
24、用模型为Logarithmic。2中列出了常用的复相关系数、复相关系数的平方、修正了的复相关系数的平方和标准差等统计量值。3中列出了方差分析的结果、其F统计量值为44.33343,F值的显著水平为0.0026,故而回归方程有统计意义。4中列出了所得到的回归方程,回归方程为y=-0.94+1.96ln(x),2023/2/22,32,7-9 Quadratic 回归分析结果,1、Dependent variable.Y Method.QUADRATIListwise Deletion of Missing Data2、Multiple R.99695R Square.99391Adjusted
25、R Square.98984Standard Error.431643 Analysis of Variance:DF Sum of Squares Mean SquareRegression 2 91.149405 45.574702Residuals 3.558929.186310F=244.61821 Signif F=.00054、-Variables in the Equation-Variable B SE B Beta T Sig TX.905357.644105.395489 1.406.2545X*2.151786.070643.604551 2.149.1209(Const
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 章回 分析

链接地址:https://www.31ppt.com/p-2671619.html