spss中的回归分析课件.ppt
《spss中的回归分析课件.ppt》由会员分享,可在线阅读,更多相关《spss中的回归分析课件.ppt(134页珍藏版)》请在三一办公上搜索。
1、5.7 回归分析 线性回归 曲线估计 二分量逻辑分析 多项式逻辑分析 标称变量分析 概率回归 非线性回归 加权估计 2阶段最小二乘法,5.7 回归分析,5-7-1 线性回归模型,总体回归模型,j也被称为偏回归系数(partial regression coefficients),表示在其他解释变量保持不变的情况下,Xj每变化1个单位时,Y的均值E(Y)的变化。,样本回归函数,5-7-1 线性回归模型总体回归模型j也被称为偏回归系数(,参数估计 最小二乘法模型统计推断检验 拟合优度检验 方程显著性检验(F检验) 变量显著性检验(t检验),参数估计,(1)拟合优度检验 回归方程的拟合优度检验就是要
2、检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。,回归方程的拟合优度检验一般用调整判定系数R2实现。该统计量的值越接近于1越好。(注:在一元线性回归中拟合优度的检验可用判定系数R2实现),(1)拟合优度检验 回归方程的拟合优度检,(2)回归方程的显著性检验(F检验) 回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。 回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。,(2)回归方程的显著性检验(F检验),F,F,(3)回归系数的显著性检验(t检验) 所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关
3、假设进行检验。 之所以对回归系数进行显著性检验,是因为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异,它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量。因此,可以通过回归系数显著性检验对每个回归系数进行考察。,(3)回归系数的显著性检验(t检验),回归参数显著性检验的基本步骤。 提出假设 计算回归系数的t统计量值 根据给定的显著水平确定临界值,或者计算t值所对应的p值 作出判断,H0:j =0 (j=1,2k),回归参数显著性检验的基本步骤。H0:j =0,一、一元线性回归 y=a+bx例5-7-1 已知我国分地区家庭人均食品支出、人均收入。试作一元线性回归分析。
4、(e5-7-1),一、一元线性回归 y=a+bx,操作步骤:使用系统默认选择项进行线性回归分析Analyze-Regression-Linear分析回归线性,Dependent:存放因变量 Independent:存放自变量,操作步骤:使用系统默认选择项进行线性回归分析Depende,输出结果及结果分析,变量引入或剔出表:Model 1 引入变量 income, 用强迫输入法Enter。,输出结果及结果分析变量引入或剔出表:,模型摘要表 相关系数R=0.923, 判定系数R2=0.852,调整判定系数R2=0.847,估计值的标准误为73.83 注:在一元线性回归中可用判定系数R2来判断模型的
5、拟合度。调整判定系数R2的值越大,模型的拟合优度越好。,模型摘要表,方差分析表 回归的均方(RegressionMean Square)=878382.334,剩余(残差)的均方(Residual-Mean square)=5450.755, F=161.149 P=0.000.可以认为这两个变量之间有直线关系. 注:H0为模型线性关系不成立,即b=0,方差分析表,变量显著性检验(t 检验)回归系数:t=12.694, p=0.00, 拒绝原假设,显著不为0常数项:t=-0.781,p=0.441,接受原假设,常数项与0没有显著差异。注意:在实际中一般不以t检验决定常数项是否保留在模型中,而是
6、从经济意义方面分析回归线是否应该通过原点。,变量显著性检验(t 检验),回归方程: 常数项=-53.086, 回归系数=0.422, 则线性回归方程为: y=-53.086+0.422x,回归方程:,二、多元回归分析1、从“Analyze” (分析)“Regression”(回归)“Linear”(线性),打开 Linear线性回归主对话框 。,二、多元回归分析,2、在左侧的源变量栏中选择一数值变量作为因变量进入Dependent栏中,选择一个或更多的变量作为自变量进入Independent(s)栏中。 3、如果要对不同的自变量采用不同的引入方法,可利用“Previous” 与“Next” 按
7、钮把自变量归类到不同的自变量块(Block)中,然后对不同的变量子集选用不同的引入方法(Method)。 Enter(进入):强迫引入法,默认选择项。定义的全部自变量均引入方程。 Remove(移去):强迫剔除法。定义的全部自变量均删除。 Forward(向前):向前引入法。自变量由少到多一个一个引入回归方程,直到不能按检验水准引入新的变量为止。该法的缺点是:当两个变量一起时效果好,单独时效果不好,有可能只引入其中一个变量,或两个变量都不能引入。 Backward(向后):向后剔除法。自变量由多到少一个一个从回归方程中剔除,直到不能按检验水准剔除为止,能克服向前引入法的缺点。当两个变量一起时效
8、果好,单独时效果不好,该法可将两个变量都引入方程。 Stepwise(逐步):逐步引入一剔除法。将向前引入法和向后剔除法结合起来,在向前引入的每一步之后都要考虑从已引入方程的变量中剔除作用不显著者,直到没有一个自变量能引入方程和没有一个自变量能从方程中剔除为止。缺点同向前引入法,但选中的变量比较精悍。,2、在左侧的源变量栏中选择一数值变量作为因变,说明:为弥补各种选择方法和各种标准的局限性,不妨分别用各种方法和多种引入或剔除处理同一问题,若一些变量常被选中,它们就值得重视。 4、 Selection variable(选择变量):可从源变量栏中选择一个变量,单击Rule后,通过该变量大于、小于
9、或等于某一数值,选择进入回归分析的观察单位。 5、Case Labels(个案标签):在左侧的源变量框中选择一变量作为标签变量进入 Case Labels框中。,说明:为弥补各种选择方法和各种标准的局限性,,6、Statistics(统计)对话框单击“Statistics”按钮,进入统计对话框如图:,6、Statistics(统计)对话框,Estimates(默认选择项):回归系数的估计值(B)及其标准误(StdError)、常数(Constant);标准化回归系数(Beta);B的t值及其双尾显著性水平(Sig.)。 Model fit(默认选择项):列出进入或从模型中剔除的变量;显示下列拟
10、合优度统计量:复相关系数(R)、判定系数(R2)、调整 R2(Adjusted R Square)、估计值的标准误以及方差分析表。 Confidence intervals:回归系数 B的 95可信区间(95Confidence interval for B)。 Descriptives:变量的均数、标准差、相关系数矩阵及单尾检验。 Covariance matrix:方差协方差矩阵。 R sqared change:R2和 F值的改变,以及方差分析 P值的改变。 Part and partial correlations: 显示方程中各自变量与因变量的零阶相关(Zero一order,即Pea
11、rson相关)、偏相关(Partial)和部分相关(part)。进行此项分析要求方程中至少有两个自变量。 Collinearity diagnostic(共线性诊断)。显示各变量的容差(Tolerance)、方差膨胀因子(VIC,Variance Inflation Factor)和共线性的诊断表。,Estimates(默认选择项):回归系数的,容差(Tolerance)是不能由方程中其它自变量解释的方差所占的构成比。所有进入方程的变量的容差必须大于默认的容差水平值(Tolerance:0.0001)。该值愈小,说明该自变量与其他自变量的线性关系愈密切。该值的倒数为方差膨胀因子(Varianc
12、e Inflation Factor)。当自变量均为随机变量时,若它们之间高度相关,则称自变量间存在共线性。在多元线性回归时,共线性会使参数估计不稳定。逐步选择变量是解决共线性的方法之一。 DurbinWaston:用于随机误差项的分析,以检验回归模型中的误差项的独立性。如果误差项不独立,那么对回归模型的任何估计与假设所做出的结论都是不可靠的。,计算DW值 给定,由n和k的大小查DW分布表,得临界值dL和dU 比较、判断,容差(Tolerance)是不能由方程中其,0D.W.dL 存在正自相关 dLD.W.dU 不能确定 dU D.W.4dU 无自相关4dU D.W.4 dL 不能确定4dL
13、D.W.4 存在负自相关,说明:当D.W.值在2左右时,模型不存在一阶自相关。,0D.W.dL,Casewise diagnostic:对标准化残差(服从均数=0,标准差=1的正态分布)进行诊断。 判断有无奇异值(离群值)(outliers)。 Outliers:显示标准化残差超过n个标准差的奇异值,n=3为默认值。 All Cases:显示每一例的标准化残差、实测值和预测值、残差。7、Plots(图)对话框 单击“Plots”按钮,对话框如下图所示。Plots可帮助分析资料的正态性、线性和方差齐性,还可帮助检测奇异值或异常值。,Casewise diagnostic:对标准化残差(服从均,s
14、pss中的回归分析课件,(1)散点图:可选择如下任何两个变量为Y(纵轴变量)与X(横轴变量)作图。为 获得更多的图形,可单击“Next”按钮来重复操作过程。 DEPENDENT:因变量。 *ZPRED:标准化预测值。 *ZRESID: 标准化残差。 *DRESID:删除的残差。 *ADJPRED:调整残差。 *SRESID:Student氏残差。 *SDRESID: Student氏删除残差。 (2)Standardized Residual Plots:标准化残差图。 Histogram:标准化残差的直方图,并给出正态曲线。 Normal Probality Plot:标准化残差的正态概率图
15、(PP图)。 (3)Produce all Partial plots:偏残差图。,(1)散点图:可选择如下任何两个变量为Y(纵轴变量),8、Save(保存新变量)对话框 单击“ Save”按钮,对话框如下图所示。每项选择都会增加新变量到正在使用的数据文件中。,8、Save(保存新变量)对话框,(1)预测值(Predicted Values): Unstandardized:未标准化的预测值,简称预测值(新变量为pre_1)。 Standardized标准化的预测值(新变量为Zpr_1)。 SEOf mean prediction:预测值的标准误(新变量为 Sep_l)。(2)残差(Resid
16、uals) Unstandardized未标准化残差(新变量为res_1)。 Standardized:标准化残差(新变量为Zre_1)。(3)预测区间估计(Prediction Intervals) Mean:是总体中当X为某定值时预测值的均数的可信区间(新变量lmci_1为下限, umci_1为上 限。 Individual:个体Y值的容许区间。即总体中,当X为某定值时,个体Y值的波动范围(新变量lici_1为下限,uici_1为上限)。 Confidence Intervals:可信区间。默认为 95的可信区间,但用户可以自己设定。,(1)预测值(Predicted Values):,9
17、、Options选择项对话框 单击“Option”按钮,打开Options对话框,如下图。,9、Options选择项对话框,(1)逐步方法准则(Stepping Method Criteria): Use Probability of F(使用 F显著水平值):当候选变量中最大 F值的 P值小于或等于引入值(默认:005)时,引入相应的变量;已进入方程的变量中,最小F值的P值大于或等于剔除值(默认:0.10)时,剔除相应的变量。所设定的引入值必须小于剔 除值,用户可设定其它标准,如引入 0.10,剔除 0.11,放宽变量进入方程的标准。 Use F value使用 F值。含义同上。 Inclu
18、de constant in equation:线性回归方程中含有常数项。(2)缺失值的处理方法(Missing Value) Exclude cases listwise:剔除所有变量中有缺失值的观测量。 Exclude cases pairwise:仅剔除正在参与运算的一对变量中有缺失值的观测量。 Replace with mean:以平均数代替缺失值.,(1)逐步方法准则(Stepping Method Crit,11、“ WLS”(Weight Least Squares) (1)利用加权最小平方法给于观测量不同的权重值,它或许用来补偿采用不同测量方式时所产生的误差。 (2)将左侧源变
19、量框中的加权变量选入WLS Weight框中。应用举例 例5-7-2 在例5-7-1中增加一自变量粮食价格price,数据如下图。试作多元线性回归分析。(e5-7-2.sav),11、“ WLS”(Weight Least Squar,spss中的回归分析课件,操作步骤: 1、从菜单“Analyze”“Regression”“Linear”,打开Linear线性回归主对话框。 2、在左边的源变量栏中选择foodexp作为因变量进入Dependent栏中,选择income、price作为自变量进入Independent(s)栏中。在Method栏中选择Stepwise(逐步引入一剔除法)。 3、
20、单击“Options”按钮,进入Options对话框。在Use probability of F栏中的Entry框内输入010,Remove框中输入011。 4、单击“Statistics”按钮,进入 Statistics对话框,选择 Descriptives、Casewise diagnostic中的outliers(n3为默认值)。 5、单击“Plots”按钮,选择以下3项: 散点图。选用SRESID(Y纵轴变量)与*ZPRED(X横轴变量)作图。 Histogram:标准化残差的直方图,并给出正态曲线。 Normal Probability plot:标准化残差的正态概率图(PP图)。,
21、操作步骤:,6、单击“Save”按钮,选择保存以下新变量: (1)预测值(Predicted Values)中的 Unstandardized,未标准化的预测值(新变量为 pre_l) SEof mean Predictions,预测值的标准误(新变量为 sepl)。 (2)残差(Residuals)中的 Unstandardized末标准化残差(新变量为res_1) (3)预测区间估计(Prediction Intervals)中 Mean,当自变量为某定值时,预测值的均数的可信区间(新变量lmci_1为下限,umci_1为上限) Individual,个体Y值的容许区间,即总体中,当自变量
22、为某定值时,个体Y值的波动范围(新变量lici_1为下限,uici_1为上限); Confidence,可信区间,默认为95的可信区间,用户可以自己设定。 7、单击“OK”按钮,运行程序,得到结果如下:,6、单击“Save”按钮,选择保存以下新变量:,描述统计量表:均值、标准差、观测量的个数,描述统计量表:均值、标准差、观测量的个数,相关系数表:相关系数、检验概率、观测量个数,相关系数表:相关系数、检验概率、观测量个数,变量引入剔除表: Model 1中:引入自变量income Model 2中:又引入Price,没有剔除变量,所以有两个自变量。,变量引入剔除表:,模型摘要表 Model1 中
23、:相关系数R=0.923, 判定系数r2=0.852,调整判定系数R2=0.847,估计值的标准误为73.83 Model2 中:相关系数R=0.940, 判定系数r2=0.884,调整判定系数R2=0.876,估计值的标准误为66.47。,模型摘要表,方差分析表 Model 2 中:F103.167, P=0.000, 说明因变量foodexp与自变量income、price之间有线性关系。,方差分析表,回归分析系数表 Model 2中回归方程为: foodexp=-87.378+0.354income+206.538price 经t检验, 在0.05检验水平下,回归系数b1、b2有显著性意
24、义。而常数项的P0.173, 无显著性意义。,回归分析系数表,模型外的变量 Model1中方程外的变量price的t检验概率 P=0.0110.10, 所以在Model 2 中被引入方程。,模型外的变量,残差统计表,残差统计表,标准化残差直方图及正态曲线,标准化残差直方图及正态曲线,标准化残差的正态概率图:用来判断一个变量的分布是否符合一个特定的检测分布。如果两分布基本相同,那么在PP图中的点应该围绕在一条斜线的周围。,标准化残差的正态概率图:用来判断一个变量的分布是否符合一个特,散点图:可以判断模型的拟合效果。在残差图中,如果各点呈随机状,并绝大部分落在2范围内,说明模型对于数据的拟合效果较
25、好。,散点图:可以判断模型的拟合效果。在残差图中,,spss中的回归分析课件,多元线性回归: 1、因变量、自变量的确定 2、变量引入、剔除方法的选择 3、常用选择项,多元线性回归: 1、因变量、自变量的确定 2、变量引入,4、检验 (1)模型拟合检验:调整R2,4、检验 (1)模型拟合检验:调整R2,4、检验 (2)模型线性关系检验:方差分析表,F统计量 零假设:回归系数全为0,4、检验 (2)模型线性关系检验:方差分析表,F统计,4、检验 (3)模型回归系数检验:t检验 零假设:相对应的回归系数为0,4、检验 (3)模型回归系数检验:t检验,应用举例:全国财政收入的回归分析,应用举例:全国财
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss 中的 回归 分析 课件
链接地址:https://www.31ppt.com/p-1288833.html