spss回归分析大全课件.ppt
《spss回归分析大全课件.ppt》由会员分享,可在线阅读,更多相关《spss回归分析大全课件.ppt(225页珍藏版)》请在三一办公上搜索。
1、BG,SPSS回归分析,小组成员:李标 祝斌 宋金泽 周益丰 贾汪洋,2,2,本章内容,7.1 回归分析概述7.2 线性回归分析7.3 曲线估计回归分析7.4 罗辑回归分析7.5 序数、概率回归分析7.6 非线性、权重估计、两阶最小二乘、最佳尺度回归分析,3,3,回归分析(regression analysis)确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。涉及的自变量的多少一元回归分析多元回归分析自变量和因变量之间的关系类型,线性回归分析非线性回归分析,回归分析,4,4,回归分析一般步骤:确定回归方程中的解释变量(自变量)和被解释变量(因变量)确定回归模型建立回归方程对回归方
2、程进行各种检验利用回归方程进行预测,回归分析,5,线性回归分析,一元线性回归方程反应一个因变量与一个自变量之间的线性关系,当直线方程Y=a+bx的a和b确定时,即为一元回归线性方程。经过相关分析后,在直角坐标系中将大量数据绘制成散点图,这些点不在一条直线上,但可以从中找到一条合适的直线,使各散点到这条直线的纵向距离之和最小,这条直线就是回归直线,这条直线的方程叫作直线回归方程。注意:一元线性回归方程与函数的直线方程有区别,一元 线性回归方程中的自变量X对应的是因变量Y的一个取值范围。,6,1.一元线性回归分析的基本理论 把解释变量和被解释变量的多个对应样本值组队成坐标数据对(xi,yi),通过
3、观察数据对(xi,yi)的散点图,如果发现y与xi之间呈现出显著的线性关系,则应考虑建立y和xi的一元线性回归模型,其中,y=a+bx+,y为被解释变量;a为模型的截距项;b为待估计参数;x为解释变量;为随机误差项。,线性回归分析,7,对于一元线性模型,一般采用最小二乘估计法来估计相关的参数(如和的无偏估计值和),从而得到样本回归直线,这样把得到的样本回归直线作为总体回归的近似,是一种预测过程。那要确定得到的样本回归直线是否能作为总体回归的近似,就必须对回归方程的线性关系进行各种统计检验,包括拟合优度检验、回归方程显著性检验、回归系数的显著性检验(t检验)、残差分析等。,线性回归分析,8,回归
4、方程的拟合优度检验(相关系数检验)一元线性回归的拟合优度检验采用R2统计量,称为判定系数或决定系数,数学定义为其中 称为回归平方和(SSA)称为总离差平方和(SST)R2取值在0-1之间,R2越接近于1,说明回归方程对样本数据点的拟合优度越高。,线性回归分析,9,9,多元线性回归的拟合优度检验采用 统计量,称为调整的判定系数或调整的决定系数,数学定义为,式中n-p-1、n-1分别是SSE和SST的自由度。其取值范围和意义与一元回归方程中的R2是相同的。,回归方程的拟合优度检验(相关系数检验),线性回归分析,10,回归方程的显著性检验(F检验)即平均的SSA/平均的SSE,F统计量服从(1,n-
5、2)个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为线性关系显著。,一元线性回归方程显著性检验的零假设是1=0,检验采用F统计量,其数学定义为:,线性回归分析,11,11,回归方程的显著性检验(F检验),多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零,检验采用F统计量,其数学定义为:,即平均的SSA/平均的SSE,F统计量服从(p,n-p-1)个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为y与x的全体的线性关系显著。,线性回归
6、分析,12,回归系数的显著性检验(t检验)一元线性回归方程的回归系数显著性检验的零假设是1=0,检验采用t统计量,其数学定义为:t统计量服从n-2个自由度的t分布。SPSS将会自动计算t统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为x对y有显著贡献,线性关系显著。,线性回归分析,13,13,回归系数的显著性检验(t检验),多元线性回归方程的回归系数显著性检验的零假设是i=0,检验采用t统计量,其数学定义为:,ti统计量服从n-p-1个自由度的t分布。SPSS将会自动计算ti统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为
7、xi对y有显著贡献,应保留在线性方程中。,(i=1,2,,p),线性回归分析,14,残差分析 所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距,即它是回归模型中 的估计值。如果回归方程能较好地反映被解释变量的特征和变化规律,那么残差序列中应不包含明显的规律性和趋势性。,线性回归分析,15,残差分析均值为0的正态性分析 残差均值为0的正态性分析,可以通过绘制残差图进行分析,如果残差均值为0,残差图中的点应在纵坐标为0的横线上下随机散落着。正态性可以通过绘制标准化(或学生化)残差的累计概率图来分析,线性回归分析,16,16,回归方程的统计检验残差分析独立性分析 绘制残差序列的序列图以样
8、本期(或时间)为横坐标,残差为纵坐标,如果残差随时间的推移呈规律性变化,则存在一定的正或负相关性。计算残差的自相关系数取值在-1到+1之间,接近于+1表明序列存在正自相关性。DW(DurbinWatson)检验DW取值在0至4之间,直观判断标准是DW=4,残差序列完全负自相关;DW=2,完全无自相关;DW=0,完全正自相关。,线性回归分析,17,17,回归方程的统计检验残差分析异方差分析 绘制残差图如果残差的方差随着解释变量值的增加呈增加(或减少)的趋势,说明出现了异方差现象。,线性回归分析,18,18,回归方程的统计检验残差分析探测样本中的异常值和强影响点(对于y值)标准化残差ZRE由于残差
9、是服从均值为0的正态分布,因此可以根据3准则进行判断,首先对残差进行标准化,绝对值大于3对应的观察值为异常值。学生化残差SRE剔除残差DRE(或剔除学生化残差SDRE)上述SRE、SDRE的直观判断标准同标准化残差ZRE。,19,19,线性回归分析,20,20,多元回归分析中的其他问题变量筛选问题向前筛选策略 解释变量不断进入回归方程的过程,首先选择与被解释变量具有最高线性相关系数的变量进入方程,并进行各种检验;其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程。向后筛选策略 变量不断剔除出回归方程的过程,首先所有变量全部引入回归方程并检验,然后在回归系数显著性检验不显
10、著的一个或多个变量中,剔除t检验值最小的变量。逐步筛选策略 向前筛选与向后筛选策略的综合,线性回归分析,21,21,多元回归分析中的其他问题变量多重共线性问题容忍度Tol容忍度值越接近于1,表示多重共线性越弱。SPSS变量多重共线性的要求不很严格,只是在容忍度值太小时给出相应警告信息。方差膨胀因子VIF膨胀因子是容忍度的倒数,越接近于1,表示解释变量间的多重共线性越弱。通常如果VIFi大于等于10,说明解释变量xi与其余解释变量之间有严重的多重共线性。特征根和方差比这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其他特征根的值,则说明这些解释变量之间具有相当多的重叠信息。条件指数k
11、i10 ki 100时,认为多重共线性较强,ki 100时,认为多重共线性很严重,线性回归分析,22,22,回归方程的统计检验残差分析异方差分析 等级相关分析得到残差序列后首先对其取绝对值,然后计算出残差和解释变量的秩,最后计算Spearman等级相关系数,并进行等级相关分析。具体过程见相关分析相关章节。,线性回归分析,23,回归分析步骤:第一,分析大量样本变量观测值,确定变量之间的数学关系式回归方程;第二,分析其回归方程的可信程度,区分影响显著的和影响不显著的自变量;第三,根据已确定的数学关系,预测(y)或者控制(x)特定变量的取值,并给出预测或控制的精确度。,线性回归分析,24,线性回归的
12、使用条件:线性趋势,即自变量与因变量的关系是线性的。独立性,因变量Y的取值相互独立。反映在方程中即残差独立。正态性,即自变量的任何一个线性组合,Y应该服从正态分布。反映在方程中即残差Ei服从正态分布。方差齐性,自变量的任何一个线性组合,Y的方差相同。,一元线性回归分析,25,2.一元线性回归分析的SPSS操作打开【分析】【回归】【线性】,出现线性回归主对话 框,进行SPSS程序命令操作,即对各子对话框进行设置。,线性回归分析,26,(1)变量 因变量 被选入该文本框中的变量为线性回归模型中的被解释变量,数值类型为数值型。如果被解释变量为分类变量,则可以用二元或者多元Logistic模型等建模分
13、析。自变量 被选入该列表框中的变量为线性模型中的解释变量,数值类型一般为数值型。如果解释变量为分类变量或定性变量,可以用虚拟变量(哑变量)表示。如果选择多个自变量,可将自变量分组成块,通过“上一张”和“下一张”按钮对不同的变量子集指定不同的进入方法。,线性回归分析,27,总离差平方和可分解为,(2)方法 用于选择线性回归中变量的进入和剔除方法,来建立多个回归模型,进入,该方法表示自变量列表中所有的变量都进入回归模型。逐步,该方法是一个动态过程,表示具有F统计量的概率最小的自变量被选进回归模型;对于已经在回归方程中的变量,如果它们的F统计量的概率变得足够大,则移除这些变量,直到不再有自变量符合进
14、入或移除的条件,该方法终止。删除,该方法表示建立回归模型前设定一定条件,然后根据条件删除自变量。向后,该方法表示首先将自变量列表中的所有自变量选入到回归模型中,然后按顺序移除,最先删除与因变量之间的部分相关性最小的那个变量,移除第一个变量后,得到新的方程,又将与因变量之间的部分相关性最小的那个变量删除,直到方程中没有满足消除条件的变量,过程结束。向前,该方法与“向后”恰好相反,是将自变量按顺序选入到回归模型中。首先选入与因变量之间具有最大相关性的、满足选入条件的变量进入回归模型中,然后再考虑下一个变量,直到没有满足条件的变量时,过程结束。,线性回归分析,28,(3)选择变量 该文本框主要用于指
15、定分析个案的选择规则,当回归分析中包含由选择规则定义的个案,则需要进行设置。,线性回归:设置规则子对话框用于选择关系。对于分类变量,可用的关系有“等于”和“不等于”,对于字符串型变量,可以用“等于”关系,在“值”文本框中输入按具体数值或字符串选择个案的规则;如在“值”中输入“f”,则表示只有那些性别为女性的个案才能进入分析;对于连续变量,则可用的关系有“等于”、“不等于”、“小于”、“小于等于”、“大于”以及“大于等于”,如选择“不等于”,并在“值”中输入“1”,表示只有那些有无线服务的个案才会包含在回归分析中。,线性回归分析,29,(4)个案标签 该文本框主要用于指定个案标签的变量。(5)W
16、LS权重 该文本框表示加权最小二乘,当判断回归模型的残差存在异方差时,才选用加权最小二乘方法,指定加权变量。,线性回归分析,30,(6)统计量按钮设置回归系数选项组:估计,选择该复选框,可输出回归系数、标准误、标准化系数beta、t值以及t的双尾显著性水平。置信区间,误差条形图的表征,选择该复选框,可输出每个回归系数或协方差矩阵指定置信度的置信区间,在“水平”框中输入范围。协方差矩阵,选择它,可输出回归系数 的方差协方差矩阵,其对角线以外 的协方差,对角线上为方差,同时还 显示相关系数矩阵。,线性回归分析,31,残差选项组 该选项组用于指定对回归残差进行检验的方法。Durbin-Watson,
17、该复选框表示输出用于检验残差系列自相关的D-W检验统计量。个案诊断,该复选框表示对个案进行诊断,输出个案,其中离群值,表示输出满足条件的个案离群值;标准差,用于指定离群值满足几倍标准差的条件;所有个案,指可以输出所有个案的残差。,线性回归分析,32,模型拟合度 勾选该复选框,则输出显示输入模型的变量和从模型删去的变量,并显示以下拟合优度统计量:复相关系数、R2和调整R2、估计的标准误以及方差分析表。R方变化 勾选该复选框,则输出由于添加或删除自变量而产生的R2统计量的更改。如果与某个变量相关联的R2变化很大,则意味着该变量是因变量的一个良好的预测变量。描述性 勾选该复选框,则输出回归分析中的有
18、效个案数、均值以及每个变量的标准差,同时输出具有单尾显著性水平的相关矩阵以及每个相关系数的个案数。,线性回归分析,33,部分相关和偏相关性 该复选框表示输出部分相关和偏相关统计量。其中:部分相关,指对于因变量与某个自变量,当已移去模型中的其他自变量对该自变量的线性效应之后,因变量与自变量之间的相关性。当变量添加到方程时,它与R2的更改有关。偏相关,指的是对于两个变量,在移去由于它们与其他变量之间的相互关联引起的相关之后,这两个变量之间剩余的相关性。对于因变量与某个自变量,当已移去模型中的其他自变量对上述两者的线性效应后,这两者之间的相关性。共线性诊断 输出各变量的容限公差以 及共线性诊断表。,
19、线性回归分析,34,(7)绘制按钮设置“线性回归:图”对话框主要用于帮助验证正态性、线性和方差相等的假设,还可以检测离群值、异常观察值和有影响的个案。,在源变量列表中列出了因变量(DEPENDNT)及以下的预测变量和残差变量:标准化预测值(*ZPRED)、标准化残差(*ZRESID)、剔除残差(*DRESID)、调整的预测值(*ADJPERD)、学生化的残差(*SRESID)以及学生化的已删除残差(*SDRESID)。,线性回归分析,35,散点1的1 该选项组可以利用源变量列表中的任意两个来绘制散点图,在“Y”中选入Y轴的变量,“X”中选入X轴的变量。单击“下一张”可以再绘制下一张图,单击“上
20、一张”可以回到刚刚设定的上一张图进行修改。另外,针对标准化预测值绘制标准化残差,可以检验线性关系和等方差性。标准化残差图 该选项组用于绘制标准化残差图,主要可以指定两种图:“直方图”和“正态概念图”,将标准化残差的分布与正态分布进行比较。产生所有部分图 该复选框表示当根据其余自变量分别对两个变量进行回归时,显示每个自变量残差和因变量残差的散点图。但是要求方程中必须至少有两个自变量。,线性回归分析,36,(8)保存按钮设置“线性回归:保存”对话框主要用于在活动数据文件中保存预测值、残差和其他对于诊断有用的统计量,包括:,预测值选项组该选项组用于保存回归模型对因变量的预测值。未标准化,选中该复选框
21、,表示保存回归模型对因变量的预测值。标准化,选中该复选框,表示保存标准化后的预测值。调节,选中它,表示保存当某个案从回归系数的计算中排除时个案的预测值。均值预测值的S.E.,选中它,表示保存预测值的标准误。,线性回归分析,37,残差选项组 该选项组用于保存回归模型的残差未标准化,选中它,表示保存观察值与模型预测值之间的原始残差。标准化,选中它,表示保存标准化后的 残差,即Pearson残差。学生化,选中它,表示保存学生化的残 差,即残差除以其随个案变化的标准差 的估计,这取决于每个个案的自变量值 与自变量均值之间的距离。删除,选中它,表示保存当某个案从回 归系数的计算中排除时该个案的残差,它是
22、因变量的值和调整预测值之间的差。学生化已删除,选中它,表示保存学生 化的删除残差,即个案的剔除残差除以 其标准误。,线性回归分析,38,距离选项组 该选项组用于标识自变量的值具有异常组合的个案以及可能对回归模型产生很大影响的个案的测量。Mahalanobis距离,表示自变量中个 案的值与所有个案的平均值相异程度的 测量,大的Mahalanobis距离表示个 案在一个或多个自变量上具有极值。Cook距离,选中它,表示保存Cook距 离值,较大的Cook距离表明从回归统计 量的计算中排除个案之后,系数会发生 很大变化。杠杆值,选择它,表示保存杠杆值,杠 杆值是度量某个点对回归拟合的影响,范围从0到
23、(N-1)/N,其中0表示对 回归拟合无影响。,线性回归分析,39,影响统计量选项组该选项组用于测度由于排除了特定个案而导致的回归系数(DfBeta)和预测值(DfFit)的变化。DfBeta,即计算Beta值的差分,表示由于 排除了某个特定个案而导致的回归系数的改变。标准化DfBeta,表示计算Beta值的标准化差分。DfFit,表示计算拟合值的差分,即由于排除了 某个特定个案而产生的预测变量的更改。标准化DfFit,表示计算拟合值的标准化差分。协方差比率,选中它,表示从回归系数计算中排 除特定个案的协方差矩阵的行列式与包含所有个 案的协方差矩阵的行列式的比率,如果比率接近 1,则说明被排除
24、的个案不能显著改变协方差矩 阵。,线性回归分析,40,预测区间选项组 该选项组用于设置均值和个别预测区间 的上界和下界。,线性回归分析,41,“线性回归:选项”对话框主要用于对步进方法标准和缺失值进行设置,各选项含义如下:“步进方法标准”选项组 该选项组在已指定向前、向后或逐步式变量选择法的情况下适用。变量可以 进入到模型中,或者从模型中移除,这取决于F值 的显著性概率或者F值本身。使用F的概率,表示如果变量的F值的显著性水平小 于“进入”值,则将该变量选入到模型中,如果该显 著性水平大于“删除”值,则将该变量从模型中移除。其中“进入”值必须小于“删除”值,且两者均必须为 正数。使用F值,表示
25、如果变量的F值大于“进入”值,则该变量输入模型,如果F值小于“删除”值,则该变量从模型中移除。“进入”值必须大于“删除”值,且两者均必须为正数。要将更多的变量选入到模型中,请降低“进入”值。要将更多的变量从模型中移除,请增大“删除”值。,线性回归分析,42,“在等式中包含常数”复选框 该复选框表示回归模型中包含常数项。取消选择此选项可强制使回归模型通过原点,但是某些通过原点的回归结果无法与包含常数的回归结果相比较。如:不能以通常的方式解释R2。“缺失值”选项组该选项组用于对回归中缺失值的设定,有3个可选项。按列表排除个案,选中该选项,表示只有所有变量均取有效值的个案才包含在分析中。按对排除个案
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss 回归 分析 大全 课件
链接地址:https://www.31ppt.com/p-2139867.html