SPSS软件回归分析.ppt
SPSS 16实用教程,第7章 回归分析,在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。在上一章讲述了相关分析有关内容。本章介绍回归分析基本概念,回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。,7.1 回归分析基本概念,相关分析和回归分析都是研究变量间关系的统计学课题。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。,在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。,具体地说,回归分析主要解决以下几方面的问题。通过分析大量的样本数据,确定变量之间的数学关系式。对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。,作为处理变量之间关系的一种统计方法和技术,回归分析的基本思想和方法以及“回归(Regression)”名称的由来都要归功于英国统计学家FGalton(18221911)。,在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。,7.2 一元线性回归分析,7.2.1 统计学上的定义和计算公式,定义:一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。,在实际问题中,由于所要研究的现象的总体单位数一般是很多的,在许多场合甚至是无限的,因此无法掌握因变量y总体的全部取值。也就是说,总体回归方程事实上是未知的,需要利用样本的信息对其进行估计。显然,样本回归方程的函数形式应与总体回归方程的函数形式一致。,通过样本数据建立一个回归方程后,不能立即就用于对某个实际问题的预测。因为,应用最小二乘法求得的样本回归直线作为对总体回归直线的近似,这种近似是否合理,必须对其作各种统计检验。一般经常作以下的统计检验。,(1)拟合优度检验 回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。,回归方程的拟合优度检验一般用判定系数R2实现。该指标是建立在对总离差平方和进行分解的基础之上。,(2)回归方程的显著性检验(F检验)回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。,(3)回归系数的显著性检验(t检验)所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。之所以对回归系数进行显著性检验,是因为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异,它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量。因此,可以通过回归系数显著性检验对每个回归系数进行考察。,回归参数显著性检验的基本步骤。提出假设 计算回归系数的t统计量值 根据给定的显著水平确定临界值,或者计算t值所对应的p值 作出判断,研究问题 合成纤维的强度与其拉伸倍数有关,测得试验数据如表7-1所示。求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系。,7.2.2 SPSS中实现过程,表7-1强度与拉伸倍数的试验数据,实现步骤,图7-1 在菜单中选择“Linear”命令,图7-2“Linear Regression”对话框(一),图7-3“Linear Regression:Statistics”对话框,图7-4“Linear Regression:Plots”对话框,图7-5“Linear Regression:Save”对话框,图7-6“Linear Regression:Options”对话框,(1)输出结果文件中的第一个表格如下表所示。,7.2.3 结果和讨论,(2)输出的结果文件中第二个表格如下表所示。,(3)输出的结果文件中第三个表格如下表所示。,(4)输出的结果文件中第四个表格如下表所示。,7.3 多元线性回归分析,7.3.1 统计学上的定义和计算公式,定义:在上一节中讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。,因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。,研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。,对多元线性回归,也需要测定方程的拟合程度、检验回归方程和回归系数的显著性。(1)拟合优度检验 测定多元线性回归的拟合程度,与一元线性回归中的判定系数类似,使用多重判定系数,其定义为,(2)回归方程的显著性检验(F检验)多元线性回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。,(3)回归系数的显著性检验(t检验)回归系数的显著性检验是检验各自变量x1,x2,对因变量y的影响是否显著,从而找出哪些自变量对y的影响是重要的,哪些是不重要的。与一元线性回归一样,要检验解释变量对因变量y的线性作用是否显著,要使用t检验。,研究问题 用多元回归分析来分析36个员工多个心理变量值(z1z8)对员工满意度my的预测效果,测得试验数据如表7-2所示。,7.3.2 SPSS中实现过程,表7-2员工多个心理变量值和员工满意度数据,实现步骤,图7-7“Linear Regression”对话框(二),(1)输出结果文件中的第一个表格如下表所示。,7.3.3 结果和讨论,2)输出的结果文件中第二个表格如下表所示。,(3)输出的结果文件中第三个表格如下表所示。,(4)输出的结果文件中第四个表格如下表所示。,(5)输出的结果文件中第五个表格如下表所示。,(6)输出的结果文件中第六个表格为回归系数分析,如下表所示,(7)输出的结果文件中第七个表格如下表所示。,(8)输出的结果文件中第八部分为图形,为回归因变量和每个自变量之间的关系点图。图7-8为自变量z1和my之间的关系点图。,7.4.1 统计学上的定义和计算公式,7.4 非线性回归分析,定义:研究在非线性相关条件下,自变量对因变量的数量变化关系,称为非线性回归分析。在实际问题中,变量之间的相关关系往往不是线性的,而是非线性的,因而不能用线性回归方程来描述它们之间的相关关系,而要采用适当的非线性回归分析。,非线性回归问题大多数可以化为线性回归问题来求解,也就是通过对非线性回归模型进行适当的变量变换,使其化为线性模型来求解。一般步骤为:,根据经验或者绘制散点图,选择适当的非线性回归方程;通过变量置换,把非线性回归方程化为线性回归;用线性回归分析中采用的方法来确定各回归系数的值;对各系数进行显著性检验。,计算公式如下。在本节中介绍几种常见的非线性回归模型,并分别给出其线性化方法及图形。,研究问题 研究民用汽车总量与国内生产总值的关系。数据如表7-3所示。(资料来源:中国统计年鉴2007,中国统计出版社,2007年),7.4.2 SPSS中实现过程,实现步骤,图7-9“Simple Scatterplot”对话框,图7-10 散点图,图7-11“Curve Estimation”对话框(一),7.4.3 结果和讨论,(1)第一部分输出相关统计量和参数的值,如下表所示。,(2)第二部分输出的是观察值和Cubic,Power两种曲线预测值的对比图,如图7-12所示。,7.5.1 统计学上的定义和计算公式,7.5 曲 线 估 计,定义:在一元回归分析中,一般首先绘制自变量和因变量间的散点图,然后通过数据在散点图中的分布特点选择所要进行回归分析的类型,是使用线性回归分析还是某种非线性的回归分析。,然而,在实际问题中,用户往往不能确定究竟该选择何种函数模型更接近样本数据,这时可以采用曲线估计的方法,其步骤如下:,首先根据实际问题本身特点,同时选择几种模型;然后SPSS自动完成模型的参数估计,并显示R2、F检验值、相伴概率值等统计量;最后,选择具有R2统计量值最大的模型作为此问题的回归模型,并作一些预测。,研究问题 试用SPSS对国内生产总值和社会消费品零售总额之间的关系进行曲线回归分析。数据如表7-4所示。(资料来源:中国统计年鉴2007,中国统计出版社,2007年),7.5.2 SPSS中实现过程,表7-419782006年社会消费品零售总额,实现步骤,图7-13“Curve Estimation”对话框(二),图7-14“Curve Estimation:Save”对话框(一),(1)SPSS输出结果文件中的第一部分如下表所示。,7.5.3 结果和讨论,(2)输出的结果文件中第二部分如图7-15所示。,(3)由于进行曲线估计时所选的曲线模型种类较多,所以使得输出的观察值与在各种函数模型条件下预测值的对比图比较复杂,不易分辨出究竟Linear,Quadratic,Cubic及Power这4种曲线究竟哪种的对样本观察值的拟合优度更符合实际。,图7-16 对比图2,(4)重新回到图7-13所示对话框,在“Model”框内只选中“Quadratic”和“Cubic”这两种拟合优度更高的曲线模型进行估计。得出它们与观察值的对比图,如图7-17所示。,图7-17 对比图3,(5)如果在图7-13所示对话框中选中了“Display ANOVA table”项,作回归方程显著性检验,将输出相应的方差分析表,以Cubic模型为例(如下表所示),其结果是:回归方程显著有意义,并且x,x2,x3三个自变量的系数显著不为零。,(6)由于在图7-13所示对话框中选了“Save”项,且在图7-14所示的“Save Variables”框中选择了“Predicted values”,“Residuals”和“Prediction intervals”3个选项,因此在SPSS数据编辑窗口中就增了fit_1,err_1,lcl_1,ucl_1等44个变量的值,如图7-18所示。,图7-18 曲线估计分析结果保存,7.6.1 统计学上的定义和计算公式,7.6 时间序列的曲线估计,定义:时间序列的曲线估计是分析社会和经济现象中经常用到的一种曲线估计。通常把时间设为自变量x,代表具体的经济或社会现象的变量设为因变量y,研究变量x与y之间关系的方法就是时间序列曲线估计。其具体步骤与一般的曲线估计基本类似。计算公式:SPSS中时间序列的曲线估计模型与上一节所介绍相同。,研究问题 试用SPSS对19782006年间社会消费品零售总额之间的关系进行曲线回归分析。数据如表7-5所示。(资料来源:中国统计年鉴2007,中国统计出版社,2007年),7.6.2 SPSS中实现过程,表7-519782006年社会消费品零售总额,实现步骤,图7-19“Curve Estimation”对话框(三),图7-20“Curve Estimation:Save”对话框(二),(1)第一部分输出相关统计量和参数的值如下表所示。,7.6.3 结果和讨论,(2)第二部分输出的是观察值Linear,Cubic,Power和Exponential 4种曲线预测值的对比图,如图7-21所示。,(3)由于在图7-19所示“Curve Estimation”对话框(三)中选了“Save”项,且在图7-20的“Save Variables”框中选择了“Predicted values”选项和“Predict Cases”框中选择了“Predict through”项,并且在“Observation”框中键入了“31”,因此在SPSS数据编辑窗口中就新增了fit_1,fit_2,fit_3和fit_4等4个变量的预测值,同时在窗口下方还新增了两个个案,它们分别代表对2007年和2008年的预测值。如图7-22所示。,7.7.1 统计学上的定义和计算公式,7.7 含虚拟自变量的回归分析,定义:前面几节所讨论的回归模型中,因变量和自变量都是可以直接用数字计量的,即可以获得其实际观测值(如收入、支出、产量、国内生产总值等),这类变量称作数量变量、定量变量或数量因素。然而,在实际问题的研究中,经常会碰到一些非数量型的变量,如性别、民族、职业、文化程度、地区、正常年份与干旱年份、改革前与改革后等定性变量。,在建立一个实际问题的回归方程时,经常需要考虑这些定性变量。例如,建立粮食产量预测方程就应考虑到正常年份与受灾年份的不同影响;建立空调的销售模型时,除了要考虑居民收入和商品价格这两个量的因素之外,还必须将“季节”这个质的因素,作为一个重要解释变量。,由于受到质的因素影响,回归模型的参数不再是固定不变的。例如,在空调销售模型中,收入、价格与空调销售额的关系是随着季节变化而改变的,也就是说,在不同的季节回归模型的参数也会有所不同。再如,我国居民的消费行为在改革开放前后大不相同,因此消费函数的参数也会发生变化。显然,如果忽略质的因素,仍把模型中的参数看作是固定不变的,得到的参数估计量就不能正确描述经济变量之间的关系。,在回归分析中,对一些自变量是定性变量的先作数量化处理,处理的方法是引进只取“0”和“1”两个值的01型虚拟自变量。当某一属性出现时,虚拟变量取值为“1”,否则取值为“0”。例如,令“1”表示改革开放以后的时期,“0”则表示改革开放以前的时期。再如,用“l”表示某人是男性,“0”则表示某人是女性。虚拟变量也称为哑变量。需要指出的是,虽然虚拟变量取某一数值,但这一数值没有任何数量大小的意义,它仅仅用来说明观察单位的性质和属性。,如果在回归模型中需要引入多个01型虚拟变量D时,虚拟变量的个数应按下列原则来确定:对于包含一个具有k种特征或状态的质因素的回归模型,如果回归模型不带常数项,则中需引入k个01型虚拟变量D;如果有常数项,则只需引入k1个01型虚拟变量D。当k=2时,只需要引入一个01型虚拟变量D。,计算公式如下。下面以自变量所含定性变量是一个还是多个来分别说明如何构造含虚拟自变量的回归模型。(1)自变量中只含一个定性变量,且这个定性变量只有两种特征的简单情况时。(2)自变量中含多个定性变量时。,研究问题 研究采取某项保险革新措施的速度y与保险公司的规模x1及其类型d之间的关系,数据如表7-6所示。,7.7.2 SPSS中实现过程,表7-6保险公司革新情况,实现步骤,图7-23“Linear Regression”对话框(三),(1)第一部分输出结果文件中的第一个表格如下表所示。,7.7.3 结果和讨论,(2)输出的结果文件中第二个表格如下表所示。,(3)输出的结果文件中第三个表格如下表所示。,(4)输出的结果文件中第四个表格如下表所示。,7.8.1 统计学上的定义和计算公式,7.8 逻辑回归分析,定义:逻辑回归分析是对定性变量的回归分析。,可用于处理定性因变量的统计分析方法有:判别分析(Discriminant analysis)、Probit分析、Logistic回归分析和对数线性模型等。在社会科学中,应用最多的是Logistic回归分析。Logistic回归分析根据因变量取值类别不同,又可以分为Binary Logistic回归分析和Multinomi-nal Logistic回归分析。,Binary Logistic回归模型中因变量只能取两个值1和0(虚拟因变量),而Multinomial Logistic回归模型中因变量可以取多个值。本节将只讨论Binary Logistic回归,并简称Logistic回归(与7.5节曲线估计中介绍的Logistic曲线模型相区别)。Logistic函数的形式为,与任何概率一样,似然的取值范围在0,1之间。2LL的计算公式为,1-2对数似然值(-2 log likelihood,-2LL),Logistic回归的拟合优度统计量计算公式为 在实际问题中,通常采用如下分类表(Classification Table)反映拟合效果。,2拟合优度(Goodness of Fit)统计量,Classification Table for Y,3Cox和Snell的R 2(Cox&Snells R-Square),4Nagelkerke的R 2(N agelkerkes R-Square),5伪R 2(Psedo-R-square),伪R2与线性回归模型的R2相对应,其意义相似,但它小于1。,6Hosmer和Lemeshow的拟合优度检验统计量(Hosmer and Lemeshows Goodness of Fit Test Statistic),与一般拟合优度检验不同,Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组,然后根据观测频数和期望频数构造卡方统计量(即Hosmer和Lemeshow的拟合优度检验统计量,简称H-L拟合优度检验统计量),最后根据自由度为8的卡方分布计算其值并对Logistic模型进行检验。,如果该p值小于给定的显著性水平(如=0.05),则拒绝因变量的观测值与模型预测值不存在差异的零假设,表明模型的预测值与观测值存在显著差异。如果值大于,我们没有充分的理由拒绝零假设,表明在可接受的水平上模型的估计拟合了数据。,7Wald统计量,Wald统计量用于判断一个变量是否应该包含在模型中,其检验步骤如下。(1)提出假设。(2)构造Wald统计量。(3)作出统计判断。,研究问题 在一次关于某城镇居民上下班使用交通工具的社会调查中,因变量y=1表示居民主要乘坐公共汽车上下班;y=0表示主要骑自行车上下班;自变量x1表示被调查者的年龄;x2表示被调查者的月收入;x3表示被调查者的性别(x3=1为男性,x3=0为女性)。试建立y与自变量间的Logistic回归,数据如表7-7所示。,7.8.2 SPSS中实现过程,表7-7使用交通工具上下班情况,实现步骤,图7-24“Logistic Regression”对话框,图7-25“Logistic Regression:Options”对话框,(1)第一部分输出结果有两个表格,第一个表格说明所有个案(28个)都被选入作为回归分析的个案。,7.8.3 结果和讨论,第二个表格说明初始的因变量值(0,1)已经转换为逻辑回归分析中常用的0、1数值。,(2)第二部分(Block 0)输出结果有4个表格。,(3)Omnibus Tests of Model Coefficients表格列出了模型系数的Omnibus Tests结果。,(4)Model Summary表给出了-2 对数似然值、Cox和Snell的R2以及Nagelkerke的R2检验统计结果。,(5)Hosmer and Lemeshow Test表格以及Contingency Table for Hosmer and Lemeshow Test表格给出了Hosmer和Lemeshow的拟合优度检验统计量。,(6)Classification Table分类表说明第一次迭代结果的拟合效果,从该表格可以看出对于y=0,有86.7%的准确性;对于y=1,有76.9%准确性,因此对于所有个案总共有82.1%的准确性。,(7)Variables in the Equation表格列出了Step 1中各个变量对应的系数,以及该变量对应的Wald 统计量值和它对应的相伴概率。从该表格中可以看出x3相伴概率最小,Wald统计量最大,可见该变量在模型中很重要。,(8)Correlation Matrix表格列出了常数Constant、系数之间的相关矩阵。常数与x2之间的相关性最大,x1和x3之间的相关性最小。,(9)图7-26所示是观测值和预测概率分布图。该图以0和1为符号,每四个符号代表一个个案。横坐标是个案属于1的录属度,这里称为预测概率(Predicted Probability)。纵坐标是个案分布频数,反映个案的分布。,(10)逻辑回归的最后一个输出表格是Casewise List,列出了残差大于2的个案。,小 结,回归分析是研究变量与变量之间联系的最为广泛的模型。在实际中,根据变量的个数、类型,以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等。,小 结,一元线性回归只涉及一个自变量的回归问题;多元线性回归用于解决两个或两个以上自变量对一个因变量的数量变化关系问题;非线性回归主要解决在非线性相关条件下,自变量对因变量的数量变化关系;时间序列的曲线回归用于研究因变量与时间之间的变化关系;当遇到非数量型变量时,通过引入虚拟变量来构造含虚拟变量的回归模型;Logistic回归分析是对定性变量进行的回归分析。,小 结,SPSS中“Analyze”/“Regression”菜单可用于回归统计分析。其中,一元线性回归、多元线性回归和含虚拟变量的回归分析可由“Linear”子菜单完成;非线性回归分析、曲线估计和时间序列的曲线估计可由“Curve Estimation”子菜单完成;逻辑回归分析可由“Binary Logistic”子菜单完成。,