相关分析与回归分析(含SPSS)课件.ppt
.,1,第七章 相关分析与回归分析,.,2,本章内容,第一节 相关分析第二节 线性回归分析 第三节 曲线估计,.,3,第一节 相关分析,一、相关分析的概念与类型(一)相关分析的基本概念 相关关系是指变量之间存在的不确定的依存关系,即当一个变量取一定值时,另一变量无法依确定的函数取唯一确定的值,然而它仍按某种规律在一定的范围内变化。,.,4,(二)相关关系的类型 1、按相关关系的程度,分为完全相关、不完全相关和零相关。 2、按相关变量的变化方向,分为正相关和负相关。 3、按相关关系的表现形式,分为线性相关和曲线相关。 4、按变量多少,分为单相关、复相关和偏相关。 5、按相关性质,分为“真实相关”和“虚假相关” 绘制散点图和计算相关系数是相关分析最常用的工具,它们的相互结合能够达到较为理想的分析效果。,.,5,二、散点图 (一)散点图的特点 绘制散点图是相关分析过程中极为常用且非常直观的分析方法,它将数据以点的形式画在直角平面上。通过观察散点图可以比较直观地看出变量之间的相关关系以及它们的强弱程度和数据的可能走向。通常橄榄球和棒状代表了数据对的主要结构和特征,可以利用曲线将这种主要结构的轮廓描述出来,使数据的主要特征更突显。,.,6,(二)散点图在SPSS中的实现 1、建立或打开数据文件后,进入“Graphs” “Legacy Dialogs”“Scatter/Dot”主对话框,如图7-1所示。图7-1 散点图主对话框,.,7,2、选择散点图的类型。SPSS中提供了四种散点图,分别是简单散点图(Simple)、重叠散点图(Overlay)、矩阵散点图(Matrix)和三维散点图(3-D)。 3、根据所选择的散点图的类型,按Define按钮对散点图作具体定义。不同类型的散点图其具体的定义选项略有差别。,.,8,三、相关系数(一)相关系数的概念和分析步骤 相关系数能够以数字的方式准确描述变量间的线性关系程度和方向。 相关系数的分析步骤: 1、计算样本相关系数 对不同类型的变量应采用不同的相关系数指标,但它们的取值范围和含义都是相同的,即相关系数 没有单位,其值在-1+1 之间。,.,9,2、对样本来自的两总体是否存在显著的线性关系进行推断。 (1)提出原假设:总体中两个变量间的相关系数为0,即两总体无显著的线性相关关系。 (2)选择检验统计量。对不同类型的变量应采用不同的相关系数,对应也应采用不同的检验统计量。 (3)计算检验统计量的观测值和相伴概率 值。 (4)给定显著性水平 ,并作出决策。如果相伴概率值小于或等于给定的显著性水平,则拒绝原假设;如果相伴概率值大于给定的显著性水平,则不能拒绝原假设。,.,10,(二)相关系数的种类 1、Pearson 简单相关系数 Pearson 简单相关系数用来度量定距型变量间的线性相关关系,它的数学定义为: (7.1) Pearson 简单相关系数的检验统计量为统计量,其数学定义为: (7.2) SPSS将自动计算Pearson 简单相关系数、检验统计量的观察值和对应的概率值。,.,11,2、Spearman等级相关系数 Spearman等级相关系数用来度量定序变量间的线性相关关系,设计思想与Pearson简单相关系数相同,只是数据为非定距的,故计算时并不直接采用原始数据 ,而是利用数据的秩,用两变量的秩 代替 代入Pearson简单相关系数计算公式中,于是其中的 和 的取值范围被限制在1和 之间,且可被简化为:式中:,.,12,如果两变量的正相关性较强,它们秩的变化具有同步性,于是 的值较小,r趋向于1; 如果两变量的正相关性较弱,它们秩的变化不具有同步性,于是 的值较大,r趋向于0; 在小样本下,在零假设成立时, Spearman等级相关系数服从Spearman分布;在大样本下, Spearman等级相关系数的检验统计量为Z统计量,定义为: Z统计量近似服从标准正态分布。 SPSS将自动计算Spearman等级相关系数, 检验统计量的观察值和相伴概率 值。,.,13,3、Kendall 相关系数 Kendall 相关采用非参数检验方法用来度量定序变量间的线性相关关系。它利用变量秩数据计算一致对数目 和非一致对数目 。 Kendall 相关正是要对此进行检验。Kendall 统计量的数学定义为 (7.5) 在小样本下Kendall 服从Kendall分布。在大样本下采用的检验统计量为 (7.6) 在公式(7.6)中, 统计量近似服从标准正态分布。SPSS将自动计算Kendall 相关、 检验统计量的观测值和相伴概率 值。,.,14,(三)相关系数在SPSS中的实现 1、建立或打开数据文件后,进入AnalyzeCorrelateBivariate主对话框,如图7-4所示。图7-4 相关分析主对话框,.,15,2、选择参加计算相关系数的变量到Variables框。 3、Correlation Coefficients分析方法选择项,有三种相关系数,如Pearson复选项、Spearman复选项、Kendalls tau-b 复选项,对应于三种分析方法。 4、Test of Significance选择显著性检验类型。Two tailed 双尾检验选项,One tailed 单尾检验选项。 5、Flag significant Correlations 复选项,如果选中此项,输出结果中除显示统计检验的概率 值以外,还输出星号标记,相关系数右上方使用“*”表示显著水平为5%;用“*”表示其显著水平为1%。,.,16,6、Options 对话框中的选择项 在相关分析主对话框中单击“Options”按钮,展开Options 对话框,如图7-5所示。图7-5 Options 对话框,.,17,(1)Statistics选择项中有两个有关统计量的选择项: Means and standard deviations复选项,要求计算并输出均值与标准差; Cross-product deviations and covariances复选项,要求计算并输出叉积离差阵和协方差阵。 (2)Missing Values选择项中有两个关于缺失值处理方法的选择项: Exclude cases pairwise选项,仅剔除正在参与计算的两个变量值是缺失值的观测量。 Exclude cases listwise选项,剔除带有缺失值的所有观测量。,.,18,四、偏相关分析(一) 偏相关分析和偏相关系数 偏相关分析也称净相关分析,它在控制其他变量的线性影响的条件下分析两变量间的线性相关性,所采用的工具是偏相关系数(净相关系数)。 偏相关分析的主要用途是根据观测资料应用偏相关分析计算偏相关系数,可以判断哪些解释变量对被解释变量的影响较大,而选择作为必须考虑的解释变量。这样在计算多元回归分析时,只要保留起主要作用的解释变量,用较少的解释变量描述被解释变量的平均变动量。,.,19,利用偏相关系数进行变量间相关分析通常需要完成以下两大步骤: 1、计算样本的偏相关系数。 在分析变量 和 之间的净相关时,当控制了 的线性作用后, 和 之间的一阶偏相关系数定义为 (7.7)偏相关系数的取值范围及大小含义与相关系数相同。,.,20,2、对样本来自的两总体是否存在显著的偏相关进行推断。 (1)提出原假设:两总体的偏相关系数与零无显著差异。 (2)选择检验统计量。偏相关系数的检验统计量为 统计量。 (3)计算检验统计量的观测值和相伴概率 。 (4)给定显著性水平 ,并作出决策。如果相伴概率值小于或等于给定的显著性水平,则拒绝原假设;如果相伴概率值大于给定的显著性水平,则不能拒绝原假设。,.,21,(二)偏相关系数在SPSS中的实现 1、建立或打开数据文件后,进入Analyze Correlate Partial主对话框,如图7-6所示。图7-6 偏相关分析主对话框,.,22,2、选择分析变量送入Valiables框,选择控制变量进入Controlling for框。 3、在Test of Significance 栏中选择输出偏相关检验的双尾(Two-tailed)概率 值还是单尾(One-tailed)概率 值。 4、选择Display actual significance level复选项,表示显示相关系数的同时,显示实际的显著性概率。不选择此项,其显著性概率使用星号“*”来代替。,.,23,5、在偏相关分析主对话框中单击“Options”按钮,进入Options 对话框,如图7-7所示。图7-7 偏相关分析的选项对话框,.,24,(1)Statistics 统计量选择项,有两个选项: Means and standard deviations 复选项,要求SPSS计算并显示各分析变量的均值和标准差。Zero-order correlations 复选项,要求显示零阶相关矩阵,即Pearson 相关矩阵。 (2)Missing Values 处理缺失值观测量的选择项。,.,25,第二节 线性回归分析,(一)回归分析的概念和一般步骤 1、回归分析的概念 回归分析是指根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。回归分析不仅可以提供变量之间相关关系的数学表达式,而且还可以利用所得的经验公式,根据一个或几个变量的值,预测或控制另一个变量的值,并且可以知道这种预测和控制可达到什么样的精确程度。另外,还可以进行因素分析。因此,回归分析是一种应用极为广泛的数量分析方法。,.,26,2、回归分析的一般步骤 (1)确定回归方程中的解释变量(自变量)和被解释变量(因变量)。 (2)确定回归模型。 (3)建立回归方程。 (4)对回归方程进行各种检验。 (5)利用回归方程进行预测。 利用SPSS进行回归分析时,应重点关注上述过程中第一步和最后一步,至于中间各步,SPSS会自动进行计算并给出最佳的模型。,.,27,(二)线性回归模型1、一元线性回归模型一元线性回归模型是指只有一个解释变量的线性回归模型,用于揭示被解释变量与另一个解释变量之间的线性关系。数学模型是: (7.9) 式(7.9)中 为解释变量; 为被解释变量; 为截距,即常量; 为回归系数,表明解释变量对被解释变量的影响程度; 为随机误差。公式表明:被解释变量的变化可由两部分来解释,第一部分由解释变量的变化引起的 的线性变化部分;第二部分由其他随机因素引起的 的变化部分。,.,28,用最小二乘法求解方程中的两个参数,得到:,.,29,2、多元线性回归方程多元线性回归方程是指含有多个解释变量的线性回归模式,用于揭示被解释变量与其他多个解释变量之间的线性关系。数学模型为: (7.12) 式(7.12)是一个 元线性回归模型,其中有 个解释变量。 、 、 、 分别称为回归常数和偏回归系数,为随机误差。公式表明:被解释变量的变化可由两部分来解释,第一部分由 个解释变量变化引起的 的线性变化部分;第二部分由其他随机因素引起的 的变化部分。,、,.,30,(三)线性回归方程的假设理论 德国数学家高斯提出5 个假设理论,即正态性假设、等方差假设、独立性假设、无自相关性假设、 与 的不相关性。满足这些假设的线性回归模型称为古典线性模型: (四)线性回归分析的数据要求 1、解释变量与被解释变量应该是数值型变量,分类变量应重新编码为哑变量或其他类型的对比变量。 2、被解释变量的分布必须是正态的,被解释变量的方差分布必须是一个常数。被解释变量和每一个解释变量变量的关系必须是线性关系,所有的观察量必须是相互独立的。,.,31,二、线性回归方程的统计检验(一)回归方程的拟合优度检验 回归方程的拟合优度检验就是要检验样本数据点聚集在回归直线周围的密集程度,从而评价回归方程对样本数据的代表程度。我们知道,被解释变量各个观察值之间的差异主要是由解释变量的不同取值和其他因素造成的。用公式表示为: (7.13) (7.14) 从式(7.14)中可以看出,当所有样本点都落在回归直线上,回归方程的拟合优度一定是最高的。拟合优度的统计量正是基于这种基本思想构造出来的。,.,32,1、一元线性回归方程的拟合优度检验 在判定一个线性回归直线的拟合优度的好坏时,判定系数系数是一个重要的判定指标。判定系数等于回归平方和在总平方和中所占的比率,即体现了回归模型所能解释的被解释变量变异性的百分比。计算公式为: = (7.15),.,33,2、多元线性回归方程的拟合优度检验 在多元线性回归方程中采用调整的 作为拟合优度检验指标,计算公式为:Adjusted = (7.16),.,34,(二)回归方程的显著性检验 回归方程的显著性检验是检验被解释变量与所有解释变量之间的线性关系是否显著,是否可以用线性模型来描述被解释变量和解释变量之间的关系。 回归方程显著性检验的基本出发点与拟合优度检验非常相识。,.,35,1、一元线性回归方程的显著性检验 一元线性回归方程显著性检验的原假设是:回归系数与零无显著差异。 一元线性回归方程显著性检验采用 统计量,计算公式为: (7.17) SPSS将自动计算 统计量及相伴概率 值。如果相伴概率值小于或等于给定的显著性水平 ,则拒绝原假设;如果相伴概率值大于给定的显著性水平,则不能拒绝原假设。,.,36,2、多元线性回归方程的显著性检验多元线性回归方程显著性检验的原假设是:所有偏回归系数同时与零无显著差异。 多元线性回归方程显著性检验采用 统计量,计算公式为: SPSS将自动计算 统计量及相伴概率 值。如果相伴概率值小于或等于给定的显著性水平 ,则拒绝原假设;如果相伴概率值大于给定的显著性水平,则不能拒绝原假设。,.,37,通过上面的分析不难发现,回归方程的显著性检验和回归方程的拟合优度检验有异曲同工之处。回归方程的拟合优度越高,回归方程的显著性检验也会越显著。但应注意的是,回归方程的拟合优度检验实质上并非统计学的统计检验问题,它不涉及统计检验的一系列步骤,因此,回归方程的拟合优度检验本质上仅仅是一种刻画性的描述,不涉及对解释变量和被解释变量总体线性关系的推断,而这恰恰是回归方程显著性检验所要实现的目标。,.,38,(三)回归系数的显著性检验 回归系数的显著性检验的主要目的是研究回归方程中的每个解释变量与被解释变量之间是否存在显著的线性关系,也就是研究每个解释变量能否有效地解释被解释变量的线性关系,它们能否应保留在线性回归方程中。 回归系数显著性检验是围绕回归系数(或偏回归系数)估计值的抽样分布展开的,由此构造服从某种理论分布的检验统计量,并进行检验。,.,39,1、一元线性回归方程的回归系数显著性检验 一元线性回归方程的回归系数显著性检验的原假设是:回归系数与零无显著差异。 回归系数显著性检验一般采用 检验的方法,其计算公式为: (7.19) SPSS在自动计算回归系数的 值后,会给出相伴概率值。如果相伴概率值小于或等于给定的显著性水平 ,则拒绝原假设;如果相伴概率值大于给定的显著性水平,则不能拒绝原假设。,.,40,2、多元线性回归方程的回归系数显著性检验 一元线性回归方程的回归系数显著性检验的原假设是:第 个偏回归系数与零无显著差异。 回归系数显著性检验一般采用 检验的方法,其计算公式为: (7.21) SPSS在自动计算每个回归系数的 值后,会给出相伴概率 值。如果相伴概率值小于或等于给定的显著性水平 ,则拒绝原假设;如果相伴概率值大于给定的显著性水平,则不能拒绝原假设。,.,41,在一元线性回归分析中,回归方程显著性检验和回归系数显著性检验的作用是相同的,两者可以相互替代。同时,回归方程显著性检验中统计量恰好等于回归系数显著性检验中统计量的平方。 多元线性模型中,回归方程显著性检验与回归系数显著性检验的作用不尽相同。回归方程显著性检验只能检验所有偏回归系数是否同时为零。回归系数显著性检验对每个偏回归系数是否为零进行逐一考察。因此,多元线性回归方程中的这两种检验不能互相替代。,.,42,(四)回归方程的残差分析 所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距。它是回归模型中的估计值,由多个形成的序列称为残差序列。数学表达式为: (7.23) 残差分析是回归方程检验中的重要组成部分,其出发点是:如果回归方程能够较好地反映被解释变量的特征和变化规律,那么残差序列中应不包含明显的规律性和趋势性。残差分析正是基于这种考虑并围绕对残差的检验展开,主要任务有以下四个方面。,.,43,1、残差均值为0的正态性分析 残差均值为0的正态性分析,又名残差的正态性检验。 对于残差序列的正态性分析,我们可以通过绘制残差图对该问题进行分析。残差图也是一种散点图,图中一般横坐标是解释变量(也可以是被解释变量的预测值),纵坐标为残差。如果残差的均值为0,残差图中的点应在纵坐标为0的横线上下随机散落。我们还可以通过绘制标准化(或学生化)残差序列的带正态曲线的直方图或累计概率图来分析。,.,44,2、残差序列的独立性分析 在对回归模型的诊断中,需要诊断回归模型中的误差序列的独立性。残差独立性分析可以通过以下三种方式实现:(1)绘制残差序列的序列图。 在直角坐标系中,常以预测值 为横轴,以 与 之间的误差(或学生式残差值)为纵轴,绘制残差的散点图。如果散点图呈现出明显的规律性,则认为存在自相关性,或者存在非线性、非常数方差的问题。 利用残差图还可以判断模型拟合效果。,.,45,(2)计算残差的自相关系数。 自相关系数是一种测度序列自相关强弱的工具,数学定义为: 自相关系数的取值范围在-1和+1之间,接近于1表明序列存在正自相关,接近-1表明序列存在负自相关。,.,46,(3) (Durbin-Watson)检验 检验是推断是否存在自相关的统计检验方法。其原假设是:总体的自相关系数与零无显著差异。采用的检验统计量是 统计量。 (7.25) 的取值范围是04,它的统计学意义如下: =0时,残差序列存在完全正自相关; 2时,残差与解释变量互为独立,即残差不存在自相关; 2时,相邻两点的残差为正相关; 2时,相邻两点的残差为负相关; =4时,残差序列存在完全负自相关。,.,47,3、异方差分析 异方差分析即方差齐性检验。异方差分析可以通过以下两种方式实现: (1)绘制残差图 一般用绘制被解释变量预测值与学生式残差的散点图来检验,残差应随机地分布在一条穿过零点的水平直线的两侧。 (2)等级相关分析 得到残差序列后首先对其取绝对值,然后分别计算出残差和解释变量的秩,最后计算Spearman等级相关系数,并进行等级相关分析。如果等级相关分析中检验统计量的概率值小于给定的显著性水平,应拒绝等级相关分析的原假设,认为解释变量与残差间存在显著的相关关系,出现了异方差现象。,.,48,4、探测样本中的异常值和强影响点 异常值和强影响点是指那些远离远离均值的样本数据点,它们对回归方程的参数估计有较大的影响,应尽量找出它们并加以排除。 (1)对被解释变量中影响点的探测方法有标准化残差(Dresid)、学生化残差(Sdresid)、剔除残差。 (2)对解释变量中影响点的探测方法有杠杆值、库克距离(Cook距离)、标准化回归系数的变化和标准化预测值的变化。,.,49,三、共线性分析 (一)解释变量的筛选方法 如果某些解释变量彼此相关,即存在共线性问题,就需要对回归方程中的解释变量加以控制和筛选。在多元线性回归时,变量的筛选一般有向前引入法、向后剔除法和逐步引入-剔除法三种基本方法。 1、向前引入法(Forward):指解释变量由少到多一个一个引入回归方程,直到不能按检验水准引入新的变量为止。 2、向后剔除法(Backward):指解释变量由多到少一个一个从回归方程中剔除,直到不能按检验水准剔除为止。 3、逐步引入-剔除法(Stepwise):是指将向前引入法和向后剔除法结合起来,在向前引入的每一步之后都要考虑从已引入方程的变量中剔除作用不显著者。,.,50,(二)解释变量间多重共线性的测度 1、解释变量的容忍度(Tolerance) 某解释变量的容忍度定义为: ,取值范围在0至1之间,如果某解释变量的容忍度较大,一方面说明该解释变量对被解释变量变差的解释关系能力较强,另一方面也说明该解释变量与其他解释变量的相关性越弱,即多重共线性较低,应将其引入回归方程。 2、方差膨胀因子(VIF) 方差膨胀因子是容忍度的倒数,其值介于1-之间。其值越大,解释变量之间存在共线性的可能性越大。,.,51,3.特征根(Eigenvalues) 特征根中,如果最大特征根的值远远大于其他特征根的值,则说明这些解释变量间具有相当多的重叠信息,原因是仅通过这一个特征根就基本刻画了所有解释变量的绝大部分信息。 4.方差比(Variance Proportions) 如果某个特征根既能够刻画某解释变量方差的较大部分比例,同时又可以刻画另一个解释变量方差的较大部分比例,则表明这两个解释变量间存在较强的线性相关关系。 5.条件指数(Condition Index) 条件指数是最大的特征根与第个特征根比的平方根。其值越大,说明解释变量间的多重共线性越严重。,.,52,(三)共线性问题的解决方法 共线性问题是建立回归模型过程中比较常见而又较难克服的问题,常用的方法有: (1)从有共线性问题的解释变量中剔除不重要的解释变量。 (2)增加样本量。 (3)重新抽取样本数据。不同样本的观察量的共线性是不一致的,所以重新抽取样本数据有可能减少共线性问题的严重程度。,.,53,四、线性回归分析在SPSS中的实现1、主对话框 (1) 建立或打开数据文件后,从Analyze Regression Linear,打开线性回归主对话框,如图7-8 所示。图7-8 线性回归主对话框,.,54,(2) 在左侧的源变量栏中选择被解释变量进入Dependent 栏中,选择一个或更多的解释变量进入Independent(s)栏中。 (3) 在Method(方法)选择框中确定一种建立回归方程的方法。有Enter(强迫引入法),Remove(强迫剔除法),Forward(向前引入法):Backward(向后剔除法) Stepwise(逐步引入一剔除法) 5 种方法可供选择。 (4) 根据一个设定的变量值选择参与回归分析的观察量,将作为参照的变量送入Selection variable(选择变量)框中。 (5)在主对话框的Case Label 下面输入变量名,用其值作为观察量标签。 (6)单击WLS(Weight Least Squares)按钮,选择一个作为权重的变量进入WLS Weight框中。,.,55,2、Statistics(统计)对话框 单击“Statistics“按钮进入统计对话框,如图7-9所示。图7-9 输出统计量对话框,.,56,(1)Regression Coefficients栏,有关回归系数的选项。 Estimates复选项(默认选择项),输出回归系数的相关数据。 Confidence intervals复选项,输出每一个非标准化回归系数95%的可信区间或者一个方差矩阵。 Covariance matrix复选项,输出非标准化回归系数的协方差矩阵、各变量的相关系数矩阵。(2)与模型拟合及其拟合效果有关的选项 Model fit复选项(默认选择项):输出进入或从模型中剔除的变量;显示复相关系数、判定系数、调整 (Adjusted R Square)、 估计值的标准误以及方差分析表。 R squared change复选项,输出 、 、 。,.,57,Descriptives复选项,输出合法观察量的数量,变量的均值、标准差、相关系数矩阵及单尾检验显著性水平矩阵。 Part and partial correlations复选项,显示方程中各解释变量与被解释变量的零阶相关系数、偏相关系数和部分相关系数 Collinearity diagnostic复选项,显示各变量的容忍度、方差膨胀因子和共线性的诊断表。(3)Residuals栏,有关残差分析的选项。 Durbin-Watson复选项,输出Durbin-Watson统计量以及可能是异常值的观测量诊断表。 Casewise diagnostic复选项,对标准化残差进行诊断,判断有无奇异值。 Outliers outside standard deviations选项,显示标准化残差超过个标准差的奇异值。 All Cases选项,输出所有观测值的残差值。,.,58,3Plots对话框 单击“Plots”按钮,对话框如图7-10所示,选择要输出的图形。图7-10 Plots 图形对话框,.,59,(1) 散点图:可选择如下任何两个变量为纵轴变量与 横轴变量作图。可以选择的作图元素有:DEPENDENT(被解释变量)、*ZPRED(标准化预测值)、*ZRESID(标准化残差)、*DRESID(删除的残差)、ADJPRED(修正后预测值)、SRESID(学生化残差)、SDRESID(Student氏删除残差)。 (2) Standardized Residual Plots栏,选择输出标准化残差图。 Histogram复选项,输出标准化残差的直方图,并给出正态曲线。 Normal probality plot复选项,输出标准化残差的正态概率图(P-P 图),检查残差的正态性。 (3) Produce all partial plots复选项,输出每一个解释变量的残差相对于被解释变量残差的散点图。,.,60,4Save对话框单击“Save”按钮,对话框如图7-11所示。每项选择都会增加新变量到正在使用的数据文件中。图7-11 Save 保存新变量对话框,.,61,(1) Predicted Values栏,选择输出预测值。其中:Unstandardized复选项,预测值。Standardized复选项,标准化的预测值。Adjusted复选项,将一个观测值排除在回归方程之外时,它本身的预测值。S. E. of mean predictions复选项,预测值的均值标准误。 (2)Distances栏,即距离栏。包括Mahalanobis复选项,Cooks复选项,Leverage values复选项。 (3) Prediction Intervals,选择输出预测区间。其中,Mean复选项,预测区间高低限的平均值;Individual复选项,观测量预测值上、下限的间距。 (4) Residuals栏,输出残差值。其中Unstandardized 复选项,非标准化残差;Standardized复选项,标准化残差;Studentized复选项,学生化残差;Deleted复选项,剔除残差;Studentized Deleted复选项,学生化残差剔除。,.,62,(5)Influence Statistics栏,输出影响点的统计量。其中:DfBeta(s)复选项,因排除一个特定的观测值所引起的回归系数的变化值。Standardized DfBeta(s)复选项,标准化的DfBeta。fFit复选项,因排除一个特定的观测值所引起的预测值的变化量。Standardized DfFit复选项,标准化的DfFit值。Covariance Ratio复选项,协方差矩阵。 (6)在Save to New File栏,将回归系数保存到一个指定的文件中。 (7)在Export model information to XML file框中,将模型的信息输出到指定的文件中。,.,63,5Options对话框 单击“Option”按钮,打开Options 对话框,如图7-12 所示。图7-12 Options 对话框,.,64,(1) Stepping Method Criteria栏:设置变量引入模型或从模型剔除的判据。其中:Use probability of F选项,采用 检验的概率值作为判据。Use F value F选项,采用 值作为变量引入模型或从模型剔除的判据。 (2)Include constant in equation:线性回归方程中含有常数项。这是默认选项。 (3) Missing Value栏,缺失值的处理方法。其中,Exclude cases listwise:串列删除缺失值。Exclude cases pariwise:成对删除缺失值。Replace with mean:以变量的平均数代替缺失值。,.,65,第三节 曲线估计,一、曲线估计概述(一)曲线估计的概念 变量之间的非线性关系可以划分为本质线性关系和非本质线性关系。所谓本质线性关系是指变量关系形式上虽然是非线性关系,但可通过变量变换化为线性关系,并可最终进行线性回归分析建立线性模型,而曲线估是解决本质线性关系问题的。 另外,用户如果不能马上根据专业知识或是观测量数据本身的特点确定一种最佳模型,也可以利用曲线估计选择建立一个简单而又比较适合的模型。SPSS可完成表7-8中有关曲线拟合的功能。,.,66,.,67,SPSS曲线估计中,首先,在不能明确究竟哪种模型更接近样本数据时可在上述多种可选择的模型中选择几种模型;然后,SPSS自动完成模型的参数估计,并输出回归方程显著性检验的 值和概率 值、判定系数 等统计量;最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。另外,SPSS曲线估计还可以时间为解释变量,实现时间序列的简单回归分析和趋势外推分析。 (二)曲线估计的数据要求 1、解释变量与被解释变量应该是数值型变量。 2、模型的残差应该是任意并且呈现正态分布。,.,68,二、曲线估计在SPSS中的实现 1、建立或打开数据文件后,进入 Analyze RegressionCurve Estimation主对话框,如图7-14所示。图7-14 Curve Estimation 对话框,.,69,2、 在源变量框中选择一个或多个被解释变量,送入Dependent(s)框中。 3、在源变量框中选择解释变量,送入Independent框中,或者直接指定时间选项(time)作为解释变量。 4、在左侧源变量框中选择标示观测量的变量放入Case Labels框中。 5、在Models栏中选择一个或多个拟合模型,各模型解释如表7-10所示。 6、根据需要选择选项。其中:Include constant in equation:方程包含常数项,系统默认值。Plot models:绘制曲线拟合图,系统默认值。Display ANOVA Table:结果中显示方差分析表。,.,70,7、单击“Save”变量储存按钮,激活变量储存对话框。如图7-15所示。图7-15 Save 对话框,.,71,(1) Save variables,保存变量选项。点击一个或全部选项,可将相应的数值以新变量形式储存到数据库中。 (2) Predict Case:预测观测量。如果解释变量为时间变量,可以在该栏中指定一种超出当前数据时间序列范围的预测周期。其中:Predict from estimation period through last case选项:使用预先设定好的估计周期中的数据,求出所有观测量的预测值。Predict through选项:根据预先设定的周期,使预测值通过特定的数据、时间或者特定的观测量。 8、单击OK按钮提交运行。,.,72,谢谢!,