第3讲回归分析方差分析.ppt
回归分析,何 帆,主要内容,线性回归曲线回归,线性回归,线性回归,一、相关分析与回归分析共性:都是研究两变量之间的关系差异:,二、回归方程的数学模型,模型一元回归:用于分析两个变量之间的关系基本形式是:,二、回归方程的数学模型模型求解:最小二乘法,二、回归方程的数学模型模型多元回归:用于分析n个自变量和因变量y之间的关系基本形式,二、回归方程的数学模型模型求解:即要使得,分别对b0,b1,bn求导,并令其一阶导数为0,可求出各个系数,二、回归方程的数学模型估计标准误差 是估计y与对应观测值之间的离差平方和,三、回归方程的选择SPSS中可以提供多元回归分析,当有多个自变量时,不仅要求与因变量相关,且要求自变量之间彼此尽可能独立。SPSS中提供了五种选择:强制进入ENTER:进入“Enter”所选择的自变量将全部进入建立的回归方程中,该项为默认方式。强制退出REMOVE:后进入“Remove”将进入方程中的自变量同时剔除。,向前选择FORWARD:条件进入“Forward”根据“Options”对话框中的设置,在方程中每次加入一个变量,直至加入所有符合条件的变量为止。向后剔除BACKWARD:先进入“Backward”自变量框中所有的变量同时进入方程中,然后根据“Options”对话框中的设置,剔除某个变量,直到所建立的方程中不再含有可剔除的变量为止。逐步回归STEPWISE:逐步进入“Stepwise”根据“Options”对话框中的设置,在方程中加入或剔除单个变量直到所建立的方程中不再含有可加入或剔除的变量为止。,四、功能菜单菜单“Analyze-Regression-Linear”对话框设置因变量:“Dependent”栏设置自变量:“Independent(S)”框“Selection Variable”为控制变量输入栏。控制变量相当于过滤变量,即必须当该变量的值满足设置的条件时,观测量才能参加回归分析。,Regression Coefficients复选框组:定义回归系数的输出情况,选中Estimates可输出回归系数B及其标准误,t值和p值,还有标准化的回归系数beta;选中Confidence intervals输出每个回归系数的95%可信区间;选中covariance matrix会输出各个自变量的相关矩阵和方差、协方差矩阵。Residuals复选框组:用于选择输出残差诊断的信息,可选的有Durbin-Watson残差序列相关性检验、超出规定的n倍标准误的残差列表。Model fit复选框:模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优度的检验:R,R2和调整的R2,标准误及方差分析表。,R squared change复选框:显示模型拟合过程中R2、F值和p值的改变Descriptives复选框:提供一些变量描述,如有效例数、均数、标准差等,同时还给出一个自变量间的相关矩阵。Part and partial correlations复选框:显示自变量间的相关、部分相关和偏相关系数。Collinearity diagnostics复选框:给出一些用于共线性诊断的统计量,如特征根(Eigenvalues)、方差膨胀因子(VIF),散点图“DEPENDNT”因变量。“ZPRED”标准化预测值。“ZRESID”标准化残差。“DRESID”删除残差。“ADJPRED”修正后预测值。“SRESID”学生氏化残差。“SDRESID”学生氏化删除残差。“Standardized Residual Plots”设置各变量的标准化残差图形输出。其中共包含两个选项:“Histogram”用直方图显示标准化残差。“Normal probability plots”比较标准化残差与正态残差的分布示意图。“Produce all partial plot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。,SAVE按钮“Predicted Values”预测值栏选项:Unstandardized 非标准化预测值。在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回归模型拟合的预测值。Standardized 标准化预测值。Adjusted 调整后预测值。S.E.of mean predictions 预测值的标准误。“Distances”距离栏选项:Mahalanobis:距离。Cooks”:Cook距离。Leverage values:杠杆值。“Prediction Intervals”预测区间选项:Mean:区间的中心位置。Individual:观测量上限和下限的预测区间。,“Save to New File”保存为新文件:选中“Coefficient statistics”项将回归系数保存到指定的文件中。“Export model information to XML file”导出统计过程中的回归模型信息到指定XML文件。“Residuals”保存残差选项:“Unstandardized”非标准化残差。“Standardized”标准化残差。“Studentized”学生氏化残差。“Deleted”删除残差。“Studentized deleted”学生氏化删除残差。“Influence Statistics”统计量的影响。“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。“Standardized DfBeta(s)”标准化的DfBeta值。“DiFit”删除一个特定的观测值所引起的预测值的变化。“Standardized DiFit”标准化的DiFit值。“Covariance ratio”删除一个观测值后的协方差矩阵的行列式和带有全部观测值的协方差矩阵的行列式的比率。,设置回归分析的一些选项,有:Stepping Method Criteria单选钮组:设置纳入和排除标准,可按P值或F值来设置。Include constant in equation复选框:用于决定是否在模型中包括常数项,默认选中。Missing Values单选钮组:用于选择对缺失值的处理方式,可以是不分析任一选入的变量有缺失值的记录(Exclude cases listwise)而无论该缺失变量最终是否进入模型;不分析具体进入某变量时有缺失值的记录(Exclude cases pairwise);将缺失值用该变量的均数代替(Replace with mean)。,五、实例分析考察Employee data.sav文件中,当前工资水平与过去工资,受教育年数,来公司工作时间、工种、来公司前的工作经验和是否为少数民族的线性模型。,结果分析,回归模型统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std.Error of the Estimate 估计标准误差。,方差分析表,F值为1622.118,显著性概率是0.000,表明回归极显著。,曲线回归,曲线回归的目标,选定某一用方程表达式的曲线,使得实际数据与理论数据之间的差异尽可能的小。,自变量与因变量的关系,注:本质线性关系又称为拟线性关系,可转换成线性关系,用最小二乘法的方法求出相关系数本质非线性关系不能转换成线性关系,仅能用迭代方法或分段平均值法求出,SPSS功能,本质线性关系Analyze-Regression-Curve Estimation本质非线性关系Analyze-Regression-NonLinear,变量关系的基本研究方法,做散点图,初步判断两变量的关系,曲线的形状从专业的知识分析,或长期积累的经验找出变量间的函数类型建立简单、适合的模型,SPSS中的11种拟线性模型,SPSS中的11种拟线性模型(续),曲线选择的一般准则,如果因变量的一阶差分(Yi-Yi-1)接近常数,用直线拟合如果因变量的二阶差分(Yi-Yi-1)-(Yi-1-Yi-2)接近常数,用抛物线拟合如果一阶差分倾向于按固定的百分比Yi/Yi-1减少,用修改指数曲线对数一阶差分接近常数,用拟合指数函数对数二阶差分接近常数,用拟合指数抛物线若倒数的一阶差分几乎按固定的百分比变化,用逻辑曲线,功能菜单,菜单Analyze-Regression-Curve Estimation,变量选择区,因变量,自变量,模型选择,Save 按钮,保存预报值,保存残差,保存预报区间,实例分析,数据Car.sav为有关汽车数据,试分析mpg(每加仑汽油行驶里程)与weight(车重)的关系?,实例分析步骤,先做散点图(Graphs-Scatter-Simple):weight(X)、mpg(Y),看每加仑汽油行驶里程数mpg(Y)随着汽车自重weight(X)的增加而减少的关系,也发现是曲线关系,实例分析步骤,建立若干曲线模型(可试着选用所有模型Models)Analyze-Regression-Curve EstimationDependent:mpgIndependent:weightModels:全选(除了最后一个逻辑回归)选Plot models:输出模型图形点击OK,结果分析,判定模型的优劣性:一般通过比较R square和“F”值的大小,R square值和“F”值越大,模型越优越。分析:比较各种模型的相关系数的平方值R square和F值,结果是复合模型(Compound)的 R square最大R2=0.70678方程为:mpg=60.15*0.999664weight说明:Growth和Exponential的结果也相同,也一样。,练习,对南瓜现货交易的收盘价进行曲线拟合,找出最佳拟合曲线。(使用时间作为自变量)数据见NG11.xls,方差分析,何 帆,本课主要内容,方差分析概述单因变量单因素方差分析单因变量多因素方差分析协方差分析,方差分析概述,一、问题的提出通过参数检验可以解决两两总体均值的比较.多个总体均值的检验如何作?(如:北京、上海、广州周岁儿童平均身高的比较)可多次采用两样本t检验方法实现可以利用方差分析的方法来实现,方差分析概述,二、方差分析目的方差分析是从数据间的差异入手,分析哪些因素是影响数据差异的众多因素中的主要因素.例如:影响某农作物亩产量的因素(品种、施肥量、气候等)影响推销某种商品的推销额(不同的推销策略、价格、包装方式、推销人员的形象等),方差分析基本原理,方差分析的前提:各样本相互独立各样本来自正态总体样本所属的总体方差相等,即方差齐性,方差分析基本原理,认为不同处理组的均值间的差别基本来源有两个:(1)随机误差:如抽取样本的随机性造成的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示,记作SSE(2)系统误差:由控制因素中不同水平造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和表示,记作SSA,方差分析基本原理(续),组内SSE、组间SSA除以各自的自由度(组内dfE=n-m,组间dfA=m-1,其中n为样本总数,m为组数),得到其均方MSE和MSA一种情况是处理没有作用,即各组样本均来自同一总体,MSE/MSA1。另一种情况是处理确实有作用,那么,MSA/MSE(远远大于1,足以超过某个临界值)。F=MSA/MSE,服从F分布。用F值与其临界值比较,推断各样本是否来自相同的总体.,方差分析的假设检验,零假设H0:m组样本均值都相同,即1=2=.=m如果经过计算结果组间均方远远大于组内均方(MSA MSE),FF0.05(dfA,dfE),p0.05不能拒绝零假设,说明样本来自相同的正态总体,处理间无差异。,F 分布曲线,F 分布曲线下面积与概率,方差分析过程,1、One-Way过程:单因素简单方差分析过程。在Compare Means菜单项中,可以进行单因素方差分析、均值多重比较和相对比较。2、General Linear Model(简称GLM)过程:GLM过程由Analyze菜单直接调用。这些过程可以完成简单的多因素方差分析和协方差分析,不但可以分析各因素的主效应,还可以分析各因素间的交互效应。,General Linear Model过程,简称GLM,在General Linear Model菜单项下有四项:Univariate:提供回归分析和一个因变量和一个或几个因素变量的方差分析。Multivariate:可进行多因变量的多因素分析Repeated Measure:可进行重复测量方差分析Variance Component:可进行方差成分分析。通过计算方差估计值,可以帮助我们分析如何减小方差。,单因变量单因素方差分析,也称为一维方差分析,对二组以上的均值加以比较。目的检验某一个控制因素的改变是否会给观察变量带来显著影响.例如:考察不同肥料对某农作物亩产量是否有显著差异.考察不同学历是否对工资收入产生显著影响.考察不同的推销策略是否对推销额产生显著影响.,单因变量单因素方差分析,基本思路(1)入手点:检验控制变量的不同水平下,各总体的分布是否存在显著差异,进而判断控制变量是否对观测变量产生了显著影响.(2)前提:不同水平下各总体服从方差相等的正态分布.(3)H0:不同水平下,各总体均值无显著差异.即:不同水平下控制因素的影响不显著.,单因变量单因素方差分析,基本思路(4)构造F统计量因为:总变差=组间差异+组内差异可证明:SST=SSA+SSE(设:k个水平)考察平均的组间差异与平均的组内差异的比值,于是,单因变量单因素方差分析,基本思路(5)结论:F值较大,F值的相伴概率 用户给定的显著性水平a,则不能拒绝H0,可以认为不同水平下各总体均值无显著差异.,应用实例,某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量(L)测定,问三组石棉矿工的用力肺活量有无差别?(数据:石棉肺患者肺活量.sav),功能菜单,方法一:使用功能菜单”Analyze-Compare means-One-Way ANOVA”进行分析,功能菜单,方法二:使用功能菜单”Analyze-General Linear Model-Univariate”进行分析点击该菜单,弹出对话框,Model按钮,用来指定模型类型,自定义模型形式,离差平方和,Plot按钮,Post Hoc按钮,选入用来做多个均值的比较因素,假定方差齐的方法,Option按钮,可以显示的内容,处理过程,假设 H0:三组石棉矿工的用力肺活量无差别 H1:三组石棉矿工的用力肺活量有差别操作方法,分析结果,方差齐性检验,方差分析表,方差分析的多元比较,思考:调查不同水稻品种百丛中稻纵卷叶螟幼虫的数量,数据如表所示。,分析水稻品种对稻纵卷叶螟幼虫抗虫性是否存在显著性差异。,单因变量多因素方差分析,当分析某一事物的变化原因,影响因素的不只一个,可能是多个因素影响着事物的变化方向和程度时,单因素方差分析就无能为力了例如水稻的产量与光照强度和施肥量是否都有关系,如何检验?可采用多因素方差分析方法,问题陈述,研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表1。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异。(a=0.05),表1 不同温度与不同湿度粘虫发育历期表,单因变量多因素方差分析,总的离差平方和可表示为SST=SSA+SSB+SS(AxB)+SSESSA:A因素产生的离差平方和SSB:B因素产生的离差平方和SS(AxB):A与B的交互作用产生的离差平方和SSE:抽样产生的随机差异,单因变量多因素方差分析,零假设:H0A:不同温度对粘虫发育历期无影响H0B:不同湿度对粘虫发育历期无影响H0(AxB):不同温度和湿度的交互作用对粘虫发育历期无影响,单因变量多因素方差分析,F检验:构造F统计量如下:,实例分析,研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表1。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异。(a=0.05),准备分析数据,在数据编辑窗口中输入数据。建立因变量历期“历期”变量,因素变量温度“A”,湿度为“B”变量,重复变量“重复”。然后输入对应的数值,如图。,功能菜单,点击主菜单“Analyze”项,在下拉菜单中点击“General Linear Model”项,在右拉式菜单中点击“Univariate”项,系统打开单因变量多因素方差分析设置窗口如图。,Model选择,在“Build Term(s)”栏右面的有一向下箭头按钮(下拉按钮),单击该按钮可以展开一小菜单,在下拉菜单中有如下几项选择:Interaction 选中此项可以指定任意的交互效应;Main effects 选中此项可以指定主效应;All 2-way 指定所有2维交互效应;All 3-way 指定所有3维交互效应;All 4-way 指定所有4维交互效应 All 5-way 指定所有5维交互效应。,结果分析,主效应方差分析表,A的主效应检验结果,B的主效应检验结果,AB的交互效应检验结果,温度因素不同水平的多重比较,协方差分析,在某些实际问题中,有些因素在目前还不能控制或难以控制。如在动物饲养试验中,各组动物所增加的平均体重不仅仅与各种饲料营养价值高低有关,还与各动物的进食量有关,甚至与各动物的初始重量等因素及其交互作用都有关系。如果直接进行方差分析,会因为混杂因素的影响而无法得出正确结论。,协方差分析,协方差分析(Analysis of Covariance)是将回归分析与方差分析结合起来使用的一种分析方法。基本思想:先将定量的影响因素看作自变量,或称为协变量(Covariate),建立因变量随自变量变化的回归方程,这样就可以利用回归方程把因变量的变化中受不易控制的定量因素的影响扣除掉,从而能够较合理地比较定性的影响因素处在不同水平下,经过回归分析手段修正以后的因变量的总体均数之间是否有显著性的差别.,问题陈述,某疾病治疗过程中,使用3种药物进行试验,分别测得治疗前后病菌的数量如“病菌的数量.sav”所示,如何分析3种药物的疗效是否有显著差异?,协方差分析,总的离差平方和可表示为SST=SSA+SSB+SSESSA:A因素产生的离差平方和SSB:B因素产生的离差平方和SSE:抽样产生的随机差异,协方差分析,零假设:H0A:不同药物对该病的治疗无显著差异H0B:治疗前的病菌数对治疗后的病菌数无显著的影响,协方差分析,F检验:构造F统计量如下:,数据录入,功能菜单,点击主菜单“Analyze”项,在下拉菜单中点击“General Linear Model”项,在右拉式菜单中点击“Univariate”项,系统打开单因变量多因素方差分析设置窗口如图。,结果分析,