相关分析和线性回归分析.ppt
第七章 相关分析和线性回归分析,一、相关分析和回归分析概述,相关分析和回归分析都是分析客观事物之间关系的数量分析方法。客观事物之间的关系大致可以归纳为2类:函数关系:两事物之间一一对应的关系。统计关系:两事物之间的一种非一一对应的关系。统计关系可再进一步分为线性相关和非线性相关正相关:两个变量线性的相随变动方向相同。负相关:两个变量线性的相随变动方向相反。,事物之间的函数关系比较容易分析和测度,而统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强,有的关系弱,程度各异。相关分析和回归分析正是以不同的方式测度事物间统计关系的非常有效的工具。,二、相关分析,通过图形和数值两种方式,能够有效地揭示事物之间统计关系的强弱程度。散点图:将数据以点的形式画在直角平面上。(直观)相关系数,(二)散点图,含义简单散点图:生成一对相关变量的散点图重叠散点图:生成多对相关变量的散点图矩阵散点图:同时生成多对相关变量的矩阵散点图三维散点图:生产成三个变量之间的三维散点图,散点图的基本操作,简单散点图重叠散点图矩阵散点图三维散点图,练习,高校科研研究.sav:绘制课题总数与论文数的简单散点图,并分析它们之间的线性关系。绘制课题总数、投入科研经费以及论文数的矩阵散点图,并分析它们之间的线性关系。,相关系数,虽然散点图能够直观的展现变量之间的统计关系,但并不精确。相关系数以数值的方式精确的反映了两个变量间线性相关的强弱程度,利用相关系数进行变量间线性关系的分析通常需要完成以下两大步骤。计算样本相关系数r。(不同类型的变量应采用不同的相关系数指标,但他们的取值范围和含义都是相同的。)对样本来自的两总体是否存在显著的线性关系进行推断。,相关系数r,相关系数r的取值在-1+1之间。r0表示两变量存在正的线性相关关系;r0.8表示两变量之间具有较强的线性关系;r0.3表示两变量之间的线性关系较弱。,对样本来自的两个总体是否存在显著的线性关系进行推断,由于存在抽样的随机性和样本数量较少等原因,通常样本相关系数不能直接用来说明样本来自的两总体是否具有显著的线性相关性,而需要通过假设检验的方式对样本来自的总体是否存在显著线性相关进行统计推断。,基本步骤,提出零假设选择检验统计量:对不同类型的变量应采用不同的相关系数,对应也应采用不同的检验统计量。计算检验统计量的观测值和对应的概率P值。决策,Pearson 简单相关系数,用来度量定距型变量间的相关系数。积距相关分析,即最常用的参数相关分析,适用于双正态连续变量。,Spearman 等级相关系数,用来度量定序变量间的线性相关系数。该系数的设计思想与Pearson简单相关系数完全相同,只是应用的范围不一样。对数据没有严格的要求。,Kendall s系数,采用非参数检验方法用来度量定序变量的线性相关关系。对数据分布没有严格要求,适用于有序(等级)变量之间的关联程度。,前提:正态分布:皮尔逊积矩相关只适用于双元正态分别的变量。如果正态分布的前提不满足,两变量之间的关系可能属于非线性相关。样本独立性:被试必须来自于总体的随机样本,且被试之间必须相互独立。替换极值:变量中的极端如极值、离群值对相关系数的影响较大,最好加以剔除或代之以均值或中数。,(一)两两相关,练习,父母教养.sav:母亲对情感温暖的理解与过度保护之间的关系如何?父母教养.sav:父母亲对小孩的严厉惩罚有什么关系?并绘制出散点图。母亲的情感温暖理解、过度保护以及严厉惩罚的关系如何?,三、偏相关分析,相关分析中研究两事物之间的线性相关性是通过计算相关系数等方式实现,并通过对相关系数值的大小来判定事物之间的线性相关的强弱的。然而,就相关系数本身来讲,它未必是两事物线性相关强弱的真实体现,往往有夸大的趋势。,偏相关也称净相关,它在控制其他变量的线性影响的条件下分析两变量间的线性相关,所采用的工具是偏相关系数。控制变量数为1时,偏相关系数称为一阶偏相关;当控制两个变量时,称为二阶偏相关;当控制变量的个数为0时,偏相关系数称为零阶偏相关,也就是相关系数。,如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数。偏相关分析即衡量两变量之间的关系,使与这两变量有关的其他变量都保持不变。这样可以判断哪些自变量对因变量的影响较大。中介变量假设模型:两个变量相关显著的原因在于变量A通过中介变量影响了变量B。在排除了中介变量的效应后,两个变量的相关系数应为0。,步骤,计算样本的偏相关系数:反映两变量间偏相关的程度强弱如何。偏相关系数的取值范围及大小含义与相关系数相同。对样本来自的两总体是否存在显著的净相关进行推断。,练习,高校科研研究.sav:高级职称的人年数可能是共同影响课题总数和发表论文数的变量,希望考察控制高级职称的人年数的影响后,课题总数和发表论文数之间的关系。教养方式.sav:父亲对情感温暖的理解是否成为父亲惩罚严厉以及拒绝否认的中介变量?,线性回归分析,回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确把握变量受其他一或者多个变量影响的程度,进而为控制和预测提供科学依据。,回归分析与相关分析的关系,二者均为研究两个或两个以上变量之间关系的方法。从广义上说,相关分析包括了回归分析。严格地说,二者有区别:回归分析是以数学方式表示变量间的关系,而相关分析则是检验或度量这些关系的密切程度。如果通过相关分析显示出变量间的关系非常密切,则通过所求得的回归模型可获得相当准确的推算值。若要分析变量间的密切程度,用相关分析;若研究的目的是确定变量之间数量关系的可能形式,找出表达它们之间依存关系的合适的数学模型,并用这个数学模型来表示这种关系形式,就用回归分析。,一些概念,回归:高尔顿回归线回归分析:研究事物之间统计关系的数量分析方法回归分析的核心目的是:找到回归线,涉及包括如何得到回归线、如何描述回归线、回归线是否可用于预测等问题。,获得回归线通常采用的两种方法,局部平均:样本足够大时函数拟合:模型拟合(广泛采用),回归分析的一般步骤,确定解释变量和被解释变量 由于回归分析用于分析一个事物是如何随着其他事物的变化而变化的,因此回归分析的第一步应确定哪个事物是需要被解释的,即哪个变量是被解释的变量(记为y),哪些事物是用于解释其他变量的,即哪些变量是解释变量(记为x)。回归分析是要建立y关于x的回归方程,并在给定x的条件下,通过回归方程预测y的平均值。,确定回归模型,根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来描述回归线。如果被解释变量与解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。,建立回归方程,根据收集到的样本数据以及前步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。,对回归方程进行各种检验,由于回归方程是在样本数据基础上得到的,回归方程是否真实的反映了事物总体间的统计关系以及回归方程是否能用于预测等都需要进行检验。,利用回归方程进行预测,建立回归方程的目的之一是根据回归方程对事物的未来发展趋势进行控制和预测。,步骤,确定解释变量和被解释变量确定回归模型建立回归方程对回归方程进行各种检验,线性回归模型,观察被解释变量y和一个或者多个解释变量xi的散点图,当发现y与xi之间呈现出显著的线性相关时,则应采用线性回归分析的方法,建立y关于xi的线性回归模型。根据模型中解释变量的个数,可将线性回归模型分为一元线性回归模型和多元线性回归模型,相应的分析称为一元线性回归分析和多元线性回归分析。,一元线性回归模型,只有一个解释变量的线性回归模型,用于揭示被解释变量与另一个解释变量之间的线性关系。数学模型:y0+1x+(0和1分别称为回归常数和回归系数,成为随机误差)在不考虑其他影响因素或在认为其他影响因素确定的条件下,分析一个解释变量是如何线性影响被解释变量的。,多元线性回归模型,多重线性回归方程:Y=0+1x1+2x2+pxp+a是常数,0,:回归常数,1p是偏回归系数。偏回归系数表示其他自变量假设不变时,某一个自变量变化而引起因变量变化的比率。若要比较各自变量对因变量的贡献,则要将原始数据分别转化为标准分数,以标准分数建立标准回归方程:ZY=1Zx1+2Zx2此时的是标准偏回归系数。,多元线性回归的条件,1、线性走势:自变量与因变量之间的关系是线性的。2、独立性:因变量的取值必须独立。3、正态性:就自变量的任何一个线性组合,因变量均服从正态分布。4、方差齐性:就自变量的任何一个线性组合,因变量的方差均相同。5、样本要求:样本数应当在希望分析的自变量数的20倍以上为宜。(逐步回归:样本个数/自变量个数40)6、必须是连续变量,多元回归方程中的自变量选择,1、强行进入法(enter),即一般所称的复回归分析法。强迫所有变量有顺序地进入回归方程。在研究设计中,如果研究者事先建立假设,决定变量的重要性层次,则应使用enter法比较合适。此法又称“层次式进入法”(hierarchical enter)。,2、后退法(Backward),将已纳入方程的变量按对因变量的贡献大小由小到大依次剔除,每剔除一个自变量,即重新检验每一自变量对因变量的贡献。3、前进法(Forward),对已纳入方程的变量不考察其显著性,直到方程外变量均达不到入选标准。4、强制剔除法(Remove)与后退法相同,只是筛选的是Block,5、逐步回归法(Stepwise),运用很广,报告中出现的几率最高。结合了前进法和后退法的优点。第一,模型中先不包含任何预测变量,与因变量相关最高者首先进入回归方程;第二,控制回归方程中的变量后,根据每个预测变量与因变量的偏相关的高低来决定进入方程的顺序;第三,已进入方程的自变量,每引入一个自变量,就对方程中的每一自变量进行显著性检验,若发现不显著,就剔除;每剔除一个自变量有也对留在方程中的自变量再进行显著性检验,再不显著,又剔除,直至没有自变量引入,也没有自变量剔除为止。,在选择回归的方法时,注意专业上的要求要先于统计学检验的准则。Hower(1987)建议:(1)应优先使用enter或stepwise。(2)使用enter时,可根据研究计划时的相关理论,决定变量投入的顺序。,回归方程的统计检验,通过样本数据建立回归方程后一般不能立即用于对实际问题的分析和预测,通常要进行各种统计检验,包括回归方程的拟合优度检验、回归方程的显著性检验、回归系数的显著性检验、残差分析等。,回归方程的拟合优度检验,检验样本数据点聚集在回归线周围的密集程度,从而评价回归方程对样本数据的代表程度。认为y各观测值的之间的差异主要由两个方面的原因造成:一是解释变量x取值的不同造成的;二是由于其他随机因素造成的。SST=SSA+SSE(回归平方和剩余平方和)若SSA所占的比例远大于SSE所占的比例,那么回归方程的拟合优度会比较高。,拟合优度检验采用R2统计量,该统计量称为判定系数或决定系数,它是SSA/SST反映因变量的全部变异中能够通过回归关系被自变量解释的比例,即检验回归的效果如何。如果自变量的个数很多,有时要以调整后的决定系数代替原先的决定系数。因为增加新的自变量会使决定系数增大,这种决定系数会有高人为控制的机制在内,此时用调整后的决定系数更好。,回归方程的显著性检验,线性回归方程能够较好地反映被解释变量和解释变量之间统计关系的前提应是,被解释变量和解释变量之间确实存在显著的线性关系。回归方程的显著性检验正是要检验被解释变量与所有解释变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当。基本出发点与拟合优度检验非常相似。检验采用F统计量。,回归系数的显著性检验,主要目的是研究回归方程中的每个解释变量与被解释变量之间是否存在显著的线性关系,也就是研究解释变量能够有效地解释被解释变量的线性变化,他们能够保留在线性回归方程中。是围绕回归系数估计值的抽样分布展开的,由此构造服从某种理论分布的检验统计量,并进行检验。,t统计量:在一元线性回归分析中,回归方程显著性检验和回归系数显著性检验的作用是相同的,两者可以相互代替,同时回归方程显著性检验中Ft2。但在多元线性回归中的这两种检验通常不能互相替代。,残差分析,所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距。残差分析是回归方程检验中的重要组成部分,其出发点是,如果回归方程能较好地反映被解释变量的特征和变化规律,那么残差序列中应不包含明显的规律行和趋势性。残差分析的主要任务可大致归纳为,分析残差是否服从均值为0的正态分布、分析残差是否为等方差的正态分布、分析残差序列是否独立、借助残差探测样本中的异常值等。图形分析和数值分析是残差分析的有效工具。,如何看回归结果?,哪些自变量(我们选定)进入了回归方程对回归方程进行检验,看方程是否有意义看回归效果,R2,回归分析的三个重要指标,方差分析:F检验用于检验回归模型与数据的拟合程度。若F值显著,表明预测变量与指标变量之间存在很强的线性关系,也可以说回归方程显著。回归系数的显著性检验:若b显著,则表明预测变量与指标变量之间存在强线性相关。R2:解释回归平方和在总平方和中所占的比率,即解释回归的效果。,练习,利用线性回归分析研究高等院校人文社会科学研究中立项课题数是否受高级职称投入人年数、投入科研事业经费、专著数的影响。分析母亲对情感温暖的理解是否受到过度干涉、拒绝否认和惩罚严厉的影响。,虚拟变量,若某个自变量是分类变量,则须将分类变量转化为二进制虚拟变量(dummy variable),每个虚拟变量只代表2级(0,1),即某一属性出现时,虚拟变量取值为1,否则为0。设虚拟变量时,以一种取值作为对比水平(基础水平),若原自变量有几个水平,就应使用n-1个虚拟变量,实则虚拟变量代表的是同一变量的不同取值。,如性别变量有男或女两类,可将两个类别分别以两个0/1二值变量的形式重新编码。设置变量X1表示是否男,取1表示男,取0表示不是男。再设置变量X2表示是否女,取1表示是女,取0表示不是女。产生的回归方程中各虚拟变量回归系数的含义是,相对参照类,各个类对解释变量平均贡献的差,进而可进一步研究各类别间对被解释变量的平均贡献差异。,Collinearity diagnostics(共线性诊断),复共线问题(共线性,collinearity问题):由于自变量间的相关太高,造成回归分析之情境困扰。如果自变量间有共线性问题,表示一个预测变量是其他自变量的线性组合。若有严重的共线性存在,则模型的参数就不能完全被估计出来。,自变量间是否有共线性问题,可以由以下数据判断:,(1)VIF=5,存在复共线。所以在回归分析中,最好先做个相关分析,以探讨变量间的相关情形,如果某些变量间的相关系数太高,可考虑挑选一个较重要的变量投入回归分析。(2)容忍度tolerance=1-R2,其中R2是此自变量与其他自变量间的多元相关系数的平方。容忍度界于0和1之间,如果一个自变量的容忍度太小,表示此变量与其他自变量间有共线性问题;其值若接近0,表示此变量几乎就是其他变量的线性组合。,(3)条件指针(condition index,CI),CI 越大,越有共线性问题。Eigenvalue condition index(k)若k2=100表示存在复共线,若k2=1000,表示存在严重的复共线。关于复共线问题,也有说法,即认为若torrence降至0.5以下,而VIF 上升到2.0以上,就应检查自变量是否为自相关。,上机练习,母亲的受教育程度和职业状况与母亲的情感温暖的理解有什么关系?请根据相关分析的进行分析。年均可支配收入和年人均消费支出是否对教育支出有影响?请用回归分析的结果建立关于教育支出的回归模型。,五、路径分析,路径分析又称“结构方程模型”(structural equation models,SEM)或“同时方程检验模型”(simultaneous equation models),因为它同时让所有预测变量进入回归模型。,路径分析的基本步骤,1、根据相关理论与文献资料,建立一个可以检验的初始模型,并绘出一个没有路径系数的路径图(path diagram)。路径图中的因果关系用箭头表示,箭头指向的是“果”(因变量),箭头起始处是“因”(自变量)。对多重回归分析来说,箭头所指的变量为回归方程的因变量,箭头起始处为回归方程的预测变量。在设计因果关系时,要有相应的理论背景。因果模型结构的初始图中通常包括直接效果和间接效果。在直接效果中如果路径系数达到显著,表示两个变量间有直接因果关系存在;在间接效果中如果路径系数达到显著,表示两个变量间有间接的因果关系存在。间接效果的影响路径是多元的,并不是每个中间变量的影响都会达到显著。,2、选用适当的回归模型(通常用enter法),来估计路径系数并检验其是否显著。在路径分析中,选用的分析方法是多重回归分析,而“路径系数”就是回归方程中的“标准化偏回归系数”。复回归中让所有预测变量同时进入回归方程,再由每个变量的t值的大小与机率值检验beta值的影响是否显著。,3、评估理论模型,可删除不显著的路径系数,重新计算新模型的路径系数。在删除部分影响路径后,会成为一种“约束模型”(restrict model),由于预测变量数的改变,路径系数也会跟着改变,因而要重新进行复回归分析。,验证研究路径图,数学焦虑,数学态度,数学成绩,数学投入动机,此研究图,要进行三个复回归,(1)因变量为数学成绩,预测变量为数学焦虑、数学态度、数学投入动(2)目标变量为数学学习态度,预测变量为数学焦虑、数学学习投入动机(3)目标变量为数学学习投入动机,预测变量为数学焦虑。,练习,母亲情感温暖的理解,过度干涉,心理健康,拒绝否认,曲线估计,变量间相关关系的分析中,变量之间的关系并不总是表现出线性关系,非线性关系也是极为常见的,通过绘制散点图的方式可粗略考察这种非线性关系。对于非线性关系通常无法直接通过线性回归来分析,无法直接建立线性模型,变量之间的非线性可以划分为本质线性关系和本质非线性关系。,所谓本质线性关系是指变量关系形式上虽然是呈非线性关系(如,二次曲线),但可通过变换化为线性关系,并可最终通过线性回归分析建立线性模型。本质非线性关系是指变量关系不仅形式上呈非线性关系,而且也无法通过变量变换化为线性关系,最终无法通过线性回归分析建立线性模型,曲线估计要解决的就是本质线性关系问题。,步骤,选择模型SPSS自动生成参数估计,并输出回归方程显著性检验的F值、p值、判定系数等统计量以判定系数为主要依据选择最优模型,并进行预测分析。,曲线估计(Curve Estimation),对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方便地进行线性拟合(liner)、二次拟合(Quadratic)、三次拟合(Cubic)等。采用哪种拟合方式主要取决于各种拟合模型对数据的充分描述(看修正Adjusted R2-1),操作,可通过绘制并观察样本数据的散点图粗略确定被解释变量和解释变量之间的相关关系,为曲线拟合中的模型选择提供依据。,练习,年人均收入和教育支出.sav:分析居民家庭教育支出和消费性支出之间的关系,二项Logistic回归,利用多元回归方法分析变量之间的关系或进行预测时的一个基本要求是,被解释变量应是连续定距变量。如课题数、教育支出实际应用中这种要求未必能够得到较好的满足。例如,要分析消费群体的特征对小车消费的影响中,职业、性别、年龄等并不是连续变量,不能满足回归分析的要求,且是个较普遍存在的问题。,Logistic 回归,Logistic 回归是多元线性回归方法不断发展的成果。其将被解释变量设置成“是”或者“否”:在现实中,经常需要判断一些事情是否将要发生,候选人是否会当选?为什么一些人易患冠心病?为什么一些人的生意会获得成功?此问题的特点是因变量只有两个值,不发生(0)和发生(1)。这就要求建立的模型必须因变量的取值范围在01之间。,Logistic回归模型,Logistic 模型:在逻辑回归中,可以直接预测观测变量相对于某一事件的发生概率。包含一个自变量的回归模型和多个自变量的回归模型公式:其中:z=B0+B1X1+BpXp(P为自变量个数某一事件不发生的概率为Prob(no event)1-Prob(event)。因此最主要的是求B0,B1,Bp(常数和系数),数据要求:因变量应具有二分特点。自变量可以是分类变量和定距变量。如果自变量是分类变量应为二分变量或被重新编码为指示变量。指示变量有两种编码方式。回归系数:几率和概率的区别。几率=发生的概率/不发生的概率。如从52张桥牌中抽出一张A的几率为(4/52)/(48/52)=1/12,而其概率值为4/52=1/13 根据回归系数表,可以写出回归模型公式中的Z。然后根据回归模型公式Prob(event)进行预测。,