相关分析和线性回归分析.ppt
《相关分析和线性回归分析.ppt》由会员分享,可在线阅读,更多相关《相关分析和线性回归分析.ppt(73页珍藏版)》请在三一办公上搜索。
1、第七章 相关分析和线性回归分析,一、相关分析和回归分析概述,相关分析和回归分析都是分析客观事物之间关系的数量分析方法。客观事物之间的关系大致可以归纳为2类:函数关系:两事物之间一一对应的关系。统计关系:两事物之间的一种非一一对应的关系。统计关系可再进一步分为线性相关和非线性相关正相关:两个变量线性的相随变动方向相同。负相关:两个变量线性的相随变动方向相反。,事物之间的函数关系比较容易分析和测度,而统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强,有的关系弱,程度各异。相关分析和回归分析正是以不同的方式测度事物间统计关系的非常有效的工具。,二、相关分析,通过图形和数值两种方式,能够
2、有效地揭示事物之间统计关系的强弱程度。散点图:将数据以点的形式画在直角平面上。(直观)相关系数,(二)散点图,含义简单散点图:生成一对相关变量的散点图重叠散点图:生成多对相关变量的散点图矩阵散点图:同时生成多对相关变量的矩阵散点图三维散点图:生产成三个变量之间的三维散点图,散点图的基本操作,简单散点图重叠散点图矩阵散点图三维散点图,练习,高校科研研究.sav:绘制课题总数与论文数的简单散点图,并分析它们之间的线性关系。绘制课题总数、投入科研经费以及论文数的矩阵散点图,并分析它们之间的线性关系。,相关系数,虽然散点图能够直观的展现变量之间的统计关系,但并不精确。相关系数以数值的方式精确的反映了两
3、个变量间线性相关的强弱程度,利用相关系数进行变量间线性关系的分析通常需要完成以下两大步骤。计算样本相关系数r。(不同类型的变量应采用不同的相关系数指标,但他们的取值范围和含义都是相同的。)对样本来自的两总体是否存在显著的线性关系进行推断。,相关系数r,相关系数r的取值在-1+1之间。r0表示两变量存在正的线性相关关系;r0.8表示两变量之间具有较强的线性关系;r0.3表示两变量之间的线性关系较弱。,对样本来自的两个总体是否存在显著的线性关系进行推断,由于存在抽样的随机性和样本数量较少等原因,通常样本相关系数不能直接用来说明样本来自的两总体是否具有显著的线性相关性,而需要通过假设检验的方式对样本
4、来自的总体是否存在显著线性相关进行统计推断。,基本步骤,提出零假设选择检验统计量:对不同类型的变量应采用不同的相关系数,对应也应采用不同的检验统计量。计算检验统计量的观测值和对应的概率P值。决策,Pearson 简单相关系数,用来度量定距型变量间的相关系数。积距相关分析,即最常用的参数相关分析,适用于双正态连续变量。,Spearman 等级相关系数,用来度量定序变量间的线性相关系数。该系数的设计思想与Pearson简单相关系数完全相同,只是应用的范围不一样。对数据没有严格的要求。,Kendall s系数,采用非参数检验方法用来度量定序变量的线性相关关系。对数据分布没有严格要求,适用于有序(等级
5、)变量之间的关联程度。,前提:正态分布:皮尔逊积矩相关只适用于双元正态分别的变量。如果正态分布的前提不满足,两变量之间的关系可能属于非线性相关。样本独立性:被试必须来自于总体的随机样本,且被试之间必须相互独立。替换极值:变量中的极端如极值、离群值对相关系数的影响较大,最好加以剔除或代之以均值或中数。,(一)两两相关,练习,父母教养.sav:母亲对情感温暖的理解与过度保护之间的关系如何?父母教养.sav:父母亲对小孩的严厉惩罚有什么关系?并绘制出散点图。母亲的情感温暖理解、过度保护以及严厉惩罚的关系如何?,三、偏相关分析,相关分析中研究两事物之间的线性相关性是通过计算相关系数等方式实现,并通过对
6、相关系数值的大小来判定事物之间的线性相关的强弱的。然而,就相关系数本身来讲,它未必是两事物线性相关强弱的真实体现,往往有夸大的趋势。,偏相关也称净相关,它在控制其他变量的线性影响的条件下分析两变量间的线性相关,所采用的工具是偏相关系数。控制变量数为1时,偏相关系数称为一阶偏相关;当控制两个变量时,称为二阶偏相关;当控制变量的个数为0时,偏相关系数称为零阶偏相关,也就是相关系数。,如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数。偏相关分析即衡量两变量之间的关系,使与这两变量有关的其他变量都保持不变。这样可以判断哪
7、些自变量对因变量的影响较大。中介变量假设模型:两个变量相关显著的原因在于变量A通过中介变量影响了变量B。在排除了中介变量的效应后,两个变量的相关系数应为0。,步骤,计算样本的偏相关系数:反映两变量间偏相关的程度强弱如何。偏相关系数的取值范围及大小含义与相关系数相同。对样本来自的两总体是否存在显著的净相关进行推断。,练习,高校科研研究.sav:高级职称的人年数可能是共同影响课题总数和发表论文数的变量,希望考察控制高级职称的人年数的影响后,课题总数和发表论文数之间的关系。教养方式.sav:父亲对情感温暖的理解是否成为父亲惩罚严厉以及拒绝否认的中介变量?,线性回归分析,回归分析是一种应用极为广泛的数
8、量分析方法。它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确把握变量受其他一或者多个变量影响的程度,进而为控制和预测提供科学依据。,回归分析与相关分析的关系,二者均为研究两个或两个以上变量之间关系的方法。从广义上说,相关分析包括了回归分析。严格地说,二者有区别:回归分析是以数学方式表示变量间的关系,而相关分析则是检验或度量这些关系的密切程度。如果通过相关分析显示出变量间的关系非常密切,则通过所求得的回归模型可获得相当准确的推算值。若要分析变量间的密切程度,用相关分析;若研究的目的是确定变量之间数量关系的可能形式,找出表达它们之间
9、依存关系的合适的数学模型,并用这个数学模型来表示这种关系形式,就用回归分析。,一些概念,回归:高尔顿回归线回归分析:研究事物之间统计关系的数量分析方法回归分析的核心目的是:找到回归线,涉及包括如何得到回归线、如何描述回归线、回归线是否可用于预测等问题。,获得回归线通常采用的两种方法,局部平均:样本足够大时函数拟合:模型拟合(广泛采用),回归分析的一般步骤,确定解释变量和被解释变量 由于回归分析用于分析一个事物是如何随着其他事物的变化而变化的,因此回归分析的第一步应确定哪个事物是需要被解释的,即哪个变量是被解释的变量(记为y),哪些事物是用于解释其他变量的,即哪些变量是解释变量(记为x)。回归分
10、析是要建立y关于x的回归方程,并在给定x的条件下,通过回归方程预测y的平均值。,确定回归模型,根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来描述回归线。如果被解释变量与解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。,建立回归方程,根据收集到的样本数据以及前步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。,对回归方程进行各种检验,由于回归方程是在样本数据基础上得到的,回归方程是否真实的反映了事物总体间的统计关系以及回归方程是否能用于预测等
11、都需要进行检验。,利用回归方程进行预测,建立回归方程的目的之一是根据回归方程对事物的未来发展趋势进行控制和预测。,步骤,确定解释变量和被解释变量确定回归模型建立回归方程对回归方程进行各种检验,线性回归模型,观察被解释变量y和一个或者多个解释变量xi的散点图,当发现y与xi之间呈现出显著的线性相关时,则应采用线性回归分析的方法,建立y关于xi的线性回归模型。根据模型中解释变量的个数,可将线性回归模型分为一元线性回归模型和多元线性回归模型,相应的分析称为一元线性回归分析和多元线性回归分析。,一元线性回归模型,只有一个解释变量的线性回归模型,用于揭示被解释变量与另一个解释变量之间的线性关系。数学模型
12、:y0+1x+(0和1分别称为回归常数和回归系数,成为随机误差)在不考虑其他影响因素或在认为其他影响因素确定的条件下,分析一个解释变量是如何线性影响被解释变量的。,多元线性回归模型,多重线性回归方程:Y=0+1x1+2x2+pxp+a是常数,0,:回归常数,1p是偏回归系数。偏回归系数表示其他自变量假设不变时,某一个自变量变化而引起因变量变化的比率。若要比较各自变量对因变量的贡献,则要将原始数据分别转化为标准分数,以标准分数建立标准回归方程:ZY=1Zx1+2Zx2此时的是标准偏回归系数。,多元线性回归的条件,1、线性走势:自变量与因变量之间的关系是线性的。2、独立性:因变量的取值必须独立。3
13、、正态性:就自变量的任何一个线性组合,因变量均服从正态分布。4、方差齐性:就自变量的任何一个线性组合,因变量的方差均相同。5、样本要求:样本数应当在希望分析的自变量数的20倍以上为宜。(逐步回归:样本个数/自变量个数40)6、必须是连续变量,多元回归方程中的自变量选择,1、强行进入法(enter),即一般所称的复回归分析法。强迫所有变量有顺序地进入回归方程。在研究设计中,如果研究者事先建立假设,决定变量的重要性层次,则应使用enter法比较合适。此法又称“层次式进入法”(hierarchical enter)。,2、后退法(Backward),将已纳入方程的变量按对因变量的贡献大小由小到大依次
14、剔除,每剔除一个自变量,即重新检验每一自变量对因变量的贡献。3、前进法(Forward),对已纳入方程的变量不考察其显著性,直到方程外变量均达不到入选标准。4、强制剔除法(Remove)与后退法相同,只是筛选的是Block,5、逐步回归法(Stepwise),运用很广,报告中出现的几率最高。结合了前进法和后退法的优点。第一,模型中先不包含任何预测变量,与因变量相关最高者首先进入回归方程;第二,控制回归方程中的变量后,根据每个预测变量与因变量的偏相关的高低来决定进入方程的顺序;第三,已进入方程的自变量,每引入一个自变量,就对方程中的每一自变量进行显著性检验,若发现不显著,就剔除;每剔除一个自变量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 分析 线性 回归
链接地址:https://www.31ppt.com/p-5094533.html