《相关与回归分析》PPT课件.ppt
《《相关与回归分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《相关与回归分析》PPT课件.ppt(53页珍藏版)》请在三一办公上搜索。
1、相关分析与回归分析,返回总目录,相关分析,1.相关关系的概念及分类,(1)相关关系的概念,变量之间的依存关系可以分为函数关系和相关关系两种。函数关系是指变量之间保持着严格的依存关系,呈现一一对应的特征。而相关关系是指变量之间保持着不确定的依存关系。线性相关用于双变量正态分布的资料。体现相关程度的指标:相关系数 r(取值范围:-1 r 1),返回本章,2.相关关系的识别,(1)散点图,识别变量间相关关系最简单的方法就是图形法。图形法就是将所研究变量的观测值以散点的形式绘制在相应的坐标系中,通过它们呈现出的特征,来判断变量之间是否存在相关关系,以及相关的形式、相关的方向和相关的程度等。也可以用于发
2、现异常值。,典型的散点图,同向变化正相关,反向变化负相关,曲线相关/无线性相关,无伴随变化趋势,无伴随变化趋势,无伴随变化趋势,(2)相关系数,样本相关系数的计算公式:,分母:XY的协方差;分子:X的方差开根号 Y的方差开根号 样本相关系数是根据样本观测值计算的,随着取样的不同,相关系数的值也会有所变化。可以证明,样本相关系数是总体相关系数的一致估计量。,相关系数:衡量两个变量之间线性相关关系的重要指标,相关系数的特点:,相关系数的符号代表着变量间的相关方向,r0说明两个变量之间正相关,r0则表明两个变量之间负相关。相关关系的取值介于1和1之间,它的绝对值越接近于1,意味着变量之间的线性相关程
3、度越强。r1或r1时,说明两个变量之间完全线性相关,r0,说明两个变量之间不存在线性相关,r的绝对值介于0和1之间时,则说明两个变量之间存在一定程度的线性相关。,相关系数强度,两变量相关强度的强弱分以下几个等级:当|r|0.8,视为高度相关当 0.5|r|0.8,视为中度相关。当 0.3|r|0.5,视为低度相关。当|r|0.3,表明2个变量之间的相关程度极弱,在实际应用中可视为不相关。,相关系数的检验,提出假设:,计算 t 检验统计量:,返回本章,返回总目录,举例,举例:分析红细胞内铁含量与血红蛋白的关系。,SPSS实现-散点图,SPSS实现-散点图,SPSS实现-相关系数,正态性检验,正态
4、资料的用”pearson”;非正态选“spearman”,得出:相关系数 r=0.744双侧Pearson检验 P0.001,有统计学意义,可见,铁含量与血红蛋白相关。,相关分析注意事项,直线相关条件:变量是正态分布的随机变量。应用直线相关注意事项:必需有实际意义 Pearson 相关系数 相关分析中变量X、Y 服从双变量正态分布 散点图的作用 分层资料 对相关的解释:,线性回归分析,1.回归分析概述,(1)回归分析的概念,在相关分析确定了变量之间相关关系的基础上,采用一定的计算方法,建立起变量间数量变动关系的公式,并根据一个变量的变化来估计或预测另一个变量发展变化的研究方法,就是回归分析。基
5、本思想:使样本点到回归直线的纵向距离的平方和最小。(点都在线上,距离的平方和=0最好-完全相关),返回本章,回归分析和相关分析都是对变量之间不严格依存关系的分析,在理论基础和方法上具有一致性。只有存在相关关系的变量才能进行回归分析,相关程度越高,回归分析结果越可靠。方向一致:一组数据得出的b和r,符号一致。假设检验等价:对于同一个样本,假设检验得到的tb和 tr值相等回归可以解释相关:决定系数r2=SS回/SS总,则r2就越接近1,说明相关性好。,返回本章,回归分析和相关关系之间的联系,回归分析和相关关系之间的区别,资料要求不同:线性相关要求两个变量X和Y服从双变量正态分布的随机变量 线性回归
6、要求Y是服从正态分布的随机变量,而X不一定。应用目的、意义不同:相关关系;数量关系。回归系数b表示X每增减一个单位时,Y平均改变b个单位;相关系数r说明具有线性关联的的两个变量间关系的密切程度与相关方向。计算方法不同:b=lxy/lxx,r=lxy/lxylxx取值范围不同:单位:b有量纲,受X、Y计量单位的影响;r无量纲,不受X、Y 计量单位的影响。,线性回归模型的前提条件,线性(linear)X与Y值之间线性趋势独立(independent)个体观察值间独立正态(normal)给定X,对应的Y服从正态分布等方差(equal variance)不同X所对应Y的方差相等,绘制散点图;计算相关系
7、数,研究设计;专业知识判断,正态性检验;正态概率P-P图残差图,X和Y的散点图残差图 正态性检验,线性回归的步骤,1.根据样本数据求得模型参数(0 1 2.m)的估计值(b0 b1 b2.bm),得到总体回归方程Y=0+1 X1+2 X2+.+m Xm 的估计值(参数估计:最常用最小二乘法)2.对回归方程及各自变量做假设检验;对方程的拟合效果及各自变量的作用大小做出评价(假设检验:回归方程,各个自变量),2.回归模型的建立,当变量之间存在显著的线性相关关系时,可以建立如下的线性回归模型来表述这种关系。总体线性回归模型为:,式中:,代表因变量的第i个观测值,代表自变量的第i个观测值,是模型的参数
8、(又称偏回归系数),偏回归系数1 2.m的意义:在其他变量取值不变的条件下,X每增加或减少一个单位时,Y的平均变化量。,线性回归模型参数的估计方法通常有两种:普通最小二乘法和最大似然估计法。最常用的是普通最小二乘法。最小二乘法的意义在于使 达到最小。出使估计值Y和实际观察值Y得残差平方和达到最小值,得到的 的两个公式为:,3.模型的检验,在回归模型估计出来以后,首先要对其进行一系列的检验,只有通过了检验的模型才能用于对总体变量的估计或预测。,(1)拟合优度的检验,决定系数:,因变量的样本观测值与其均值的离差称为总离差,记为。按其来源,总离差可以分解为两个部分:一是因变量的回归值与其样本均值之间
9、的离差,记为,它代表能够由回归方程所解释的部分,称为回归离差;二是样本观测值与回归值之间的离差,记为,它表示的是不能由回归方程解释的部分,称为剩余离差(残差)。,返回本章,决定系数是衡量自变量对因变量变动的解释程度的指标,它取决于回归方程所解释的 y 的总离差的百分比。决定系数的公式定义为:决定系数=SS回归/SS总校正决定系数(n为样本容量,k为自变量的个数)意义:用于衡量方程好坏的指标之一,只有有统计学意义的变量进入方程,Radj 才会增加,估计标准误差(SE),估计标准误差是回归模型(即估计值)与因变量观测值之间得平均平方误差。这个误差的值越小,说明估计值越接近真实值,回归模型的拟合度越
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关与回归分析 相关 回归 分析 PPT 课件
链接地址:https://www.31ppt.com/p-5587489.html