回归与相关SPSS.ppt
回归分析,介绍:1、回归分析的概念和模型 2、回归分析的过程,回归分析的概念,寻求有关联(相关)的变量之间的关系主要内容:从一组样本数据出发,确定这些变量间的定量关系式对这些关系式的可信度进行各种统计检验从影响某一变量的诸多变量中,判断哪些变量的影响显著,哪些不显著利用求得的关系式进行预测和控制,2007.01,3,回归分析的过程,在回归过程中包括:Liner:线性回归Curve Estimation:曲线估计Binary Logistic:二分变量逻辑回归Multinomial Logistic:多分变量逻辑回归Ordinal 序回归Probit:概率单位回归Nonlinear:非线性回归Weight Estimation:加权估计2-Stage Least squares:二段最小平方法Optimal Scaling 最优编码回归,线性回归(Liner),一元线性回归方程:y=a+bxa称为截距b为回归直线的斜率估计系数a,b的方法:最小二乘法检验模型的方法:1、用R2判定系数判定一个线性回归直线的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例)2、检验系数b是否显著的不为零,即检验x与y的线性关系是否存在。,2007.01,6,检验问题等,对于回归系数b=0的检验:t检验对于拟合的F检验注:一元回归中t检验和F检验等价R2(决定系数)及修正的R2:判定一个线性回归直线的拟合程度(用来说明用自变量解释因变量变异的程度),2007.01,7,一元线性回归模型的确定:一般先做散点图(Graphs-Scatter-Simple),以便进行简单地观测(如:x与y的关系)若散点图的趋势大概呈线性关系,可以建立线性方程,若不呈线性分布,可建立其它方程模型,并比较R2(-1)来确定一种最佳方程式(曲线估计),2007.01,8,对两个变量的数据进行线性回归,就是要找到一条直线来最好地代表散点图中的那些点。,2007.01,9,多元线性回归方程:y=b0+b1x1+b2x2+bnxnb0为常数项b1、b2、bn称为y对应于x1、x2、xn的偏回归系数用Adjusted R2调整判定系数判定一个多元线性回归方程的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例)多元线性回归一般采用逐步回归方法-Stepwise,2007.01,10,1.直线回归分析分析Regression,例1 某医生为了探讨缺碘地区母婴TSH水平的关系,随机抽取10对数据如下,试求脐带血TSH水平y对母血TSH水平x的直线回归方程。,2007.01,11,n行2列(自变量、应变量),数据格式,2007.01,12,Analyze Regression Linear,检验步骤,2007.01,13,Linear Regression对话框,2007.01,14,Statistics对话框,2007.01,15,点击“OK”,运行结果,2007.01,16,结果输出,2007.01,17,统计描述,2007.01,18,相关系数及假设检验结果,2007.01,19,相关系数及决定系数,2007.01,20,回归方程的方差分析,2007.01,21,回归系数及其统计推断结果,标准化系数是指把原始数据进行标准化处理之后回归的结果。此时回归方程中常数项为零。,2007.01,22,回归系数及其统计推断结果,2007.01,23,回归系数及其统计推断结果,2023/10/28,相关分析,10.1 相关分析的概念和相关分析过程10.2 两个变量间的相关分析10.3 偏相关分析10.4 距离分析,2007.01,25,相关分析的概念,研究变量间密切程度的一种常用统计方法1、线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。(详见下面)2、偏相关分析:它描述的是当控制了一个或几个另外的变量的影响条件下两个变量间的相关性,如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系3、相似性测度:两个或若干个变量、两个或两组观测量之间的关系有时也可以用相似性或不相似性来描述。相似性测度用大值表示很相似,而不相似性用距离或不相似性来描述,大值表示相差甚远,2007.01,26,线性相关分析,研究两个变量间线性关系的程度。相关系数是描述这种线性关系程度和方向的统计量,用r表示。如果变量Y与X间是函数关系,则r=1或r=-1;如果变量Y与X间是统计关系,则-10,如果x,y变化的方向相反,如吸烟与肺功能的关系,则称为负相关,r0.95 存在显著性相关;|r|0.8 高度相关;0.5|r|0.8 中度相关;0.3|r|0.5 低度相关;|r|0.3 关系极弱,认为不相关,2007.01,27,线性相关分析(续),相关系数的计算有三种:Pearson、Spearman和KendallPearson相关系数:对定距变量的数据进行计算,Spearman和Kendall相关系数:对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值排(求)秩。,2007.01,28,2023/10/28,相关分析的SPSS过程,在Analyze+Correlate下的三个子菜单:1、Bivariate-相关分析,计算指定的两个变量间的相关关系,可选择Pearson相关、Spearman和Kendall 相关;同时对相关系数进行检验,检验的零假设为:相关系数为0(不相关)。给出相关系数为0的概率2、Partial-偏相关分析,计算两个变量间在控制了其他变量的影响下的相关关系,对相关系数也进行检验,检验的零假设为:相关系数为03、Distance-相似性测度,对变量或观测量进行相似性或不相似性测度,2023/10/28,两个变量间的相关分析,两两变量间的相关:包括两个连续变量间的相关(Pearson相关)和两个等级(分类)变量间的秩相关(Spearman和Kendall 相关)菜单:Analyze+Correlate+Bivariatea、连续变量间的相关:Pearson。P210 Data10-01:1962年1988年安徽省国民收入与城乡居民储蓄存款余额两个变量间的线性相关分析(income:国民收入,deposit:城乡居民储蓄存款余额,number:序号,year:年份)。比较有用的结果:Pearson相关系数r=.976和其相应的显著性概率Sig=.000(显然国民收入与存款余额之间是高度相关的)P211 Data07-03 银行职工的起始工资salbegin和现工资salary与雇员本人各方面条件的关系(年龄age、工作时间jobtime、以前工作经验prevexp):比较有用的结果:Pearson相关系数r和其相应的显著性概率Sig(Pearson相关系数均很小),2007.01,31,n行2列(自变量、应变量),2.直线相关分析Correlate数据格式,2007.01,32,Analyze Correlate Bivariate,检验步骤,2007.01,33,Bivariate Correlations对话框,2007.01,34,Options对话框,2007.01,35,点击“OK”,运行结果,2007.01,36,结果输出,2007.01,37,统计描述,2007.01,38,相关分析结果,2023/10/28,两个变量间的相关分析(续),b、等级(分类)变量间的秩相关:Spearman和Kendall。P212 Data07-03 银行职工的起始工资salbegin和现工资salary与雇员的职务等级jobcat、受教育程度educ关系(比较有用的结果:Kendall秩相关系数r和其相应的显著性概率Sig(Kendall秩相关系数均.5,认为中度相关)P213 Data10-02 某次全国武术女子前10名运动员长拳和长兵器两项得分数据,要求分析这两项得分是否存在线性相关(比较有用的结果:秩相关系数r和其相应的显著性概率Sig(秩相关系数均.5,认为中度相关),2007.01,40,3.等级相关分析Correlate,例某地做肝癌病因研究,调查了个乡的肝癌死亡率(万)与某种食物中黄曲霉毒素相对含量(以最高含量为)。试做等级相关分析。,2007.01,41,n行2列(自变量、应变量),数据格式,2007.01,42,Analyze Correlate Bivariate,检验步骤,2007.01,43,Bivariate Correlations对话框,2007.01,44,Options对话框,2007.01,45,点击“OK”,运行结果,2007.01,46,结果输出,2007.01,47,直线相关分析结果,2007.01,48,等级相关分析结果,