09 第9章直线相关与回归(76页)免费下载.ppt
第9章 直线相关与回归,第1页,医 学 统 计 学,主讲 程 琮,泰山医学院预防医学教研室,医学研究生用,第9章 直线相关与回归,第2页,The teaching planfor medical students,Professor Cheng Cong,Dept.of Preventive Medicine Taishan Medical College,MEDICAL STATISTICS,第9章 直线相关与回归,第3页,医学统计学教授,硕士生导师。男,1959年6月出生。汉族,无党派。1982年12月,山东医学院公共卫生专业五年本科毕业,获医学学士学位。1994年7月,上海医科大学公共卫生学院研究生毕业,获医学硕士学位。2003年12月晋升教授。现任预防医学教研室副主任。主要从事医学统计学、预防医学,医学人口统计学等课程的教学及科研工作,每年听课学生600-1000人。自2000年起连续10年,为硕士研究生开设医学统计学、SPSS统计分析教程、卫生经济学等课程,同时指导研究生的科研设计、开题报告及科研资料的统计处理与分析。发表医学统计学及预防医学的科研论文50多篇。代表作有“锌对乳癌细胞生长、增殖与基因表达的影响”,“行列相关的测度”等。主编、副主编各类教材及专著10部,代表作有医学统计学、SPSS统计分析教程。获得院级科研论文及科技进步奖8项,院第四届教学能手比赛二等奖一项,院教学评建先进工作者一项。获2004年泰山医学院首届十大教学名师奖。医学统计学为校级和省级精品课程。,程琮教授简介,第9章 直线相关与回归,第4页,医学统计学目录,第1章 绪论第2章 定量资料的统计描述第3章 总体均数的区间估计和假设检验第4章 方差分析第5章 定性资料的统计描述第6章 总体率的区间估计和假设检验第7章 二项分布与Poisson分布第8章 秩和检验 第9章 直线相关与回归第10章 实验设计第11章 调查设计第12章 统计表与统计图,第9章 直线相关与回归,第5页,第9章 直线相关与回归 目录,第五节 曲线直线化,第二节 直线回归,第三节 相关回归分析注意问题,第四节 等级相关,第一节 直线相关,第9章 直线相关与回归,第6页,第9章 直线相关与回归 学习要求,掌握:直线相关与回归的概念及意义。掌握:直线相关与回归系数的适用条件、计算及检验方法。熟悉:直线相关与回归分析时应注意的问题。熟悉:等级相关的概念、意义、适用条件及计算方法。了解:曲线直线化的概念、意义及计算方法。,第9章 直线相关与回归,第7页,第一节 直线相关,相关的概念:两事物或现象在数量上的协同变化呈直线趋势时则称为直线相关(linear correlation),又称简单相关(simple correlation),用于分析双变量正态分布资料。表示两变量相关关系的重要指标就是相关系数。,第9章 直线相关与回归,第8页,相关系数(correlation coefficient)又称为积差相关系数,用符号r表示。它描述两变量间相关关系的密切程度和相关方向。其数值1r1,当r为正值时,表示一变量随另一变量的增加而增加称为正相关;当r为负值时,表示一变量随另一变量的增加而减少,称为负相关。当r愈接近1,表示两变量的相关愈密切;当r愈接近0时,表示两变量相关程度愈低;当r0时,称为零相关,表示两变量无直线相关关系,见示意图9-1。,一、相关系数的意义,第9章 直线相关与回归,第9页,一般认为,当样本含量较大的情况下(n100),大致可按下列标准估计两变量相关的程度 r0.7 高度相关 0.7r0.4 中度相关 0.4r0.2 低度相关,相关程度的判断,第9章 直线相关与回归,第10页,图9-1 相关系数示意,第9章 直线相关与回归,第11页,相关系数r的计算公式:,二、相关系数的计算,式中:lXX与lYY分别为变量X与Y的离均差平方和,lXY为两变量X、Y的离均差积和。,第9章 直线相关与回归,第12页,请牢记下列计算公式:,第9章 直线相关与回归,第13页,【例9.1】某研究者测量10名20岁男青年身高与前臂长。数据见表9-1。试分析:身高与前臂长有无直线相关关系?计算步骤:(1)由原始数据绘制散点图9-2,本资料呈直线相关趋势。,实例分析,第9章 直线相关与回归,第14页,计算步骤:(1)由原始数据绘制散点图9-2,本资料呈直线相关趋势。,绘制散点图,第9章 直线相关与回归,第15页,表9-1 身高与前臂长数据与计算表,第9章 直线相关与回归,第16页,(2)根据表9-1原始数据计算出X,Y,X2,Y2,XY。本例X1725,Y454,X2298525,Y220690,XY78541。(3)计算X、Y的离均差平方和与离均差积和,第9章 直线相关与回归,第17页,(4)求相关系数r,第9章 直线相关与回归,第18页,三、相关系数的检验假设检验r是否来自总体相关系数为零的总体。,第9章 直线相关与回归,第19页,t 检验法 t检验的计算公式,第9章 直线相关与回归,第20页,【例9.2】对例9.1资料所得r值,检验20岁男青年身高与前臂长是否有直线相关关系。(1)建立检验假设 H0:0,两变量间无直线相关关系 H1:0,两变量间有直线相关关系 0.05(2)计算t值 本例n=10,r=0.8227,按公式(9.5)和公式(9.6)计算t值,第9章 直线相关与回归,第21页,(3)确定P值,作出推断结论 按n-2=8,查t界值表,得 0.002P0.005,按0.05水准,拒绝H0,接受H1,故可认为20岁男青年身高与前臂长呈正直线相关关系。2.查表法(用于n50)查附表14,r界值表列出了相关系数r与0差别显著性的判断界值,按自由度n-2查r界值表,当rr,n-2时,则P;反之,r r,n-2 时,则P。本例r0.8227,大于r0.05(8)0.738,故P0.05。r值有意义。检验结果与t检验相同。,第9章 直线相关与回归,第22页,第二节 直线回归,回归(regression):反映两变量数量依存的关系,即指由一个变量推算另一个变量的数量关系。直线回归是回归分析中最基本最简单的一种,故又称简单回归(simple regression)。直线回归方程:反映回归关系的方程称为直线回归方程。,一、直线回归的概念,第9章 直线相关与回归,第23页,直线回归方程,式中:为应变量Y的估计值,a 为回归直线Y轴上的截距,b 为回归系数即回归方程的斜率。,第9章 直线相关与回归,第24页,求直线回归方程,关键在于计算a、b两个系数,根据数学上的最小二乘法原理即保证各实测点至回归直线的纵向距离的平方和最小。,二、直线回归方程的求法,第9章 直线相关与回归,第25页,【例9.3】利用例9.1资料,已知20岁男青年身高与前臂长之间存在直线相关关系。试计算:身高与前臂长的直线回归方程。,实例分析,第9章 直线相关与回归,第26页,(1)列回归系数计算表同表9-1,求出X,Y,XY,X2,Y2。本例:X=1725,Y=454,XY=78541,X2=298525,Y2=20690。前面已经计算出 lxx=962.5,lxy=226,计算步骤:,第9章 直线相关与回归,第27页,(3)求回归系数b和截距a,(4)列出回归方程 将求出的 a 和 b 代入公式(9.7)得,第9章 直线相关与回归,第28页,在自变量X的实测值范围,任意指定相距较远且易读的两个数值,代入直线回归方程,求出相应的Y的估计值,确定两点,用直线连接。如本例取X1=155,则;X2=185,则。在图上确定(155,41.291)和(185,48.335)两个点,直线连接,即得出直线回归方程的图形,,三、回归直线的绘制,第9章 直线相关与回归,第29页,图9-2 20岁男青年身高与前臂长散点图,第9章 直线相关与回归,第30页,t检验:回归系数b为样本回归系数,假设在总体回归系数=0的总体中抽样,得出样本的b不一定为0,因此需作总体回归系数是否为0的假设检验,常用t检验或方差分析。因方差分析计算较为繁琐不在此讲述。,四、回归系数的假设检验,第9章 直线相关与回归,第31页,Sb为回归系数的标准误,Syx为各观察值 Y 距回归直线的标准差,即剩余标准差;为剩余平方和,它反映X对Y的线性影响之外的因素对Y的变异作用。在散点图中,各实测点离回归直线越近,越小,说明直线回归的估计误差越小。,第9章 直线相关与回归,第32页,【例9.4】根据例9.3所得b值,检验身高与前臂长是否有直线回归关系。,实例分析,第9章 直线相关与回归,第33页,(1)建立检验假设 H0:=0,即身高与前臂长无直线回归关系 H1:0,即身高与前臂长有直线回归关系=0.05(2)计算t值 前面已经求得lXX=962.5,lXY=226,lYY=78.4,代入公式(9.13)有,假设检验步骤,第9章 直线相关与回归,第34页,(3)确定P值,作出推断结论 本例=10-2=8,查附表2,t界值表得t0.005(8)=3.833,现tt0.005(8),故P0.005。按=0.05的水准,拒绝Ho,接受H1,可认为20岁男青年身高与前臂长有直线回归关系。,第9章 直线相关与回归,第35页,(一)描述两变量间的依存关系 可用直线回归来描述。(二)利用回归方程进行预测 将X代入直线回归方程,可得到应变量Y的估计值。(三)利用回归方程进行统计控制 通过X取值来控制Y的变化。,五、直线回归方程的应用,第9章 直线相关与回归,第36页,作相关回归分析要有实际意义。不要把毫无联系的两种现象作相关回归分析。相关关系不一定是因果关系,也可能是伴随关系。在进行直线相关与回归分析之前,应先绘制散点图,当观察到点的分布呈直线趋势时,方可进行分析,如散点图呈曲线趋势,应进行曲线回归分析。,第三节 进行直线相关与回归分析时应注意的问题,第9章 直线相关与回归,第37页,4.直线相关与回归的区别 在资料需求上,相关分析要求两变量X与Y均为服从正态分布的随机变量,即两者都不能预先指定;回归分析要求Y是正态随机变量,而X可以不是正态随机变量而是一确定值,此时回归分析称为型回归,X也可以是正态随机变量,此时回归分析称为型回归。在意义上,相关反映两变量的相关关系;回归反映两变量间的依存关系。在应用上,说明两变量间的相关程度及相关方向用相关;说明两变量间的依存变化的数量关系用回归。,第9章 直线相关与回归,第38页,5.相关与回归的联系 在同一组数据,相关系数r与回归系数b的符号一致。同一组数据,r与b的假设检验是等价的,即tr=tb。因r的假设检验可直接查表,较为简便,故可代替b的假设检验。6.回归方程的应用:一般只适用于自变量X的原始数据范围内,不能任意外延。因为超出这个范围,X与Y就不一定仍然呈线性关系。,第9章 直线相关与回归,第39页,7.同一组资料由X推Y和由Y推X的直线回归方程是不同的。,由X推Y:回归系数,回归方程,截 距,第9章 直线相关与回归,第40页,8.建立回归方程的条件:包括时间、地点、方法、测量仪器等一旦改变,原回归方程就不宜继续使用。,第9章 直线相关与回归,第41页,第四节 等级相关,等级相关(rank correlation)亦称为秩相关。是对数据编排秩次后对秩次计算相关系数。常用的Spearman等级相关法。应用条件:当遇到有些资料并不呈正态分布,对于此类资料就不宜用上述所讲的直线相关与回归分析,而常用等级相关处理资料。适用于分布类型不明的资料、偏态分布资料和等级资料的相关分析。,第9章 直线相关与回归,第42页,先将 X、Y 分别由小到大列出等级,然后编秩次,数字相同时需要求平均等级;求出每一对 X、Y 的等级之差 d 值;按下列公式计算等级相关系数 rs,式中:rs 为等级相关系数,d2 为等级之差的平方。n 为样本含量。,分析步骤如下,第9章 直线相关与回归,第43页,4.确定P并判断结果:根据n,查附表15,rs界值表,确定P值。如rs r,n,则P,说明X、Y两变量相关有统计学意义;如rs,说明X、Y两变量相关无统计学意义。,第9章 直线相关与回归,第44页,【例9.5】在肝癌病因研究中,某地调查了10个乡肝癌死亡率(1/10万)与某种食物中黄曲霉毒素相对含量,见表9-2。试分析黄曲霉毒素相对含量与肝癌死亡率有无相关的关系。,实例分析,第9章 直线相关与回归,第45页,表9-2 黄曲霉毒素相对含量与肝癌死亡率,第9章 直线相关与回归,第46页,(1)建立检验假设 H0:s=0,即黄曲霉毒素相对含量与肝癌死亡率无相关关系 H1:s0,即黄曲霉毒素相对含量与肝癌死亡率有相关关系=0.05,分析步骤(1),第9章 直线相关与回归,第47页,(2)编秩次 先将X值由小到大依序排列,再将两变量 X、Y 的数值分别由小到大编秩次,如有相同数值求平均秩次,列于表第(3)栏和第(5)栏。(3)求秩次之差d 和 d2 列于表第(6)栏和第(7)栏。(4)计算等级相关系数rs 将表9-2中数据代入公式(9.14)有,分析步骤(2),第9章 直线相关与回归,第48页,(5)确定P值 查附表15,rs 界值表,n=10,r0.05,10=0.648,现rs=0.7455 r0.05,10=0.648,故P0.05。(6)推断结论 在=0.05水准上,拒绝 H0,接受H1。结论:可认为黄曲霉毒素相对含量与肝癌死亡率之间存在正相关关系。,分析步骤(3),第9章 直线相关与回归,第49页,第五节 曲线直线化,曲线拟合:求曲线回归方程的过程及方法叫曲线拟合。医学上常见的曲线类型有:指数曲线、对数曲线、双曲线、抛物线和“S”型曲线等。曲线直线化:在医学研究中,有时两种变量间呈曲线关系。通过将变量经过一定的变换,使得曲线变为直线,此过程称为曲线直线化。其目的是为了应用及理解上的方便。,一、曲线直线化的概述,第9章 直线相关与回归,第50页,修匀 由于抽样误差的影响,实测资料存在一定的波动,难于绘出一条能完全符合每一观察点的光滑曲线,但得到的该回归曲线却能比较恰当的显示原资料中两变量间的回归关系。因此经过修匀的曲线比原资料的观察点合理而稳定。估计 即由较易测得的自变量 X 推算较难测得的应变量Y的估计值。,(一)曲线直线化的用途,第9章 直线相关与回归,第51页,1.确定曲线类型 对实测数据选择何种曲线类型,一般要根据以下三个方面:根据专业知识及过去经验或文献资料;根据全部观察点在普通坐标纸上所呈现的总趋势;根据观察点在某种变换值的坐标纸上是不是呈现直线趋势。如半对数纸上点图呈现直线趋势可选用指数曲线或对数曲线;如在双对数纸上呈直线趋势可选用双曲线;如在对数概率单位纸上呈直线趋势时,可选用S型曲线。,(二)曲线拟合步骤,第9章 直线相关与回归,第52页,2.直线化 对呈曲线关系的变量进行适当变换,使变换后的两个变量之间呈直线关系,称为直线化。直线化既可以验证所确定的曲线型是否恰当,更便于用求直线方程的方法得到曲线方程。除多项式曲线可不必经直线化外,其它几类曲线拟合大多经过直线化。3.求曲线回归方程4.求估计值5.作曲线图6.必要时作拟合优度检验,第9章 直线相关与回归,第53页,X与Y之间的关系可归纳为下面二点:二者关系始终是正比例或始终是反比例;变化始终是“加速度”的或始终是“减速度”的。具有上述性质的资料一般均可拟和指数曲线或对数曲线。,二、指数与对数曲线的拟合,第9章 直线相关与回归,第54页,指数曲线方程的一般形式为(9.15),若10a=A,10b=B,则公式可表示为(9.16),公式(9.15)两边取对数,得(9.17),公式(9.16)两边取对数,得(9.18),第9章 直线相关与回归,第55页,令lgA=a lgB=b 则公式(9.18)也变成公式(9.17)的形式。公式(9.17)是指数曲线方程的对数形式。如令y=lgY 则公式(9.17)就变成了直线回归方程形式,可按最小二乘法求知直线回归方程,得a和b值后,直接可写成(9.15)的形式或经求得A=lg-1a,B=lg-1b后,写成公式(9.16)的形式。指数曲线的形式可概括为四种类型,见图9-3。,第9章 直线相关与回归,第56页,图9-3 四型指数曲线的模型,四型指数曲线的模型,其主要特点:自变量X在指数位上。,第9章 直线相关与回归,第57页,【例9.6】某地大气中离污染源不同距离处氰化物浓度测定结果见表9-3。试拟合曲线。,第9章 直线相关与回归,第58页,(1)定曲线型 将表9-3第(1)、(2)栏各(X,Y)点绘于普通坐标纸上,得到图9-4,对照图9-3各型,接近型指数曲线,即lgY=a-bX.(2)直线化 将表9-3第(1)、(2)栏数据在半对数纸上作图,置Y于对数轴,X置于真数轴,得观察点连线,见图9-5,其分布近于直线,说明直线化效果较好。故取y=lgY,见表9-3(3)栏。,拟合曲线的步骤(1),第9章 直线相关与回归,第59页,(3)求直线方程:计算过程省略。,拟合曲线的步骤(2),第9章 直线相关与回归,第60页,图9-4 污染源距离与氰化物浓度指数曲线,图9-5 曲线直线化,第9章 直线相关与回归,第61页,当自变量X取常用对数,而因变量Y取原测定值,则对数曲线方程为(9.19)下式。主要特点:自变量X取对数。,(二)对数曲线的拟合,第9章 直线相关与回归,第62页,对数曲线(亦有书通称指数曲线)的形状亦可概括为四型见图9-6。注意:与指数曲线相区别。两者形状很相似。,图9-6 四型对数曲线模型,第9章 直线相关与回归,第63页,对数曲线四型的形状与相应的指数曲线形状类似,只是对数曲线方程是以X变量为对数,故渐近线与Y轴平行。在选择曲线方程时应注意这一点。对数曲线的拟合与指数曲线的拟合方法与步骤基本一样,只是将X值置于对数轴上,Y值置于真数轴上,进行直线化。如果X与Y尚未达到直线化,可取Xk作校正,k的数值需经尝试,以使观察点逐步逼近直线趋势。,两种曲线类型的特点,第9章 直线相关与回归,第64页,【例9.7】某研究室以不同浓度的免疫球蛋白lgA(g%)作火箭电泳,测得泳距的高度(mm)如表9-4。试拟合曲线。,实例分析,第9章 直线相关与回归,第65页,(1)确定曲线类型 将表9-4第(1)、(3)栏各(X,Y)点绘于普通坐标纸上,得图9-7上的观察点。对照图9-6各型,接近型对数曲线,即Y=a+blgX(2)直线化 将表9-4第(1)(3)栏数据在半对数纸上作图,置X于对数轴,Y于真数轴,得观察点见图9-8。其分布近于直线,说明直线化效果较好。故取x=lgX,见表9-4第(2)栏。,拟合曲线的步骤(1),第9章 直线相关与回归,第66页,对数曲线拟合计算过程,第9章 直线相关与回归,第67页,图9-7 IgA浓度与火箭高度的 对数拟合曲线,图9-8 对数曲线直线化,第9章 直线相关与回归,第68页,则直线方程为,求对数曲线方程 将xlgX代入直线方程得,第9章 直线相关与回归,第69页,曲线方程的假设检验(1)拟合的曲线方程有无意义:需要作曲线回归方程的假设检验;(2)拟合的效果如何:可用相关系数的大小说明。,三、曲线方程的假设检验和拟合优度(1),第9章 直线相关与回归,第70页,曲线回归方程是否有统计学意义,可以用方差分析来检验。其公式为:,三、曲线方程的假设检验和拟合优度(2),第9章 直线相关与回归,第71页,计算出F值后,根据 1回归,2 剩余,查附表4,F界值表,得出P值,按所选择的检验水准作出结论。在曲线回归方程有统计学意义的前提下,曲线拟合得好坏可以看l剩余的大小。如果l剩余对l总的比例愈小,说明实际观察值与估计愈接近,曲线拟合得愈好;反之愈差。这种拟合度,可以用相关指数(R2)来表示。R2愈接近1,表示拟合得愈好。计算公式为:,第9章 直线相关与回归,第72页,【例9.8】以例9.6已经拟合成指数曲线为例,对曲线方程进行假设检验并判断拟合的情况。已经拟合的曲线方程为,按指数曲线方程计算其估计值,见表9-5。,说明指数曲线拟合较好。,第9章 直线相关与回归,第73页,课后作业及思考题(1),一、作业教材本上的例题:认真做2-3遍。或练习直到熟练为止。对概念及公式:数人一个小组进行讨论。查阅中华系列杂志:找到5-10个相关与回归分析的科研设计及数据处理方法,仔细分析及讨论。,第9章 直线相关与回归,第74页,课后作业及思考题(2),二、思考题 解释名词:相关 正相关 负相关 零相关 相关 系数 回归 回归系数 回归方程 等级相关 散点图 试述相关与回归分析的特点及意义。相关系数与回归系数有何异同点?两者的意义有何区别?试述相关关系与因果关系异同点。,第9章 直线相关与回归,第75页,课后作业及思考题(3),二、思考题 进行相关分析时,为什么要对r和b作显著性检验?相关回归分析的应用条件是什么?等级相关概、意义及特点是什么?相关和回归应用时,应注意什么问题?,第9章 直线相关与回归,第76页,THE END,Thank You for Listening!,