第08章-线性相关与回归课件.ppt
《第08章-线性相关与回归课件.ppt》由会员分享,可在线阅读,更多相关《第08章-线性相关与回归课件.ppt(63页珍藏版)》请在三一办公上搜索。
1、生物统计学,线性相关与回归,计量资料单变量的统计描述与统计推断。试问:为何说是单变量?因为每种类型只牵涉一个变量。许多现象之间(即变量之间)都有相互联系在这些有关系的现象中,它们之间联系的程度和性质也各不相同。有的现象之间因果不清,只是伴随关系。相关与回归就是用于研究和解释两个变量之间相互关系的。,十九世纪英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,并做成散点图。,历史背景:,儿子身高(Y,英寸)与父亲
2、身高(X,英寸)存在线性关系:即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。,Regression 释义,小插曲F.Galton,Galton(1822-1911)是一位人类学家,著名生物学家达尔文的表兄弟,早年学医,曾在剑桥大学念书。尽管他的数学不是很好,但在人类学和优生学研究中萌发的统计学思想,对生物统计的发展产生了深远影响,如“回归”、“双变量正态分布”的概念等。他没有子女,但一生写了9部书,发表了近200篇论文。1860年当选英国皇家学会会员,19
3、09年被封为爵士,1910年获得英国皇家学会Copley奖。,Karl Pearson,Karl Pearson(英,18571936)是Francis Galton 的得意门生,他开创了统计方法学。他对统计学的主要贡献:变异数据的处理、分布曲线的选配、卡方检验的提出、回归与相关的发展。,本章内容,第一节 线性相关 第二节 线性回归 第三节 相关与回归的关系 第四节 等级相关(自学),第一节 线性相关,线性相关描述了什么问题?线性相关分析的具体步骤是什么?线性相关分析对资料有什么要求?如何对这些要求进行检查或检验?仅用样本线性相关系数能否说明相关程度?总体相关系数非常接近1,能否说明Y=X?,
4、例:考察身高与体重的伴随关系,散点图,问题:通过散点图可以得出什么结论?,线性相关的概念,图中不是每个身材较高的对象必有较重的体重,但大多数对象的体重Y与其身高X的变化呈一种伴随增大或减小的直线变化趋势,这种现象称为直线相关。刻画两个随机变量之间线性相关程度称为线性相关(linear correlation),线性相关的类型,X和Y伴随同时上升或伴随下降称为线性正相关(Linear Positive Correlation),X和Y无任何直线伴随变化趋势,则称为零相关(零线性相关)。,X与Y的反方向伴随直线变化趋势称为线性负相关(linear negative correlation),正相关
5、 负相关 称零相关 完全正相关 完全负相关,线性相关系数,线性相关系数(linear correlation coeffiecient),简称相关系数。或 Pearson相关系数 相关系数是描述两个变量之间线性相关的程度和相关方向的统计指标。样本相关系数用 r 表示,总体相关系数用表示。,相关系数的特点:,1 r 1r0为正相关r0为负相关r0为零相关或无相关|r|0.4 为低度线性相关;0.4|r|0.7为中度线性相关;0.7|r|1.0为高度线性相关。,相关系数的计算公式,lxx(x 的离均差平方和)lyy(y 的离均差平方和)lxy(x和y的离均差乘积和,简称乘积和),实例分析,健康调查
6、发现男青年身高与他的前臂长有关;于是设想,通过测量男青年的身高,可以预测其前臂长,以便更好对男青年的发育情况进行评价。因此随机抽取了11名男青年组成样本,分别测量每个人的身高和前臂长。问男青年的身高与前臂长之间的相关系数是多少?是正相关还是负相关?分析问题:总体-样本、目的、变量、关系,11名男青年身高与前臂长的测量结果(cm),分析步骤,一、绘制散点图,二、计算,N=11 X=1891 Y=500 X2=89599 Y2=22810 XY=85185,身高(cm),前臂长(cm),男青年身高与前臂长的测量结果(cm)的散点图,计算结果,r 的值说明了两个变量X与Y之间关联的密切程度(绝对值大
7、小)与关联的性质(正负号)。,上例中的相关系数 r 等于0.8009,说明了11例样本中男青年的身高与前臂长之间存在相关关系。但是,这11例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的11例,其 r 可能不等于零。这就要对 r 进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。,目的:是判断两变量的总体是否有相关关系,t检验:样本相关系数r与总体相关系数的比较,查表法:直接查相关系数界值表得到相应的概率P。,相关系数的假设检验,资料相关系数的假设检验步骤,一、建立假设,确立检验水准,二、选择并计
8、算检验统计量,三、计算P值,做出统计推断,相关系数的假设检验也可以采用查表法,以相关系数r和自由度 v=n-2查r界值表11,做出统计推断结论。本例查表法P0.002,结论为拒绝H0,接受H1,与t检验结论一致。,1.作散点图:分析要两变量之间有无相关关系可先作散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再计算相关系数和作假设检验;2.正态性:相关系数的计算要求两个变量必须服从正态分布,如果资料不服从正态分布,应先通过变量变换,使得两个变量正态化,再根据变换值计算相关系数;,相关分析应注意的问题,3.作假设检验:依据公式计算出的相关系数仅是样本相关系,它是总体相关系数
9、的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关关系及相关的密切程度,必须作假设检验。当检验拒绝了无效假设时,才可以认为两个事物之间存在着相关关系,然后再根据计算出的相关系数大小来判断根相关关系的密切程度;4.相关关系:相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素 年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。,5.在确实存在相关关系的前提下(?),如果 r 的绝对值越大,说明两个变量之间的关联程度越
10、强,那么,已知一个变量对预测另一个变量越有帮助;如果r 绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。6.一般说来,当样本量较大,并对 r 进行假设检验,有统计学意义时,r 的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r 的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。,从上面的分析可以看出男青年身高与前臂长有相关关系 如果知道了一位男青年的身高 能推断出其前臂长吗?能预测男青年的前臂长可能在什么范围内?这要用直线回归的方法来解决。,直线回归方程(总体)是描述什么?直线回归分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 08 线性 相关 回归 课件
链接地址:https://www.31ppt.com/p-4095782.html