欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    第08章-线性相关与回归课件.ppt

    • 资源ID:4095782       资源大小:767KB        全文页数:63页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第08章-线性相关与回归课件.ppt

    生物统计学,线性相关与回归,计量资料单变量的统计描述与统计推断。试问:为何说是单变量?因为每种类型只牵涉一个变量。许多现象之间(即变量之间)都有相互联系在这些有关系的现象中,它们之间联系的程度和性质也各不相同。有的现象之间因果不清,只是伴随关系。相关与回归就是用于研究和解释两个变量之间相互关系的。,十九世纪英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,并做成散点图。,历史背景:,儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。,Regression 释义,小插曲F.Galton,Galton(1822-1911)是一位人类学家,著名生物学家达尔文的表兄弟,早年学医,曾在剑桥大学念书。尽管他的数学不是很好,但在人类学和优生学研究中萌发的统计学思想,对生物统计的发展产生了深远影响,如“回归”、“双变量正态分布”的概念等。他没有子女,但一生写了9部书,发表了近200篇论文。1860年当选英国皇家学会会员,1909年被封为爵士,1910年获得英国皇家学会Copley奖。,Karl Pearson,Karl Pearson(英,18571936)是Francis Galton 的得意门生,他开创了统计方法学。他对统计学的主要贡献:变异数据的处理、分布曲线的选配、卡方检验的提出、回归与相关的发展。,本章内容,第一节 线性相关 第二节 线性回归 第三节 相关与回归的关系 第四节 等级相关(自学),第一节 线性相关,线性相关描述了什么问题?线性相关分析的具体步骤是什么?线性相关分析对资料有什么要求?如何对这些要求进行检查或检验?仅用样本线性相关系数能否说明相关程度?总体相关系数非常接近1,能否说明Y=X?,例:考察身高与体重的伴随关系,散点图,问题:通过散点图可以得出什么结论?,线性相关的概念,图中不是每个身材较高的对象必有较重的体重,但大多数对象的体重Y与其身高X的变化呈一种伴随增大或减小的直线变化趋势,这种现象称为直线相关。刻画两个随机变量之间线性相关程度称为线性相关(linear correlation),线性相关的类型,X和Y伴随同时上升或伴随下降称为线性正相关(Linear Positive Correlation),X和Y无任何直线伴随变化趋势,则称为零相关(零线性相关)。,X与Y的反方向伴随直线变化趋势称为线性负相关(linear negative correlation),正相关 负相关 称零相关 完全正相关 完全负相关,线性相关系数,线性相关系数(linear correlation coeffiecient),简称相关系数。或 Pearson相关系数 相关系数是描述两个变量之间线性相关的程度和相关方向的统计指标。样本相关系数用 r 表示,总体相关系数用表示。,相关系数的特点:,1 r 1r0为正相关r0为负相关r0为零相关或无相关|r|0.4 为低度线性相关;0.4|r|0.7为中度线性相关;0.7|r|1.0为高度线性相关。,相关系数的计算公式,lxx(x 的离均差平方和)lyy(y 的离均差平方和)lxy(x和y的离均差乘积和,简称乘积和),实例分析,健康调查发现男青年身高与他的前臂长有关;于是设想,通过测量男青年的身高,可以预测其前臂长,以便更好对男青年的发育情况进行评价。因此随机抽取了11名男青年组成样本,分别测量每个人的身高和前臂长。问男青年的身高与前臂长之间的相关系数是多少?是正相关还是负相关?分析问题:总体-样本、目的、变量、关系,11名男青年身高与前臂长的测量结果(cm),分析步骤,一、绘制散点图,二、计算,N=11 X=1891 Y=500 X2=89599 Y2=22810 XY=85185,身高(cm),前臂长(cm),男青年身高与前臂长的测量结果(cm)的散点图,计算结果,r 的值说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质(正负号)。,上例中的相关系数 r 等于0.8009,说明了11例样本中男青年的身高与前臂长之间存在相关关系。但是,这11例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的11例,其 r 可能不等于零。这就要对 r 进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。,目的:是判断两变量的总体是否有相关关系,t检验:样本相关系数r与总体相关系数的比较,查表法:直接查相关系数界值表得到相应的概率P。,相关系数的假设检验,资料相关系数的假设检验步骤,一、建立假设,确立检验水准,二、选择并计算检验统计量,三、计算P值,做出统计推断,相关系数的假设检验也可以采用查表法,以相关系数r和自由度 v=n-2查r界值表11,做出统计推断结论。本例查表法P0.002,结论为拒绝H0,接受H1,与t检验结论一致。,1.作散点图:分析要两变量之间有无相关关系可先作散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再计算相关系数和作假设检验;2.正态性:相关系数的计算要求两个变量必须服从正态分布,如果资料不服从正态分布,应先通过变量变换,使得两个变量正态化,再根据变换值计算相关系数;,相关分析应注意的问题,3.作假设检验:依据公式计算出的相关系数仅是样本相关系,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关关系及相关的密切程度,必须作假设检验。当检验拒绝了无效假设时,才可以认为两个事物之间存在着相关关系,然后再根据计算出的相关系数大小来判断根相关关系的密切程度;4.相关关系:相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素 年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。,5.在确实存在相关关系的前提下(?),如果 r 的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r 绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。6.一般说来,当样本量较大,并对 r 进行假设检验,有统计学意义时,r 的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r 的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。,从上面的分析可以看出男青年身高与前臂长有相关关系 如果知道了一位男青年的身高 能推断出其前臂长吗?能预测男青年的前臂长可能在什么范围内?这要用直线回归的方法来解决。,直线回归方程(总体)是描述什么?直线回归分析对资料有什么要求?直线回归分析的具体基本步骤是什么?在直线回归中,Y 是否一定为随机变量?在直线回归中,X 是否一定为随机变量?在直线回归中,预测值 的意义是什么?在直线回归中,回归系数b的意义是什么?,第二节 线性回归分析,知道了两个变量之间有线性相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。实际上,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为线性回归方程,这种关系为线性回归。,直线回归就是用来描述一个变量如何依赖于另一个变量。其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程。,直线回归是分析成对观测数据中两变量间线性 依存关系的方法。,其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做线性回归方程。,“回归”是一个借用已久因而相沿成习的统计学 术语。,直线回归的概念,直线回归的概念,直线回归是分析成对观测数据中两变量间线性依存关系的方法。其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做线性回归方程。“回归”是一个借用已久因而相沿成习的统计学术语。,直线回归模型,1、资料数据格式,2、变 量,Y(应变量,结果变量):一般是难测(或不可测)的变量,(要求呈正态分布的随机变量)X(自变量,原因变量):一般是可测(或易测)的变量(可是随机变量或人为给定的量),儿子身高(Y,英寸)与父亲身高(X,英寸)存在 线性关系:,3、直线回归方程的一般形式为:,a 为常数项,又称截距;b 为斜率,又称回归系数,表示自变量X增 加(或减少)一个单位,应变量Y平均改变的单位数。,回归的类型,线性回归方程建立的思路,样本,总体,最小二乘法,Y与X之间为线性关系,选出一条最能反映Y与X之间关系规律的直线,a是的估计值,b是的估计值。a、b应使回归估计值 与实际观测值y的偏差平方和最小,回归方程原理图,最小二乘法,一般而言,所求的a和b应能使每个样本观测点(X i,Y i)与回归直线之间的偏差尽可能小,即使观察值与拟合值的误差平方和Q达到最小。,回归直线的有关性质,直线通过均点 各点到该回归线纵向距离平方和较到其它任何直线者为小。,对于X 各个取值,相应Y的总体均数,直线回归分析的步骤,将原始数据在坐标图上绘散点图根据样本数据求得估计值 a、b即得样本回归方程,并作回归线对回归方程作假设检验,并对方程的拟合效果作出评价,例 有人研究了温度对蛙的心率的影响,得到了表中 所示的资料,试进行回归分析。,图 回归直线、回归系数、残差示意图,温 度(),蛙心率(分/次),例3的解题步骤,1.作散点图:,2.计算回归系数与常数项,a)直线回归方程的建立,本例是以最小二乘法原理得出以下的回归方程:,b)回归直线的描绘,根据求得的回归方程,可以在自变量 X 的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。回归直线一定经过(0,a),()。这两点可以用来核对图线绘制是否正确。,图回归直线、回归系数、残差示意图,=4.087+1.523X,残差,1个单位,b个单位,温 度(),蛙心率(分/次),=4.087+1.523X,是否一定能说明温度与蛙的心率之间存在回归关系?,与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用表示。,回归方程的假设检验,方差分析(自学),t 检验(常用),方 法:t 检验常采用,基本思想:是利用样本回归系数 b与总体回归系数进行比较来判断回归方程是否成立。,回归方程的假设检验,剩余标准差:表示固定了X(即扣除了温度的影响)后,Y(蛙的心率)方面仍有变异,是由X 以外的其它因素(如生长环境、个体差异等)引起的。,回归系数假设检验-t 检验,一、建立假设,确立检验水准,是否试问所建直线回归方程 成立?,二、选择并计算检验统计量,三、计算P值,做出统计推断,查t值表,得P0.01,按a=0.05水准,拒绝H0,接受H1。可认为温度与蛙的心率之间总体直线关系存在,并且可用样本直线回归方程估计。,线性回归的应用和注意事项,描述两变量之间的依存关系:通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归来描述。利用回归方程进行预测:把自变量代入回归方程,对应变量进行估计,可求出应变量的波动范围。例如,已知某男青年的身高,代入回归方程,再用区间估计的方法,即可知道男青年的前臂长的范围。利用回归方程进行统计控制:空气质量与汽车数量,1.应用:,:,1)实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加荒谬。,2)LINE 性,变量是否符合建立线性模型的假定条件(线性、独立性、正态率、方差齐性,简写为LINE),可考察残差图来分析变量是否满足LINE假定.,2.应注意的问题,3)利用散点图 对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系然后再进行回归分析。4)变量范围 回归分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量原来的回归关系。即回归直线方程一般不能外延。X的取值范围为222,计算估计值时最好在222之间。,两变量间的直线关系不一定是因果关系,也可能是伴随关系,即两个变量的变化可能同受另一个因素的影响。当两变量间有线性关系存在时,不一定都表明两变量间确有内在的联系。6)决定系数(coefficient of deter mination)即相关系数的平方,用 表示,是反映回归模型 拟合效果的指标.,5)相关关系,第三节 相关与回归的区别与联系,1)意义:相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。2)应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。,1.区 别,3)研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。4)相关系数 r 与回归系数 b:r 与b 的绝对值反映的意义不同。r 的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b 的绝对值越大,回归直线越陡,说明当X 变化一个单位时,Y 的平均变化就越大。反之也是一样。,在同一组数据,相关系数 r 与回归系数b的符号一致。同一组数据,r 与b 的假设检验是等价的,即 tr=tb。因 r 的假设检验可直接查表,较为简便,故可代替b的假设检验。,2.联 系,

    注意事项

    本文(第08章-线性相关与回归课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开