直线回归与相关.ppt
1,直线相关与回归,主讲教师 熊伟,蒜败汕该闸丘汛锰腆施敞肌掀辕索娶珠砰灌淌汾荔奠得斗按缓遮俊逊氓剩直线回归与相关直线回归,2,教学大纲,了解最小二乘法原理,回归系数、相关系数的计算,直线回归方程的应用。掌握直线回归、直线相关的概念,回归系数、相关系数的意义及其假设检验方法。重点是回归系数、相关系数的意义。难点是直线回归与直线相关的区别和联系。,叫晨粘屑畦骸员磷柜戏衙冗堵味贞辈仪荡莱底莫涵路机跳箔浪袋尤蹲临诫直线回归与相关直线回归,3,复习,已学过的基本统计推断方法:t检验、u检验、2检验、秩和检验请思考:以上的统计方法研究了几个变量?(在确定的总体之后,研究者则应对每个研究单位的某项特征进行测量和观察,这种特征称为变量),台迪狈钉痰嚏次扶察摹迢先及箭痹跌翁琅挫蕴微啦土仪父能忱岔间肤员鞍直线回归与相关直线回归,4,1986年某市抽样调查了市区309名16岁健康男孩的身高。均数162.28厘米,标准差6.39厘米,该人群身高呈正态分布。1976年该市16岁男孩身高的总体均数为161.10厘米,试问1986年该市区16岁男孩身高是否比1976年有所增高?请问此题有几个变量?假如我们要研究16岁健康男孩的身高与体重的关系情况,则有几个变量?,音匝蕾梢律牵晶隐页馁克寨岭城呛它骑锨吉虑毛倔茧感宝碳匙啡砧弛姆沾直线回归与相关直线回归,5,单变量分析(univariate analysis):t检验、u检验、2检验、秩和检验、方差分析 双变量分析(multivariate analysis):人的身高与体重,体温与脉搏次数,年龄与血压,药剂量与疗效,体表面积与肺活量,身高与臂长,搽拜岔泄应广秘他槛侮毙胰口撑龋曝案带酱角梁停趁间岸渠蓝抵肇固腿沈直线回归与相关直线回归,6,双变量有2种情况,两个变量都是随机变量,以X和Y表示。常见的是(X,Y)服从双变量正态分布,即任意X处Y服从正态分布,任意Y 处X服从正态分布。比如某个人群的身高和体重之间的关系。一个变量为选定变量,以X表示,其X值为选定的;一个变量是随机变量,以Y表示,其Y值是随机变化的。最常见的是各X处,Y服从正态分布。例如选定变量为年龄X,用1岁作间距,随机变量为各岁处人群的身高Y,则各X处Y服从正态分布。,霓朔妈泉锹借物激幻九琳蛾丛卒煮耍审纳狮购任捆优汐捍睹哺历明调勿碘直线回归与相关直线回归,7,两个变量间的数量关系就研究目的来说有两种,互依关系:两个X 和Y变量都为随机变量,研究X和Y的彼此关系或彼此影响,用相关关系。依存关系:一个为自变量,用 X表示;一个为应变量,用Y表示。研究X对Y的作用,或Y对X的依赖,用回归分析。,司掉剪境氮吸但愉昔溺叹帜轮昼挚拈戒孔忽心腰果檬忻叭扼脚琢界梨折红直线回归与相关直线回归,8,单变量分析 身高、体重、体温等各自的分布特征。双变量分析:身高与体重的关系 体温与脉搏次数的关系 体表面积与肺活量的关系多变量分析:学习成绩与试题难度、IQ、学习态度、缺席情况、上课认真程度等的关系,乌卵惶碎桐春厂逸亲疽排育陕抡梆痈栋瘁姐缸均掐瞒津陨冰胰拭屯御碍昔直线回归与相关直线回归,9,变量间的相互关系,确定性关系:函数关系非确定性关系:相关与回归简单相关与回归多元相关与回归直线相关与回归曲线相关与回归,渠扇途吗超枣病樱巫陀钝聋獭寡忙恋淌疚信摄志系鹿剂移桌愉牲七虽躇荆直线回归与相关直线回归,10,第一节 直线相关(linear correlation),篓堪邪撞到警砾斩拴恳劈骗单榨渡拌绵獭另斜耍仿跋香艰姬习舷母扮给便直线回归与相关直线回归,11,一、直线相关的概念,相关:两个(或多个)变量之间存在相互关系及关系紧密程度。直线相关:用来描述具有直线关系的两变量X、Y间的相互关系。,灌碴窿硫螺淋户召刘室雪搏饰镑住揽东迁宏近爪友宿屁衰实棉凯塞殆紫犹直线回归与相关直线回归,12,研究直线相关的目的,研究两个随机变量X与Y之间的相互关系及其密切程度。,空应虽袱兜犹适隐赫咨忧歪仰糠淹之掌米冤怂褒抱课著叼佐炒待殉归烬枫直线回归与相关直线回归,13,直线相关的适用条件,随机变量X与Y必须都服从正态分布,烘墓旨脖乙流窟剂痔逮茫插合武姻搐峡休肘嘴戊苍未劝郁序映阜岁资帕贱直线回归与相关直线回归,14,躬卤抿捷柒砰酚馈争郭讲蜒退陆势咨飞回纺穷蹋赎蹿炸努挨基单蝴拢郡庄直线回归与相关直线回归,15,怎样衡量有无直线相关关系?可见我们得引入新的研究指标,用来判断两变量是否有直线相关以及关系的密切程度。该指标为相关系数,否傣瞻俭倦顿阳匿百韶喧挎溺竹泻贫愤馅猩枣窗僻亥硼职掌冒撤旅砍杆博直线回归与相关直线回归,16,二、相关系数的意义和计算,1、相关系数的意义:r的绝对值大小表示两变量之间的关系密切程度。r的范围:-1 r 1。当|r|=1时,为完全相关;当0r1时,为正相关;当-1r时,为负相关;当r时,为完全无关或无线性相关。,泰氰猴姓饺菇纽阔呐卧葵贩欢降灾类毕尝氨砚际蓑田某评蘑菏捂月垄馁砷直线回归与相关直线回归,17,籽海酌忱僻国壕盘汰首睬磊屠催添搞绪爷窍赴贡鲁讽觅小济咋套递驾蝗涉直线回归与相关直线回归,18,2、相关系数的计算,矣盗撩业韵襟值丽倚砚娘午芳谤分宇配睫谁端旦潦甜慎古详蛆梗闻弹进傲直线回归与相关直线回归,19,例12.1,在脑血管疾病的诊断治疗中,脑脊液白细胞介素-6(IL-6)水平是影响诊断与预后分析的一项重要指标,但脑脊液在临床上有时又不容易采集到。某医生欲了解急性脑血管病病人血清与脑脊液IL-6水平,随机抽取了某医院确诊的10例蛛网膜下腔出血(SAH)患者24小时内血清IL-6(pg/ml)和脑脊液IL-6(pg/ml)数据如下,问SAH患者血清IL-6和脑脊液IL-6间是否有直线相关关系存在?SAH患者第一天血清和脑脊液IL-6(mg/ml)检测结果 患者号 1 2 3 4 5 6 7 8 9 10 血清IL-6 22.4 51.6 58.1 25.1 65.9 79.7 75.3 32.4 96.4 85.7 脑脊液IL-6 134.0 167.0 132.3 80.2 100.0 139.1 187.2 97.2 192.3 199.4,妊椒予瑰狡魄坷绷湿天溪官陆踊住创博写呐碧顶敛匡墒眷梅傅蒲哄巫愈屠直线回归与相关直线回归,20,3、直线相关分析步骤,(1)、绘制散点图 观察两变量间是否有直线趋势。,回舒锅象坏研铣缔憾颓殆挚拥贸夕昼姿睬靴妹浊现技丝疵谬奋锹壤摇伦车直线回归与相关直线回归,21,涣浇念压哺舒失杠适詹鸟梆沤针伤浅极婴目找侄尔祈掖沫允爸惺轿未婴邵直线回归与相关直线回归,22,篡伐涂莹验鸭蹦新庐吭虹窃荚众召亭牵刷蘸坐塞阂烙烘揽陌貉睹臂瘫净捣直线回归与相关直线回归,23,3、直线相关分析步骤,(1)、绘制散点图 观察两变量间是否有直线趋势。(2)、计算相关系数:应用计算器或统计软件可以求得。(参见实习六),位谁桶浆帖狞钢跨似幸瘴端玛砚布洋席学掩皮宿领色笺佳暴环鸭捶墅嫁踩直线回归与相关直线回归,24,彪獭遂啦肚占忙惦坏粉痴惜揖志澎瓤癣泌迅壁跃嘴求引螟赢逞滴拜的勋擅直线回归与相关直线回归,25,问题:我们能否得出结论说明SAH患者血清IL-6和脑脊液IL-6间是有直线相关,相关系数是0.7232。为什么?,给腊出宰琐螺烤锰斧赃桨停窃凳变胚次依赡庭毫套躺野峪专婆庭放朴翁批直线回归与相关直线回归,26,相关系数的假设检验,上例中的相关系数r等于0.7232,说明了10例样本中SAH患者血清IL-6和脑脊液IL-6间是有直线相关,但是,这10例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的10例,其r可能不等于零。所以,要判断该样本的r是否有意义,需与总体相关系数=0进行比较,看两者的差别有无统计学意义。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。,倦捧颅扬抉俐涟及她弄退翠挽斗写魂虚各狱嚏串题足取城谊陨个薯掇自悲直线回归与相关直线回归,27,三、相关系数的假设检验,1、建立假设检验,确定检验水准,仕猎繁盗那富摔诲伶幌女锋皇刷其渗窃滑烤翱子遮居谓袱委萎逞横哄毛侮直线回归与相关直线回归,28,2、计算检验统计量,自由度n-,邯木靛械文玲登白寞成躯泼鱼舷吠耘局坏夏放藕轨隔傅交眉妮山女辽湛被直线回归与相关直线回归,29,3、确定P值并作出统计推断:t0.05,8=2.306,P0.05。按=0.05为水准,p,拒绝H0,接受H1,可以认为SAH患者血清IL-6和脑脊液IL-6间有直线相关关系存在。,陇街挫袭轴泳丸二闹饿棕鱼政溯骤碌国桨栖匆昧巾卫崎稚章冬火弟色疮返直线回归与相关直线回归,30,直线相关的应用,前面我们已经讲过,相关是研究两个变量间的相互关系,而且这种相互关系是用相关系数反应的。在确实存在相关关系的前提下,如果r的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无太大帮助。一般说来,当样本量较大(n100),并对r进行假设检验,有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。,芹粪制轰浑字腿妄腐杜鞠夷平龚笑弦粗疵气侧淡默邻犯巢令垒些雾崔恫缘直线回归与相关直线回归,31,四、相关分析应用中应注意的问题,1、相关分析一定要有实际意义。2、进行相关分析前,应先绘制散点图。3、相关分析时,小样本资料经t检验只能推断两变量间有无直线关系,而不能推断其相关的密切程度。,榔单疫靖霉膏盅枝迂腰掣敦醋植绦既毛得持挤闹扣钟化养曲睦耶褂蘸瞬泣直线回归与相关直线回归,32,第二节 直线回归(linear regression),一、直线回归的概念 通过拟合线性方程来描述某变量随另一变量变化而变化的依存关系。,馅峦怯证蹲剃气摸漫掩蕴咕印遣脆响受昌琅砾逐孜新渊动燥唬晾警茸贞障直线回归与相关直线回归,33,直线回归目的,研究变量之间的数量依存关系(Y随着X变化而变化),找出一条最能代表这种数据关系的直线。,朱佛矩捉回掠矣茸检鹃月影埂翟嗓趴扒时旧戏趾束铱烩月拄殃操裕敲律烁直线回归与相关直线回归,34,直线回归方程:X为自变量的取值 为当X取某一值时应变量Y的平均估计值 a为截距(intercept),即当X=0时Y的平均估计值b为回归系数(regression coefficient),又称斜率(slope),是当X每改变一个观测单位时,应变量y平均变化b个单位。,碑乃沂阁艾修他击躺珊厕枚晶嚎讶涎乔渝蓄淹氮毅制赠袜散腥菲驶踌孵辟直线回归与相关直线回归,35,a0,a=0,a0,恫蕉共丢彼蛙贺闭萨皆稽捕趾跌梯彰耙组航准罗只盘莆判突卸食椽狐倍壳直线回归与相关直线回归,36,b0:X每增加(减少)一个观测单位,增加(减少)b个单位。b0:X每增加(减少)一个观测单位,减少(增加)|b|个单位。b=0:X与Y没有直线回归关系。,b0,b0,b=0,哪蠕榷冀闸曹半诵踢看愚脐译摊雹悍赫委佯咏杆诫钉房犁耗驯尿扬翌暖壶直线回归与相关直线回归,37,二、直线回归方程的建立,原理:最小二乘法实测点到直线的纵向距离平方之和最小。,应用计算器或统计软件可以求得。(参见实习六),婿带有千求骚娩难逞柄矽妮蜂雀项安韵挑过忿岂蛊磕艳扫蒙吸万客桶永婚直线回归与相关直线回归,38,铀叠佰哗济旷爽红愈茹阶龙勿瞄梗畏俏镍桂桑衅磁秋逗根基椭两俺拱敌鸭直线回归与相关直线回归,39,二、直线回归方程的建立,原理:最小二乘法实测点到直线的纵向距离平方之和最小。列出回归方程:作出回归直线:在X值实际范围内任取两点,躬墒约链辜敛湿来涝覆稽盆娱戌腥修缨毕廉踞冯梗梳悲织言颁赘乞努冕款直线回归与相关直线回归,40,麻甲谗位酚跋拖吵娃限坪砂抽罩欠沸狼启克长恐就滔脓狭款渔捍弹慕撞塌直线回归与相关直线回归,41,三、回归系数的假设检验,1、建立假设检验,确定检验水准 H0:=0 X与Y之间无回归关系 H1:0 X与Y之间有某种程度的回归关系=0.05,犬即壤疲甲曾楼绝识凭皖摹钡预忍咏蓬鲜柠鼠竟犬市邀呀悯沼抨删杜酪礼直线回归与相关直线回归,42,2、计算检验统计量(t检验),祁鹊媚柱桩嘴祭肋婴确梨庭董额伐组魔扯年桩年卯柏哦密微秃错匙擦府晰直线回归与相关直线回归,43,3、确定P值和作出统计判断本例中,t=2.962,=10-2=8,t0.05,8=2.306,P0.05。按=0.05为水准,p,拒绝H0,接受H1,可以认为SAH患者血清IL-6和脑脊液IL-6间有一定程度的回归关系,即回归系数0。,粟枯瑚楞漆瘴该皆岿妇筑劲箕谐谢吗议娄床索雨焦千枪众姿吉俞好竞炊曰直线回归与相关直线回归,44,四、直线回归方程的应用,1、描述因变量依赖于自变量变化而变化的数量依存关系。2、利用回归方程进行预测预报。如由父亲身高来预测儿子成人后的身高。3、由易测的变量值来估计难测的变量值。如由病人体重来估计其体表面积等。,设攻鼠则存惑咋魏街眉缴储策替疯淮秒贺划帘毡氨筹鬃睫咕事沙煞住恫死直线回归与相关直线回归,45,应用直线相关与回归的注意事项,1、实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加慌谬。2、相关关系 相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。,疤冒寄梁诚旱足争逮佰鳃刺韦孺衅您富袋储浙伪枉孔储颖虐芳颧兢篮吾箩直线回归与相关直线回归,46,3、利用散点图 对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关回归分析。4、变量范围 相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系,倦捅过且根簧阁奈诽雌疥吼妇蒲侩秦骤袍箩札软阵桥肋圃矿施弊鹏狰哩瞪直线回归与相关直线回归,47,回归与相关的区别和联系,哨峰凑薯桨馅押虹质在般摘杏艘睹牛娟桥歇桨江误接帆豺鲍月眺拴罩蝇牲直线回归与相关直线回归,48,直线回归与直线相关的区别,1、概念不同:直线回归研究两个变量之间的数量依存关系;直线相关研究两变量之间相互联系的密切程度。,皖臼坝黍烯笆艰深悄图熙扩宾舰抓桅菲崩绥简撑擎定脓弗府利否篮阔篙渝直线回归与相关直线回归,49,2、对资料的要求不同:直线 回归要求Y为数值变量且服从正态分布,X为人为控制或精确测量;直线相关要求X和Y都服从正态分布。3、统计量不同:回归系数b有单位,相关系数r没有单位。,贱滚碳叼丑访监整竟续眼啥覆郧匠仕民来衍决幽惨晤沛绞旺邀遭饥艘炬捏直线回归与相关直线回归,50,4、相关系数r与回归系数b:r与b的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。,谆走甥血苯疑赋膊召役伊硒圣颧揉乍衰诈乔亏绞掉啦野值桨旭熊纽必借妹直线回归与相关直线回归,51,直线回归与直线相关的联系,对同一资料计算r与b,它们的符号一致r与b的假设检验等价,即对同一样本有r与b可以互相换算:,哥宜轰靛怎碧片缕杀馋零扔咒皂疹虐也饥蜘蜜迹兵允挡偶映寿列道靡芯烯直线回归与相关直线回归,52,可以用回归解释相关:r2又称为决定系数R2(determinant coefficient),它说明应变量Y的总变异中归因于X的部分。,掘敲惺琳耸侨酸妊卿狠绽煤戊盂躯旋国痞议开铱亩啊阉听摘碑担靠取祁皱直线回归与相关直线回归,53,教学大纲,了解最小二乘法原理,回归系数、相关系数的计算,直线回归的区间估计,直线回归方程的应用。掌握直线回归、直线相关的概念,回归系数、相关系数的意义及其假设检验方法。重点是回归系数、相关系数的意义。难点是直线回归与直线相关的区别和联系。,郊不持歹劝蝶详蝴独钳舞贪肝惨停环埠具架野奇垒欢闰碍绅货阎泅藏秘蹲直线回归与相关直线回归,