第十五章直线相关与直线回归分析.ppt
《第十五章直线相关与直线回归分析.ppt》由会员分享,可在线阅读,更多相关《第十五章直线相关与直线回归分析.ppt(71页珍藏版)》请在三一办公上搜索。
1、1,第十五章 直线相关与回归分析,2,学 习 目 标,1.说出直线相关与直线回归的概念;2.说出等级相关的适用范围;3.能计算直线相关系数与回归系数、进行假设检验;4.能从专业角度考虑相关与回归的实际意义。,3,两个变量之间的关系大致分为两种:,4,1.两个变量共同变化的,是一种相互依赖的关系,例如身高与体重的关系。可以用相关分析方法去研究这种关系。可以研究两个变量之间的相互关系的密切程度和变化趋势,并用恰当的统计指标表达。,5,2.一个变量对另外一个变量有着某种依存关系,例如儿子的身高与父亲的身高有着某种依存关系,可以用回归分析的方法去研究这种关系,即把两个变量间的数量依存关系用函数形式表示
2、出来,用一个或多个变量去推测另一个变量的估计值和波动范围,这就是回归分析。,6,为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,7,第一节 直 线 相 关 分 析 Linear Correlation,8,1.直线相关概念,概念:描述和推断两个(事件、现象)正态变量(x、y)总的变化趋势上协同变化规律性的密切程度和方向(但又非确定的函数关系)的统计分析方法
3、。协同变化:同增同减,此增彼减,9,2.直线相关的特点:,两变量同时进入数据分析;两变量不区别为原因变量和结果变量,是一种互为因果的数量协同变化关系;变量类型:两变量应同时满足正态分布的条件(实际工作中近似正态分布)。,10,相关分析,1.图示法:有无相关、相关程度、相关方向2相关系数:在求相关系数前,最好先做图。,11,相关分析:无自变量、因变量、地位平等。回归分析:有自变量、因变量,两者从属关系。,12,绘制散点图,分析研究两个变量x与y之间的关系时,两个变量的值可视为直角坐标系的一个点。为直观地判断两个变量间的关系,可把每对(x,y)变量值在直角坐标系标点出来,此为散点图。若一个变量x由
4、小到大(或由大变小),则另一变量相应地由小到大(或由大到小),两个变量的散点图呈直线趋势,可称这种现象为共变。,13,3、相关的类型,正相关 负相关 完全正相关 完全负相关 零相关,14,一、直线相关统计量,15,相 关 系 数 及 意 义,相关系数:相关系数是用以衡量两个变量线形相关有无、强弱与方向的统计指标。总体参数:样本相关系数:r,16,相关系数的计算公式,17,r 的计算结果:说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质(正负号)。,18,r是无量刚的统计量;-1r1 r可正可负(正表正相关,负表负相关);r0 零相关(无线性相关)r 的大小表示相关的程度,越接近
5、1,表相关性越好,越接近0,表相关性越差。,相关系数的特点:,19,二、直线相关系数的计算,例151 某医师研究12名癫痫病人口服鲁米那后两小时唾液药物浓度与血液药物浓度之间的数量关系。试计算两种体液药物浓度间的直线相关关系。,20,1.根据原始数据做散点图,从图中各点的分布情况看,血液药物浓度Y随唾液药物浓度X增加而增加的趋势。2.计算相关系数(1)计算基础数据根据原始数据求得,21,22,(3)直 线 相 关 系 数 的 假 设 检 验,上例中的相关系数r等于0.9256,说明了12名癫痫病人的唾液药物浓度与血液药物浓度之间存在相关关系。但是,这12名癫痫病人只是总体中的一个样本,由此得到
6、的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的12例,其r可能不等于零。所以,要判断该样本的r是否有意义,需与总体相关系数=0进行比较,看两者的差别有无统计学意义。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。,23,对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下:,=n-2,24,(1)建立假设 H0:=0,即X与Y间无直线相关关系H1:0,即X与Y间有直线相关关系(2)确定检验水准:=0.05(3)确定单双测检验:本例选择双测检验(4)计算t值:r=0.9256,n=12,代入公式,=n-2=1
7、2-2=10,t=7.73,查t值表P436,,上述计算t=7.732.228,由t所推断的P值小于0.05,按=0.05水准拒绝H0,接受H1,r为正值,说明唾液药物浓度与血液药物浓度存在正相关关系。,25,相关一定有内在联系吗?,某君喜得贵子,庭前种一小树,每月测子高与树高,积累了数据。统计计算发现,子高与树高具有相关性,难道两者真有内在联系?原来子高与树高均与日俱增,时间变量与两者得潜在联系,造成了子高与树高的虚假联系。,26,相关关系与因果关系是一回事吗?,相关关系可能是:(1)两个变量之间存在依存因果关系,如由于遗传的原因,子女的身高数值的大小在很大程度上取决于父母的身高。(2)两个
8、变量之间存在相互的伴随关系,如“蛙鸣而燕至”,虽然年年如此,但蛙鸣永远也不能成为燕至的原因。,27,直线相关的应用,相关是研究两个变量间的相互关系,而且这种相互关系是用相关系数反应的。在确实存在相关关系的前提下,如果r的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。一般说来,当样本量较大(n100),并对r进行假设检验,有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大
9、于0.2,小于等于0.4时,则两个变量低度相关。,28,前面我们讨论了12名癫痫病人的唾液药物浓度和血液药物浓度之间的关系,知道了二者之间成正相关。那么,如果我们知道了一位癫痫病人的唾液药物浓度,能推断出血液药物浓度的大小吗?或血液药物浓度可能在什么范围内呢?还有,唾液药物浓度和血液药物浓度。那么,体重每增加1微克,血液药物浓度增加多少呢?上面的相关关系分析不能提供给我们需要的答案。这些要用直线回归的方法来解决。,29,五、直线相关分析的注意点,作直线相关分析时,应结合散点图来判断两变量的数量协同变化关系是否呈直线关系,避免将某些曲线关系误判为直线关系;应该注意假相关情况;当两变量均明显不呈正
10、态分布时,最好采用秩相关统计分析方法计算秩相关系数。,30,第二节 直线回归分析,linear Regression,31,“回归”一词的来由,“回归”一词最早由Golton在一项有关父亲与儿子身高的研究中提出。儿子的身高(Y)与父亲的身高(X)自然是相关的,他发现身材高大的父亲所生儿子的高度不少要比其父亲矮,而身材矮小的父亲所生的儿子不少要比其父亲高;也就是说,无论是身材高还是身材矮的父亲所生儿子的身高有向人群的平均身高“回归”的趋势,这就是“回归”的生物学内涵。后来人们借助“回归”一词来描述通过自变量的数值预测反应变量的平均水平。,32,为了通过可测或易测的变量对未知或难测或不可测量的状态
11、进行估计,可以借助回归分析。例如:我们可以用身高、体重、肺活量这些容易测得的指标来估计心室血输出量、体循环总血量等相对难测的指标;通过对产妇的尿雌三醇含量的检测来估计腹中胎儿体重,以便采取必要的措施降低生产过程的难产风险。,33,(1)当我们知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。(2)但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程
12、,这种关系为直线回归.,34,直线回归的定义,分析两个变量X、Y之间确切的定量关系,建立一个方程式,从而可由X变量的大小推算出Y变量的估计值。直线回归就是用来描述一个变量如何依赖于另一个变量。,35,回归方程,直线回归的任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程。,:是由自变量X推算应变量Y的估计值(读作Y hat)a:是回归直线在Y 轴上的截距,即X=0时的Y值;b:为样本的回归系数,即回归直线的斜率,表示当X变动一个单位时,Y平均变动b个单位。,36,直线回归分析的特点:,两变量同时进入数据分析;两变量必须区分为自变量X和应变量Y;要求应变量Y为正
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十五 直线 相关 回归 分析
链接地址:https://www.31ppt.com/p-5674356.html