研究生统计学讲义第11讲相关与回归.ppt
《研究生统计学讲义第11讲相关与回归.ppt》由会员分享,可在线阅读,更多相关《研究生统计学讲义第11讲相关与回归.ppt(74页珍藏版)》请在三一办公上搜索。
1、第六章 一元线性相关与回归,变量间的关系有确定性关系(函数关系)和随机性关系。函数关系是指对于一个变量的每个可能取值,另外的变量都有完全确定的值与之对应。随机性关系是指变量间的关系以非确定性形式出现的情况。,例如儿童身高与体重的关系;随着身高的增长,体重也增加,一般说,身高高的儿童,体重也重一些,两者之间确实存在着某种关系,但显然不是函数关系,因为身高相同的人体重也有的重,有的轻,身高和体重之间的客观联系存在于随机背景中,不能说某一身高的儿童,其体重一定是多少。,第一节 直线相关,相关分析用于测量观察到的任何一对变量之间的联合强度,我们主要关心两个变量是否互相依赖或共同变化这里我们没有把变量表
2、示成为其它函数,像回归分析一样并未暗示Y依赖于X X和Y二者测量有误差并且我们希望估计这些变量共同变化的程度见图,相关与回归分析的种类很多,按变量个数划分,有一个 x 一个 y 的简单相关与回归分析,多个 x 和一个 y 的多元相关与回归分析,以及多个 x 多个 y的典型相关。本章介绍最简单的两变量间的直线相关与回归,称为一元线性相关与回归,1.散点图,图7.1 a)图说明X 和Y 之间具有正相关b)图说明 X 和 Y 之间具有负相关.c)图和d)图说明 X 和 Y 之间没有相关关系,双变量相关分析步骤是先作原始数据的散点图,根据散点图的提示再作恰当分析,如两变量有直线趋势,则作直线相关分析。
3、从散点图可初步看出变量分布非正态时,应考虑作等级相关而不宜作积矩相关。并非任何有联系的两个变量都是直线联系。例如,血压很高的人和很低的人死亡率均较高,而中等血压的人死亡率较低,死亡率和血压之间有如图7-1(h)所示曲线关系,不适合作直线相关分析。,2.积矩相关系数:Pearson积差相关系数,简称相关系数。表示两个变量间直线关系密切程度和方向的统计指标。,用 r 表示,总体相关系数用表示,r 是的点估计。考虑 X 和 Y 的标准正态离差:,和,把相应的离差同时相乘并求和时,得到一个联合指标:,这个指标具有下面的性质:,1如果大的X 值与大的Y 值相联系,小的X 值与小的Y 值相联系,那么 和
4、二者符号相同,在公式中它们的乘积为正 X 和 Y 之间有正相关,2如果大的X 值与小的Y 值相联系,小的X 值与大的Y 值相联系,那么 和 二者符号相反,在公式里符号为负.于是我们就说这种情形里 X 和 Y 之间有负相关,如果我们用 n1 除公式,就得到一个新指标,用 r 表示,首先它满足两个条件且范围从1到+1(我们将在随后验证).有,即 r 是 X 和 Y 的修正积差除以 X 和 Y 的修正平方和乘积的平方根注意 r 是参数的估计值,参数定义为:,希腊字母(“rho”)表示变量 X 和 Y 之间真实的总体关系,相关系数无单位,取值范围为1r1,r 的符号表示相关方向,r0称为正相关,r0称
5、为负相关。r的绝对值表示两个变量间直线关系的密切程度,r的绝对值为1表示完全相关。生物界由于影响因素众多,很少完全相关,r 值多界于-1与1之间.,积差相关系数 r 只适用于双变量正态分布资料,否则应先作变量变换,使之正态化,然后用变换后的数值计算积差相关系数。,二、积矩相关系数的假设检验,=0表示总体中两变量 x 和 y 无直线相关关系。(注意:如果 x 和 y 独立,即 x 和 y 无相关关系,则=0但=0时,并不能说明x 与 y 一定无相关关系).因是一个客观存在的理论值,一般无法获得,在实际问题中,常通过用 r 来推断两变量 x 和 y 有无直线相关关系。当由r0时,因为存在抽样误差,
6、不能认为0,所以,判断x 和y 是否线性相关,需要检验r是否来自0的总体,称为相关系数的假设检验。,从服从双变量正态分布的X,Y 和0的总体中每次随机抽取样本含量相同的样本,r 随样本的不同而不同,是一个随机变量,其分布接近正态分布时,r 的标准差为Sr:,服从自由度df=n2 的 t 分布,所以,可用来检验样本相关系数 r 是否来自0 的总体.,Ha:0,H0:=0,也可直接用 r 作检验统计量,用自由度dfn-2,查附表16,相关系数 r 界值表,得出 r 界值,若rr,(df),则P,按检验水准不能拒绝H0,从而认为x、y之间无直线相关关系。,例6.1 测得某地10名三岁儿童的体重与体表
7、面积如下,试计算样本相关系数r,并检验其是否来自0的总体,体重x(kg):11.0 11.8 12.0 12.3 13.1 13.7 14.4 14.9 15.2 16.0,面积y(10-1m2):5.283 5.299 5.358 5.602 5.292 6.014 5.830 6.102 6.075 6.411,H0:总体相关系数0,体重与体表面积间无直线相关关系;H1:0。0.05。,在直角坐标系上画出散点图,有直线趋势,故进行直线相关分析.使用程序型计算器时,在线性回归(LR)工作方式下,成对地输入x 与y 后,可直接输出r=0.9568。无程序型计算器和计算机时,用一般计算器可求出n
8、对x与y 的乘积之和xy=775.6606,=13.440,=5.7272,x、y 的样本标准差Sx=1.6635、Sy=0.4136,按公式计算相关系数 r:,=(775.6606-1013.4405.7272)/(10-1)1.66350.4136=5.92492/6.1922=0.9568。,以r0.9572作统计量,用自由度df10-28,查附表16得界值r0.01(8)0.765,统计量r r0.01,P0.01,按0.05水准拒绝H0,接受H1,可以认为某地三岁儿童体重(kg)与体表面积(101m2)呈正向直线相关。,使用SPSS11.5统计软件,(3)进行直线相关分析,Cross
9、-product deviations and covarlances;,输出结果:体重与体表面积的Pearson相关系数r=0.923,双侧 P 值=0.000,可认为直线相关有统计学意义。,三、直线相关分析应注意的问题,1判断两个变量间是否存在相关关系,不能仅根据样本相关关系的大小下结论,必须进行假设检验。2正相关或负相关并不一定表示一个变量的改变是引起另一个变量变化的原因,可能同受另一个因素的影响。因此,事物间有相关关系,不一定是因果关系;但如果两事物之间存在因果关系,则两者必然是相关的。3当样本含量不大时(如n30时),在相关系数检验有显著性的情况下,也不要轻易凭 r 值的大小去判断两
10、变量间相关关系的密切程度;一般来说,当样本含量较大时:,0.7r 0.4(中度相关)或r0.7(高度相关),都有作回归分析的必要。0.4r0.2(低度相关),是否有作回归分析的必要,有不同的看法。4相关分析中对变量的选择及统计结果的解释要结合专业背景。不要把P值大小误解为相关程度,样本相关系数有统计学意义并不一定反映相关就很密切,需要考虑专业意义或进一步结合决定系数来作实际意义解释。牢记:统计上显著性水平的高低,不能代表实际相关水平的高低。,第三节 直线回归,一、直线回归的模型-简单线性回归,在线性回归里,一个变量的变化(因变量Y)是由于另一个变量(自变量X)的变化所致明确地,我们将寻找直线或
11、寻找由X的变化而引起Y的线性变化回归分析通常所处的位置是已经控制了变量X并且基本上能够准确测量它当变量之间有曲线关系的时候,也就是指数,抛物线或多项式,但我们限定所考虑的是线性情形我们考虑简单线性回归,分析目标是描述两变量之间的函数关系,这里 X 是自变量而 Y 是应变量.假定 X 可测量而没有误差,而且是可以重复测量的因为Y 是应变量,它是自由多变的.当我们把数据画图时,如果数据表现出有线性关系,希望了解这个线性方程性质的真实参数,二、直线回归方程的建立与检验,回归分析的内容包括三个方面:(1)建立回归方程,是根据样本数据判定回归方程的类型,建立回归方程的估计式。(2)检验回归方程,是判断建
12、立的回归方程能否使用。(3)使用回归方程,是在样本数据范围内,由自变量数据推算因变量的估计值(称预测),或由因变量数据推算自变量的估计值(称控制)。,1直线回归方程的建立,补充例题:一名学生想要确定温度与中国林蛙心律之间的关系,调节温度范围从2到18,纪录每个温度下的心律.数据如下表所示,编号 1 2 3 4 5 6 7 8 9,对两变量之间的关系怎样进行处理描述呢?显然两个变量有函数依赖随着温度的增加,心律也就增加.这里温度由学生控制,且在使用不同蛙的其它实验里能够准确测得相同值(见下图)温度是自变量或“预报”变量.心律由温度确定,因此它是应变量或“反应”变量.以不同温度下心律预测为目标,回
13、归分析能够正确地分析这些资料,X(温度)2 4 6 8 10 12 14 16 18,Y(心律)5 11 11 14 22 23 32 29 32,图6.5 温度和心律数据用表示,这些数据接近所显示的直线,在相同温度下,如果重复7次实验,数据是相似的,但是并非都一样(见空心).在实验运行中,因为研究者控制了温度,所以这些点排列在垂线上,线性模型的假定1.X 固定且测量无误差2.对所给的X,变量 Y 的期望值(或平均值)用一个线性函数来描述:E(Y)=Y|X=+X,这里的和是实常数,且0 Y的期望值取决于X 和参数和.注意这些和与前面使用的型错误和型错误值不同.它们代表的是截矩 intercep
14、t 和斜率slope,分别表示 Y 和 X 之间的线性关系,3.对任何固定的X值,能够测量相应的变量Y的一些值.(例如固定一个温度,测量一些蛙的心律值)然而,我们假定对任何的X i,Y i 彼此独立而且服从正态分布,(见图10.1垂直排列的数据)能够把每一个Yi 值表示为,Y i=+X i+i 或,Y i 被描述为期望值(+X i)加上一个来自于期望值的偏差i 我们假定i 是具有均值为 0 的正态分布的误差项,4对不同的X 值,假定 Y 的分布的方差相等.统计学家说它们是等方差!为了描述 Y 和X 之间的实验回归关系,需要执行下列步骤:,1画散点图借以发现明显存在的线性关系2为数据集寻找一条最
15、合适的直线,3检验这条拟合的直线是否能解释 Y 的变化的重要部分,也就是检验线性关系是否真实,作一个初步的散点图以获得两变量之间是否有存在任何联系的印象,如果是这样,两变量或许可能有联系下面 a)图表示在 X 和 Y 之间不存在有意义的关系大的Y值与既大又小的两个 X 值相联系图b),c)和d)表示在变量之间有关系,但不是直线关系如果它们能够通过数学函数转换为直线图形,回归分析就能够对转换的数据进行描述,图e)显示 Y 和 X 之间有负的线性关系(即 X 增加时,Y减少)而数据点不一定恰好在直线上,它们给我们一个线性的印象图10.3 f)表示变量之间有很强的正线性关系(即 X 增加,Y 增加)
16、,与直线偏差小线性回归只适合最后两种情形,a)表示在 X 和 Y 之间不存在有意义的关系,b),c)和d)表示在变量之间有关系,但不是直线关系,e)显示 Y 和 X 之间有负的线性关系,f)表示变量之间有很强的正线性关系,图6.6 数据,最佳直线拟合一旦确定适合作回归分析,就是要确定哪一条直线最能拟合数据.在下图拟合了a,b,c三条直线.很明显,c 拟合数据比a 和b 更好.这些数据有正的倾向:随X的增加,Y也增加.而直线 b 完全不能够反映 Y 和 X 之间的关系,而且这条线暗指不存在关系,图6.7 如何确定哪条线最好拟合这些数据呢?,在图6.8 里,考虑相同数据和两条直线c与d这个时候两条
17、直线都顺着直线的正向为讨论这些直线哪条最能拟合数据或者是否有一些其它直线能更好地拟合需要某些我们能够判断其拟合的准则为了产生最满意的直线,下面我们制定这个准则和方法,回归的目的是预测 Y 的值开始瞬间,忽略变量 X,按照前面单样本分析进行思考Y的预测值将是E(Y)=Y,通过使用样本平均值 进行估计该直线有方程.见图7.9,我们使用记号(念作“Y hat”)而不是用Y去表示它的预测值,预测值不是精确值或观察值直线 的斜率为0,即它平行于x 轴作为,它意味着Y 和X 之间没有关系,因为Y的值不依赖(随着变化的)X 值,图6.9 对数据拟合,然而在下面,我们认为Y的值不依赖 X 的取值,而且我们能够
18、度量 Y 的精确值Yi 和 Y 的预测值 之间的差值从每一数据点向直线 画一节垂线任何一段的长度都是见图7.10,如果对这些离差平方求和,有,图6.10 从数据点向直线画垂线,Y 的总离差平方和=,现在画一条斜线,去拟合数据再从每一个,数据点向斜线画垂线段,如果我们对这个离差求,平方和,就得到:,比从图7.10计算,要小,因线段短些.画出“拟合”数据直线后,这个剩余变化被认为是系统残差或无法解释的变化,图7.11,最佳直线是这样的一条直线,它的截矩a 和斜率 b 同时使这个残差减至最小与第 8 章一样,我们能划分平方和以确定残差数量如图7.12,每一个 Yi 都能够表示为,移项得,(7.15)
19、,图7.12,对公式7.15两边平方并且求和,我们得到,公式7.15 总的平方和是,总平方和=回归平方和+残差平方和,SS总=SS回+SSE,使 SS回 达到最大值,而使 SSE 达到最小值,要使SSE达到最小值,就要使得图10.8里作出的垂线段尽可能地短,拟合直线:,是样本回归方程,用来估计前面给出的参数关系:Y|X=+X这里的 a 是真实截矩的估计值,而 b 是真实斜率的估计值在公式10.1里,因为这条直线使误差平方和达到最小,它就是众所周知的,由上式,对 a 作代换得到,它能表示为(见P109公式7.11)截矩的最优估计:,最小二乘回归直线,要得到使 SSE 取得最小值的斜率b,需要最小
20、二乘法技巧最小二乘回归方程是,斜率 b 由最小二乘回归法确定:,作为斜率b 的方程离差的基本计算是解方程7.11然而,斜率 b 是由最小二乘法来确定,是修正的交叉积 lXY 除以修正的lXX.值得重复的是,利用公式7.14,这个方程对一组线性数据集会产生最佳斜率,产生的误差平方项是最小的,而产生的回归平方和是最大的,公式7.14,如果公式7.14给出的是最优拟合回归方程,我们需要检验方程的统计显著性.要明白为什么,考虑图7.13里的数据,因为用箭头指出了数据点,所以能够用一条斜率为正的回归直线来拟合它们.这条回归直线能证明X 和Y 之间有真实的线性关系吗?或许不是因为方程有意义就必须解释由X
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 研究生 统计学 讲义 11 相关 回归
链接地址:https://www.31ppt.com/p-5806374.html