相关与回归分析.ppt
《相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《相关与回归分析.ppt(110页珍藏版)》请在三一办公上搜索。
1、第八章 相关与回归分析,8.1 相关与回归分析的概念 8.2 一元回归分析8.3 Excel回归分析工具8.4 多元回归分析,8.1 回归与相关的概念,一、相关关系的概念二、相关关系的种类三、回归分析与相关分析,(一)函数关系(二)相关关系,相关关系表现为现象之间客观存在非确定性的数量对应关系。,一.相关关系的概念,函数关系可以用一个确定的公式,即函数式,来表示。,例2、根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有相关关系:,相关关系,可用统计模型,二.相关关系的种类:,(一)依相关关系所涉及因素的多少,分为单相关与复相关(二)依相关关系的表现形式不同,分为线性相关与非线性相关(
2、三)根据变量之间相互关系的方向,分为正相关和负相关(四)按照变量之间相互关系的密切程度,可分为完全相关、不完全相关和不相关。,三、相关分析与回归分析,相关分析是用一个指标来表明现象间相互依存关系的密切程度。回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。,相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量可以都是随机变量。而回归分析则必须事先研究确定具有
3、相关关系的变量中哪个为自变量,哪个为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机变量。,相关分析与回归分析之间在研究目的和方法上是有明显区别的,相关分析研究变量之间相关的方向和相关的程度。回归分析则是研究变量之间相互关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学表达式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供一个重要的方法。,四、相关图,相关图又称散点图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。,五、简单线性相关
4、分析,(一)相关系数是在直线相关条件下说明两个变量间相关关系密切程度的统计分析指标。计算公式为:,自变量的标准差,因变量的标准差,两变量的协方差,(二).计算相关系数的公式:,简捷公式,掌握了平均值资料使用,掌握了平均值及标准差可使用,(三)相关系数的计算,具体计算样本相关系数时,通常利用以下公式:,例:1992年-2003年我国城镇居民人均年消费性支出和人均年可支配收入的有关资料,试计算消费性支出与可支配收入的样本相关系数。,(四).相关系数的性质,完全线性相关,完全没有线性相关,低度相关,显著相关,高度相关,(五)相关系数的检验,对总体相关系数 是否等于进行检验。计算相关系数r的t值:根据
5、给定的显著性水平和自由度(n-2),查找t分布表中相应的临界值t/2。若|t|t/2,表明r在统计上是显著的。若|t|t/2,表明r在统计上是不显著的。,假设根据6对样本观测数据计算出某公司的股票价格与气温的样本相关系数r=0.5,试问是否可以根据5的显著水平认为该公司的股票与气温之间存在一定程度的线性相关关系?解:H0:=0;H0:0r的t检验值 查表可知:显著水平为5%,自由度为的临界值t/2=2.776,上式中的t值小于2.776,因此,r不能通过显著性检验。这就是说,尽管根据样本观测值计算的r达到0.5,但是由于样本单位过少,这一结论并不可靠,它不足以证明该公司的股票与气温之间存在一定
6、程度的线性相关关系。,第八章 相关与回归分析,8.1 相关与回归分析的基本概念 8.2 一元线性回归分析 8.3 多元回归分析,8.2 一元线性回归分析,一 回归分析的概念二 标准的一元线性回归模型 三、一元线性回归模型的估计四、一元线性回归模型的检验,一、回归分析的概念,现实世界中大多数现象表现为相关关系,人们通过大量观察,将现象之间的相关关系抽象概括为函数关系,并用函数形式或模型来描述与推断现象间的具体变动关系,用一个或一组变量的变化来估计与推算另一个变量的变化。这种分析方法称为回归分析。,二、标准的一元线性回归模型,(一)总体回归函数 上式被称为总体回归函数。式中的 1和 2是未知的参数
7、,又叫回归系数。Yt和Xt分别是Y和X的第t个观测值。u t是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。,(二)样本回归函数 在现实问题研究中,由于总体单位数一般是很多的,需要利用样本的信息对其进行估计。一元线性回归模型的样本回归线可表示为:式中的 是样本回归线上与Xt相对应的Y值,可视为E(Yt)的估计;是样本回归函数的截距系数,是样本回归函数的斜率系数,它们是对总体回归系数 1和 2的估计。,实际观测到的因变量Yt值,并不完全等于,如果用et表示二者之差(),则有:(t=1,2,.,n)上式称为样本回归函数。式中et称为残差。,三、一元线
8、性回归模型的估计,(一)回归系数的点估计所谓最小二乘法就是通过使残差平方和为最小来估计回归系数的一种方法。将对求偏导数,并令其等于零,可得加以整理后有,设,以上方程组称为正规方程组或标准方程组,式中的n是样本容量。求解这一方程组可得:,例:1992年-2003年我国城镇居民人均年消费性支出和人均年可支配收入的有关资料,估计我国城镇居民的边际消费倾向和基础消费水平。,上表已给出我国历年城镇居民人均消费支出和人均可支配收入的数据,来估计我国城镇居民的边际消费倾向和基础消费水平。解:Yt=1+2Xt+ut 样本回归方程为:上式中:0.7511是边际消费倾向,表示人均可支配收入每增加1千元,人均消费支
9、出会增加0.7511千元;0.2310是基本消费水平,即与收入无关最基本的人均消费为0.2310千元。,如果人均可支配收入为8千元时,城镇居民人均消费支出是多少?,代入回归模型得:,(二)预测误差在实际的回归模型预测中,发生预测误差的原因可以概括为以下四个:1.模型本身中的误差因素所造成的误差;这一误差可以用总体随机误差项的方差来评价。2.由于回归系数的估计值同其真值不一致所造成的误差;这一误差可以用回归系数的最小二乘估计量的方差来评价。3.由于自变量X的设定值同其实际值的偏离所造成的误差。4.由于未来时期总体回归系数发生变化所造成的误差。在以上造成预测误差的原因中,3、4两项不属于回归方程本
10、身的问题,而且也难以事先予以估计和控制。因此,在下面的讨论中,假定只存在1、2、两种误差。,(三)总体方差的估计 数学上可以证明,2的无偏估计S 2可由下式给出:式中,分子是残差平方和,分母是自由度,其中n是样本观测值的个数,2是一元线性回归方程中回归系数的个数。S 2的正平方根又叫做回归估计的标准误差。一般采用以下公式计算残差平方和:上式的推导过程如下:,解:根据例7-2中给出的有关数据和例7-4中已得到的回归系数估计值,可得:=232.7719-0.231050.0730.7511294.4539=0.0407 S 2=0.0407/(12-2)=0.00407 进而有:S=0.0638,
11、根据例7-2中给出的有关数据和例7-4中已得到的回归系数估计值,计算我国城镇居民消费函数的总体方差S2和回归估计标准差S。,设Xf给定时的真值为Yf,Yf=1+2 Xf+uf则有式中,ef是预测的残差。利用期望值与方差的运算规则以及前面给出的回归系数最小二乘估计量的期望值和方差,可以证明:在此基础上,还可以进一步证明 是Yf的最优线性无偏预测,即在标准假定能够满足的情况下,公式 是Yf的最佳预测方式。,对于每一个给定的X值,计算相应的Y的置信区间,并将连接各点的曲线描绘在平面图上,便可得到右图。从置信区间和Sef的计算公式以及右图,可以得到以下结论:,回归预测的置信区间,第一,置信区间的上下限
12、对称地落在样本回归直线两边,呈中间小两头大的喇叭型。当Xf 时的置信区间最窄,而当Xf远离 时,其置信间逐渐增大。这就是说,在用回归模型进行预测时,Xf的取值不宜离开 过远,否则预测精度将会降低,有可能使预测失效。第二,在样本容量n保持不变时,的值,随置信度(1-)的提高而增加,因此,要求预测值的概率保证程度增加,在其它条件不变时,也就意味着预测精度的降低。第三,当其它条件不变时,和Sef的值均为样本容量n的减函数,即随着n的增加,这二者将逐渐减少。这说明随着样本容量的增加,预测精度将会提高,而样本容量过小,预测的精度就较差。,第四,当n足够大时,Sef会趋近于S;会趋近于z/2。(z/2是置
13、信度为(1-)的标准正态分布的临界值)。这时,可以用S和z/2取代Sef和zt/2来确定预测区间。即样本容量充分大时,Yf的(1-)的置信区间为:Yf z/2 S按上式确定的预测区间的上、下限在平面图上呈两条直线(参见图“回归预测的置信区间”中与样本回归线平行的两条虚线)。,(四)一元线性回归区间预测若用Sef来表示预测标准误差的估计值,则数学上可以证明:服从于自由度为(n-2)的t分布。按照确定置信区间的方法,可以得出Yf的(1-)的置信区间为:式中,是置信度为(1-)、自由度为(n-2)的t分布的临界值。,假定已知某居民家庭的年人均可支配收入为8千元,要求利用例7-4中拟合的样本回归方程与
14、有关数据,计算置信度为95的年人均消费支出的预测区间。解:将有关数据代入拟合好的样本回归方程,可得:从前面几例的结果可知:S=0.0638,n=12将其代入求预测标准误差估计值的公式,有,查t分布表可知:显著水平为5,自由度为10的双侧t检验的临界值是2.228。因此,当人均可支配收入为8千元时,置信度为95 的消费支出的预测区间如下:6.23982.2280.0717 Yf 6.23982.2280.0717 6.0801(千元)Yf 6.3995(千元),四、一元线性回归模型的检验,(一)拟合程度的评价,总离差平方和的分解对任一实际观测值Yt总有:对上式两边取平方并求和,得到:可以证明:从
15、而有:即 SST=SSR+SSE,上式中,SST是总离差平方和;SSR是由回归直线可以解释的那一部分离差平方和,称为回归平方和;SSE是用回归直线无法解释的离差平方和,称为残差平方和。式子两边同除以SST,得:显而易见,各个样本观测点与样本回归直线靠得越紧,SSR在SST中所占的比例就越大。因此,可定义这一比例为决定系数,即有:决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。决定系数越小,则模型对样本的拟合程度越差。,决定系数r 2具有如下特性:,1.决定系数r2具有非负性。由决定系数的定义式可知,r 2的分子分母均是不可能为负值的平方和,因此其比值必大于零。(但是在回
16、归模型中不包括截距项的场合,由于总离差平方和的分解公式不成立,按该式计算的r2有可能小于。)2.决定系数的取值范围为0 r 2 1。3.决定系数是样本观测值的函数,它也是一个统计量。4.在一元线性回归模型中,决定系数是单相关系数的平方。,利用例7-5中计算的残差平方和,计算例7-3所拟合的样本回归方程的决定系数。解:上式中的SST是利用表7-1中给出的数据按下式计算的:,(三)回归系数的显著性检验 所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。下面我们以 2的检验为例,介绍回归系数显著性检验的基本步骤:,1.t检验(1)提出假设。对回归系数进行显著性检验,所
17、提出的假设的一般形式是:式中,H0表示原假设;H1表示备择假设;是假设的总体回归系数的真值。在许多回归分析的计算机程序里,常常令 0。这是因为 2 是否为0,可以表明X对Y是否有显著的影响。(2)确定显著水平。显著水平的大小应根据犯哪一类错误可能带来损失的大小确定。一般情况下可取0.05。(3)计算回归系数的t值。,(4)确定临界值。t检验的临界值是由显著水平和自由度决定的。这时应该注意,原假设和备择假设设定的方式不同,据以判断的接受域和拒绝域也不相同。例如对H0:2=0,H1:2 0,进行的是双侧t检验;而对H0:2=0.9,H1:2 0.9,进行的是单侧t检验。对此,在双侧检验的场合,依据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 回归 分析
链接地址:https://www.31ppt.com/p-6006394.html