应用回归分析PPT530ppt课件.ppt
《应用回归分析PPT530ppt课件.ppt》由会员分享,可在线阅读,更多相关《应用回归分析PPT530ppt课件.ppt(530页珍藏版)》请在三一办公上搜索。
1、应用回归分析,Applied Regression Analysis,教材何晓群,刘文卿:应用回归分析第二版,中国人民大学出版社,2007年,统计软件,SPSS 13.0Statistical Package for the Social Science,章 节 目 录,第1章 回归分析概述 第2章 一元线性回归 第3章 多元线性回归第4章 违背基本假定的情况 第5章 自变量选择与逐步回归 第6章 多重共线性的情形及其处理 第7章 岭回归 第8章 非线性回归第9章 含定性变量的回归模型,第1章 回归分析概述,1.1 变量间的统计关系 1.2 回归方程与回归名称的由来1.3 回归分析的主要内容及
2、其一般模型 1.4 建立实际问题回归模型的过程1.5 回归分析应用与发展述评 思考与练习,1.1 变量间的统计关系,函数关系商品的销售额与销售量之间的关系 y=px圆的面积与半径之间的关系 S=R2 原材料消耗额与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系 y=x1 x2 x3,1.1 变量间的统计关系,1.1 变量间的统计关系,相关关系的例子子女身高(y)与父亲身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)
3、之间的关系,1.1 变量间的统计关系,对变量间统计依赖关系的考察主要是通过相关分析(correlation analysis)或回归分析(regression analysis)来完成的,注意不线性相关并不意味着不相关。有相关关系并不意味着一定有因果关系。回归分析/相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。,回归分析构成计量经济学的方法论基础,其主要内容包括:(1)根据样本观察值
4、对经济计量模型参数进行估计,求得回归方程;(2)对回归方程、参数估计值进行显著性检验;(3)利用回归方程进行分析、评价及预测。,1.2 回归方程与回归名称的由来,成年儿子身高,父母平均身高,英国统计学家F.Galton(1822-1911年)。F.Galton和他的学生、现代统计学的奠基者之一K.Pearson(18561936年)在研究父母身高与其子女身高的遗传问题时,观察了1 078对夫妇,1.3 回归分析的主要内容及其一般模型,回归分析的一般形式:,随机误差项主要包括下列因素:在解释变量中被忽略的因素的影响;变量观测值的观测误差的影响;模型关系的设定误差的影响;其他随机因素的影响。,回归
5、模型研究的问题?,1.4 建立实际问题回归模型的过程,1.5 回归分析应用与发展述评,从高斯提出最小二乘法算起,回归分析已经有200年的历史。从1969年设立诺贝尔经济学奖以来,已有近50位学者获奖,其中绝大部分获奖者是统计学家、计量经济学家、数学家。他们对统计学及回归分析方法的应用都有娴熟的技巧。,第2章 一元线性回归,2.1 一元线性回归模型2.2 参数0、1的估计2.3 最小二乘估计的性质2.4 回归方程的显著性检验2.5 残差分析2.6 回归系数的区间估计2.7 预测和控制2.8 本章小结与评注,2.1 一元线性回归模型,例2.1 表2.1列出了15起火灾事故的损失及火灾发生地与最近的
6、消防站的距离。,表2.1火灾损失表,2.1 一元线性回归模型,例2.2 全国人均消费金额记作y(元);人均国民收入记为x(元),表2.2 人均国民收入表,2.1 一元线性回归模型,一元线性回归模型 y=0+1x+,回归方程 E(y|x)=0+1x,2.1 一元线性回归模型,样本模型 yi=0+1xi+i,i=1,2,n,回归方程 E(yi)=0+1xi,var(yi)=2,,样本观测值(x1,y1),(x2,y2),(xn,yn),经验回归方程,2.2 参数0、1的估计,一、普通最小二乘估计(Ordinary Least Square Estimation,简记为OLSE),最小二乘法就是寻找
7、参数0、1的估计值使离差平方和达极小,称为yi的回归拟合值,简称回归值或拟合值,称为yi的残差,2.2 参数0、1的估计,2.2 参数0、1的估计,经整理后,得正规方程组,2.2 参数0、1的估计,得OLSE 为,记,2.2 参数0、1的估计,续例2.1,回归方程,2.2 参数0、1的估计,二、最大似然估计,连续型:是样本的联合密度函数:离散型:是样本的联合概率函数。似然函数并不局限于独立同分布的样本。,似然函数,在假设iN(0,2)时,由(2.10)式知yi服从如下正态分布:,2.2 参数0、1的估计,二、最大似然估计,y1,y2,yn的似然函数为:,对数似然函数为:,与最小二乘原理完全相同
8、,2.3 最小二乘估计的性质,一、线性,是y1,y2,yn的线性函数:,其中用到,2.3 最小二乘估计的性质,二、无偏性,2.3 最小二乘估计的性质,三、的方差,2.3 最小二乘估计的性质,三、的方差,在正态假设下,GaussMarkov条件,2.4 回归方程的显著性检验,一、t 检验,原假设:H0:1=0对立假设:H1:10,由,当原假设H0:1=0成立时有:,2.4 回归方程的显著性检验,一、t 检验,构造t 统计量,其中,2.4 回归方程的显著性检验,二、用统计软件计算,1例2.1 用Excel软件计算,什么是P 值?(P-value),P 值即显著性概率值 Significence P
9、robability Value是当原假设为真时得到比目前的 样本更极端的样本的 概率,所谓极端就是与原假设相背离它是用此样本拒绝原假设所犯弃真错误的 真实概率,被称为观察到的(或实测的)显著性水平,双侧检验的P 值,/2,/2,t,拒绝,拒绝,H0值,临界值,计算出的样本统计量,计算出的样本统计量,临界值,1/2 P 值,1/2 P 值,左侧检验的P 值,H0值,临界值,a,样本统计量,拒绝域,抽样分布,1-,置信水平,计算出的样本统计量,P 值,右侧检验的P 值,H0值,临界值,a,拒绝域,抽样分布,1-,置信水平,计算出的样本统计量,P 值,利用 P 值进行检验的决策准则,若p-值,不能
10、拒绝 H0若p-值,拒绝 H0双侧检验p-值=2单侧检验p-值,2.4 回归方程的显著性检验,二、用统计软件计算,2.例2.1用SPSS软件计算,2.4 回归方程的显著性检验,二、用统计软件计算,2.用SPSS软件计算,2.4 回归方程的显著性检验,三、F检验,平方和分解式,SST=SSR+SSE,构造F检验统计量,2.4 回归方程的显著性检验,三、F检验,一元线性回归方差分析表,2.4 回归方程的显著性检验,四、相关系数的显著性检验,2.4 回归方程的显著性检验,四、相关系数的显著性检验,2.4 回归方程的显著性检验,四、相关系数的显著性检验,附表1 相关系数=0的临界值表,2.4 回归方程
11、的显著性检验,四、相关系数的显著性检验,用SPSS软件做相关系数的显著性检验,2.4 回归方程的显著性检验,四、相关系数的显著性检验,两变量间相关程度的强弱分为以下几个等级:当|r|0.8时,视为高度相关;当0.5|r|0.8时,视为中度相关;当0.3|r|0.5时,视为低度相关;当|r|0.3时,表明两个变量之间的相关程度极弱,在实际应用中可视为不相关。,2.4 回归方程的显著性检验,五、三种检验的关系,H0:b=0,H0:r=0,H0:回归无效,2.4 回归方程的显著性检验,六、样本决定系数,可以证明,2.5 残差分析,一、残差概念与残差图,残差,误差项,残差ei是误差项ei的估计值。,2
12、.5 残差分析,一、残差概念与残差图,2.5 残差分析,一、残差概念与残差图,图 2.6 火灾损失数据残差图,2.5 残差分析,二、残差的性质,性质1 E(ei)=0,证明:,2.5 残差分析,二、残差的性质,性质2,其中,称为杠杆值,2.5 残差分析,二、残差的性质,2.5 残差分析,二、残差的性质,性质3.残差满足约束条件:,2.5 残差分析,三、改进的残差,标准化残差,学生化残差,2.6 回归系数的区间估计,等价于,1的1-置信区间,2.7 预测和控制,一、单值预测,2.7 预测和控制,二、区间预测,找一个区间(T1,T2),使得,需要首先求出其估计值,的分布,1因变量新值的区间预测,二
13、、区间预测 1 因变量新值的区间预测,以下计算,的方差,从而得,二、区间预测 1 因变量新值的区间预测,记,于是有,则,二、区间预测 1 因变量新值的区间预测,y0的置信概率为1-的置信区间为,y0的置信度为95%的置信区间近似为,二、区间预测 2 因变量平均值的区间估计,得E(y0)的1-的置信区间为,E(y0)=0+1x0是常数,二、区间预测 计算,对例2.1的火灾损失数据,假设保险公司希望预测一个距最近的消防队x0=3.5公里的居民住宅失火的损失,点估计值,95%区间估计 单个新值:(22.32,32.67)平均值E(y0):(26.19,28.80),的95%的近似置信区间为,=(27
14、.50-22.316,27.50+22.316)=(22.87,32.13),三、控制问题,给定y的预期范围(T1,T2),如何控制自变量x的值才能以1-的概率保证,用近似的预测区间来确定x。如果=0.05,则要求,把,带入,2.8 本章小结与评注,一、一元线性回归模型从建模到应用的全过程例2.2 全国人均消费金额记作y(元);人均国民收入记为x(元),表2.2 人均国民收入表,2.8 本章小结与评注,二、有关回归假设检验问题 1973年Anscombe构造了四组数据,这四组数据所建的回归方程是相同的,决定系数,F统计量也都相同,且均通过显著性检验。,2.8 本章小结与评注,第三章 多元线性回
15、归,3.1 多元线性回归模型3.2 回归参数的估计3.3 参数估计量的性质3.4 回归方程的显著性检验3.5 中心化和标准化3.6 相关阵与偏相关系数3.7 本章小结与评注,3.1 多元线性回归模型,一、多元线性回归模型的一般形式,y=0+1x1+2x2+pxp+,3.1 多元线性回归模型,一、多元线性回归模型的一般形式,对n组观测数据(xi1,xi2,xip;yi),i=1,2,n,线性回归模型表示为:,3.1 多元线性回归模型,一、多元线性回归模型的一般形式,写成矩阵形式为:y=X+,其中,3.1 多元线性回归模型,二、多元线性回归模型的基本假定,1.解释变量x1,x2,xp是确定性变量,
16、不是随机变量,且要求rk(X)=p+1n。表明设计矩阵X中的自变量列之间不相关,X是一满秩矩阵。,3.1 多元线性回归模型,二、多元线性回归模型的基本假定,2.随机误差项具有0均值和等方差,即,这个假定称为Gauss-Markov条件,3.1 多元线性回归模型,二、多元线性回归模型的基本假定,3.正态分布的假定条件为:,用矩阵形式(3.5)式表示为:,N(0,s2In),3.1 多元线性回归模型,二、多元线性回归模型的基本假定,在正态假定下:,yN(X,s2In),E(y)=Xvar(y)=s2In,3.1 多元线性回归模型,三、多元线性回归方程的解释,y表示空调机的销售量,x1表示空调机的价
17、格,x2表示消费者可用于支配的收入。,y=0+1x1+2x2+E(y)=0+1x1+2x2,在x2保持不变时,有,在x1保持不变时,有,3.1 多元线性回归模型,三、多元线性回归方程的解释,考虑国内生产总值GDP和三次产业增加值的关系,GDP=x1+x2+x3,现在做GDP对第二产业增加值x2的一元线性回归,得回归方程,3.1 多元线性回归模型,3.1 多元线性回归模型,三、多元线性回归方程的解释,建立GDP对x1和x2的回归,得二元回归方程,=2 914.6+0.607 x1+1.709 x2,你能够合理地解释两个回归系数吗?,3.2 回归参数的估计,一、回归参数的普通最小二乘估计,最小二乘
18、估计要寻找,3.2 回归参数的估计,一、回归参数的普通最小二乘估计,3.2 回归参数的估计,一、回归参数的普通最小二乘估计,经整理后得用矩阵形式表示的正规方程组,移项得,存在时,即得回归参数的最小二乘估计为:,3.2 回归参数的估计,二、回归值与残差,为回归值,称为帽子矩阵,其主对角线元素记为hii,则,3.2 回归参数的估计,二、回归值与残差,此式的证明只需根据迹的性质tr(AB)=tr(BA),因而,3.2 回归参数的估计,二、回归值与残差,cov(e,e)=cov((I-H)Y,(I-H)Y)=(I-H)cov(Y,Y)(I-H)=2(I-H)In(I-H)=2(I-H),得 D(ei)
19、=(1-hii)2,i=1,2,n,3.2 回归参数的估计,二、回归值与残差,是2的无偏估计,3.2 回归参数的估计,三、回归参数的最大似然估计,yN(X,2In),似然函数为,等价于使(y-X)(y-X)达到最小,这又完全与OLSE一样,3.2 回归参数的估计,例3.1国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。中国统计年鉴把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业
20、,x6房地产业,x7社会服务业,x8卫生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关,x12其他行业。采用1998年我国31 个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量y,以如上12 个行业为自变量做多元线性回归,数据见表3.1,其中自变量单位为亿元人民币。,3.2 回归参数的估计,3.3 参数估计量的性质,性质1 是随机向量y的一个线性变换。,性质2,是的无偏估计。,3.3 参数估计量的性质,3.3 参数估计量的性质,当p=1时,3.3 参数估计量的性质,性质4 Gauss-Markov定理,预测函数,是 的线性函数,Gauss-Ma
21、rkov定理 在假定E(y)=X,D(y)=2In时,的任一线性函数 的最小方差线性无偏估计(Best Lnear Unbiased Estimator简记为BLUE)为c,其中c是任一p+1维向量,是的最小二乘估计。,3.3 参数估计量的性质,第一,取常数向量c的第j(j=0,1,n)个分量为1,其余分量为0,这时G-M定理表明最小二乘估计是j的最小方差线性无偏估计。第二,可能存在y1,y2,yn的非线性函数,作为 的无偏估计,比最小二乘估计 的方差更小。第三,可能存在 的有偏估计量,在某种意义(例如均方误差最小)下比最小二乘估计 更好。第四,在正态假定下,是 的最小方差无偏估计。也就是说,
22、既不可能存在y1,y2,yn的非线性函数,也不可能存在y1,y2,yn的其它线性函数,作为 的无偏估计,比最小二乘估计 方差更小。,3.3 参数估计量的性质,性质5 cov(,,e)=0,此性质说明 与e不相关,在正态假定下等价于与e独立,从而与 独立。,性质6 在正态假设,(1),(2),3.4 回归方程的显著性检验,一、F检验,H0:1=2=p=0,SST=SSR+SSE,当H0成立时服从,3.4 回归方程的显著性检验,一、F检验,3.4 回归方程的显著性检验,二、回归系数的显著性检验,H0j:j=0,j=1,2,p,(,(X)-1),记(X)-1=(cij)i,j=0,1,2,p,构造t
23、统计量,其中,3.4 回归方程的显著性检验,二、回归系数的显著性检验(剔除x1),3.4 回归方程的显著性检验,二、回归系数的显著性检验,3.4 回归方程的显著性检验,二、回归系数的显著性检验,从另外一个角度考虑自变量xj的显著性。y对自变量x1,x2,xp线性回归的残差平方和为SSE,回归平方和为SSR,在剔除掉xj后,用y对其余的p-1个自变量做回归,记所得的残差平方和为SSE(j),回归平方和为SSR(j),则 自变量xj对回归的贡献为SSR(j)=SSR-SSR(j),称为xj的偏回归平方和。由此构造偏F统计量,3.4 回归方程的显著性检验,二、回归系数的显著性检验,当原假设H0j:j
24、=0成立时,(3.42)式的偏F统计量Fj服从自由度为(1,n-p-1)的F分布,此F检验与(3.40)式的t检验是一致的,可以证明Fj=tj2,3.4 回归方程的显著性检验,三、回归系数的置信区间,可得j的置信度为1-的置信区间为:,3.4 回归方程的显著性检验,四、拟合优度,决定系数为:,y关于x1,x2,xp的样本复相关系数,3.5 中心化和标准化,一、中心化,经验回归方程,经过样本中心,将坐标原点移至样本中心,即做坐标变换:,回归方程转变为:,回归常数项为,3.5 中心化和标准化,二、标准化回归系数,当自变量的单位不同时普通最小二乘估计的回归系数不具有可比性,例如有一回归方程为:,其中
25、x1的单位是吨,x2的单位是公斤,3.5 中心化和标准化,二、标准化回归系数,样本数据的标准化公式为:,得标准化的回归方程,3.5 中心化和标准化,二、标准化回归系数,标准化回归系数,3.6 相关阵与偏相关系数,一、样本相关阵,自变量样本相关阵,增广的样本相关阵为:,3.6 相关阵与偏相关系数,一、样本相关阵,3.6 相关阵与偏相关系数,二、偏判定系数,当其他变量被固定后,给定的任两个变量之间的相关系数,叫偏相关系数。偏相关系数可以度量p+1个变量y,x1,x2,xp之中任意两个变量的线性相关程度,而这种相关程度是在固定其余p-1个变量的影响下的线性相关。,3.6 相关阵与偏相关系数,二、偏判
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 回归 分析 PPT530ppt 课件

链接地址:https://www.31ppt.com/p-4855535.html