应用回归分析PPT530ppt课件.ppt
应用回归分析,Applied Regression Analysis,教材何晓群,刘文卿:应用回归分析第二版,中国人民大学出版社,2007年,统计软件,SPSS 13.0Statistical Package for the Social Science,章 节 目 录,第1章 回归分析概述 第2章 一元线性回归 第3章 多元线性回归第4章 违背基本假定的情况 第5章 自变量选择与逐步回归 第6章 多重共线性的情形及其处理 第7章 岭回归 第8章 非线性回归第9章 含定性变量的回归模型,第1章 回归分析概述,1.1 变量间的统计关系 1.2 回归方程与回归名称的由来1.3 回归分析的主要内容及其一般模型 1.4 建立实际问题回归模型的过程1.5 回归分析应用与发展述评 思考与练习,1.1 变量间的统计关系,函数关系商品的销售额与销售量之间的关系 y=px圆的面积与半径之间的关系 S=R2 原材料消耗额与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系 y=x1 x2 x3,1.1 变量间的统计关系,1.1 变量间的统计关系,相关关系的例子子女身高(y)与父亲身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系,1.1 变量间的统计关系,对变量间统计依赖关系的考察主要是通过相关分析(correlation analysis)或回归分析(regression analysis)来完成的,注意不线性相关并不意味着不相关。有相关关系并不意味着一定有因果关系。回归分析/相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。,回归分析构成计量经济学的方法论基础,其主要内容包括:(1)根据样本观察值对经济计量模型参数进行估计,求得回归方程;(2)对回归方程、参数估计值进行显著性检验;(3)利用回归方程进行分析、评价及预测。,1.2 回归方程与回归名称的由来,成年儿子身高,父母平均身高,英国统计学家F.Galton(1822-1911年)。F.Galton和他的学生、现代统计学的奠基者之一K.Pearson(18561936年)在研究父母身高与其子女身高的遗传问题时,观察了1 078对夫妇,1.3 回归分析的主要内容及其一般模型,回归分析的一般形式:,随机误差项主要包括下列因素:在解释变量中被忽略的因素的影响;变量观测值的观测误差的影响;模型关系的设定误差的影响;其他随机因素的影响。,回归模型研究的问题?,1.4 建立实际问题回归模型的过程,1.5 回归分析应用与发展述评,从高斯提出最小二乘法算起,回归分析已经有200年的历史。从1969年设立诺贝尔经济学奖以来,已有近50位学者获奖,其中绝大部分获奖者是统计学家、计量经济学家、数学家。他们对统计学及回归分析方法的应用都有娴熟的技巧。,第2章 一元线性回归,2.1 一元线性回归模型2.2 参数0、1的估计2.3 最小二乘估计的性质2.4 回归方程的显著性检验2.5 残差分析2.6 回归系数的区间估计2.7 预测和控制2.8 本章小结与评注,2.1 一元线性回归模型,例2.1 表2.1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。,表2.1火灾损失表,2.1 一元线性回归模型,例2.2 全国人均消费金额记作y(元);人均国民收入记为x(元),表2.2 人均国民收入表,2.1 一元线性回归模型,一元线性回归模型 y=0+1x+,回归方程 E(y|x)=0+1x,2.1 一元线性回归模型,样本模型 yi=0+1xi+i,i=1,2,n,回归方程 E(yi)=0+1xi,var(yi)=2,,样本观测值(x1,y1),(x2,y2),(xn,yn),经验回归方程,2.2 参数0、1的估计,一、普通最小二乘估计(Ordinary Least Square Estimation,简记为OLSE),最小二乘法就是寻找参数0、1的估计值使离差平方和达极小,称为yi的回归拟合值,简称回归值或拟合值,称为yi的残差,2.2 参数0、1的估计,2.2 参数0、1的估计,经整理后,得正规方程组,2.2 参数0、1的估计,得OLSE 为,记,2.2 参数0、1的估计,续例2.1,回归方程,2.2 参数0、1的估计,二、最大似然估计,连续型:是样本的联合密度函数:离散型:是样本的联合概率函数。似然函数并不局限于独立同分布的样本。,似然函数,在假设iN(0,2)时,由(2.10)式知yi服从如下正态分布:,2.2 参数0、1的估计,二、最大似然估计,y1,y2,yn的似然函数为:,对数似然函数为:,与最小二乘原理完全相同,2.3 最小二乘估计的性质,一、线性,是y1,y2,yn的线性函数:,其中用到,2.3 最小二乘估计的性质,二、无偏性,2.3 最小二乘估计的性质,三、的方差,2.3 最小二乘估计的性质,三、的方差,在正态假设下,GaussMarkov条件,2.4 回归方程的显著性检验,一、t 检验,原假设:H0:1=0对立假设:H1:10,由,当原假设H0:1=0成立时有:,2.4 回归方程的显著性检验,一、t 检验,构造t 统计量,其中,2.4 回归方程的显著性检验,二、用统计软件计算,1例2.1 用Excel软件计算,什么是P 值?(P-value),P 值即显著性概率值 Significence Probability Value是当原假设为真时得到比目前的 样本更极端的样本的 概率,所谓极端就是与原假设相背离它是用此样本拒绝原假设所犯弃真错误的 真实概率,被称为观察到的(或实测的)显著性水平,双侧检验的P 值,/2,/2,t,拒绝,拒绝,H0值,临界值,计算出的样本统计量,计算出的样本统计量,临界值,1/2 P 值,1/2 P 值,左侧检验的P 值,H0值,临界值,a,样本统计量,拒绝域,抽样分布,1-,置信水平,计算出的样本统计量,P 值,右侧检验的P 值,H0值,临界值,a,拒绝域,抽样分布,1-,置信水平,计算出的样本统计量,P 值,利用 P 值进行检验的决策准则,若p-值,不能拒绝 H0若p-值,拒绝 H0双侧检验p-值=2单侧检验p-值,2.4 回归方程的显著性检验,二、用统计软件计算,2.例2.1用SPSS软件计算,2.4 回归方程的显著性检验,二、用统计软件计算,2.用SPSS软件计算,2.4 回归方程的显著性检验,三、F检验,平方和分解式,SST=SSR+SSE,构造F检验统计量,2.4 回归方程的显著性检验,三、F检验,一元线性回归方差分析表,2.4 回归方程的显著性检验,四、相关系数的显著性检验,2.4 回归方程的显著性检验,四、相关系数的显著性检验,2.4 回归方程的显著性检验,四、相关系数的显著性检验,附表1 相关系数=0的临界值表,2.4 回归方程的显著性检验,四、相关系数的显著性检验,用SPSS软件做相关系数的显著性检验,2.4 回归方程的显著性检验,四、相关系数的显著性检验,两变量间相关程度的强弱分为以下几个等级:当|r|0.8时,视为高度相关;当0.5|r|0.8时,视为中度相关;当0.3|r|0.5时,视为低度相关;当|r|0.3时,表明两个变量之间的相关程度极弱,在实际应用中可视为不相关。,2.4 回归方程的显著性检验,五、三种检验的关系,H0:b=0,H0:r=0,H0:回归无效,2.4 回归方程的显著性检验,六、样本决定系数,可以证明,2.5 残差分析,一、残差概念与残差图,残差,误差项,残差ei是误差项ei的估计值。,2.5 残差分析,一、残差概念与残差图,2.5 残差分析,一、残差概念与残差图,图 2.6 火灾损失数据残差图,2.5 残差分析,二、残差的性质,性质1 E(ei)=0,证明:,2.5 残差分析,二、残差的性质,性质2,其中,称为杠杆值,2.5 残差分析,二、残差的性质,2.5 残差分析,二、残差的性质,性质3.残差满足约束条件:,2.5 残差分析,三、改进的残差,标准化残差,学生化残差,2.6 回归系数的区间估计,等价于,1的1-置信区间,2.7 预测和控制,一、单值预测,2.7 预测和控制,二、区间预测,找一个区间(T1,T2),使得,需要首先求出其估计值,的分布,1因变量新值的区间预测,二、区间预测 1 因变量新值的区间预测,以下计算,的方差,从而得,二、区间预测 1 因变量新值的区间预测,记,于是有,则,二、区间预测 1 因变量新值的区间预测,y0的置信概率为1-的置信区间为,y0的置信度为95%的置信区间近似为,二、区间预测 2 因变量平均值的区间估计,得E(y0)的1-的置信区间为,E(y0)=0+1x0是常数,二、区间预测 计算,对例2.1的火灾损失数据,假设保险公司希望预测一个距最近的消防队x0=3.5公里的居民住宅失火的损失,点估计值,95%区间估计 单个新值:(22.32,32.67)平均值E(y0):(26.19,28.80),的95%的近似置信区间为,=(27.50-22.316,27.50+22.316)=(22.87,32.13),三、控制问题,给定y的预期范围(T1,T2),如何控制自变量x的值才能以1-的概率保证,用近似的预测区间来确定x。如果=0.05,则要求,把,带入,2.8 本章小结与评注,一、一元线性回归模型从建模到应用的全过程例2.2 全国人均消费金额记作y(元);人均国民收入记为x(元),表2.2 人均国民收入表,2.8 本章小结与评注,二、有关回归假设检验问题 1973年Anscombe构造了四组数据,这四组数据所建的回归方程是相同的,决定系数,F统计量也都相同,且均通过显著性检验。,2.8 本章小结与评注,第三章 多元线性回归,3.1 多元线性回归模型3.2 回归参数的估计3.3 参数估计量的性质3.4 回归方程的显著性检验3.5 中心化和标准化3.6 相关阵与偏相关系数3.7 本章小结与评注,3.1 多元线性回归模型,一、多元线性回归模型的一般形式,y=0+1x1+2x2+pxp+,3.1 多元线性回归模型,一、多元线性回归模型的一般形式,对n组观测数据(xi1,xi2,xip;yi),i=1,2,n,线性回归模型表示为:,3.1 多元线性回归模型,一、多元线性回归模型的一般形式,写成矩阵形式为:y=X+,其中,3.1 多元线性回归模型,二、多元线性回归模型的基本假定,1.解释变量x1,x2,xp是确定性变量,不是随机变量,且要求rk(X)=p+1n。表明设计矩阵X中的自变量列之间不相关,X是一满秩矩阵。,3.1 多元线性回归模型,二、多元线性回归模型的基本假定,2.随机误差项具有0均值和等方差,即,这个假定称为Gauss-Markov条件,3.1 多元线性回归模型,二、多元线性回归模型的基本假定,3.正态分布的假定条件为:,用矩阵形式(3.5)式表示为:,N(0,s2In),3.1 多元线性回归模型,二、多元线性回归模型的基本假定,在正态假定下:,yN(X,s2In),E(y)=Xvar(y)=s2In,3.1 多元线性回归模型,三、多元线性回归方程的解释,y表示空调机的销售量,x1表示空调机的价格,x2表示消费者可用于支配的收入。,y=0+1x1+2x2+E(y)=0+1x1+2x2,在x2保持不变时,有,在x1保持不变时,有,3.1 多元线性回归模型,三、多元线性回归方程的解释,考虑国内生产总值GDP和三次产业增加值的关系,GDP=x1+x2+x3,现在做GDP对第二产业增加值x2的一元线性回归,得回归方程,3.1 多元线性回归模型,3.1 多元线性回归模型,三、多元线性回归方程的解释,建立GDP对x1和x2的回归,得二元回归方程,=2 914.6+0.607 x1+1.709 x2,你能够合理地解释两个回归系数吗?,3.2 回归参数的估计,一、回归参数的普通最小二乘估计,最小二乘估计要寻找,3.2 回归参数的估计,一、回归参数的普通最小二乘估计,3.2 回归参数的估计,一、回归参数的普通最小二乘估计,经整理后得用矩阵形式表示的正规方程组,移项得,存在时,即得回归参数的最小二乘估计为:,3.2 回归参数的估计,二、回归值与残差,为回归值,称为帽子矩阵,其主对角线元素记为hii,则,3.2 回归参数的估计,二、回归值与残差,此式的证明只需根据迹的性质tr(AB)=tr(BA),因而,3.2 回归参数的估计,二、回归值与残差,cov(e,e)=cov((I-H)Y,(I-H)Y)=(I-H)cov(Y,Y)(I-H)=2(I-H)In(I-H)=2(I-H),得 D(ei)=(1-hii)2,i=1,2,n,3.2 回归参数的估计,二、回归值与残差,是2的无偏估计,3.2 回归参数的估计,三、回归参数的最大似然估计,yN(X,2In),似然函数为,等价于使(y-X)(y-X)达到最小,这又完全与OLSE一样,3.2 回归参数的估计,例3.1国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。中国统计年鉴把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关,x12其他行业。采用1998年我国31 个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量y,以如上12 个行业为自变量做多元线性回归,数据见表3.1,其中自变量单位为亿元人民币。,3.2 回归参数的估计,3.3 参数估计量的性质,性质1 是随机向量y的一个线性变换。,性质2,是的无偏估计。,3.3 参数估计量的性质,3.3 参数估计量的性质,当p=1时,3.3 参数估计量的性质,性质4 Gauss-Markov定理,预测函数,是 的线性函数,Gauss-Markov定理 在假定E(y)=X,D(y)=2In时,的任一线性函数 的最小方差线性无偏估计(Best Lnear Unbiased Estimator简记为BLUE)为c,其中c是任一p+1维向量,是的最小二乘估计。,3.3 参数估计量的性质,第一,取常数向量c的第j(j=0,1,n)个分量为1,其余分量为0,这时G-M定理表明最小二乘估计是j的最小方差线性无偏估计。第二,可能存在y1,y2,yn的非线性函数,作为 的无偏估计,比最小二乘估计 的方差更小。第三,可能存在 的有偏估计量,在某种意义(例如均方误差最小)下比最小二乘估计 更好。第四,在正态假定下,是 的最小方差无偏估计。也就是说,既不可能存在y1,y2,yn的非线性函数,也不可能存在y1,y2,yn的其它线性函数,作为 的无偏估计,比最小二乘估计 方差更小。,3.3 参数估计量的性质,性质5 cov(,,e)=0,此性质说明 与e不相关,在正态假定下等价于与e独立,从而与 独立。,性质6 在正态假设,(1),(2),3.4 回归方程的显著性检验,一、F检验,H0:1=2=p=0,SST=SSR+SSE,当H0成立时服从,3.4 回归方程的显著性检验,一、F检验,3.4 回归方程的显著性检验,二、回归系数的显著性检验,H0j:j=0,j=1,2,p,(,(X)-1),记(X)-1=(cij)i,j=0,1,2,p,构造t统计量,其中,3.4 回归方程的显著性检验,二、回归系数的显著性检验(剔除x1),3.4 回归方程的显著性检验,二、回归系数的显著性检验,3.4 回归方程的显著性检验,二、回归系数的显著性检验,从另外一个角度考虑自变量xj的显著性。y对自变量x1,x2,xp线性回归的残差平方和为SSE,回归平方和为SSR,在剔除掉xj后,用y对其余的p-1个自变量做回归,记所得的残差平方和为SSE(j),回归平方和为SSR(j),则 自变量xj对回归的贡献为SSR(j)=SSR-SSR(j),称为xj的偏回归平方和。由此构造偏F统计量,3.4 回归方程的显著性检验,二、回归系数的显著性检验,当原假设H0j:j=0成立时,(3.42)式的偏F统计量Fj服从自由度为(1,n-p-1)的F分布,此F检验与(3.40)式的t检验是一致的,可以证明Fj=tj2,3.4 回归方程的显著性检验,三、回归系数的置信区间,可得j的置信度为1-的置信区间为:,3.4 回归方程的显著性检验,四、拟合优度,决定系数为:,y关于x1,x2,xp的样本复相关系数,3.5 中心化和标准化,一、中心化,经验回归方程,经过样本中心,将坐标原点移至样本中心,即做坐标变换:,回归方程转变为:,回归常数项为,3.5 中心化和标准化,二、标准化回归系数,当自变量的单位不同时普通最小二乘估计的回归系数不具有可比性,例如有一回归方程为:,其中x1的单位是吨,x2的单位是公斤,3.5 中心化和标准化,二、标准化回归系数,样本数据的标准化公式为:,得标准化的回归方程,3.5 中心化和标准化,二、标准化回归系数,标准化回归系数,3.6 相关阵与偏相关系数,一、样本相关阵,自变量样本相关阵,增广的样本相关阵为:,3.6 相关阵与偏相关系数,一、样本相关阵,3.6 相关阵与偏相关系数,二、偏判定系数,当其他变量被固定后,给定的任两个变量之间的相关系数,叫偏相关系数。偏相关系数可以度量p+1个变量y,x1,x2,xp之中任意两个变量的线性相关程度,而这种相关程度是在固定其余p-1个变量的影响下的线性相关。,3.6 相关阵与偏相关系数,二、偏判定系数,偏判定系数测量在回归方程中已包含若干个自变量时,再引入某一个新的自变量后y的剩余变差的相对减少量,它衡量y的变差减少的边际贡献。,3.6 相关阵与偏相关系数,二、偏判定系数,以x1表示某种商品的销售量,x2表示消费者人均可支配收入,x3表示商品价格。从经验上看,销售量x1与消费者人均可支配收入x2之间应该有正相关,简单相关系数r12应该是正的。但是如果你计算出的r12是个负数也不要感到惊讶,这是因为还有其它没有被固定的变量在发挥影响,例如商品价格x3在这期间大幅提高了。反映固定x3后x1与x2相关程度的偏相关系数r12;3会是个正数。,3.6 相关阵与偏相关系数,1两个自变量的偏判定系数,二元线性回归模型为:yi=0+1xi1+2xi2+i,记SSE(x2)是模型中只含有自变量x2时y的残差平方和,SSE(x1,x2)是模型中同时含有自变量x1和x2时y的残差平方和。因此模型中已含有x2时再加入x1使y的剩余变差的相对减小量为:,此即模型中已含有x2时,y与x1的偏判定系数。,3.6 相关阵与偏相关系数,1两个自变量的偏判定系数,同样地,模型中已含有x1时,y与x2的偏判定系数为:,3.6 相关阵与偏相关系数,2.一般情况,在模型中已含有x2,xp时,y与x1的偏判定系数为:,3.6 相关阵与偏相关系数,三、偏相关系数,偏判定系数的平方根称为偏相关系数,其符号与相应的回归系数的符号相同。,例3.2 研究北京市各经济开发区经济发展与招商投资的关系,因变量y为各开发区的销售收入(百万元),选取两个自变量,x1为截至1998年底各开发区累计招商数目,x2为招商企业注册资本(百万元)。表中列出了至1998年底招商企业注册资本x2在5亿至50亿元的15个开发区的数据。,3.6 相关阵与偏相关系数,三、偏相关系数,北京开发区数据,3.6 相关阵与偏相关系数,三、偏相关系数,偏相关系数表,3.6 相关阵与偏相关系数,三、偏相关系数,用y与x1做一元线性回归时,x1能消除y的变差SST的比例为,再引入x2时,x2能消除剩余变差SSE(X1)的比例为,因而自变量x1和x2消除y变差的总比例为,=1-(1-0.651)(1-0.546)=0.842=84.2%。,这个值84.2%恰好是y对x1和x2二元线性回归的判定系数R2,3.6 相关阵与偏相关系数,三、偏相关系数,对任意p个变量x1,x2,xp定义它们之间的偏相关系数,其中符号ij表示相关阵第i行第j列元素的代数余子式,验证,3.7 本章小结与评注,例3.3 中国民航客运量的回归模型。y民航客运量(万人),x1国民收入(亿元),x2消费额(亿元),x3铁路客运量(万人),x4民航航线里程(万公里),x5来华旅游入境人数(万人)。根据1994年统计摘要获得1978-1993年统计数据,3.7 本章小结与评注,3.7 本章小结与评注,3.7 本章小结与评注,3.7 本章小结与评注,第四章 违背基本假设的情况,4.1 异方差性产生的背景和原因 4.2 一元加权最小二乘估计4.3 多元加权最小二乘估计4.4 自相关性问题及其处理 4.5 异常值与强影响点 4.6 本章小结与评注,第四章 违背基本假设的情况,Gauss-Markov条件,4.1 异方差性产生的背景和原因,一、异方差产生的原因 例4.1 居民收入与消费水平有着密切的关系。用xi表示第i户的收入量,yi表示第i户的消费额,一个简单的消费模型为:yi=0+1xi+i,i=1,2,n低收入的家庭购买差异性比较小,高收入的家庭购买行为差异就很大。导致消费模型的随机项i具有不同的方差。,4.1 异方差性产生的背景和原因,二、异方差性带来的问题 当存在异方差时,普通最小二乘估计存在以下问题:(1)参数估计值虽是无偏的,但不是最小方差线性无偏估计;(2)参数的显著性检验失效;(3)回归方程的应用效果极不理想。,4.2 一元加权最小二乘估计,一、异方差性的检验(一)残差图分析法,图2.5(b)存在异方差,4.2 一元加权最小二乘估计,一、异方差性的检验(二)等级相关系数法 等级相关系数检验法又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。这种检验方法既可用于大样本,也可用于小样本。进行等级相关系数检验通常有三个步骤。第一步,作y关于x的普通最小二乘回归,求出ei的估计值,即ei的值。,4.2 一元加权最小二乘估计,(二)等级相关系数法 第二步,取ei的绝对值,分别把xi和|ei|按递增(或递减)的次序分成等级,按下式计算出等级相关系数:,其中,n为样本容量,di为对应于xi和|ei|的等级的差数。,4.2 一元加权最小二乘估计,(二)等级相关系数法 第三步,做等级相关系数的显著性检验。在n8的情况下,用下式对样本等级相关系数rs进行t检验。检验统计量为:,如果tt/2(n-2)可认为异方差性问题不存在,如果tt/2(n-2),说明xi与|ei|之间存在系统关系,异方差性问题存在。,4.2 一元加权最小二乘估计,例4.3 设某地区的居民收入与储蓄额的历史统计数据如表4.1。(1)用普通最小二乘法建立储蓄y与居民收入x的回归方程,并画出残差散点图;(2)诊断该问题是否存在异方差;,4.2 一元加权最小二乘估计,4.2 一元加权最小二乘估计,图4.1 残差图,4.2 一元加权最小二乘估计,用SPSS计算等级相关系数。,4.2 一元加权最小二乘估计,(2)计算等级相关系数。,4.2 一元加权最小二乘估计,Spearman等级相关系数可以反映非线性相关的情况,Pearson简单相关系数不能反映非线性相关的情况。例如x与y的取值如下,,容易计算出y与x的简单相关系数r=0.9746,而y与x的等级相关系数rs=1,具有完全的曲线相关。,4.2 一元加权最小二乘估计,二、一元加权最小二乘估计,消除异方差性的方法通常有:加权最小二乘法,Box-Cox变换法,方差稳定性变换法加权最小二乘法(Weighted Least Square,简记为WLS)是一种最常用的消除异方差性的方法。,4.2 一元加权最小二乘估计,二、一元加权最小二乘估计,一元线性回归普通最小二乘法的残差平方和为:,一元线性回归的加权最小二乘的离差平方和为:,4.2 一元加权最小二乘估计,加权最小二乘估计为:,其中,,是自变量的加权平均;,是因变量的加权平均。,4.2 一元加权最小二乘估计,观测值的权数应该是观测值误差项方差的倒数,即,在实际问题中,误差项的方差是未知的,常与自变量x的幂函数xm成比例,其中m是待定的未知参数。此时权函数为,4.2 一元加权最小二乘估计,三、寻找最优权函数,利用SPSS软件可以确定幂指数m的最优取值。依次点选Analyze-Regression-Weight Estimation进入估计权函数对话框,默认的幂指数m的取值为m=-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0。先将因变量y与自变量x选入各自的变量框,再把x选入Weight变量框,幂指数(Power)取默认值,计算结果如下(格式略有变动):,4.2 一元加权最小二乘估计,Log-likelihood Function=-224.258830 POWER value=-2.000Log-likelihood Function=-221.515008 POWER value=-1.500Log-likelihood Function=-218.832193 POWER value=-1.000Log-likelihood Function=-216.252339 POWER value=-.500Log-likelihood Function=-213.856272 POWER value=.000Log-likelihood Function=-211.773375 POWER value=.500Log-likelihood Function=-210.185972 POWER value=1.000Log-likelihood Function=-209.316127 POWER value=1.500Log-likelihood Function=-209.379714 POWER value=2.000,The Value of POWER Maximizing Log-likelihood Function=1.500Log-likelihood Function=-209.316127,4.2 一元加权最小二乘估计,Analysis of Variance:,Variables in the Equation,4.2 一元加权最小二乘估计,幂指数m的最优取值为m=1.5。加权最小二乘的r2=0.9360,F值=423.741;普通最小二乘的r2=0.912,F值=300.732。说明加权最小二乘估计的效果好于普通最小二乘的效果。,4.2 一元加权最小二乘估计,图4.2 加权最小二乘残差图残差图,4.2 一元加权最小二乘估计,4.2 一元加权最小二乘估计,4.2 一元加权最小二乘估计,4.3 多元加权最小二乘,当误差项i存在异方差时,加权离差平方和为,记,加权最小二乘估计WLS的矩阵表达,4.3 多元加权最小二乘估计,通常取权函数W为某个自变量xj(j=1,2,,p)的幂函数,即,在x1,x2,xp这p个自变量中取哪一个?这只需计算每个自变量xj与普通残差的等级相关系数,选取等级相关系数最大的自变量构造权函数。,4.3 多元加权最小二乘估计,例4.4 续例3.2,研究北京市各经济开发区经济发展与招商投资的关系。因变量y为各开发区的销售收入(百万元),x1为截至1998年底各开发区累计招商数目,x2为招商企业注册资本(百万元)。计算出普通残差的绝对值abse=|ei|与x1、x2的等级相关系数,re1=0.443,re2=0.721,因而选取x2构造权函数。,4.3 多元加权最小二乘估计,4.3 多元加权最小二乘估计,仿照例4.3,用Weight Estimate估计幂指数m,得m的最优值为m=2。由于m=2是在默认范围-2,2的边界,因而应该扩大范围重新计算。取m从1到5,步长仍为0.5,得m的最优值为m=2.5,4.3 多元加权最小二乘估计,4.3 多元加权最小二乘估计,加权最小二乘的R2=0.84941,F值=33.84;普通最小二乘的R2=0.842,F值=31.96。加权最小二乘估计的拟合效果略好于普通最小二乘。加权最小二乘的回归方程为:=-266.96+1.696x1+0.4703x2普通最小二乘的回归方程为:=-327.039+2.036x1+0.468x2,4.3 多元加权最小二乘估计,方差稳定变换,4.3 多元加权最小二乘估计,Box-Cox变换,4.4 自相关性问题及其处理,如果一个回归模型的随机误差项cov(i,j)0则称随机误差项之间存在着自相关现象。这里的自相关现象不是指两个或两个以上的变量之间的相关,而指的是一个变量前后期数值之间存在的相关关系。,4.4 自相关性问题及其处理,一、自相关性产生的背景和原因 1.遗漏关键变量时会产生序列的自相关性。2.经济变量的滞后性会给序列带来自相关性。3.采用错误的回归函数形式也可能引起自相关性。4.蛛网现象(Cobweb phenomenon)可能带来序列的自相关性。5.因对数据加工整理而导致误差项之间产生自相关性。,4.4 自相关性问题及其处理,二、自相关性带来的问题,1.参数的估计值不再具有最小方差线性无偏性。2.均方误差MSE可能严重低估误差项的方差。3.容易导致对t值评价过高,常用的F检验和t检验失效。如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论。4.当存在序列相关时,仍然是的无偏估计量,但在任一特定的样本中,可能严重歪曲的真实情况,即最小二乘估计量对抽样波动变得非常敏感。5.如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和结构分析将会带来较大的方差甚至错误的解释。,4.4 自相关性问题及其处理,三、自相关性的诊断,(一)图示检验法 1.绘制(et,et-1)的散点图。,4.4 自相关性问题及其处理,三、自相关性的诊断,(一)图示检验法 2.按照时间顺序绘制回归残差项et的图形。,4.4 自相关性问题及其处理,三、自相关性的诊断,(二)自相关系数法误差序列1,2,n的自相关系数定义为,自相关系数的估计值为,4.4 自相关性问题及其处理,三、自相关性的诊断,(三)D.W检验 D.W检验是J.Durbin和G.S.Watson于1951年提出的一种适用于小样本的一种检验方法。D.W检验验只能用于检验随机扰动项具有一阶自回归形式的序列相关问题。这种检验方法是建立计量经济学模型中最常用的方法,一般的计算机软件都可自动产生出D.W值。,4.4 自相关性问题及其处理,(三)D.W检验 随机扰动项的一阶自回归形式为:t=t-1+ut 其中ut是不相关序列。为了检验序列的相关性,构造的假设是H0:=0,4.4 自相关性问题及其处理,(三)D.W检验,定义D.W统计量为:,4.4 自相关性问题及其处理,(三)D.W检验,得,D.W的取值范围为:0D.W4,4.4 自相关性问题及其处理,(三)D.W检验,因而D.W值与 的对应关系为,4.4 自相关性问题及其处理,(三)D.W检验,根据样本容量n和解释变量的数目k(这里包括常数项),查D.W分布表,得临界值dL和dU,然后依下列准则考察计算得到的DW值,以决定模型的自相关状态:,4.4 自相关性问题及其处理,(三)D.W检验,4.4 自相关性问题及其处理,4.4 自相关性问题及其处理,(三)D.W检验,D.W检验尽管有着广泛的应用,但也有明显的缺点和局限性。1.D.W检验有一个不能确定的区域,一旦D.W值落在这个区域,就无法判断。这时,只有增大样本容量或选取其他方法。2.D.W统计量的上、下界表要求n15,这是因为样本如果再小,利用残差就很难对自相关的存在性作出比较正确的诊断。3.D.W检验不适应随机项具有高阶序列相关的检验。,4.4 自相关性问题及其处理,四、自相关问题的处理方法,(一)迭代法,以一元线性回归模型为例,设一元线性回归模型的误差项存在一阶自相关 yt=0+1xt+tt=t-1+ut,4.4 自相关性问题及其处理,(一)迭代法,根据回归模型,yt=0+1xt+t,有 yt-1=0+1xt-1+t-1,则有(yt-yt-1)=(0-0)+1(xt-xt-1)+(t-t-1),令,得,4.4 自相关性问题及其处理,四、自相关问题的处理方法,(一)迭代法,其中自相关系数用公式 估计。用变换因变量与变换自变量作普通最小二乘回归。如果误差项确实是一阶自相关,通过以上变换,回归模型已经消除自相关。,4.4 自相关性问题及其处理,(一)迭代法,实际问题中,有时误差项并不是简单的一阶自相关,而是更复杂的自相关形式,(4.24)式的误差项ut可能仍然存在自相关,这就需要进一步对(4.24)式的误差项ut做D.W检验,以判断ut是否存在自相关,如果检验表明误差项ut不存在自相关,迭代法到此结束。如果检验表明误差项ut存在自相关,那末对回归模型(4.24)式重复用迭代法,这个过程可能要重复几次,直至最终消除误差项自相关。这种迭代消除自相关的过程正是迭代法名称的由来。,4.4 自相关性问题及其处理,(二)差分法,一阶差分法通常适用于原模型存在较高程度的一阶自相关的情况。在迭代法(4.24)式中,当=1时,得(yt-yt-1)=1(xt-xt-1)+(t-t-1)以yt=yt-yt-1,xt=xt-xt-1代之,得yt=1xt+ut是不带有常数项的回归方程,4.4 自相关性问题及其处理,(二)差分法,一阶差分法的应用条件是自相关系数=1,在实际应用中,接近1时我们就采用差分法而不用迭代法,这有两个原因。第一,迭代法需要用样本估计自相关系数,对的估计误差会影响迭代法的使用效率;第二,差分法比迭代法简单,人们在建立时序数据的回归模型时,更习惯于用差分法。,4.4 自相关性问题及其处理,(三)科克伦奥克特(Cochrane-Orcutt)迭代,方法(一)中的迭代法近似取可以使用其他迭代法给出的更精确的估计,最常用的是科克伦奥克特迭代法。以一元线性回归为例,方法(一)的迭代是1步迭代,根据1步迭代计算出的 和回归系数,由(4.18)式的回归方程重新计算残差,得到新的残差序列后就可以计算出新的DW值,新的 和回归系数,如果新的 与前一次迭代的相差很小,低于给定的界限,就停止迭代,否则继续下一步迭代。,4.4 自相关性问题及其处理,(三)科克伦奥克特(Cochrane-Orcutt)迭代,有一点需要说明的是,迭代的起始步骤认为是从第0步开始的,就是用(4.18)式做普通最小二乘回归,相当于认为r=0。这样方法(一)中的迭代实际上包括第0步和第1步共两步迭代过程,也称为科克伦奥克特两步法。通常情况下,科克伦奥克特多步迭代与两步迭代相差不大。,4.4 自相关性问题及其处理,(四)普莱斯温斯登(Prais-Winsten)迭代法,采用迭代法用(4.23)式计算迭代值时不能计算第1期的迭代值,因此样本量从n减少到n-1。对大样本量时这无足轻重,但是当样本量较小时每一个样本值都是宝贵的。为此可以使用普莱斯温斯登变换,对t=1,令,经过普莱斯温斯登变换的迭代法就称为普莱斯温斯登迭代法。,4.4 自相关性问题及其处理,五、自相关实例分析,【例4.5】续例2.2,4.4 自相关性问题及其处理,4.4 自相关性问题及其处理,4.方法比较,4.4 自相关性问题及其处理,对回归模型,yt=0+1xt+t,做变换,得,其中,问题:为什么变换后的回归模型参数估计性质好,4.4 自相关性问题及其处理,自相关的危害,4.4 自相关性问题及其处理,自相关的危害,4.4 自相关性问题及其处理,5 预测,以迭代法为例说明回归预测值,和残差,的计算