应用回归分析知识点总结.docx
精选优质文档-倾情为你奉上U4 违背基本假设的情况一、异方差产生的原因在建立实际问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同的方差。即:,当时。样本数据为截面数据时容易出现异方差性。二、异方差性带来的问题1、参数估计值虽然是无偏的,但不是最小方差线性无偏估计。2、参数的显著性检验失效。3、回归方程的应用效果极不理想。三、异方差性的检验1、残差图分析法残差图分析法是一种只管、方便的分析方法。它以残差为纵坐标,以其他适宜的变量为横坐标画散点图。常用的横坐标有三种选择:(1)以拟合值为横坐标;(2)以()为横坐标;(3)以观测时间或序号为横坐标。(a)线性关系成立;(b)x加入二次方项;(c)存在异方差,需要改变x形式(d)残差与时间t有关。可能遗漏变量或者存在序列相关,需要引入变量。2、等级相关系数法等级相关系数又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。这种检验方法既可用于大样本,也可以用于小样本。进行等级相关系数检验通常有三个步骤:第一步,做y关于x的普通最小二乘回归,求出的估计值,即的值第二步,取的绝对值,即|,把和|按递增或递减的次序排列后分成等级,按下式计算出等级相关系数:,其中,n为样本容量,为对应于和|的等级的差数。第三步,做等级相关系数的显著性检验。在n>8的情况下,用下式对样本等级相关系数进行t检验,检验统计量为:,如果可以认为异方差性问题不存在,如果,说明与|之间存在系统关系,异方差性问题存在。(在这个检验中,原假设为:不存在异方差性)等级相关系数可以如实反映单调递增或单调递减趋势的变量间的相关性,而简单相关系数值适宜衡量直线趋势变量间的向关系。四、一元加权最小二乘估计当研究的问题存在异方差性时,就不能用普通最小二乘法进行参数估计了。消除异方差性的方法通常有加权最小二乘法、Box-Cox变换法、方差稳定变换法。对于一元线性回归方程来说,普通最小二乘法的离差平方和为:,其中每个观测值的权数相同。在等方差的条件下,平方和的每一项的地位是相同的。然而,在异方差的条件下,平方和中的每一项的地位是不同的,误差项方差大的项,在平方和式子中的作用就偏大,因而普通最小二乘估计的回归线就被拉向方差大的项,而方差小的项的拟合程度就差。加权最小二乘估计的方法是在平方和中加入一个适当的权数,以调整各项在平方和中的作用。一元线性回归的加权最小二乘的离差平方和为:,其中为给定的权数。使用加权最小二乘法时,为了消除异方差性的影响,为了使各项的地位相同,观测值的权数应该是观测值误差项方差的倒数,即。误差项方差较大的观测值接受较小的权数,误差项方差较小的观测值接受较大的权数。在社会、经济研究中,经常会遇到这种特色的权数,即误差项方差与x的幂函数成比例,其中,m为待定的未知参数。此时权函数为:。加权最小二乘估计照顾小残差项是以牺牲大残差项为代价的,当回归模型存在异方差时,加权最小二乘估计只是对普通最小二乘法估计的改进,这种改进有可能是细微的,不能理解为加权最小二乘估计一定会得到与普通最小二乘估计截然不同的回归方程,或者一定有大幅度的改进。另外,加权最小二乘以牺牲大方差项的拟合效果为代价改善了小方差项的拟合效果,这也并不总是研究者所需要的。在社会经济现象中,通常变量取值大时方差也大,在以经济总量为研究目标时,更关心的是变量取值大的项,而普通最小二乘恰好能满足这个要求。所以在这样的一些特定场合下,即使数据存在异方差,也仍然可以选择使用普通最小二乘估计。五、多元加权最小二乘估计多元线性回归有多个自变量,通常取权数为某个自变量()的幂函数,即,在这p个自变量中,应该选取哪一个自变量,这只需计算每个自变量与普通残差的等级相关系数,选取等级相关系数最大的自变量构造权函数。六、自相关性如果一个回归模型不满足,则称为随机误差项之间存在自相关现象。这里的自相关现象不是指两个或者两个以上的变量之间的相关关系,而指的是一个变量前后期数值之间存在的相关关系。七、自相关产生的背景和原因产生序列自相关的背景及原因通常有以下几个方面。1、遗漏关键变量时会产生序列的自相关性。2、经济变量的滞后性会给序列带来自相关性。3、采用错误的回归函数形式也可能引起自相关性。例如,假定某实际问题的正确回归函数应由指数形式来表示,但无用了线性回归模型表示,这时,误差项也会表现为自相关性。4、蛛网现象可能带来序列的自相关性。(经济学中的蛛网模型)5、因对数据加工整理而导致误差项之间产生自相关性。八、自相关性带来的问题当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,仍直接用普通最小二乘法估计未知参数,序列相关性会带来下列问题:1、参数估计值不再具有最小方差线性无偏性2、均方误差MSE可能严重低估误差项的方差。3、容易导致对t值评价过高,常用的F检验和t检验失效。4、当存在序列相关性时,仍然是的无偏估计量,但在任一特定的样本中,可能严重歪曲的真实情况,即最小二乘估计量对抽样波动变得非常敏感。5、如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和进行结构分析将会带来较大的方差甚至错误的解释。九、自相关性的诊断1、图示法图示法是一种直观的诊断方法,它是把给定的回归模型直接用普通最小二乘法估计参数,求出残差项,作为随机项的真实值的估计值,在描绘的散点图,根据的相关性来判断随机项的序列相关性。(1)绘制,的散点图。图a表明随机扰动项存在正的序列相关,图b表明随机扰动项存在负相关。(2)按照时间顺序绘制回归残差项的图形,如果随着t的变化逐次有规律地变化,呈现锯齿形或循环形状的变化,可断言存在相关,表明存在着序列相关。如果随着t的变化逐次变化并不断地改变符号,如下图d所示,那么随机扰动项存在负的序列相关,这种现象称为蛛网现象;如果随着t的变化逐次变化并不频繁地改变符号,而是几个正的后面跟着几个负的,则表明随着扰动项存在正的序列相关,如下图c所示。2、自相关函数法自相关函数的估计值为, 作为自相关系数的估计值与样本量有关,需要做统计显著性检验才能确定自相关性的存在,通常采用DW检验代替对的检验。3、DW检验DW检验是适用于小样本的一种检验方法,而且DW检验只能用于检验随机扰动项具有一阶自回归形式的序列相关问题。DW2(1-),计算出DW值后,根据样本容量n和解释变量的数目k(包括常数项)查DW分布表,得出临界值和。0D.W,误差项间存在正相关;D.W,不能判定是否有自相关;D.W4-,误差项间无自相关;4-D.W4-,不能判定是否有自相关;4-D.W4,误差项间存在负相关。需要注意的是,DW检验尽管有着广泛的应用,但也有明显的缺点和局限性:(1)DW检验有两个不能确定的区域,一旦DW值落在这两个区域,就无法判断。这时只有增大样本容量或选取其他方法;(2)DW统计量的上、下界表要求n>15,这是因为样本如果再小,利用残差就很难对自相关的存在性做出比较正确的诊断;(3)DW检验不适应随机项具有高阶序列相关的检验(只能判断一阶)。十、自相关问题的处理方法1、迭代法设一元线性回归模型的误差项存在一阶自相关-(1)-(2)(2)式表明误差项存在一阶自相关,(1)式表明满足关于随机扰动项的基本假设。所以回归模型(1)有:-(3)将(3)式两端乘以,在用(1)式减去乘以的(3)式,则有-(4)在(4)式中,令,于是(4)可以变为-(5)模型(5)式有独立随机误差项,满足线性回归模型的基本假设,用普通最小二乘法估计的参数估计量具有通常的优良性。由于自相关系数是未知的,需要对作估计。,计算出的估计值后,带入计算变换因变量和变换自变量,然后用(5)式做普通最小二乘回归。一阶自相关模型,通过上述变换,已经消除自相关,迭代法到此结束。如果检验表明误差项不存在自相关,迭代法结束,如果检验表明误差项存在自相关,那么对回归模型(5)式重复用迭代法,这个过程可能要重复几次,直至最终消除误差项自相关。2、差分法差分法就是用增量数据代替原来的样本数据,将原来的回归模型变为差分形式的模型。一阶差分法通常适用于原模型存在较高程度的一阶自相关情况。用增量表示为:以差分数据和为样本的回归方程。差分之后的模型,通常不带有常数项,它是回归直线过原点的回归方程。一阶差分的应用条件是自相关系数=1,在实际应用中,接近1时,就可以采用差分法而不用迭代法。有两个原因:第一,迭代法需要用样本估计自相关系数,对的估计误差会影响迭代法的使用效率;第二,差分法比迭代法简单,在建立时序数据的回归方程时,更习惯于用差分法。十一、异常值与强影响点异常值分为两种情况,一种是关于因变量y异常,另一种是关于自变量x异常。1、关于因变量y的异常值在残差分析中,认为超过的残差为异常值。标准化残差:,学生化残差:。标准化残差使残差具有可比性,|>3的相应观测值即判定为异常值,这简化了判断工作,但是没有解决方差不等的问题。学生化残差则进一步解决了方差不等的问题,比标准化残差又有所改进。但是当观测数据中存在关于y的异常观测值时,普通残差、标准化残差、学生化残差这三种残差都不再适用,这是由于异常值把回归线拉向自身,使异常值本身的残差减少,而其余观测值的残差增大,这时回归标准差也会增大,因而用准则不能正确分辨出异常值。解决这个问题的方法是改用删除误差。删除误差的构造思想是:在计算第i个观测值的残差时,用删除掉这个第i个观测值的其余n-1个观测值拟合回归方程,计算出第i个观测值的删除拟合值,这个删除拟合值与第i个值无关,不受第i个值是否为异常值的影响,定义第i个观测值的删除残差为:,删除残差较普通残差更能如实反映第i个观测值的异常性。可以证明,进一步可以给出第i个观测值的删除学生化残差,记为=,在实际应用当中,可以直接使用软件计算出删除学生化残差的数值,|>3的观测值即判定为异常值。2、关于自变量x的异常值有,其中杠杆值表示自变量的第i次观测值与自变量平均值之间的远近。较大的杠杆值的残差偏小,这是因为大杠杆值的观测点远离样本中心,能够把回归方程拉向自身,因而把杠杆值大的样本点称为强影响点。强影响点并不一定是y值的异常值点,因而强影响点并不总会对回归方程造成不良影响。但是强影响点对回归效果通常有较强的影响,这是由于一下两个原因:第一,在实际问题中,因变量与自变量的线性关系只是在一定的范围内成立,强影响点原来样本中心,因变量与自变量之间可能已不再是线性函数关系,因而在选择回归函数的形式时,需侧重于强影响点;第二,即使线性回归形式成立,但是强影响点远离样本中心,能够把回归方程拉向自身,使回归方程产生偏移。由于强影响点并不总是y的异常值点,所以不能单纯根据杠杆值的大小判断强影响点是否异常,为此,引入库克距离,用来判断强影响点是否为y的异常值点。库克距离的计算公式为:,库克距离反映了杠杆值与残差大小的一个综合效应。杠杆值的平均值为,一个杠杆值大于2倍或者3倍的就认为是大的。中心化的杠杆值,因此有中心化杠杆值的平均值是,对于库克聚类大小标准的初略判断是:时,认为不是异常值点;当时,认为是异常值点。诊断出异常值后,进一步判断引起异常值的原因,通常由以下几种。异常值原因异常值消除方法1.数据登记误差,存在抄写或录入的错误重新核实数据2.数据测量误差重新测量数据3.数据随机误差删除或重新观测异常值数据4.缺少重要自变量增加必要的自变量5.缺少观测数据增加观测数据,适当扩大自变量取值范围6.存在异方差采用加权线性回归7.模型选用错误,线性模型不适用改用非线性回归模型U5自变量选择与逐步回归一、 全模型和选模型设研究某一实际问题,涉及对因变量有影响的因素共有m个,由因变量y和m个自变量构成的回归模型称为全模型。如果从可供选择的m个变量中选出p个,由选出的p个自变量组成的回归模型称为选模型。二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而无用了全模型。以下是这两种情况对回归的影响。1、全模型正确而误用选模型的情况性质1,在与的相关系数不全为0时,选模型回归系数的最小二乘估计是全模型相应参数的有偏估计,即()性质2,选模型的预测是有偏的。性质3,选模型的参数估计有较小的方差。性质4,选模型的预测残差有较小的方差。性质5,选模型的均方误差比全模型预测的方差更小。(用选模型去预测,可以提高预测的精度)三、所有子集回归1、关于自变量选择的几个准则准则一:自由度调整复决定系数达到最大。设为自由度调整后的复决定系数,其中,n为样本容量,p为自变量的个数。所有回归子集中最大者对应的回归方程就是最优方程。从另外一个角度考虑回归的拟合效果,回归误差项的无偏估计为:。用平均残差平方和和调整的复决定系数作为自变量选元准则实际上是等价的。因为有。小说明模型好,而小就会大也说明模型好。准则二:赤池信息量AIC达到最小。设模型的似然函数为,的维数为p,x为随即样本,则AIC定义为:AIC=-2+2p,其中为的极大似然估计;p为未知参数的个数,选择使AIC达到最小的模型是最优模型。在回归分析的建模过程中,对每一个回归子集计算AIC,其中AIC最小者所对应的模型是最优回归模型。准则三:统计量达到最小即使全模型正确,仍有可能选模型有更小的预测误差,正是根据这一原理提出来的。=,其中为全模型中的无偏估计。选择使最小的自变量子集,这个自变量子集对应的回归方程就是最优回归方程。四、前进法前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。在R中使用前进法做变量选择时,通常将初始模型设定为不包含任何变量,只含有常数项的回归模型,此时回归模型的AIC统计量的值,不妨为Co。然后,将全部m个自变量分别对因变量y建立m个一元线性回归方程,并分别计算这m个一元回归方程的AIC统计量的值,选其中最小值记为: Cj1。因此,变量xj将首先被引人回归模型,为了方便进一步地说明前进法,不妨将xj记作x1,此时回归方程对应的AIC值记为C1。接下来,因变量y分别对(x1, x2),(x1, x3)(x1, xm)建立m-1个二元线性回归方程,对这m-1个回归方程分别计算其AIC统计量的值,选其中最小值记为Cj2则接着将变量xj引人回归模型,此时模型中包含的变量为X1和Xj.依上述方法接着做下去,直至再次引人新变量时,所建立的新回归方程的AIC值不会更小,此时得到的回归方程即为最终确定的方程。五、后退法后退法与前进法相反,通常先用全部m个变量建立一个回归方程,然后计算在剔除任意一个变量后回归方程所对应的AIC统计量的值,选出最小的AIC值所对应的需要剔除的变量,不妨记作X1;然后,建立剔除变量x1后因变量y对剩余m-I个变量的回归方程,计算在该回归方程中再任意剔除一个变量后所得回归方程的AIC值,选出最小的AIC值并确定应该剔除的变量;依此类推,直至回归方程中剩余的p个变量中再任意剔除一个AIC 值都会增加,此时已经没有可以继续剔除的自变量,因此包含这p个变量的回归方程就是最终确定的方程。六、前进法和后退法的比较前进法的优点是能够将对因变量有影响的自变量按显著性一一选入,计算量小。前进法的缺点是不能反映引进新变量后的变化,而且选入的变量就算不显著也不能删除。后退法的优点是是能够将对因变量没有显著影响的自变量按不显著性一一剔除,保留的自变量都是显著的。后退法的缺点是开始计算量大,当减少一个自变量时,它再也没机会进入了。如果碰到自变量间有相关关系时,前进法和后退法所作的回归方程均会出现不同程度的问题。七、逐步回归法逐步回归的基本思想是有进有出。step()函数的具体做法是在给定了包含p个变量的初始模型后,计算初始模型的AIC值,并在此模型基础上分别剔除p个变量和添加剩余m-p个变量中的任一变量后的AIC值,然后选择最小的AIC值决定是否添加新变量或剔除已存在初始模型中的变量。如此反复进行,直至既不添加新变量也不剔除模型中已有的变量时所对应的AIC值最小,即可停止计算,并返回最终结果。八、选择回归子集选择哪一个回归子集,用哪一个衡量准则要根据研究问题的目的来决定,回归模型常用的三个方面是:结构分析,预测,控制。如果想通过回归模型去研究经济变量之间的相关联系,即做结构分析,则在选元时可以考虑适当放宽选元标准,给回归方程中保留较多的自变量,但这时需要注意回归系数的正负号,看它们是否符合经济意义。如果希望回归方程简单明了,易于理解,则应该采用较严的选元标准。比如在逐步回归选元中,给显著性水平赋一个较小的值,就可使得回归方程中保留较少最重要最能说明问题的自变量。 如果建立回归方程的目的是为了用于控制,那么就应采取能使回归参数的估计标准误差尽可能小的准则。如果建立回归方程的目的是用于预测,就应该考虑使得预测的均方误差尽量小的准则,如准则。U6多重共线性的情形及其处理一、多重共线性对回归模型的影响设回归模型存在完全的多重共线性,即对设计矩阵X的列向量存在不全为零的一组数,使得:().产生原因:采用时间序列数据样本;采用横截面数据影响:1、完全共线性下参数估计量不存在;2、近似共线性下OLS估计量非有效;3、参数估计量经济含义不合理;4、变量的显著性检验失去意义;5、模型的预测功能失效。二、多重共线性的诊断1、方差扩大因子法对自变量作中心标准化,则为自变量的相关阵,记称其主对角线元素为自变量的方差扩大因子。(),其中为的离差平方和。记为自变量对其余p-1个自变量的复决定系数,则有,该式子同样也可以作为方差扩大因子的定义。由于度量了自变量与其余p-1个自变量的线性相关程度,这种相关程度越强,说明自变量之间的多重共线性越严重, 也就越接近于1,也就越大。由此可见的大小反映了自变量之间是否存在多重共线性,因此可以由它来度量多重共线性的严重程度。经验表明,当10时,就说明自变量与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。也可以用p个自变量所对应的方差扩大因子的平均数来度量多重共线性,当远远大于1时就表示存在严重的多重共线性问题。2、特征根判定法特征根分析:当矩阵有一个特征根近似为零时,设计矩阵X的列向量间必存在多重共线性,并且有多少个特征根接近于零,X就有多少个多重共线性关系。条件数:,为矩阵的条件数。通常认为k<100时,设计矩阵X没有多重共线性;100<k<1000时,认为X存在较强的多重共线性;当k1000时,则认为存在严重的多重共线性。3、直观判定法(1)当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化。(2)从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验。(3)有些自变量的回归系数所带正负号与定性分析结果违背。(4)自变量的相关矩阵中,自变量间的相关系数较大。 (5)一些重要的自变量的回归系数的标准误差较大。 三、消除共线性的方法1、删除一些不重要的解释变量在选择回归模型时,可以将回归系数的显著性检验、方差扩大因子VIF的多重共线性检验与自变量的经济含义结合起来考虑,以引进或剔除变量。2、增大样本容量例如,在建立二元回归模型时,假设数据都已经中心化,有,。其中,则,之间的相关系数,可以看到,在固定不变时,当样本容量n增大时,和都会增大,两个方差均可减小,从而减弱了多重共线性对回归方程的影响。但是,增加了样本数据,可能新的数据距离原来样本数据的平均值较大,会产生一些新的问题,使模型拟合变差,没有达到增加样本数据期望的效果。3、回归系数的有偏估计为了消除多重共线性对回归模型的影响,还可以采取有偏估计为代价来提高估计量稳定性的方法,如岭回归,主成份回归法,偏最小二乘法等。U7岭回归分析一、岭回归的定义岭回归法是以引入偏误为代价减小参数估计量的方差是一种回归方法。当自变量间存在多重共线性,|0时,设想给加上一个正常数矩阵(k>0)那么+接近奇异的程度就会比接近奇异的程度小得多。考虑到变量的量纲问题,先要对数据标准化,标准化后的设计矩阵仍用X表示,定义称为的岭回归估计,其中,k称为岭参数。由于假设X已经标准化,所以就是自变量样本相关阵。y可以标准化也可以未标准化,如果y也经过标准化,那么计算的实际是标准化岭回归估计。作为的估计应比最小二乘估计稳定,当k=0时的岭回归估计就是普通的最小二乘估计。因为岭参数k不是唯一确定的,所以得到的岭回归估计实际是回归参数的一个估计族。二、岭回归估计的性质性质1,是回归参数的有偏估计。证明:显然只有当k=0时,;当k0时,是的有偏估计。性质2,在认为岭参数k是与y无关的常数时,=是最小二乘估计的一个线性变换。也是的线性函数。证明:性质3,对任意k>0,总有。这里是向量的模,等于向量各分量的平方和的平方根。这个性质表明看看成由进行某种向原点的压缩。从的表达式可以看到,当k时,0,即化为零向量。性质4,以MSE表示估计向量的均方误差,则存在k>0,使得。三、岭参数k的选择岭参数选择的目的是要选择使MSE()达到最小的k,最优k值依赖于未知参数和。1、岭迹法岭迹法的直观考虑是,如果最小二乘估计看来有不合理之外,如估计值以及正负号不符合经济意义,希望能通过采用适当的岭估计来加以一定程度的改善,岭参数k值的选择就是尤为重要。选择k值的一般原则是:(1)各回归系数的岭估计基本稳定;(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理。(3)回归系数没有不合乎经济意义的绝对值;(4)残差平方和增大不太多。2、方差扩大因子法应用方差扩大因子法选择k的经验做法是:选择k使所有方差扩大因子,当时,所对应的k值的岭估计就会相对稳定。3、由残差平方和来确定k值岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和的增加幅度控制在一定的限度以内,从而可以给定一个大于1的c值,要求,寻找使该式成立的最大的k值。四、用岭回归选择变量岭回归选择变量的原则:1、在岭回归的计算中,假定设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。2、当k值较小时,标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k的增加迅速趋于零,像这样岭回归系数不稳定,震动趋于零的自变量可以予以剔除。3.去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。 U9 非线性回归一、可化为线性回归的曲线回归可线性化的曲线回归模型称为本质线性回归模型,不可线性化的曲线回归模型称为本质非线性回归模型。乘性误差项模型和加性误差项模型所得的结果有一定差异,其中乘性误差项模型认为本身是异方差的,而是等方差的。加性误差项模型认为是等方差的。从统计性质看两者的差异,前者淡化了值大的项(近期数据)的作用,强化了值小的项(早期数据)的作用,对早起数据拟合得效果较好,而后者则对近期数据拟合得效果较好。影响模型拟合效果的统计性质主要是异方差、自相关和共线性这三个方面。异方差可以同构选择乘性误差项模型和加性误差项模型解决,必要时还可以使用加权最小二乘。二、多项式回归多项式回归模型是一种重要的曲线回归模型,这种模型通常容易转化为一般的多元线性回归来做处理。1、常见的多项式回归模型回归模型称为一元二阶多项式模型。通常将回归模型中的系数表示成:,回归函数是一条抛物线方程,通常称为二项式回归函数。回归系数为线性效应系数,为二次效应系数。当自变量的幂次超过3时,回归系数的解释变得困难起来,回归函数也变得很不稳定,对回归模型的应用会收到影响。因而,幂次超过3 的多项式回归模型不常使用。在实际应用当中,常遇到含两个或两个以上自变量的情况,称回归模型:为二元二阶多项式回归模型。它的回归系数中分别含有两个自变量的线性项系数和,二次项系数和,并含有交叉乘积项系数,交叉乘积项表示与的交互作用,系数通常称为交互影响系数。三、非线性模型在非线性回归中,平方和分解式SST=SSR+SSE不在成立,类似于线性回归中的复决定系数,定义非线性回归的相关指数:R2=1-SSE/SST用非线性最小二乘法求解非线性回归方程,非线性最小二乘是使残差平方和达到最小,这种平方损失函数的优点是数学性质好,在一定条件下具有统计学的一些优良性质,但其最大的缺点是缺乏稳健性。当数据存在异常值时,参数的估计效果变得很差。因而在一些场合,可以用一些更稳健的残差损失函数代替平方和损失函数,例如绝对值损失函数。绝对值残差损失函数为:有时候用最小绝对值法的最大残差比普通最小二乘法的最大残差更大,这是否与最小绝对值法的稳健性相矛盾?其实这正说明了最小绝对值法的稳健性。这是因为最小绝对值法受异常值的影响程度小,回归线向异常值靠拢的程度也小,因而异常值的残差反而大。四、非线性回归的一些问题根据实际观测数据配以合适的曲线模型一般有两个重要的步骤。一是确定曲线类型。对一个自变量的情况,确定曲线类型一般是把样本观测值画成散点图,由散点图的形状来大体确定曲线类型。再就是根据专业知识来确定曲线类型,如商品的销售量与广告费之间的关系,一般用S形曲线来描述;在农业生产中,粮食的产量与种植密度之间的关系往往服从抛物线关系。对于由专业知识可以确定的曲线类型,就用相应的模型去试着拟合,如果拟合的效果可以,问题就解决了。二是参数估计问题。如果可将曲线模型转化为线性模型,就可用普通最小二乘法去估计未知参数,如果不能用某种变换把它转化成线性模型,则参数的估计就要用非线性最小二乘法进行。非线性最小二乘法比普通最小二乘法要复杂得多,一般都是用迭代方法。由于任一连续函数都可用分段多项式来逼近,所以在实际问题中,不论变量y与其他变量的关系如何,在相当宽的范围内总可以用多项式来拟合。例如在一元回归关系中,如果变量y与x的关系可以假定为p次多项式,就可以转化为多元线性回归模型来处理。利用多项式回归模型可能会把已有的数据拟合得十分漂亮,但是,如果对较大的x作外推预测,这种多项式回归函数就可能会得到很差的结果,预测值可能会朝着意想不到的方向转折,可能会与实际情况严重不符。所有类型的多项式回归函数,尤其是高阶多项式回归都具有外推风险。特别的,对于一元回归,只要用一元n-1次多项式就可以把n对数据完全拟合,多项式曲线通过所有n-1个点,残差平方和为零,但是这种的回归拟合却没有任何实际意义。因此,必须谨慎地使用高阶多项式回归模型,因为得到的回归函数只是数据的良好拟合,而并不能如实地表明x与y之间回归关系的基本特征,并会导致不规则的外推。所以在应用多项式回归时,阶数一般不要超过三阶。一般地说,当非线性回归模型选择正确,回归拟合效果好时,相关指数能够如实反映回归拟合效果;而当回归拟合效果差时,相关指数则不能够如实反映回归拟合效果,甚至可能取为负值。U10 含定性变量的回归模型一、自变量中含有定性变量的回归模型在回归分析中,对一些自变量是定性变量的情形先量化处理,引入只取0和1 两个值的虚拟自变量。一个定性变量有k类可能的取值时,只需要引入k-1个0-1型自变量。需要指出的是,虽然虚拟变量取某一数值,但这一数值没有任何数量大小的意义,它仅仅用来说明观察单位的性质或属性。二、自变量中含有定性变量的回归模型的应用1、分段回归在实际问题中,会碰到某些变量在不同的影响因素范围内变化趋势截然不同。对于这种问题,有时用多种曲线拟合效果仍不能令人满意。如果做残差分析,会发现残差不是随机的,而具有一定的系统性。2、回归系数相等的检验三、因变量是定性变量的回归模型1、定性因变量的回归方程的意义设y是只取0,1的定性变量,考虑简单线性回归模型,在这种y只取0,1的情况下,因变量均值有着特殊的意义。由于是0-1型贝努力随机变量,则得如下概率分布,根据离散型随机变量期望的定义,可得,所以,作为由回归函数给定的因变量均值是由自变量水平为时的概率。对因变量均值的这种解释既适应于这里的简单线性回归函数,也适用于复杂的多元回归函数。当因变量是0,1时,因变量均值总是代表给定自变量时y=1的概率。2、定性因变量回归的特殊问题(1)离散非正态误差项对一个取值为0和1的因变量,误差项只能取两个值:当时, 当时, 显然,误差项是两点型离散分布,当然正态误差回归模型的假定就不适用了。(2)零均值异方差当因变量是定性变量时,误差项仍然保持零均值,这时出现的另一个问题是误差项的方差不相等。0-1型随机变量的方差为: ,可以看到 的方差依赖于,是异方差,不满足线性回归方程的基本假定,最小二乘估计的效果也就不会好。(3)回归方程的限制当因变量为0,1虚拟变量时,回归方程代表概率分布,所以因变量均值受到如下限制:,对一般的回归方程本身并不具有这种限制,线性回归方程将会超出这个限制范围。四、logistic回归模型1、分组数据的logistic回归模型针对0-1型因变量产生的问题,应该对回归模型做两个方面的改进。 第一,回归函数应该改用限制在0,1区间内的连续曲线,而不能再沿用直线回归方程。限制在0,1区间内的连续曲线有很多,例如所有连续型随机变量的分布函数都符合要求,常用的是Logistic函数与正态分布函数。Logistic函数的形式为 :第二,因变量本身只取0,1两个离散值,不适于直接作为回归模型中的因变量。由于回归函数表示在自变量为的条件下的平均值,而是0-1型随机变量,因而就是在自变量为的条件下等于1的比例。这提示我们可以用等于1的比例代替本身作为因变量。分组数据的logistic回归只适用于大样本的分组数据,对小样本的未分组数据不适用。分组数据的logistic回归首先要对频率作logistic变换,变换公式为,这个变换要求或1,当存在或时,可以用如下的修正公式计算样本频率,分组数据的logistic回归存在异方差性,需要采取加权最小二乘估计。出来权函数之外,也可以通过两阶段最小二乘法确定权函数。第一阶段是用普通最小二乘拟合回归模型。第二阶段是从第一阶段的结果估计出组比例,用权数作加权最小二乘回归。2、未分组数据的logistic回归模型设y是0-1型变量,x1,x2,xp是与y相关的确定性变量,n组观测数据为(xi1 ,xi2 ,xip ;yi),i=1,2,n,yi与xi1 ,xi2 ,xip的关系为:E(yi)=i=f(0+1xi1+2xi2+pxip)其中函数f(x)是值域在0,1区间内的单调增函数。对于Logistic回归.于是yi是均值为i=f(0+1xi1+2xi2+pxip)的0-1型分布,概率函数为:P(yi=1)=i P(yi=0)=1-i可以把yi的概率函数合写为:于是y1, y2 , , yn的似然函数为:五、多类别logistic回归Probit回归称为单位概率回归,与Logistic回归相似,也是拟合0-1型因变量回归的方法,其回归函数是用样本比例代替概率 ,表示为样本回归模型附课后习题解答(主要为简答题)第2章 一元线性回归分析2.1 一元线性回归有哪些基本假定?1.因变量y与自变量x具有线性关系2.解释变量X是确定性变量,Y是随机变量; 3.随机误差项具有零均值、同方差和不序列相关性:E(i)=0 i=1,2, ,n Var (i)=s2 i=1,2, ,nCov(i, j)=0 ij i,j= 1,2, ,n4.随机误差项与解释变量X之间不相关: Cov(Xi, i)=0 i=1,2, ,n5.服从零均值、同方差、零协方差的正态分布 iN(0, s2 ) i=1,2, ,n第3章 多元线性回归3.2 讨论样本容量n与自变量个数p的关系,它们对模型的参数估计有何影响?答:在多元线性回归模型中,样本容量n与自变量个数p的关系是:n>>p。如果n<=p对模型的参数估计会带来很严重的影响。因为:1. 在多元线性回归模型中,有p+1个待估参数,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。2. 解释变量X是确定性变量,要求,表明设计矩阵X中的自变量列之间不相关,即矩阵X是一个满秩矩阵。若,则解释变量之间线性相关,是奇异阵,则的估计不稳定。3.3证明 随机误差项的方差s2的无偏估计。3.4 一个回归方程的复相关系数R=0.99,样本决定系数R2=0.9801,我们能判断这个回归方程就很理想吗?答:不能断定这个回归方程理想。因为:1. 在样本容量较少,变量个数较大时,决定系数的值容易接近1,而此时可能F检验或者关于回归系数的t检验,所建立的回归方程都没能通过。2. 样本决定系数和复相关系数接近于1只能说明Y与自变量X1,X2,Xp整体上的线性关系成立,而不能判断回归方程和每个自变量是显著的,还需进行F检验和t检验。3. 在应用过程中发现,在样本容量一定的情况下,如果在模型中增加解释变量必定使得自由度减少,使得 R2往往增大,因此增加解释变量(尤其是不显著的解释变量)个数引起的R2的增大与拟合好坏无关。第4章 违背基本假设的情况4.1 试举例说明产生异方差的原因。答:例4.1:截面资料下研究居民家庭的储蓄行为 Yi=b0+b1Xi+i其中:Yi表示第i个家庭的储蓄额,Xi表示第i个家庭的可支配收入。由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以i的方差呈现单调递增型变化。 例4.2:以某一行业的企业为样本建立企业生产函数模型 Yi=Aib1 Kib2 Lib3ei被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。4.2 异方差带来的后果有哪些?答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:1、参数估计量非有效2、变量的显著性检验失去意义3、回归方程的应用效果极不理想总的来说,当模