分位数回归解读ppt课件.ppt
分位数回归,一、分位数回归的提出 二、分位数回归及其估计 三、分位数回归的假设检验,一、分位数回归的提出,传统的回归分析主要关注均值,即采用因变量条件均值的函数来描述自变量每一特定数值下的因变量均值,从而揭示自变量与因变量的关系。这类回归模型实际上是研究被解释变量的条件期望,描述了因变量条件均值的变化。 人们当然也关心解释变量与被解释变量分布的中位数,分位数呈何种关系。这就是分位数回归,它最早由凯恩克(Koenker Roger)和巴西特(Bassett Gilbert Jr)于1978年提出,是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法,强调条件分位数的变化。,中位数是一个特殊的分位数,它表示一种分布的中心位置。中位数回归是分位数回归的一种特殊情况,其他分位数则可以用来描述一种分布的非中心位置。第p个百分位数表示因变量的数值低于这一百分位数的个数占总体的p%.因此,分位数可以指定分布中的任何一个位置。,分位数的性质,单调同变性 如果对一个随机变量进行函数h的单调转换(如指数或对数函数),分位数可通过对分位数函数进行同样的转换而得利。换言之,如果q是Y的第p分位数,那么h(q)是h(Y)的第p分位数。对离群值的不敏感性 假如有中位数为m的样本数据x1,xn,我们将一个位于中位数之上的数据值xi替换成同样在中位数之上的其他值,从而修改了样本。同样的,我们也可以将一个位于中位数之下的数据值替换成同样在中位数之下的其他值。这样的修改对样本中位数没有任何影响。,分位数回归估计与经典模型的最小二乘估计相比较,有许多优点。 当数据出现尖峰或厚尾的分布、存在显著的异方差等情况,最小二乘估计将不再具有优良性质,且稳健性非常差。分位数回归系数估计结果比OLS估计更稳健,而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量则更加稳健。,最小二乘估计假定解释变量只能影响被解释变量的条件分布的均值位置。 而分位数回归估计能精确地描述解释变量对于被解释变量的变化范围以及条件分布形状的影响,能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的中位数、分位数等。不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。,二、分位数回归及其估计,损失函数,定义 在统计学中损失函数是一种衡量损失和错误程度的函数。常常记作 。,损失函数常用形式,对于之前的线性模型来说,就是使得残差平方和最小,即损失函数为平方损失函数,此为最小二乘回归。而如果损失函数为绝对值损失函数,则称为最小一乘回归,它使得残差绝对值的和最小。最小一乘回归是分位数回归的特例。,分位数回归参数估计的思想,分位数回归参数估计的思想,与LR估计量明显不同的QR估计量的特点在于,在QR中数据点到回归线距离的测量通过垂直距离的加权总和(没有平方)而求得,这里赋予拟合线之下的数据点的权重是1-,而赋予拟合线之上的数据点的权重则是.对于的每一个选择,都会产生各自不同的条件分位数的拟合函数,这一任务是为每一个可能的寻找适合的估计量。,分位数回归原理,假设随机变量的分布函数为:,Y的 分位数的定义为:,回归分析的基本思想就是使样本值与拟合值之间的距离最短,对于Y的一组随机样本 ,样本均值回归是使误差平方和最小,即,样本中位数回归是使误差绝对值之和最小,即,样本分位数回归是使加权误差绝对值之和最小,即,上式可等价为:,一般的 分位数回归的损失函数为:,其中, 为示性函数,Z是指示关系式。当分位数为0.5时,就是最小一乘回归,即中位数回归。,最小二乘回归和最小一乘回归的损失函数是对称的,而一般的分位数回归的损失函数不是对称的,而是由两条从原点出发的分别位于第一和第二象限的射线组成,它们的斜率之比为,。,现假设因变量Y由k个自变量组成的矩阵X线性表示,对于条件均值函数 ,求解,得参数估计值。,分位数回归是对如上简单形式的扩展:,通过对上式求解得到其参数估计值。 参数意义解释:当其它协变量保持不变时,这一估计差异来自一个连续型协变量的单位增量,或者虚拟变量值从0到1的变化。,正如普通最小二乘OLS回归估计量的计算是基于最小化残差平方和一样,分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化,其中,中位数回归运用的是最小绝对值离差估计(LAD,least absolute deviations estimator)。它和OLS主要区别在于回归系数的估计方法和其渐近分布的估计。在残差检验、回归系数检验、模型设定、预测等方面则基本相同。,对一个样本,估计的分位数回归式越多,对被解释变量yt条件分布的理解就越充分。 以一元回归为例,如果用LAD(最小绝对离差和)法估计的中位数回归直线与用OLS法估计的均值回归直线有显著差别,则表明被解释变量yt的分布是非对称的。,如果散点图上侧分位数回归直线之间与下侧分位数回归直线之间相比,相互比较接近,则说明被解释变量yt的分布是左偏倚的。反之是右偏倚的。 对于不同分位数回归函数如果回归系数的差异很大,说明在不同分位数上解释变量对被解释变量的影响是不同的。,三、分位数回归的假设检验,分位数回归估计的检验包括两部分:一是与均值回归类似的检验,例如拟合优度检验、拟似然比检验和Wald检验等;一是分位数回归估计特殊要求的检验,例如斜率相等检验和斜率对称性检验等。,1、拟合优度检验,假设分位数回归直线为,将解释变量矩阵和参数向量都分为两部分,即,和,,且有,定义:,无约束分位数回归目标函数,约束的分位数回归目标函数,拟和优度准则表达式如下:,因为 ,所以R*()的值在0和1之间,解释变量的作用越强, 越远远小于 , R*()越接近于1,反之,越接近于0。所以可用来考察解释变量对被解释变量第分位数回归拟和的好坏。,2、拟似然比检验,Koenker和Machado(1999)根据目标函数在施加约束条件前后得到的两个极小值构造了两个拟似然比检验统计量(QLR)。两统计量的表达式如下:,两个统计量都渐近服从自由度为q的卡方分布,其中q是原假设目标函数中约束条件的个数。 和 分别代表有约束的和无约束目标方程的极小值。s()是分位数密度函数。,似然比检验:,似然比命题:检验思想:如果约束是无效的,有约束的最大似然函数值当然不会超过无约束的最大似然函数值,但如果约束条件“有效”,有约束的最大值应当“接近”无约束的最大值,这正是似然比检验的基本思路。似然比:无约束模型似然函数值:有约束模型似然函数值:,似然比检验,显然 。如果原假设是真,则趋近于1;如果 太小,则约束无效,拒绝原假设。可以证明,对大样本来说,检验统计量为,拒绝域,似然比检验另一种表达,,3、Wald检验,给定分位数回归参数估计量的渐近方差协方差矩阵,我们就可以构造Wald形式的统计量进行各种约束形式的参数检验。,有约束模型残差平方和,无约束模型残差平方和,Wald统计量的一种表达形式:,Wald检验,如果约束条件为真,则 不应该显著异于零,其中 是无约束极大似然估计值。当 显著异于零时,约束条件无效,拒绝原假设。检验统计量Wald只需要估计无约束模型,但需要计算渐进协方差矩阵。,Wald检验,在线性约束条件下, Wald检验 拒绝域,,系列分位数回归检验,前面的分析主要集中在单个分位数回归模型的假设检验上,而有些时候也需要对一系列分位数回归的回归系数进行联合检验。比如,需要通过检验不同分位数模型的斜率是否相等来判断一个模型是否具有位移特征。同时考虑多个分位数回归式称作系列分位数回归分析。,4、斜率相等检验,斜率相等检验,即检验对于不同的分位点,估计得到的结构参数(在线性模型中即为斜率)是否相等。原假设被设定为:,其中i指常数项以外的解释变量所对应的(k-1)维参数列向量。因此,零假设共含有(k-1) (m-1)个约束条件。接下来构造Wald形式的统计量检验零假设是否成立,它渐近服从自由度为(k-1) (m -1)的卡方分布。,如果接受该假设,说明每个斜率对于不同分位点具有不变性,此时,应该采用普通最小二乘估计;如果拒绝该假设,说明模型应该采用分位数回归估计,以反映每个斜率在不同分位点的不同值。斜率相等检验可以通过约束回归检验实现。原假设相当于对分位数回归估计施加了个约束(斜率中不包括常数项)。应用软件中给出了一些相应的检验统计量。,5、斜率对称性检验,斜率对称性检验,即检验对于给定的X,Y的分布是否是对称的。假设我们要检验的分位数回归模型有m个,m是奇数,且中间值(m+1)/2是0.5,其他都关于0.5对称,即j=1m-j+1, j=1,(m-1)/2。参数估计量按照k的大小排序。则对称性检验的零假设为:,,其中j=1, , (m1)/2,m是奇数,代表分位数回归个数。即关于0.5对称的分位数回归参数估计量的两两平均值等于中位数回归参数估计量。,5、斜率对称性检验,我们可以构造Wald形式的统计量检验上述k(m-1)/2个约束条件是否成立。该统计量服从自由度为k(m1)/2的卡方分布。如果接受斜率相等性假设,就不必进行斜率对称性检验。如果拒绝斜率相等性假设,则可以进一步进行斜率对称性检验,若接受原假设,则认为斜率具有对称性,否则,则认为斜率不具有对称性。,Thank you!,