欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > DOCX文档下载  

    应用时间序列分位数回归.docx

    • 资源ID:5283125       资源大小:124.14KB        全文页数:22页
    • 资源格式: DOCX        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    应用时间序列分位数回归.docx

    目录一、为什么需要分位数回归二、总体分位数三、样本分位数四、分位数回归的估计方法五、分位数回归模型的估计六、R软件操作分位数回归一、为什么需要分位数回归?1、一般的回归模型着重考察x对y的条件期望E(y|x)的影响,如 果y|x不是对称分布,则E(y|x)难以反映条件分布的全貌。如果能够 估计条件分布y|x的若干重要的条件分位数,比如中位数等,能够更 加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变 量的条件期望(均值)。不同分位数下的回归系数估计量常常不同, 即解释变量对不同水平被解释变量的影响不同。2、使用OLS进行“均值回归”,由于最小化的目标函数为残差平 方和,容易受极端值影响。“分位数回归”,使用残差绝对值的加权平 均作为最小化的目标函数,不易受极端值影响。而且,分位数回归对 误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数 回归系数估计量则更加稳健。二、总体分位数假设Y为连续型随机变量,其累积分布函数为Fy()。Y的“总体q 分位数”,记为yq,满足以下定义式:q=P (YWyq)=Fy(yq)总体q分位数正好将总体分布分为两部分,其中小于或等于yq的 概率为q,而大于yq的概率为(l-q)o如果q=l/2,则为中位数,正好将总体分为两个相等的部分。如果Fy()严格单调递增,则有yq=Fy1 (q)对于回归模型,记条件分布y |x的累积分布函数为Fy|x()。条件分布y|x的总体q分位数,记为yq,满足以下定义式:q二 f y | x M)假设F y | x ()严格单调递增,则有Vq=Fy|X(q)由于条件累积分布函数F y|X ()依赖于x ,故条件分布y | x的总 体q分位数yq也依赖于x,记为yq(x),称为“条件分位数函数”。对于线性回归模型,如果扰动项满足同方差的假定,或扰动项的 异方差形式为乘积形式,则yq (x)是x的线性函数。证明如下:y=x,P + uu=x a e£iid(O, 0 2)不失一般性,假设/ a >0o如果x«为常数,则扰动项u为同方差;反之,则为乘积形式的 异方差。根据定义,条件分位数函数yq(x)满足q=P 3Wyq(x)(条件分位数的定义)=P x B + uWyq (x)=P uWyq (x) - x,B =P x a e Wyq (x)-x' B =P e W(yq(x)-x璀)/(x« )=Ff(yq(x)-x)/( x,a)其中,FJ)为e的累积分布函数。因此,(yq(x)-x'6)/(x'a)=FL(q)°yq(x)= x?p+ x,a*F/1(q),故 yq (x)是 x 的线性函数。在同方差的情况下,x,a为常数,所有条件分位数函数yq(x),O<q<l)的斜率都等于们只有截距项x,a*FL(q)依赖于qo一般地,条件分位数函数的“斜率”也依赖于q,记为Bq。在下文中,假设条件分位数函数是解释变量x的线性函数。三、样本分位数对于随机变量Y,如果总体的q分位数yq未知,可使用样本q分位数9q来估计Yqo将样本数据yi,y2/.,yn按从小到大的顺序排列为v,y,y(n)。9q等于第nq个最小观测值,其中n为样本容量,nq表示大于或 等于nq而离nq最近的正整数。【例】n= 97, q=0.25,贝ljnq=97* 0.25= 24.25= 25O但这种方法不易推广到回归模型。一种等价方法是,将样本分位数看成是某最小化问题的解。样本均值也可看成是最小化残差平方和的解:min” 1X1(3= y =样本中位数可视为“最小化残差绝对值之和”问题的解:min“ IXi 1必一国 n=median yi,y2,.,Yn)为什么求解这个最小化问题会得到样本中位数呢?因为只要p的取值偏离中位数,就会使得残差绝对值之和上升。例 考虑一个样本容量为99的样本,假设其样本中位数(即第50 个最小观测值)为10o10 12V./49 50th 49假设第51个最小观测值为12o如让P=12而不是10,则对于 前50个观测值而言,其残差绝对值|yf - n|都将增加2;对于后49 个观测值而言,其残差绝对值|刃-国都将减少2o故总变动为(50*2)-( 49*2)=2,故第51个最小观测值不如第50 个最小观测值(中位数)更能使目标函数最小化。同理,第49个最小观测值也不如第50个最小观测值。由此可知,第50个最小观测值(中位数)是最优解。命题 可以将样本q分位数视为以下最小化残差绝对值的加权平 均问题的最优解:mm“ z命斗 qyt 一 . + 跖(i 一 q)M 一 叫 p = yQ例 如果q =1/4,则满足“刃 > 史条件的观测值只得到1/4的权 重,而满足“ <广 条件的其余观测值则得到3/4的权重。因为估计的是1/4分位数(位于总体的底部),故较大的观测值得到 的权重较小,而较小的观测值得到的权重较大。证明:将目标函数中的绝对值去掉可得min Z命斗 q(H P)+ 富”(1 q)(p 一 yd对U求一阶导数可得Zunq(-1)+(1 - q) = 0假设y(k)< p. <y(k+i),其中y(k)为第k个最小观测值,则共有k个观测值满足“y叩”,(n-k)个观测值满足%冲”,故-(n-k) q+ k(l-q)=0经整理可得k=nqo k必须是整数。故最优解n = ynq = yq,即样 本分位数。四、分位数回归的估计方法将单变量情形下对样本分位数的估计方法推广到线性回归。假设条件分布y | X的总体q分位数yq(x)是x的线性函数:为(的)=X,6q6q称为“q分位数回归系数”,其估计量由以下最小化问题来 定义:Znn用3 - ¥洛q| +(1 q)|% x"q|ig'-qJgvgBq如果q=l/2,则为“中位数回归”:中位数回归也称为“最小绝 对离差估计量它比均值回归(OLS)更不易受到极端值的影响,更加稳健。由于分位数回归的目标函数带有绝对值,不可微分,通常使用线 性规划的方法来计算。五、分位数回归模型的估计由于分位数回归的目标函数带有绝对值,不可微,因此传统的对 目标函数求导的方法不再适用。估计分位数回归方程参数禺的一种 较好的方法是改进的BR算法。下面讨论分位数回归系数估计量的渐近分布。在弱条件下,分位数回归系数渐近服从正态分布。回归系数的方 差协方差矩阵的计算在分位数回归的系数估计中占有重要位置。其方 差协方差矩阵的估计方法根据分位数密度函数是否与解释变量相关 分为三种方法: 误差项独立同分布(i.i.d.)假设下的直接估计方法。 误差项独立但不同分布(i.n.i.d.)条件下的直接估计方法。 误差项独立同分布。.&)和独立但不同分布(i.n.i.d.)条件下都可 使用的自举法。六、R软件操作分位数回归6.1操作一个简单的中位数回归模型及结果说明install.packages(”quantreg”)#下载安装包library("quantreg")# 加载包data(engel) #加载quantreg包自带的数据集fitl = rq(foodexp income, tau = 0.5, data = engel, method= " br” )这里因变量为食物支出(foodexp),自变量为家庭收A(income)o tau 表示计算50%分位点的参数,这里可以同时计算多个分位点的分位数 回归结果,如tau=c(0.1,0.5,0.9)是同时计算10%、50%、90%分位数下 的回归结果。data=engel指明这里处理的数据集为engeL method: 进行拟合的方法,取值包括:A.默认值“br”,表示BR算法的修改 版;B. “fn”,针对大数据可以采用的Frisch - Newton内点算法;C. “pfn”,针对特别大数据,使用经过预处理的Frisch - Newton逼近 方法;D. “fnc”,针对被拟合系数特殊的线性不等式约束情况;E.Tasso”和“scad”,基于特定惩罚函数的平滑算法进行拟合。fitl样直接显示分位数回归的模型和系数summary(fitl)#得到更加详细的显示结果,包括系数和上下限。rl = resid(fitl)#得到残差序列,并赋值为变虽nacf(rl)#画出残差的i'i相关图pacf(rl)#画出残差的偏门相关图Box.test(rl, type="Ljung-Box")# 对残差进行 lb 检验cl = coef(fitl) n得到模型的系数,并赋值给变蛾cl。coef()函数得到的系数为向蛾形式,第一 个元素为常数项的系数,第二个及以后为自变量的系数。summary(fitl, se = "nid") #通过设置参数se,可以得到系数的假设检验summary函数se参数的说明。A. se = "rank” :按照排秩方法计 算得到的置信区间,默认残差为独立同分布,上下限是不对称的。B. se= “iid” :假设残差为独立同分布,用KB(1978)的方法计算得到近似 的协方差矩阵。C. se= "nid”:表示按照Huber方法逼近得到的估计 量。D. se= "ker” :采用 Powell(1990)的核估计方法。E. se= "boot” : 采用bootstrap方法自助抽样的方法估计系数的误差标准差。运行结果:> fitl = rqCfoodexp income, tau = 0.5, data = engel fmethod=,br")#进行分位数回归> fitl #直接显示分位数回归的模型和系数Call:rq(formula = foodexp income, tau = 0.5, data = engel, method = ,fb r")Coefficients: (Intercept) income81.4822474 0.5601806Degrees of freedom: 235 total; 233 residual说明:以食物支IB (foodexp)为因变量及家庭收A(income)为自变量 拟合中位数回归模型,得到的常数项系数为81.48,自变量系数为0.56o 由此可知即使家庭没有收入来源,这个家庭也有食物支出81.48o家 庭收入每变动1个单位,食物支出同向变动0.56个单位。运行结果:> summary(fitl) #得到更加详细的显示结果Call: rq(formula = foodexp 1 ncome, tau = 0.5, data = engel v metho d = nbrn)tau: 1 0.5Coefficients:coefficients lower bd upper bd(Intercept) 81.4822553.25915 114.01156income0.560180.48702 0.60199说明:summary函数这里分别给出了中位数回归常数项系数和自 变量系数的上下限,相当于给出了(1-a)%的置信区间。中位数到上下 限的距离并不相等,可以看出食物支出和家庭收入的分布是偏态的。运行结果:> rl = residCfitl) #得到残差序列,并赋值为变量rl> acf(rl)> pacf(rl)> Box test (rl, type=”Ljung-Box”)# 对残差进行 LB 检验Box-Ljung testdata: rlX-squared = 18.762, df = lf p-value = 1.481e-05Series r1LagSeries r1LLOV 230.说明:通过rl = resid(fitl)命令得到中位数回归模型的残差,然后 对其画自相关图和偏自相关图,来直观的观察残差是否是白噪声序列。 根据自相关图可以看出,存在一阶自相关,其余的相关系数大部分在 两倍标准差以内。再观察偏自相关图的值,也存在一阶偏自相关,其 他滞后项大多都在两倍标准差以内,得出可能不是白噪声序列。下面 进行LB统计量的检验,给出统计学的证据。LB统计量的原假设Ho: P1=P2=.二Pm,得到的P值=1.481e-05<0.05,拒绝原假设,说明残差 项不是白噪声序列。运行结果:> summaryCfitip se = ,nid'D #通过设置参数se,可以得到系数的假设检验Call: rq(formula = foodexp 1 ncome, tau = 0.5, data = engel, metho d = nbrn)tau: 1 0.5Coefficients:Value Std. Error t value Pr(>l11)(Intercept) 81.48225 19.250664.23270 0.00003income 0.56018 0.0282819.81032 0.00000说明:进行系数的显著性检验。由于残差项不是白噪声序列A.se=“rank”和B. se= "iid”并不适用。选择C. se = "nid” :表示按照 Huber方法逼近得到的估计量。Ho:系数与零没有显示出差异。由上 式结果知,常数项的P值为0.00003<0.05拒绝原假设,说明系数是显 著的;自变量的P值为0.00000<0.05拒绝原假设,说明系数是显著的。6.2不同分位点下的回归模型差异是否显著fitl = rq(foodexp income, tau =2:98/100, data = engel)windows(5,5) #新建一个图形窗口plot(fitl)运行结果(Intercept)o.o0.20.40.60.81.0income0.00.20.40.60.81.0说明:上图显示的是不同分位数回归模型得到的不同系数值。 从2%分位点到98%分为点,每隔1个百分点记录1个值,总共有97 个值。第一个图是常数项系数,第二个图是自变量系数。从图可知, 当拟合的分位数回归,从低分位点到高分位点时,常数项系数逐渐减 少的,而自变量系数逐渐增加的。fit2 = rq(foodexp income, tau =c(0.05,0.25,0.5,0.75,0.95), data =engel)windows(5,5)plot(fit2)运行结果(Intercept)0.20.40.60.8income0.20.40.60.8说明:上图绘制了五个分位点的回归模型的系数值,这五个分 为点分别是0.05,0.25,0.5,0.75,0.95o图中的小圆点为对应的系数值。 从图我们可以看得更加清晰,当拟合的分位数回归,从低分位点到高 分位点时,常数项系数逐渐减少的,而自变量系数逐渐增加的。直观 来看,不同分位点的系数是明显不同的。下面进行方差分析检验,验 证不同分位点回归模型是否显著不同,给出统计学的证据。a = rq(foodexp income, tau = 0.25) b= rq(foodexp income, tau = 0.5)c = rq(foodexp income, tau = 0.75)anova(a,b,c)#对三个对象进行方芸分析运行结果Quanti1e Regression Analysis of Deviance TableModel: foodexp incomeJoint Test of Equality of Slopes: tau in 0.25 0.5 0.75 Df Resid Df F value Pr(>F)1 2703 15.557 2.449e-07 *Sigrrif, codes: 0 '*' 0.001 '*' 0.010.05 ''0.l ' '1说明:对三个不同分位点的回归模型进行方差分析。原假设H。: 三个回归模型拟合的值没有显著性差异。P值=2.449e-07<0.05,拒绝 原假设。说明不同分位数下的回归系数估计量不同,即解释变量对不 同水平被解释变量的影响不同。也就是家庭收入对不同水平的食品消 费的影响不同。yo.25=95.48+0.47x;Yo.5=81.48+0.56x;yo.75=62.39+0.64x。 低水平的食品支出受到x影响较小,常数项更大;高水平的食品支出 受到x影响较大,常数项更小。6.3不同分位点回归与均值回归的比较attach(engel) #打开engei数据集,直接运行其中的列名,就可以调用相应列plot(income,foodexp,cex=0.25,type="n", xlab="Household Income",ylab="Food Expenditure") # 画图,points(income,foodexp,cex=0.5,col="grey")祥添加点,点的大小为 o.sabline( rq(foodexp income, tau=0.5), col=Hbluen )# 画中位数回归的拟合直线,颜色蓝abline( lm(foodexp income), Ity = 2, col二"red” ) # 画普通最小二乘法拟合直线,颜色红taus = c(0.05, 0.1, 0.25, 0.75, 0.9, 0.95)for(i in l:length(taus)»绘制不同分位点下的拟合直线,颜色为灰色abline( rq(foodexp income, tau=tausi), col="gray")运行结果10002000300040005000000N oogL 000L oog a-pu&x 山 POOLLHousehold Income说明:首先画食品支出和家庭收入的散点图,为图中灰色的小 圆圈。然后画中位数回归的拟合直线,为图中蓝色的线。再是画均值 回归的拟合直线,为图中红色的线。其余直线从下往上分别是0.05,0.1, 0.25, 0.75, 0.9, 0.95的分位回归拟合直线。可以看出,均值回归容易 受到极端值的影响。summary(lm(foodexp income)# 最小二乘法的详细说明运行结果> summary Clm(foodexp income)Call:Imfformula = foodexp income)Residuals:Min IQ Median 3Q Max-725.70 -60.24 -4.3253.41 515.77Coefficients:Estimate Std. Error t value Pr(>|t|) (intercept) 147.47539 15.95708 9.242 <2e-16 * income 0.485180.01437 33.772<2e-16 *Signif. codes: 0 '*' 0.001 '*' 0.010.05 J 0.1 4 '1Residual standard error: 114.1 on 233 degrees of freedom Multiple R-squared: 0.8304, Adjusted R-squared: 0.8296 F-statiStic: 1141 on 1 and 233 DF, p-value: < 2.2e-16说明:对因变量食品支出和自变量家庭收入的线性最小二乘回归, y=147. 47539+0. 48518x,系数的显著性水平'如'是非常显著的,其 中调整的R方是0.8296; F统计量的值为:LL40, p值2.2e-16, 说明方程模拟的很好。由于R软件找不到关于分位数回归的评价检验,如拟合优度、F 统计量。所以转为用Eviews来进行分位数回归的拟合。先来看看 Ev-iews拟合均值回归模型的一些输出结果。Dependent Variable: YMethod: Least SquaresDate: 12/24/16 Time: 11:11Sample: 1 235Included observations: 235VariableCoefficientStd. Errort-StatisticProb.c147.475415.957089.2420050.0000X0.4851780.01436633.771790.0000R-squared0.830365Mean dependent var624.1501Adjusted R-squared0.829637S.D. dependent var276.4570S.E. of regression114.1079Akaike info criterion12.32064Sum squared resid3033805.Schwarz criterion12.35008Log likelihood-1445.675Hannan-Quinn criter.12.33251F-statistic1140.534Durbin-Watson stat1.410754Prob(F-statistic)0.000000说明:用Eviews拟合的均值回归模型y=147. 4754+0. 485178X, 调整的R方是0. 829637; F统计量的值为1140. 534,p值为0. OOOOOOo 跟R软件计算出来的统计量的数值都是一一对应的。下面我们用 eviews来拟合分位数回归的模型。运行结果:eviews来拟合中位数回归的模型Dependent Variable: YMethod: Quantile Regression (Median)Date: 12/24/16 Time: 12:21Sample: 1 235Included observations: 235Huber Sandwich Standard Errors & CovarianceSparsity method: Kernel (Epanechnikov) using residualsBandwidth method: Hall-Sheather, bw=0.15744Estimation successfully identifies unique optimal solutionVariableCoefficientStd. Errort-StatisticProb.C81.4823524.034943.3901620.0008X0.5601810.03137017.857070.0000Pseudo R-squared0.620556Mean dependent var624.1501Adjusted R-squared0.618927S.D.dependent var276.4570S.E. of regression120.8447Objective8779.966Quantile dependent var582.5413Restr. objective23139.03Sparsity209.3504Quasi-LR statistic548.7092说明:Pseudo R-squared 伪 R2 ; Adjusted R-squared 调整的伪 R2 ; S. E. of regression分位数回归式的标准误差;Quantile dependent var分位数回归式中只有常数项存在的系数估计值; Objective目标函数极小值;Objective分位数回归式中只有常数存 在的目标函数极小值;Sparsity分位数稀疏函数估计值;Quasi-LR statistic:准似然比估计量的值;Prob (QuasiLR stat)准似然比 估计量的值所对应的概率值。用Eviews拟合的中位数回归模型y。.5二81. 48235+0. 560181X;其调 整的R方为0.618927。运行结果:eviews来拟合0. 99分位数回归的模型Dependent Variable: YMethod: Quantile Regression (tau = 0.99)Date: 12/24/16 Time: 12:34Sample: 1 235Included observations: 235Huber Sandwich Standard Errors & CovarianceSparsity method: Kernel (Epanechnikov) using residualsBandwidth method: Hall-Sheather, bw=0.011378Estimation successfully identifies unique optimal solutionBandwith too large in sandwich covariance estimationError in sandwich covariance estimationVariableCoefficientStd. Errort-StatisticProb.C95.81828NANANAX0.703865NANANAPseudo R-squaredAdjusted R-squared0.8301670.829438Mean dependent varS.D. dependent var624.1501276.4570S.E. of regression229.8502Objective499.7792Quantile dependent var1570.391Restr. objective2942.763说明:用Eviews拟合的0.99分位数回归模y。.99=95. 81828+0. 703865x;其调整的 R 方为 0. 829438。综合以上三个表格,可以看出,中位数回归模型的R方比较小, 说明模型没有拟合的很好,而均值回归模型和0.99分位数回归模型 的R方比较接近,造成这种结果可能是偏态分布的原因;相比于0. 99 分位数回归模型,中位数回归模型标准误差较小,以及准似然比估计 量的值也是相对较小的。

    注意事项

    本文(应用时间序列分位数回归.docx)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开