线性回归分析基础.ppt

资源ID：5298653 资源大小：681KB 全文页数：55页
资源格式： PPT 下载积分：15金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要15金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

线性回归分析基础.ppt

第一章一元线性回归分析基础,2023/6/23,重点问题,参数的最小二乘估计最小二乘估计的性质参数估计的检验预测,2023/6/23,第一章一元线性回归分析基础,1、几个概念条件分布（Conditional distribution）：以X取定值为条件的Y的条件分布条件概率（Conditional probability）：给定X的Y的概率，记为P(Y|X)。例如，P(Y=55|X=80)=1/5；P（Y=150|X=260）=1/7。条件期望（conditional Expectation）：给定X的Y的期望值，记为E(Y|X)。例如，E(Y|X=80)=551/5601/5651/5701/5751/565总体回归曲线（Popular Regression Curve）（总体回归曲线的几何意义）：当解释变量给定值时因变量的条件期望值的轨迹。2、总体回归函数(Popular Regression Function，PRF)E(Y|Xi)=f(Xi)当PRF的函数形式为线性函数，则有，E(Y|Xi)=1+2Xi其中1和2为未知而固定的参数，称为回归系数。1和2也分别称为截距和斜率系数。上述方程也称为线性总体回归函数。3、“线性”的含义“线性”可作两种解释：对变量为线性，对参数为线性。一般“线性回归”一词总是指对参数为线性的一种回归（即参数只以它的1次方出现）。,2023/6/23,第一章一元线性回归分析基础,4、PRF的随机设定将个别的Yi围绕其期望值的离差(Deviation)表述如下：ui=Yi-E(Y|Xi)或 Yi=E(Y|Xi)+ui其中ui为随机误差项（Stochastic error）或随机干扰项（Stochastic disturbance）。线性总体回归函数：PRF：Yi=1+2Xi+ui=E(Y|Xi)+ui5、随机干扰项的意义随机扰动项是从模型中省略下来的而又集体地影响着Y的全部变量的替代物。显然的问题是：为什么不把这些变量明显地引进到模型中来，而以随即扰动项来替代？理由是多方面的：（1）理论的含糊性：理论不能完全说明影响因变量的所有影响因素。（2）数据的欠缺：无法获得有关数据。（3）核心变量与周边变量：希望能找到与有较大影响的核心变量的关系。（4）内在随机性：因变量具有内在的随机性。（5）替代变量：用来代替不可观测变量的替代变量选择，造成一定误差。（6）省略原则：研究中尽可能使回归式简单。（7）错误的函数形式：回归式的的选择是主观的。,2023/6/23,第一章一元线性回归分析基础,6、样本回归函数（SRF）由于在大多数情况下，我们只知道变量值得一个样本，要用样本信息的基础上估计PRF。,样本1,样本2,样本回归函数SRF：,在回归分析中，我们用SRF估计PRF。,2023/6/23,第一章一元线性回归分析基础,估计量（Estimator）：一个估计量又称统计量(statistic)，是指一个规则、公式或方法，以用来根据已知的样本所提供的信息去估计总体参数。在应用中，由估计量算出的数值称为估计（值）（estimate)。样本回归函数SRF的随机形式为：,其中表示（样本）残差项（residual）。,Xi X,PRF:E(Y|Xi)=1+2Xi,SRF：,Y,E(Y|Xi),SRF是PRF的近似估计。为了使二者更为接近，即要使,第一章一元线性回归分析基础,2023/6/23,主要内容,第一节模型的假定第二节参数的最小二乘估计第三节最小二乘估计量的性质第四节系数的显著性检验第五节预测和预测区间,第一章一元线性回归分析基础,2023/6/23,第一节模型的假定,一、一元线性回归模型各种经济变量之间的关系，可以划分为两种类型。一类是变量之间有惟一确定的关系，即函数关系，可表示为：F(X1，X2，Xn，Y)=0(11)或 Y=f(X1，X2，Xn)(12)其中，最简单的形式为一元线性函数关系 Y=PX(13)另一类关系为不完全确定的相关关系,表示为：F(X1，X2，Xn，Y，u)=0(14),第一章一元线性回归分析基础,2023/6/23,第一节模型的假定,或 Y=f(X1，X2，Xn，u)(15)其中最简单的形式为一元线性回归模型 Y=1+2X+u(16)计量经济学只讨论变量之间不完全确定的关系，如式(14)或式(15)所表示的关系。如式(16)所表示的关系式，称为一元线性回归模型。“一元”是指只有一个自变量X，这个自变量X可以解释引起因变量Y变化的部分原因。因此，X称为解释变量，Y称为被解释变量，1和2为参数。,第一章一元线性回归分析基础,2023/6/23,第一节模型的假定,“线性”一词在这里有两重含义。它一方面指被解释变量Y与解释变量X之间为线性关系，另一方面也指Y与参数1、2之间为线性关系。在数理统计学中，“回归”通常指散布点分布在一条直线(或曲线)附近，并且越靠近该直线(或曲线)，点的分布越密集的情况。“模型”一词通常指满足某些假设条件的方程或方程组。,第一章一元线性回归分析基础,2023/6/23,第一节模型的假定,二、误差项的性质与精密数学中的函数关系相比，回归模型式(14),式(15),式(16)中的显著特点是多了误差项u。产生误差项的原因主要有以下几方面：1.忽略掉的影响因素造成的误差 2.模型关系不准确造成的误差 3.变量观察值的计量误差 4.随机误差误差项的存在是计量经济学模型的特点，是计量经济学模型与精密数学中完全确定的函数关系的主要区别。,第一章一元线性回归分析基础,2023/6/23,第一节模型的假定,三、经典假设条件经典的一元线性回归模型 Yt=1+2Xt+ut(t=1,2,，n)(17)通常要满足五个假设条件：假设1 误差项ut的数学期望(均值)为零，即 E(ut)=0(t=1,2,，n)(18)假设2 误差项ut的方差与t无关，为一个常数，即 var(ut)=E(ut-E(ut)2)=E(ut2)=u2(t=1,2,，n)(19)假设3 不同的误差项ut和us之间互相独立，即 cov(ut,us)=E(ut-E(ut)(us-E(us)=0(110),第一章一元线性回归分析基础,2023/6/23,第一节模型的假定,(ts;t=1,2,n;s=1,2,n)或 E(utus)=0(111)假设4 解释变量Xt与误差项ut不相关，即 cov(Xt,ut)=E(Xt-E(Xt)(ut-E(ut)=E(Xt-E(Xt)ut)=0(t=1,2,，n)(112)假设5 ut为服从正态分布的随机变量，即 utN(0,u2)以上五个假设条件称为经典假设条件。综上所述，一元线性回归模型可以归结为 Yt=1+2Xt+ut(t=1,2,，n)(113),第一章一元线性回归分析基础,2023/6/23,第一节模型的假定,E(ut)=0 cov(ut,us)=0(ts；t,s=1,2,n)var(ut)=u2(常数)cov(Xt,ut)=0 utN(0,u2),第一章一元线性回归分析基础,2023/6/23,第二节参数的最小二乘估计,一、拟合准则与最小二乘估计拟合准则：1使达到最小值 2使达到最小值 3使达到最小值 4使达到最小值,第4种准则，由于逐项平方，不存在正负抵消的问题。它不仅考虑了所有点的影响，而且具有无偏性，是一个很好的准则。这个准则称为最小二乘准则。用最小二乘准则寻找拟合直线的方法称为最小二乘法。,第一章一元线性回归分析基础,2023/6/23,第二节参数的最小二乘估计,为简化表达式，从本节起，在不会发生误解的情况下，略去求和指标t求和的上下限。只要求和符号没有上下限，就表示为从t=1到t=n求和。即用求和符号代替符号,假设估计直线：Y=*+*X*，*为参数估计当X=XtYt=*+*Xt(Xt,Yt)(Xt,*+*Xt)残差：et=Yt-(*+*Xt)误差：ut=Yt-(+Xt)残差平方和：Q=et2=Yt-(*+*Xt)2,第一章一元线性回归分析基础,2023/6/23,第二节参数的最小二乘估计,第一章一元线性回归分析基础,2023/6/23,第二节参数的最小二乘估计,第一章一元线性回归分析基础,2023/6/23,第二节参数的最小二乘估计,第一章一元线性回归分析基础,2023/6/23,第二节参数的最小二乘估计,二、总体与样本在数理统计中，通常把研究对象的全体称为总体。把总体中的每个元素称为个体。从总体中随机抽取的一组个体称为样本。抽取的个体数，称为样本容量。从总体中抽取样本的过程称为随机抽样。,总体,有限总体,无限总体,任何样本都是有限的,第一章一元线性回归分析基础,2023/6/23,第三节最小二乘估计量的性质,一、线性特性,是指参数估计值*1和*2分别为观察值Yt或扰动项ut的线性组合。,证：*2=Xtyt/Xt2=Xt(Yt-)/X2t=（Xt/Xt2）Yt 令 bt=（Xt/Xt2）得*2=bt Yt 即*2 是Yt的线性组合,第一章一元线性回归分析基础,2023/6/23,第三节最小二乘估计量的性质,*2=btYt=bt(1+2Xt+ut)=1bt+2btXt+btut 其中：bt=(Xt/Xt2)=Xt/Xt2=0 btXt=(Xt/Xt2)Xt=(Xt(Xt+)/Xt2)=1 所以*2=2+btut即*2也是ut的线性组合,第一章一元线性回归分析基础,2023/6/23,第三节最小二乘估计量的性质,*1=-1=(1/n)Yt-btYt=(1/n)-btYt令 at=(1/n)-bt由于和bt均为非随机变量，所以at也是非随机变量。因此*1=atYt即*1是Yt的线性组合。,第一章一元线性回归分析基础,2023/6/23,第二节参数的最小二乘估计,*1=at(1+2Xt+ut)=1at+2atXt+atut其中：at=(1/n)-bt=1-bt=1atXt=1/n-btXt=(1/n)Xt-btXt=0所以*1=1+atut即*1也是ut的线性组合,第一章一元线性回归分析基础,2023/6/23,第三节最小二乘估计量的性质,二、无偏性指*1和*2 的期望值分别等于总体参数1和2。即E(*1)=1 E(*2)=2 E(*2)=E(2+btut)=2+btE(ut)=2 E(*1)=E(1+atut)=1,第一章一元线性回归分析基础,2023/6/23,第三节最小二乘估计量的性质,三、最优性指最小二乘估计*1和*2在各种线性无偏估计中，具有最小方差。1.先求*1和*2的方差 var(*2)=var(btYt)=bt2 var(1+2Xt+ut)=bt2 var(ut)=(Xt/Xt2)22=2/Xt2 var(*1)=var(atYt)=at2 var(1+2Xt+ut)=at2 var(ut)=(1/n)-bt22=2(1/n+2/Xt2),第一章一元线性回归分析基础,2023/6/23,第三节最小二乘估计量的性质,2.证明最小方差性假设*2是其他方法得到的关于2的线性无偏估计*2=ctYt 其中，ct=bt+dt，dt为不全为零的常数则容易证明 var(*2)var(*2)同理可证明1的最小二乘估计量*1具有最小方差。高斯马尔可夫定理(Gauss-Markov theorem)：满足性质1、2、3的最小二乘估计量是最优线性无偏估计量（best linear unbiased estimator：BLUE）,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,一、误差项方差估计对比总体回归模型和样本回归模型，可以看出，残差et可以看做误差项ut的估计值。计算如下：,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,二、参数估计的显著性检验在上一节中，已经证明，由于最小二乘估计*1和*2 具有线性特性，所以*1和*2均为Yt的线性组合。因为Yt服从正态分布，所以作为Yt的线性组合的*1和*2也服从正态分布。由无偏性，证明了*1和*2的期望分别为总体参数1和2。在证明最优性的过程中又得到*1和*2的方差。,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,因此，可以得到*1和*2的抽样分布为,由于真实的2不知，用它的无偏估计量S2=et2/(n-2)替代时，可构造如下统计量：,第一章一元线性回归分析基础,2023/6/23,检验步骤：,（1）对总体参数提出假设 H0：2=0，H1：20,（2）以原假设H0构造t统计量，并由样本计算其值,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,（3）给定显著性水平，查t分布表，得临界值 t/2(n-2),(4)比较，判断若|t|t/2(n-2)，则拒绝H0，接受H1；若|t|t/2(n-2)，则拒绝H1，接受H0；,对于一元线性回归方程中的1，可构造如下t统计量进行显著性检验：,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,三、总体参数的置信区间总体参数1和2的置信区间分别为,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,四、决定系数,由样本回归模型和样本回归方程，可以得到,这个恒等式把被解释变量的总偏差分解成相应的可解释偏差(回归偏差)和残差(随机偏差两部分之和，如下图：,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,图15被解释变量偏差的分解,Xt,O,X,y,Yt,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,记,总体平方和（Total Sum of Squares）,回归平方和（Explained Sum of Squares）,残差平方和（Residual Sum of Squares）,TSS=ESS+RSS,可以证明,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,由正规方程组,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,所以,即,TSS=ESS+RSS,Y的观测值围绕其均值的总离差(total variation)可分解为两部分：一部分来自回归线(ESS)，另一部分则来自随机势力(RSS)。,在给定样本中，TSS不变，如果实际观测点离样本回归线越近，则ESS在TSS中占的比重越大。,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,因此定义：,表示拟合的程度，因此称为决定系数(coefficient of determination)或拟合优度。在相关分析中R2 也称为复相关系数。,0R2 1,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,五、相关分析通常把相关分析作为回归分析的补充分析方法。相关分析分为线性相关与非线性相关，如果样本点集中分布在一条直线附近，则两变量的关系称为线性相关。当直线的斜率为正值，两变量的关系称为正线性相关。当直线的斜率为负值，两变量的关系称为负线性相关。如果样本点集中分布在一条曲线附近，则两变量的关系称为非线性相关。,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,线性相关：通常用相关系数表示X和Y的相关程度,rXY为X与Y的简单相关系数(只有两个变量相关的相关系数)，同时也是样本相关系数,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,总体相关系数,-1 1,=0，表示总体X与Y不相关；0，表示总体X与Y在一定程度上相关；=1，表示总体X与Y完全正相关或完全负相关。,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,X与Y总体是否相关的检验提出假设：H0=0 H10 构造统计量,第一章一元线性回归分析基础,2023/6/23,第四节系数的显著性检验,六、相关分析与回归分析的联系,决定系数R2与相关分析中的简单相关系数rXY之间的关系,简单相关系数rXY与回归分析中的参数估计*2的关系,第一章一元线性回归分析基础,2023/6/23,第五节预测和预测区间,一、预测的点估计根据样本回归方程,对原样本外的任意解释变量X0，可得到,因为：,第一章一元线性回归分析基础,2023/6/23,第五节预测和预测区间,值得注意：,但是,在多次观察中，平均值趋向于零，从这个意义上,第一章一元线性回归分析基础,2023/6/23,第五节预测和预测区间,二、预测的区间估计 1.E(Y0)的置信区间,因为,所以,第一章一元线性回归分析基础,2023/6/23,第五节预测和预测区间,因为,又因为,第一章一元线性回归分析基础,2023/6/23,第五节预测和预测区间,所以,第一章一元线性回归分析基础,2023/6/23,第五节预测和预测区间,又因为,所以,所以,上式中，常用样本方差S2代替总体方差2进行计算,第一章一元线性回归分析基础,2023/6/23,第五节预测和预测区间,2.Y0的预测区间,第一章一元线性回归分析基础,2023/6/23,第五节预测和预测区间,因为,第一章一元线性回归分析基础,2023/6/23,第五节预测和预测区间,又因为,所以,由经典假设条件,（t0）,所以,第一章一元线性回归分析基础,2023/6/23,第五节预测和预测区间,同理,即,所以,上式中，常用样本方差S2代替总体方差2进行计算,第一章一元线性回归分析基础,2023/6/23,第五节预测和预测区间,三、影响预测区间大小的因素(1)误差项ut的方差或标准差的大小。这是随机影响因素，由总体决定。(2)样本容量n的大小。(3)x2t的大小(4),的大小,

注意事项

本文（线性回归分析基础.ppt）为本站会员（牧羊曲112）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。