一元回归.ppt
1,本章教学目标:了解回归分析在经济与管理中的广泛应用;掌握回归分析的基本概念、基本原理及其分析应用的基本步骤;熟练掌握使用软件求解回归方程及其运行输出结果的分析与使用;能应用回归分析方法解决实际问题(分析各种变量间的关系,进行预测和控制),第11章 一元回归,2,本章主要内容:,11.1 回归分析概述11.2 一元线性回归11.3 质量控制应用案例分析11.4 残差分析11.5 曲线回归本章内容重点:最小二乘法的原理;回归方程和回归系数的显著性检验;软件的求解分析。,3,在经济管理和其他领域中,人们经常需要研究两个或多个变量(现象)之间的相互(因果)关系,并使用数学模型来加以描述和解释。如:商品销售量与价格间的关系;产品的某些质量指标与某些控制因素之间的关系;家庭消费支出与家庭收入间的关系等等。回归分析就是对变量间存在的不确定关系进行分析的统计方法。回归分析是使用得最为广泛的统计学分支,在质量管理、市场营销、宏观经济管理等领域都有非常广泛的应用。,11.1 回归分析概述,4,某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/mm2)和延伸率(%)。该合金钢的质量标准要求:抗拉强度应大于32kg/mm2;延伸率应大于33%。根据冶金学的专业知识和实践经验,该合金钢的含碳量是影响抗拉强度和延伸率的主要因素。其中含碳量高,则抗拉强度也就会相应提高,但与此同时延伸率则会降低。为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到99%以上。,质量控制应用案例,5,为达到以上质量控制要求,就需要制定该合金钢冶炼中含碳量的工艺控制标准,也即要确定在冶炼中应将含碳量控制在什么范围内,可以有99%的把握使抗拉强度和延伸率这两项指标都达到要求。这是一个典型的产品质量控制问题,可以使用回归分析方法求解。,如何制订含碳量的控制标准?,6,1.确定性关系也即函数关系,即 Y=f(X);Y=(X1,X2,Xp)或 F(X,Y)=0;F(X1,X2,Xp,Y)=0例:价格不变时商品销售收入与销售量的关系。,Y=cX,X,销售收入,Y,销售量,O,Y 与 X 间的确定性关系,一.变量间的两类关系,7,家庭收入,非确定性关系,O,家庭消费支出,=b0+b1X,2.非确定性关系,指变量间虽存在着相互影响和相互制约关系,,但由于许多无法预计和控制的因素的影响,,使变量间,的关系呈现不确定性。,即不能由一个或若干变量的值,精确地确定另一变量的值。,但通过大量观察,,可以发现非确定性关系的变量间,存在着某种统计规律性,称为相关关系或回归关系。,8,以三口之家为单位,某种食品在某年各月的家庭平均月消费量 Y(kg)与其价格 X(元/kg)间的调查数据如下,试分析该食品家庭平均月消费量与价格间的关系。,【案例1】商品价格与消费量的关系,9,由图可知,该食品家庭月平均消费量 Y 与价格 X 间基本呈线性关系。这些点与直线 Y=0+1X间的偏差是由其他一些无法控制的因素和观察误差引起的。因此可以建立 Y 与 X 之间关系的如下线性回归模型 Y=0+1X+(11.1-1)其中 X 解释变量(自变量)Y 被解释变量(因变量)0,1 模型中的未知参数 随机误差项,二.线性回归模型,10,随机误差项产生的原因,(1)模型中忽略的其他因素对 Y 的影响;(2)模型不准确所产生的偏差;(3)模型中包含了对 Y 无显著影响的变量;(4)对变量的观察误差;(5)其他随机因素的影响。,11,线性回归模型的数据结构,yi=0+1xi+i;i=1,2,N(11.1-2)其中 i 是其他因素和试验误差对 yi 影响的总和。,当 X 取不完全相同的值 x1,x2,xN 时,,得,到 Y 的一组相应的观察值 y1,y2,yN。,显然,,每一对观察值(xi,yi)都应满足(11.1-1)式。,因此,一元线性回归模型有如下的数据结构:,12,例 解释截距和斜率一名统计学教授打算运用学生为准备期末考试而学习统计学的小时数(X)预测其期末考试成绩(Y)。依据上学期上课班级中收集的数据建立的回归模型如下:如何解释截距和斜率?解 截距=35.0表示当学生不为期末考试做准备的话,期末考试平均成绩是35.0。斜率=3表示每增加1小时学习时间,期末考试平均成绩就变化+3.0。换句话说,每增加1小时学习时间,期末成绩就增加3.0。,13,1.各 i N(0,2),且相互独立;2.解释变量是可以精确观察的普通变量(非随机变量);3.解释变量与随机误差项是各自独立对被解释变量产生影响的。称满足以上条件的回归模型为经典回归模型。本章仅讨论经典回归模型。但在经济领域中,经济变量间的关系通常是不会完全满足上述条件的。例如家庭消费支出 Y 与家庭收入 X 间的回归模型就不会是同方差的。,三.回归模型的经典假设条件,14,1.根据问题的实际背景、专业知识或通过对样本数据的分析,建立描述变量间相关关系的回归模型;2.利用样本数据估计模型中的未知参数,得到回归方程;3.对模型进行检验;4.利用通过检验的回归方程对被解释变量进行预测或控制。,四.回归分析的主要内容和分析步骤,15,一.一元线性回归模型 设被解释变量 Y 与 解释变量 X 间存在线形相关关系,则 Y=0+1X+;N(0,2)(11.2-1)其中 X 是普通变量。则 Y N(0+1X,2)称 Y 的条件期望 E(Y|X)=0+1X为 Y 对 X 的回归。,11.2 一元线性回归,16,分别是参数 0 和 1 的点估计,,二.回归方程,对每一 xi 值,由回归方程可以确定一个回归值,回归系数。,称(11.2-2)式为回归方程。,记,为 Y 的条件期望 E(Y|X)的点估计,,则由(11.2-1),式,,有,(11.2-2),并称,为回归方程的,并记,17,就可求出,三.回归模型的参数估计,回归模型中的参数估计,,采用的是“最小二乘法”,,其原理如下:,Y 的各观察值 yi 与回归值,之差,反映了 yi,与回归直线之间的偏离程度,,从而全部观察值与回归值,的残差平方和,反映了全部观察值与回归直线间总的偏离程度。,显然,,Q 的值越小,,就说明回归直线对所有样本数据的,拟和程度越好。,所谓最小二乘法,,就是要使,为最小。,只要令,18,yi,要找一条直线,使,xi,最小二乘法原理示意图,19,分别是参数 0 和 1 的最小方差无偏估计。,可以证明,,以上两式说明,,的方差分别为:,2.,四.最小二乘估计的性质,在满足经典假设的条件下,1,回归系数,的估计精度不仅,与 2 及样本容量 N 有关,,而且与各 xi 取值的分散程,度有关。,在给定样本容量下,,xi 的取值越分散,,则估,计的方差就越小,,即对参数 0 和 1 的估计就越精确;,反之估计的精确就差。,了解这一点,,对指导试验或抽样调查是非常重要的。,20,通过参数估计得到回归方程后,还需要对回归方程进行检验,以确定变量间是否存在显著的线性关系。对一元线性回归模型,如果变量 Y 与 X 之间并不存在线性相关关系,则模型中的一次项系数 1 应为 0;反之,则 10。故对一元线性回归模型,要检验的原假设为 H0:1=0以上检验称为对回归方程的显著性检验,使用的仍然是方差分析方法。Y 的观察值 y1,y2,yN 之间的差异是由两方面的原因引起的:(1)解释变量 X 的取值 xi 不同;(2)其他因素和试验误差的影响。,五.回归方程的显著性检验,21,为检验以上两方面中哪一个对 Y 取值的影响是主要的,就需要将它们各自对 Y 取值的影响,从 yi 总的差异中分解出来。与方差分析类似地,可以用总的偏差平方和,来表示全部观察值 yi 间总的差异量。,1.偏差平方和的分解,将 ST 作如下分解:,称 SR 为回归平方和,,它主要是由于变量 X 的取值不同,引起的,,其大小反映了 X 的对 Y 影响的重要程度。,称 SE 为剩余平方和或残差平方和,,它主要是由随机误,差和其他因素的影响所引起的。,22,可以证明,,因此,在给定显著性水平 下,若 F F(1,N-2),F(1,N-2),2.检验H0 的统计量,当 H0 为真时,,统计量,就拒绝 H0,,并称回归方程是显著的,,可以用回归方程对,被解释变量进行预测或控制分析;,反之,,则称回归方程,无显著意义。,若不能拒绝 H0,,则可能有以下原因:,(1)Y 和 X 之间不是线性关系;,(2)模型中忽略了对 Y 有重要影响的其他因素;,(3)Y 和 X 基本无关;,(4)数据误差过大。,23,回归方程的显著性检验过程同样可以列成如下方差分析表:方差分析表,3.方差分析表,24,【案例1】商品价格与消费量的关系,以三口之家为单位,某种食品在某年各月的家庭平均月消费量 Y(kg)与其价格 X(元/kg)间的调查数据如下,试分析该食品家庭平均月消费量与价格间的关系。,25,可用 Excel【工具】“数据分析”“回归”求解线性回归问题。本案例可解得,“Significance F”为达到的显著性水平,含义与 P-value 相同。Significance F=0.00032 0.001 故回归方程是极高度显著的。,方差分析表,故所求回归方程为:,案例1 求解分析,说明该食品价格每上涨一元,,家庭月平均消费量将下降,0.34kg,,kg 为该食品的最大月平均消费量。,26,运用回归分析,可能存在如下一些错误:不注意最小二乘回归的假设条件不知道如何评估最小二乘回归的假设条件不知道在违背某一假设条件的情况下运用除最小二乘回归外的其它方法在对主要问题不了解的情况下运用回归模型在相关范围外进行外推根据某研究中的因果关系得出存在显著关系的结论,27,案例1 需要继续研究的问题,1.以 90%的可信度预测当价格为5.6元/kg时,该食品的家庭平均月消费量。2.该食品的生产商和供应商希望该食品的家庭月平均消费量能以 90%的把握达到 2.5kg 以上,应将价格控制在什么水平之下?,28,可以证明,,五.预测和控制,1.预测,就是对解释变量 X 的某一给定值 x0,,求被解释,变量 Y 的取值 y0 的,类似于,区间估计问题。,对任一给定的 x0,,由回归方程可得 y0 的回归值,(点估计):,y0 的置信度为 1-的预测区间为,置信度为 1-的预测区间,,29,关于预测的精度,x0,o,y,允许误差 d 的公式说明,,预测区间的大小,(预测精度),不仅与、样本容量 N 及各 xi 取值的分散程度有关,,而且,和 x0 有关。,当 x0 靠近,时,,d 就较小,,反之,x0 离,越远,,d 就越大。,d 是 x0 的函数 d=d(x0)。,30,预测区间的近似计算,当样本容量 N 足够大时,,或,中方括号内的部分就近似于 1。因此 d 可以使用以下近似公式计算:,其中,(11.2-3),(11.2-4),就是回归方程的标准误差。,31,由所得回归方程,由 Excel 或 SPSS 的输出结果,,可解得当 x0=5.6 时,,案例1的预测问题分析,可得标准误差为,dt0.05(10)0.4007,=1.81250.4007,=0.73,故当价格为 5.6/kg 时,,该食品的家庭月平均消费,量的 90%置信预测区间为:,32,2.控制,控制问题在质量管理及其他经济管理领域中,有着非常广泛的应用,,它是预测的反问题。,即当要求以 1-的概率将 Y 的值控制在某一,范围(y1,y2)内时,,应将解释变量 X 的值控制,在哪一范围内的问题。,也即要确定 X 的两个值 x1,x2,,当 x1 X x2,时,,在 1-的置信度下可使,y1 Y y2,即满足,P y1 Y y2|x1 X x2=1-,33,控制问题示意图,由图可知,X 的取值范围应是以下不等式组的解。,x1,x2,y2,y1,x2,x1,y1,y2,34,即可以通过解以下方程组来解出 x1,x2,(11.2-5),(11.2-6),或:,若解出的 x1 x2,,则说明无法实现所要求的控制目,标,,也即 Y 的控制范围不能过小,(与,N 及 xi 的分,散程度等都有关)。,35,当样本容量 N 足够大时,可用(11.2-3)式或(11.2-4)式作为 d 的近似值。此时(11.2-5)和(11.2-6)式可简化为:,控制范围的近似求解,36,要求以90%的概率使该食品的家庭月平均消费量达到2.5kg以上,应将价格控制在什么水平之下?,x,0,y,x2,2.5,本例中,可得 dt0.1(10)0.4007=0.55由 4.52-0.34x-0.55 2.5可解得:x 4.32 故应将该食品价格控制在4.32元/kg 之下。,注意,对于单侧控制,案例1的控制要求分析,显然,这是一个单侧控制问题。,即要确定 x2的值,,使,37,某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/mm2)和延伸率(%)。该合金钢的质量标准要求:抗拉强度应大于32kg/mm2;延伸率应大于33%。根据冶金学的专业理论知识和实践经验知道,该合金钢的含碳量是影响抗拉强度和延伸率的主要因素。其中含碳量高,则抗拉强度也就会相应提高,但与此同时延伸率则会降低。为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到 99%。,质量控制应用案例,38,为达到以上质量控制要求,就需要重新修订该合金钢冶炼中关于含碳量的工艺控制标准。也即要确定在冶炼中应将含碳量控制在什么范围内,可以有99%的把握使抗拉强度和延伸率这两项指标都达到要求。,如何制订含碳量的控制标准?,39,1.样本数据的收集 为分析抗拉强度和延伸率这两项指标与含碳量之间的关系,需要有关该合金钢的含碳量与抗拉强度及延伸率的样本数据。该厂质量控制部门查阅了该合金钢的质量检验纪录,在剔除了异常情况后,整理了该合金钢的上述两项指标与含碳量的 92 炉实测数据(见Excel工作表)。,案例分析,40,为分析抗拉强度和延伸率这两项指标与含碳量之间的关系,需要建立反映它们之间相关关系的回归模型。设 Y1,Y2分别为该合金钢的抗拉强度和延伸率,X 为含碳量,则 Y1=01+1 X+1 Y2=02+2 X+2分别为该合金钢抗拉强度和延伸率关于含碳量的一元线性回归模型。,2.建立线性回归模型,41,用 Excel 分别求解本案例的两个回归方程,可得:,这一数据在求解控制范围时需要用到。,再由输出的方差分析表可知,Significance F=2.05E-32 0.001,回归方程极高度显著。此外还得到标准误差为:,从而得到抗拉强度和含碳量间的线性回归方程为,3.软件运行输出结果分析,42,同样可得到:,再由输出的方差分析表,Significance F=3.69E-10 0.001回归方程极高度显著.同时还得到标准误差为,从而得到延伸率和含碳量间的回归方程为,43,由本案例所给的质量控制要求可知,对两个指标抗拉强度 Y1 和延伸率 Y2 都是单侧控制要求。即要求含碳量 X 的控制范围,使以下两式同时满足,由于本例中样本容量 N=92 很大,因此可用近似公式求解 d1 和 d2 的值。=0.01,t(N-2)=t0.01(90)在 t 分布表中通常已查不到。此时可用标准正态分布的右侧分位点 Z0.01 来代替 t0.01(90)。,4.求含碳量的控制范围,44,34.7728+87.8269 X-6.0785 32 41.8075-31.6092 X-5.7479 33,解此不等式组,得:0.0376 X 0.0968 故只要在冶炼中将含碳量控制在0.04%和0.09%之间,就可以有 99%的把握使该合金钢的抗拉强度大于 32 kg/mm2,延伸率大于 33%。,由所给控制要求,可得如下不等式组:,即:,求含碳量的控制范围(续),45,32,0.0968,x,33,0.0376,0,y,控制分析示意图,46,在实际问题中,变量间的关系有时是非线性的,这时回归分析的任务就是要为它们配置适当类型的曲线。在多数情况下两个变量间的非线性关系可以通过简单的变量代换转化为线性关系,进而可以用线性回归方法来求解和分析。一.曲线回归的分析步骤 1.确定函数类型 正确选择变量间相关关系的函数类型,是提高曲线拟合精度的关键。通常可根据有关专业知识来决定;也可通过分析样本数据的散点图后确定。2.对样本数据作线性化处理 3.用线性回归方法求解和分析 4.代换为非线性回归方程,11.3 曲线回归,47,1.双曲线函数:,-b/a,a 0b 0,x,y,0,1/a,y,0,x,1/a,-b/a,a 0b 0,令 y=1/y,x=1/x,,得:y=a+bx,二.非线性函数的线性化方法,48,2.幂函数:y=axb,若 a 0,则 ln y=ln a+b ln x 令 y=ln y,b0=ln a,x=ln x,得:y=b0+bx,b 1,0 b 1,b=1,a 0,a,1,a,1,49,3.指数函数:y=ae bx,若 a 0,则 ln y=ln a+bx 令 y=ln y,b0=ln a,得:y=b0+bx,a,b 0,x,0,y,b 0,y,x,0,a,a 0,50,4.负指数函数:y=aeb/x,若a 0,则 ln y=ln a+b/x 令 y=ln y,b0=ln a,x=1/x 得:y=b0+bx,b 0,y,x,0,a,0,x,y,b 0,a,51,5.对数函数:y=a+b ln x,令 x=ln x,得:y=a+bx,b 0,x,0,y,0,y,x,b 0,52,6.逆函数:,令 x=1/x,得 y=a+bx,a,0,x,y,b 0,x,0,y,b 0,a,53,7S 型曲线:,令 y=1/y,x=e-x,得:y=a+bx,x,y,0,1/a,1/(a+b),54,在实际问题中,究竟应使用哪种曲线来配置解释变量与被解释变量间的回归模型,通常可根据有关专业理论知识、或分析样本数据的散点图来决定。,配置曲线的原则,但合适的曲线类型并不是一下就能选准的,,往往需要选择几种类型,,通过求解经数据变换,后的线性回归方程,,比较各回归方程的显著性,水平,,则显著性水平最高的曲线对样本数据的,拟合程度最好。,55,对 10 家化妆品企业某年的产品销售额 yi 与当年广告费投入 xi 的调查数据如下:,试分析化妆品销售额与广告费投入间的关系。,【案例2】产品销售额与广告费投入的关系,56,对所给数据作散点图如下:,案例2分析,由图可知 Y 与 X 之间呈非线性相关关系,,Y 随 X 增,加而增加,,但增长率逐渐递减。,根据这一特点可试用以下两种曲线进行拟合:,幂函数;,对数函数,57,设 Y 与 X 间为幂函数关系:,令 Y=ln Y,X=ln X,0=ln a 得线性回归模型:Y=0+1X+用 Excel 求解,可得线性化后的回归方程及方差分析表如下:,Significance F=0.00048 0.001,回归方程极高度显著。,方差分析表,58,设 Y 与 X 间为对数关系:,令 X=ln X,得线性回归模型:Y=0+1X+用 Excel 求解,得线性化后的回归方程及方差分析表如下:,Significance F=0.0006 0.001,回归方程同样极高度显著。,方差分析表,Y=0+1 ln X+,59,本案例中,两种曲线配得的回归方程都是极高度显著,但幂函数配得的回归方程临界显著性水平更高,故应选用幂函数回归模型。由 0=ln a,还原得,因此可以认为本案例中产品销售额与广告费之间较合适的回归方程为:,确定最优回归曲线,