第十一章统计学一元线性回归课件.ppt
第,11,章,一元线性回归,11.1,变量间关系的度量,11.2,一元线性回归,11.3,利用回归方程进行估计和预测,11.4,残差分析,学习目标,1.,相关关系的分析方法,2.,一元线性回归的基本原理和参数的最小,二乘估计,3.,回归直线的拟合优度,4.,回归方程的显著性检验,5.,利用回归方程进行估计和预测,6.,用,Excel,进行回归,重点,1.,一元线性回归分析,2.,用软件进行回归分析,难点,最小二乘法的原理并用它解决实际问题,本章教学重点与难点,11.1,变量间关系的度量,11.1.1,变量间的关系,11.1.2,相关关系的描述与测度,11.1.3,相关系数的显著性检验,变量间的关系,函数关系,1.,是一一对应的确定关系,2.,设有两个变量,x,和,y,,变量,y,随变量,x,一起变化,并完,全依赖于,x,,当变量,x,取某,个数值时,,y,依确定的关系,取相应的值,则称,y,是,x,的,函数,记为,y,=,f,(,x,),,其中,x,称为自变量,,y,称为因变,量,3.,各观测点落在一条线上,?,?,?,?,?,?,?,?,?,x,y,函数关系,(,几个例子,),?,某种商品的销售额,y,与销售量,x,之间的关系,可表示为,y,=,px,(,p,为单价,),?,圆的面积,S,与半径,R,之间的关系可表示为,S,=,?,R,2,?,企业的原材料消耗额,y,与产量,x,1,、单位产,量消耗,x,2,、原材料价格,x,3,之间的关系可表,示为,y,=,x,1,x,2,x,3,相关关系,(correlation),1.,变量间关系不能用函数关,系精确表达,2.,一个变量的取值不能由另,一个变量唯一确定,3.,当变量,x,取某个值时,变,量,y,的取值可能有几个,4.,各观测点分布在直线周围,?,?,?,?,?,?,?,?,?,x,y,相关关系,(,几个例子,),?,父亲身高,y,与子女身高,x,之间的关系,?,收入水平,y,与受教育程度,x,之间的关系,?,粮食单位面积产量,y,与施肥量,x,1,、降雨量,x,2,、温度,x,3,之间的关系,?,商品的消费量,y,与居民收入,x,之间的关系,?,商品销售额,y,与广告费支出,x,之间的关系,相关关系,(,类型,),正,相,关,负,相,关,线,性,相,关,非,线,性,相,关,正,相,关,负,相,关,完,全,相,关,不,相,关,相,关,关,系,相关关系的描述与测度,(,散点图,),相关分析及其假定,1.,相关分析要解决的问题,?,变量之间是否存在关系?,?,如果存在关系,它们之间是什么样的关系?,?,变量之间的关系强度如何?,?,样本所反映的变量之间的关系能否代表总体变量之,间的关系?,2.,为解决这些问题,在进行相关分析时,对总体有,以下两个主要假定,?,两个变量之间是线性关系,?,两个变量都是随机变量,散点图,(scatter diagram),?,?,?,?,?,?,?,?,?,?,?,?,不相关,?,?,?,?,?,?,?,?,?,负线性相关,?,?,?,?,?,?,?,?,?,正线性相关,?,?,?,?,?,?,?,?,?,?,?,?,非线性相关,?,?,?,?,?,?,?,完全负线性相关,完全正线性相关,?,?,?,?,?,?,?,?,?,散点图,(,例题分析,),?,【例】,一家大型商业银行在多个地区设有分行,,其业务主要是进行基础设施建设、国家重点项,目建设、固定资产投资等项目的贷款。近年来,,该银行的贷款额平稳增长,但不良贷款额也有,较大比例的增长,这给银行业务的发展带来较,大压力。为弄清楚不良贷款形成的原因,管理,者希望利用银行业务的有关数据做些定量分析,,以便找出控制不良贷款的办法。下面是该银行,所属的,25,家分行,2002,年的有关业务数据,散点图,(,例题分析,),散点图,(,不良贷款对其他变量的散点图,),不良贷款与贷款余额的散点图,0,2,4,6,8,10,12,14,0,100,200,300,400,贷款余额,不,良,贷,款,不良贷款与贷款项目个数的散点图,0,2,4,6,8,10,12,14,0,10,20,30,40,贷款项目个数,不,良,贷,款,不良贷款与固定资产投资额的散点图,0,2,4,6,8,10,12,14,0,50,100,150,200,固定资产投资额,不,良,贷,款,不良贷款与累计应收贷款的散点图,0,2,4,6,8,10,12,14,0,10,20,30,累计应收贷款,不,良,贷,款,相关关系的描述与测度,(,相关系数,),相关系数,(correlation coefficient),1.,度量变量之间关系强度的一个统计量,2.,对两个变量之间线性相关强度的度量称为简单相,关系数,3.,若相关系数是根据总体全部数据计算的,称为总,体相关系数,记为,?,4.,若是根据样本数据计算的,则称为样本相关系数,,简称为相关系数,记为,r,?,也,称,为,线,性,相,关,系,数,(linear,correlation,coefficient),?,或称为,Pearson,相关系数,(Pearsons,correlation,coefficient),相关系数,(,计算公式,),?,?,样本相关系数的计算公式,?,?,?,?,?,?,?,?,?,2,2,),(,),(,),)(,(,y,y,x,x,y,y,x,x,r,或化简为,?,?,?,?,2,2,2,2,?,?,?,?,?,?,?,?,?,?,?,y,y,n,x,x,n,y,x,xy,n,r,相关系数的性质,?,性质,1,:,r,的取值范围是,-1,1,?,|,r,|=,1,,为完全相关,?,r,=,1,,为完全正相关,?,r,=,-1,,为完全负正相关,?,r,=,0,,不存在,线性,相关,关系,?,-1,?,r,0,,为负相关,?,0,r,?,1,,为正相关,?,|,r,|,越趋于,1,表示关系越强;,|,r,|,越趋于,0,表示,关系越弱,相关系数的性质,?,性质,2,:,r,具有对称性。即,x,与,y,之间的相关系数和,y,与,x,之间的相关系数相等,即,r,xy,=,r,y,?,性质,3,:,r,数值大小与,x,和,y,原点及尺度无关,即改变,x,和,y,的数据原点及计量尺度,并不改变,r,数值大小,?,性质,4,:仅仅是,x,与,y,之间线性关系的一个度量,它不,能用于描述非线性关系。这意为着,,r,=0,只表示两,个变量之间不存在线性相关关系,并不说明变量之,间没有任何关系,?,性质,5,:,r,虽然是两个变量之间线性关系的一个度量,,却不一定意味着,x,与,y,一定有因果关系,相关系数的经验解释,1.,|,r,|,?,0.8,时,可视为两个变量之间高度相,关,2.,0.5,?,|,r,|,0.8,时,可视为中度相关,3.,0.3,?,|,r,|,0.5,时,视为低度相关,4.,|,r,|,0.3,时,说明两个变量之间的相关程度,极弱,可视为不相关,5.,上述解释必须建立在对相关系数的显著性,进行检验的基础之上,相关系数,(,例题分析,),?,?,用,Excel,计算相关系数,相关系数的显著性检验,相关系数的显著性检验,(,检验的步骤,),1.,检验两个变量之间是否存在线性相关关系,2.,等价于对回归系数,b,1,的检验,3.,采用,R.A.Fisher,提出的,t,检验,4.,检验的步骤为,?,提出假设:,H,0,:,?,?,?,;,H,1,:,?,?,0,),2,(,1,2,2,?,?,?,?,n,t,r,n,r,t,?,计算检验的统计量:,?,确定显著性水平,?,,并作出决策,?,若,?,t,?,t,?,,拒绝,H,0,?,若,?,t,?,t,?,,不拒绝,H,0,相关系数的显著性检验,(,例题分析,),?,?,对不良贷款与贷款余额之间的相关系数,进行显著性检验,(,?,?,0.05),1.,提出假设:,H,0,:,?,?,?,;,H,1,:,?,?,0,2.,计算检验的统计量,5344,.,7,8436,.,0,1,2,25,8436,.,0,2,?,?,?,?,t,3.,根据显著性水平,?,0.05,,查,t,分布表得,t,?,(,n,-2)=2.069,?,由于,?,t,?,=7.5344,t,?,(25-2)=2.069,,拒绝,H,0,,不良贷,款与贷款余额之间存在着显著的正线性相关关系,相关系数的显著性检验,(,例题分析,),?,各相关系数检验的统计量,11.2,一元线性回归,11.2.1,一元线性回归模型,11.2.2,参数的最小二乘估计,11.2.3,回归直线的拟合优度,11.2.4,显著性检验,什么是回归分析?,(Regression),1.,从一组样本数据出发,确定变量之间的数学,关系式,2.,对这些关系式的可信程度进行各种统计检验,,并从影响某一特定变量的诸多变量中找出哪,些变量的影响显著,哪些不显著,3.,利用所求的关系式,根据一个或几个变量的,取值来预测或控制另一个特定变量的取值,,并给出这种预测或控制的精确程度,回归模型的类型,线,性,回,归,非,线,性,回,归,一,元,回,归,线,性,回,归,非,线,性,回,归,多,元,回,归,回,归,模,型,一元线性回归模型,一元线性回归,1.,涉及一个自变量的回归,2.,因变量,y,与自变量,x,之间为线性关系,?,被,预,测,或,被,解,释,的,变,量,称,为,因,变,量,(dependent,variable),,用,y,表示,?,用来预测或用来解释因变量的一个或多个变,量称为自变量,(independent,variable),,用,x,表示,3.,因变量与自变量之间的关系用一个线性方,程来表示,回归模型,(regression model),1.,回答“变量之间是什么样的关系?”,2.,方程中运用,?,1,个数值型因变量,(,响应变量,),?,被预测的变量,?,1,个或多个数值型或分类型自变量,(,解释变量,),?,用于预测的变量,3.,主要用于预测和估计,一元线性回归模型,1.,描述因变量,y,如何依赖于自变量,x,和误差项,?,的,方程称为,回归模型,2.,一元线性回归模型可表示为,?,y,=,b,?,+,b,1,x,+,?,?,y,是,x,的线性函数,(,部分,),加上误差项,?,线性部分反映了由于,x,的变化而引起的,y,的变化,?,误差项,?,是随机变量,?,反映了除,x,和,y,之间的线性关系之外的随机因素对,y,的,影响,?,是不能由,x,和,y,之间的线性关系所解释的变异性,?,b,0,和,b,1,称为模型的参数,一元线性回归模型,(,基本假定,),1.,因变量,x,与自变量,y,之间具有线性关系,2.,在重复抽样中,自变量,x,的取值是固定的,即假定,x,是,非随机的,3.,误差项,是一个期望值为,0,的随机变量,即,E,(,)=0,。对,于一个给定的,x,值,,y,的期望值为,E,(,y,)=,b,0,+,b,1,x,4.,对于所有的,x,值,,的方差,2,都相同,5.,误差项,是一个服从正态分布的随机变量,且相互独立。,即,N,(0,2,),?,独立性意味着对于一个特定的,x,值,它所对应的,与其他,x,值所对应的,不相关,?,对于一个特定的,x,值,它所对应的,y,值与其他,x,所对应的,y,值也不相关,一元线性回归模型,(,基本假定,),x,=,x,3,时的,E,(,y,),x,=,x,2,时,y,的分布,x,=,x,1,时,y,的分布,x,=,x,2,时的,E,(,y,),x,3,x,2,x,1,x,=,x,1,时的,E,(,y,),b,0,x,y,x,=,x,3,时,y,的分布,b,0,+,b,1,x,回归方程,(regression equation),1.,描述,y,的平均值或期望值如何依赖于,x,的方,程称为,回归方程,2.,一元线性回归方程的形式如下,3.,E,(,y,),=,b,0,+,b,1,x,?,方程的图示是一条直线,也称为直线回归方程,?,b,0,是回归直线在,y,轴上的截距,是当,x,=0,时,y,的期,望值,?,b,1,是直线的斜率,称为回归系数,表示当,x,每变动,一个单位时,,y,的平均变动值,估计的回归方程,(estimated regression equation),3.,一元线性回归中估计的回归方程为,2.,用样本统计量,和,代替回归方程中的未知参,数,和,,就得到了,估计的回归方程,0,?,b,1,?,b,0,b,1,b,1.,总体回归参数,和,是未知的,必须利用样本数,据去估计,0,b,1,b,x,y,1,0,?,?,?,b,b,+,?,其中:,是估计的回归直线在,y,轴上的截距,,是直线,的斜率,它表示对于一个给定的,x,的值,,是,y,的估,计值,也表示,x,每变动一个单位时,,y,的平均变动值,0,?,b,1,?,b,y,?,参数的最小二乘估计,最小二乘估计,(method of least squares),最小,?,?,?,?,?,?,?,?,?,n,i,i,i,n,i,i,x,y,y,y,1,2,1,0,1,2,),?,?,(,),?,(,b,b,1.,德国科学家,Karl Gauss(1777,1855),提出用,最小化图中垂直方向的误差平方和来估计参数,2.,使因变量的观察值与估计值之间的误差平方和,达到最小来求得,和,的方法。即,3.,用最小二乘法拟合的直线来代表,x,与,y,之间的,关系与实际数据的误差比其他任何直线都小,0,?,b,1,?,b,Karl Gauss,的最小化图,x,y,(,x,n,y,n,),(,x,1,y,1,),?,?,?,?,?,?,?,?,?,(,x,2,y,2,),(,x,i,y,i,),e,i,=,y,i,-,y,i,x,y,1,0,?,?,?,b,b,+,?,?,相关分析中,x,与,y,对等,回归分析中,x,与,y,要确定自变量和因变量;,?,相关分析中,x,、,y,均为随机变量,回归分,析中只有,y,为随机变量;,?,相关分析测定相关程度和方向,回归分,析用回归模型进行预测和控制。,回归分析与相关分析,区别:,总体一元线性回归模型:,?,b,b,+,+,?,X,Y,1,0,?,模型,参数,误差,项,假定:,E,(,?,)=0,总体一元线性回归方程:,X,Y,1,0,?,b,b,+,?,一元线性回归方程的几何意义,),(,Y,E,X,X,Y,b,?,+,?,?,截距,斜率,一元线性回归方程的可能形态,b,为正,b,为负,b,为,0,回归直线的拟合,?,?,BX,A,Y,E,Y,+,?,?,?,总体一元线性,回归方程,:,样本一元线性回归方程:,bx,a,y,+,?,?,以样本统计量估计总体参数,斜率(回归系数),截距,截距,a,表示在没有自变量,x,的影响时,其它各,种因素对因变量,y,的平均影响;,回归系数,b,表,明自变量,x,每变动一个单位,因变量,y,平均变,动,b,个单位。,(,估计的回归方程,),i,i,i,i,y,bx,a,y,y,y,x,bx,a,y,?,?,+,?,+,+,?,+,?,?,),(,?,值应为,的实际,而变量,之间的平均变动关系,,变量,与,是理论模型,表明,随机干扰:,各种偶然,因素、观察误差和其,他被忽视因素的影响,X,对,y,的线性影响而形,成的系统部分,反映,两变量的平均变动关,系,即本质特征。,一元线性回归方程,中参数,a,、,b,的确定,:,bx,a,y,+,?,?,最小平方法,基本数学要求,?,?,?,?,?,?,?,?,min,),?,(,0,?,2,y,y,y,y,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,0,2,0,1,2,min,min,),?,(,2,2,x,bx,a,y,bx,a,y,b,a,bx,a,y,y,y,,有,求偏导数,并令其为零,、,分别对函数中,,有,由,整理得到由两个关于,a,、,b,的二元一次,方程组成的方程组:,?,?,?,?,+,?,?,?,?,+,?,?,2,x,b,x,a,xy,x,b,na,y,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,x,b,y,n,x,b,n,y,a,x,x,n,y,x,xy,n,b,2,2,),(,进一步整理,有:,10名学生的身高与体重散点图,40,45,50,55,60,65,70,75,158,160,162,164,166,168,170,172,174,176,178,身高(X),体,重,(,Y,),学,生,身高,x,体重,y,x,2,y,2,xy,估计值,?,残差,y-,?,A,B,C,D,E,F,G,H,I,J,158,160,162,164,166,168,170,172,174,176,47,50,48,55,62,60,52,61,70,65,24964,25600,26244,26896,27556,28224,28900,29584,30276,30976,2209,2500,2304,3025,3844,3600,2704,3721,4900,4225,7426,8000,7776,9020,10292,10080,8840,10492,12180,11440,47.291,49.448,51.606,53.764,55.921,58.079,60.236,62.394,64.552,66.709,-0.291,0.552,-3.606,1.236,6.079,1.921,-8.236,-1.394,5.448,-1.709,?,1670,570,279220,33032,95546,-,0,1596,.,123,167,0788,.,1,57,0788,.,1,1670,279220,10,570,1670,95546,10,2,?,?,?,?,?,?,?,?,?,?,?,?,a,b,x,y,0788,.,1,1596,.,123,?,+,?,?,57,167,0788,.,1,1596,.,123,?,167,?,?,+,?,?,?,y,x,估计方程的求法,(,例题分析,),?,【例】,求不良贷款对贷款余额的回归方,程,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,8295,.,0,268,.,120,037895,.,0,728,.,3,037895,.,0,7,.,3006,37,.,516543,25,2,.,93,7,.,3006,14,.,17080,25,2,a,b,回归方程为:,y,=,-,0.8295,+,0.037895,x,回归系数,=0.037895,表示,贷款余额每增,加,1,亿元,不良贷款平均增加,0.037895,亿元,1,?,b,估计方程的求法,(,例题分析,),?,不良贷款对贷款余额回归方程的,图示,不良贷款对贷款余额的回归直线,-2,0,2,4,6,8,10,12,14,0,100,200,300,400,贷款余额,不,良,贷,款,用,Excel,进行回归分析,?,第,1,步:选择【,工具,】下拉菜单,?,第,2,步:选择【,数据分析,】选项,?,第,3,步:在分析工具中选择【,回归,】,,选择【,确定,】,?,第,4,步:当对话框出现时,?,在【,Y,值输入区域,】设置框内键入,Y,的数据,区域,?,在【,X,值输入区域,】设置框内键入,X,的数据,区域,?,在【,置信度,】选项中给出所需的数值,?,在【,输出选项,】中选择输出区域,?,在【,残差,】分析选项中选择所需的选项,估计方程的求法,(,Excel,的输出结果),SUMMARY OUTPUT,回归统计,Multiple R,0.995024,R Square,0.990073,Adjusted R S,0.989309,标准误差,6.435265,观测值,15,Coefficients,标,准误差,t Stat,P-value,Lower 95%Upper 95%,Intercept,22.59595,3.927445,5.753344,6.67E-05,14.11122,31.08067,X Variable 1,0.530077,0.014721,36.00731,2.08E-14,0.498274,0.561881,a,b,回归直线的拟合优度,变差,1.,因变量,y,的取值是不同的,,y,取值的这种,波动称为,变差,。变差来源于两个方面,?,由于自变量,x,的取值不同造成的,?,除,x,以外的其他因素,(,如,x,对,y,的非线性影响、,测量误差等,),的影响,2.,对一个具体的观测值来说,变差的大小可,以通过该实际观测值与其均值之差,来,表示,y,y,?,误差的分解,(,图示,),x,y,y,x,y,1,0,?,?,?,b,b,+,?,y,y,?,y,y,?,?,y,y,?,?,?,),(,i,i,y,x,误差平方和的分解,(,三个平方和的关系,),SST,=,SSR,+,SSE,?,?,?,?,?,?,?,?,?,?,?,?,?,+,?,?,?,n,i,i,i,n,i,i,n,i,i,y,y,y,y,y,y,1,2,1,2,1,2,?,?,总平方和,(,SST,),回归平方和,(,SSR,),残差平方和,(,SSE,),误差平方和的分解,(,三个平方和的意义,),1.,总平方和,(,SST,total,sum,of,squares),?,反映因变量的,n,个观察值与其均值的总误差,2.,回,归,平,方,和,(,SSR,sum,of,squares,of,regression),?,反映自变量,x,的变化对因变量,y,取值变化的影响,,或者说,是由于,x,与,y,之间的线性关系引起的,y,的,取值变化,也称为可解释的平方和,3.,残差平方和,(,SSE,sum,of,squares,of,error),?,反映除,x,以外的其他因素对,y,取值的影响,也称为,不可解释的平方和或剩余平方和,判定系数,R,2,(,coefficient of determination),1.,回归平方和占总误差平方和的比例,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,n,i,i,n,i,i,n,i,i,n,i,i,y,y,y,y,y,y,y,y,SST,SSR,R,1,2,1,2,1,2,1,2,2,?,?,1,?,2.,反映回归直线的拟合程度,3.,取值范围在,0,1,之间,4.,R,2,?,1,,说明回归方程拟合的越好;,R,2,?,0,,,说明回归方程拟合的越差,5.,判定系数等于相关系数的平方,即,R,2,r,2,判定系数,(,例题分析,),?,【例】,计算不良贷款对贷款余额回归的判定系数,并,解释其意义,?,判定系数的实际意义是:,在不良贷款取值的变差,中,有,71.16%,可以由不良贷款与贷款余额之间的线性,关系来解释,或者说,在不良贷款取值的变动中,有,71.16%,是由贷款余额所决定的。也就是说,不良贷款,取值的差异有,2/3,以上是由贷款余额决定的。可见不良,贷款与贷款余额之间有较强的线性关系,%,16,.,71,7116,.,0,6504,.,312,4860,.,222,2,?,?,?,?,SST,SSR,R,估计标准误差,(standard error of estimate),1.,实际观察值与回归估计值误差平方和的均方根,2.,反映实际观察值在回归直线周围的分散状况,3.,对误差项,?,的标准差,?,的估计,是在排除了,x,对,y,的线性影响后,,y,随机波动大小的一个估计量,4.,反映用估计的回归方程预测,y,时预测误差的大小,5.,计算公式为,?,?,MSE,n,SSE,n,y,y,s,n,i,i,i,e,?,?,?,?,?,?,?,?,2,2,?,1,2,注:例题的计算结果为,1.9799,显著性检验,线性关系的检验,1.,检验自变量与因变量之间的线性关系是否,显著,2.,将回归均方,(,MSR,),同残差均方,(,MSE,),加以,比较,应用,F,检验来分析二者之间的差别,是否显著,?,回归均方:回归平方和,SSR,除以相应的自由,度,(,自变量的个数,k,),?,残差均方:残差平方和,SSE,除以相应的自由,度,(,n,-,k,-1),线性关系的检验,(,检验的步骤,),1.,提出假设,?,H,0,:,b,1,=0,线性关系不显著,),2,1,(,),2,(,1,?,?,?,?,n,F,MSE,MSR,n,SSE,SSR,F,2.,计算检验统计量,F,3.,确定显著性水平,?,,并根据分子自由度,1,和分,母自由度,n,-2,找出临界值,F,?,4.,作出决策:若,F,F,?,拒绝,H,0,;,若,F,F,?,不拒绝,H,0,线性关系的检验,(,例题分析,),1.,提出假设,?,H,0,:,b,1,=0,不良贷款与贷款余额之间的线性关,系不显著,2.,计算检验统计量,F,7538,.,56,),2,25,(,164421,.,90,1,48598,.,222,),2,(,1,?,?,?,?,?,n,SSE,SSR,F,3.,确定显著性水平,?,=0.05,,并根据分子自由度,1,和分母自由度,25-2,找出临界值,F,?,=,4.28,4.,作出决策:若,F,F,?,拒绝,H,0,,线性关系显著,线性关系的检验,(,方差分析表,),Excel,输出的方差分析表,回归系数的检验,3.,在一元线性回归中,等价于线性关系的显著性,检验,4.,采用,t,检验,1.,检验,x,与,y,之间是否具有线性关系,或者,说,检验自变量,x,对因变量,y,的影响是否,显著,2.,理论基础是回归系数,的抽样分布,1,?,b,回归系数的检验,(,检验步骤,),1.,提出假设,?,H,0,:,b,1,=0(,没有线性关系,),?,H,1,:,b,1,?,0(,有线性关系,),2.,计算检验的统计量,3.,确定显著性水平,?,,并进行决策,?,?,t,?,t,?,,拒绝,H,0,;,?,t,?,t,?,,不拒绝,H,0,),2,(,?,1,?,1,?,?,n,t,s,t,b,b,回归系数的检验,(,例题分析,),?,?,对例题的回归系数进行显著性检验,(,?,0.05,),1.,提出假设,?,H,0,:,b,1,=0,?,H,1,:,b,1,?,0,2.,计算检验的统计量,3.,t,=7.533515,t,?,=2.201,,拒绝,H,0,,表明不良贷款,与贷款余额之间有显著的线性关系,533515,.,7,005030,.,0,037895,.,0,?,?,t,回归系数的检验,(,例题分析,),?,?,P,值的应用,P,=0.000000,?,=0.05,,拒绝原假设,不良贷款与贷,款余额之间有显著的线性关系,回归分析结果的评价,?,建立的模型是否合适?或者说,这个拟合的模型有多,“好”?要回答这些问题,可以从以下几个方面入手,1.,所估计的回归系数,的符号是否与理论或事先预期相,一致,?,在不良贷款与贷款余额的回归中,可以预期贷款余额越,多,不良贷款也可能会越多,也就是说,回归系数的值,应该是正的,在上面建立的回归方程中,我们得到的回,归系数,为正值,,2.,如果理论上认为,x,与,y,之间的关系不仅是正的,而且是,统计上显著的,那么所建立的回归方程也应该如此,?,在不良贷款与贷款余额的回归中,二者之间为正的线性,关系,而且,对回归系数的,t,检验结果表明而这之间的线,性关系是统计上显著的,1,?,b,037895,.,0,?,1,?,b,3.,回归模型在多大程度上解释了因变量,y,取值的,差异?可以用判定系数,R,2,来回答这一问题,?,在,不,良,贷,款,与,贷,款,余,额,的,回,归,中,,,得,到,的,R,2,=71.16%,,解释了不良贷款变差的,2/3,以上,,说明拟合的效果还算不错,4.,考察关于误差项,?,的正态性假定是否成立。因,为我们在对线性关系进行,F,检验和回归系数进,行,t,检验时,都要求误差项,?,服从正态分布,否,则,我们所用的检验程序将是无效的。,?,正态,性的简单方法是画出残差的直方图或正态概,率图,回归分析结果的评价,11.3,利用回归方程进行估计和预测,11.3.1,点估计,11.3.2,区间估计,利用回归方程进行估计和预测,1.,根据自变量,x,的取值估计或预测因变量,y,的取值,2.,估计或预测的类型,?,点估计,?,y,的平均值的点估计,?,y,的个别值的点估计,?,区间估计,?,y,的平均值的,置信区间,估计,?,y,的个别值的,预测区间,估计,点估计,点估计,2.,点估计值有,?,y,的,平均值,的点估计,?,y,的,个别值,的点估计,3.,在点估计条件下,平均值的点估计和个别值的,的点估计是一样的,但在区间估计中则不同,1.,对于自变量,x,的一个给定值,x,0,,根据回归方,程得到因变量,y,的一个估计值,0,?,y,y,的平均值的点估计,?,?,利用估计的回归方程,对于自变量,x,的,一个给定值,x,0,,求出因变量,y,的平均值的,一个估计值,E,(,y,0,),,就是平均值的点估计,?,在前面的例子中,假如我们要估计贷款余额,为,100,亿元时,所有分行不良贷款的平均值,,就是平均值的点估计,。根据估计的回归方,程得,),(,96,.,2,100,037895,.,0,8295,.,0,),(,0,亿,?,?,+,?,?,y,E,y,的个别值的点估计,0,?,y,?,?,利用估计的回归方程,对于自变量,x,的,一个给定值,x,0,,求出因变量,y,的一个个别,值的估计值,,就是个别值的点估计,?,例如,如果我们只是想知道贷款余额为,72.8,亿,元的那个分行,(,这里是编号为,10,的那个分行,),的,不良贷款是多少,则属于个别值的点估计,。根,据估计的回归方程得,),(,93,.,1,8,.,72,037895,.,0,8295,.,0,?,0,亿元,?,?,+,?,?,y,区间估计,区间估计,1.,点估计不能给出估计的精度,点估计值与,实际值之间是有误差的,因此需要进行区,间估计,2.,对于自变量,x,的一个给定值,x,0,,根据回归,方程得到因变量,y,的一个估计区间,3.,区间估计有两种类型,?,置,信,区,间,估,计,(confidence,interval,estimate),?,预测区间估计,(prediction,interval,estimate),置信区间估计,1.,利用估计的回归方程,对于自变量,x,的一个给定,值,x,0,,求出因变量,y,的平均值的估计区间,,这,一估计区间称为,置信区间,(confidence interval),2.,E,(,y,0,),在,1-,?,置信水平下的置信区间为,?,?,?,?,?,?,?,?,+,?,?,n,i,i,e,x,x,x,x,n,s,n,t,y,1,2,2,0,2,0,1,),2,(,?,?,式中:,s,e,为估计标准误差,置信区间估计,(,例题分析,),?,【例】,求出贷款余额为,100,亿元时,不良贷款,95%,置信水平下的置信区间,(根据前面计算点估计值,2.96,),?,解:根据前面的计算结果,已知,n,=25,,,?,s,e,=,1.9799,,,t,?,?,(25-2)=2.069,?,置信区间为,当贷款余额为,100,亿元时,不良贷款的平均,值在,2.1141,亿元到,3.8059,亿元之间,96,.,2,?,0,?,y,5744,.,154933,),268,.,120,100,(,25,1,9799,.,1,069,.,2,96,.,2,2,?,+,?,?,?,805,.,3,),(,1141,.,2,0,?,?,y,E,预测区间估计,1.,利用估计的回归方程,对于自变量,x,的一个给,定值,x,0,,求出因变量,y,的一个个别值的估计区,间,这一区间称为,预测区间,(prediction,interval),2.,y,0,在,1-,?,置信水平下的预测区间为,?,?,?,?,?,?,?,?,+,+,?,?,n,i,i,e,x,x,x,x,n,S,n,t,y,1,2,2,0,2,0,1,1,),2,(,?,?,注意!,预测区间估计,(,例题分析,),?,【例】,求出贷款余额为,72.8,亿元的那个分行,不,良贷款,95%,的预测区间,?,解:根据前面的计算结果,已知,n,=25,,,?,s,e,=,1.9799,,,t,?,?,(25-2)=2.069,?,预测区间为,贷款余额为,72.8,亿元的那个分行,其不良贷款,的预测区间在,-2.2766,亿元到,6.1366,亿元之间,93,.,1,?,0,?,y,5744,.,154933,),268,.,120,8,.,72,(,25,1,1,9799,.,1,0687,.,2,93,.,1,2,?,+,+,?,?,?,136,.,6,?,2766,.,2,0,?,?,?,y,置信区间和预测区间,(,例题分析,),置信区间,、,预测区间,、,回归方程,x,p,x,y,1,0,?,?,?,b,b,+,?,y,x,?,x,本章小结,1.,变量间关系的度量,2.,回归模型、回归方程与估计的回归方程,3.,回归直线的拟合优度,4.,回归分析中的显著性检验,5.,估计和预测,6.,用,Excel,进行回归分析,本章作业,?,P330,?,1.,思考题:,1,、,7,、,10,?,2.,练习题:,5,、,7,、,9,