ch07相关与回归分析.ppt
Ch7 相关与回归分析,统计学原理,7.1 相关与回归的基本概念7.2 相关分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(new),主要介绍:相关分析,回归技术,回归诊断方法。,Ch7 主要内容,Ch7 相关与回归分析7.1 相关与回归的基本概念7.2 相关分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(new),Ch7 学习目的,1,掌握相关与回归的基本概念2,掌握相关分析技术3,掌握一元线性回归方法4,掌握多元线性回归方法5,掌握回归诊断方法,Ch7 相关与回归分析7.1 相关与回归的基本概念7.2 相关分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(new),Ch7 相关与回归分析,统计学原理,7.1 相关与回归的基本概念7.2 相关分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(new),7.1 相关与回归的基本概念,7.1.1 确定性关系与相关关系7.1.2 回归函数与经验方程7.1.3 相关与回归分析7.1.4 相关表与相关图7.1.5 相关关系的种类,Ch7 相关与回归分析7.1 相关与回归的基本概念7.2 相关分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(new),返回,7.1.1 确定性关系与相关关系,确定性关系也叫函数关系。Y(X=X t),(7.1.1)即只要给定一个X,就可以确定一个Y,Y值随X的值变化,则变量Y,X之间,就是一种确定性的函数关系。Y(X=X t)是这两个变量之间的函数表达式。这个函数表达式,对应着一个具体的因果数学定理。相关关系也叫统计关系或者经验关系。相关关系的特征是,“2个以上变量的变化方向大致是规则的”,变量Y,X之间的某种近似规则关系,不是一种精确的确定性关系,只是一个经验关系 Y(X=X t)+;(7.1.2)是Y与(X=X t)的偏差,且总假定E()=0。这种经验关系就是统计相关关系。统计相关关系,常常表现为一种统计定律。统计定律和相关关系,是相关回归分析的主要研究对象。,Ch7 相关与回归分析7.1 相关与回归的基本概念,返回,7.1.2 回归函数与经验方程,存在统计相关关系的变量Y,X之间,有Y(X=X t)+;(7.1.2)因为,E()=0,所以,E(Y|X=X t)(X t)是给定X=X t条件下Y的期望值,(X t)就是Y关于X的期望函数。它实际反映的是Y,X之间存在的统计规律。因为统计规律,总是可以在日常的实践过程中,不断回归重现。于是,期望函数,也称为Y关于X的回归方程或回归函数,记为(X=X t)E(Y|X=X t)(7.1.3)回归函数的具体表达式,通常也叫经验函数或者经验公式。,Ch7 相关与回归分析7.1 相关与回归的基本概念,返回,7.1.3 相关与回归分析,相关与回归分析:是研究相关关系的一种有力数学工具。它是建立在对客观事物进行大量试验和观察的基础上,在不确定的现象中,寻找隐藏的统计规律性的数理统计方法。具体步骤是:第一步,根据研究的目的,通过观察和实验取得资料。第二步,整理资料。分组编制相关表,以便进行分析。第三步,绘制相关图。把成对的相关资料,绘成散布图或曲线图,从图形中,初步判断变量之间是否存在相关关系,以及相关的基本形式。第四步,相关关系的解析。建立回归方程,计算估计标准误差、相关系数等,以反映变量之间的关系、误差大小及密切程度,并运用数理统计方法,进行检验和评价。,Ch7 相关与回归分析7.1 相关与回归的基本概念,返回,7.1.4 相关表与相关图,相关表与相关图,是研究相关关系的直观工具。一般在进行详细的定量分析之前,可以先利用它们,对现象之间存在的相关方向、形式和密切程度,作大致的判断。相关表,是一种反映变量之间相关关系的统计表。将某一变量,按其取值的大小顺序排列,然后再将与其相关的另一变量的值,对应排列,便可得到简单的相关表。利用相关表,便可得到相关图。相关图又称散布图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量的值,用坐标点(Xt,Y t)的形式描绘出来,用来反映两变量之间相关关系的图形。,Ch7 相关与回归分析7.1 相关与回归的基本概念,7.1.4 相关表与相关图,【例7-1】利用某国1951-1970年的消费Y 和可支配收入X数据,可整理得相关表与相关图。,Ch7 相关与回归分析7.1 相关与回归的基本概念,返回,7.1.5 相关关系的种类,按相关的程度可分为完全相关、不完全相关、不相关 按相关的方向可分为正相关、负相关 按相关的形式可分为线性相关和非线性相关 按所研究的变量的多少可分为单相关、复相关和偏相关,Ch7 相关与回归分析7.1 相关与回归的基本概念,返回,7.2 相关分析,7.2.1 相关系数7.2.2 相关系数与相关程度7.2.3 相关系数的检验7.2.4 等级相关系数及其检验,Ch7 相关与回归分析7.1 相关与回归的基本概念7.2 相关分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(new),返回,7.2.1 相关系数,相关系数也叫单相关系数。它是在线性相关的条件下,用来测定变量Y,X之间相关程度的一个重要指标。通常以表示总体的相关系数,以表示样本的相关系数。存在线性相关的变量总体(Y,X),定义为(7.2.1)式中:Cov(X,Y)是变量X和Y的协方差,Var(X)和Var(Y)分别是X和Y的方差。对来自总体(Y,X)的n组样本观察值(Y t,X t),t=1,2,3,n-1,n,记为(7.2.2)其中SX,Y=Cov(Xt,Yt)是样本(Y t,Xt)的协方差,SX和SY分别是X和Y 的样本标准差。样本相关系数,是根据样本观察值计算的。,Ch7 相关与回归分析7.2 相关分析,7.2.1 相关系数,总体值为常数,在很多情况下,是无法直接按定义计算的,只能通过样本相关系数,去估计值。容易证明,样本相关系数,是总体相关系数的一致估计量。可以证明,存在线性相关的变量之间,不论是总体相关系数,还是样本相关系数,均有0|1,0|1。为便于计算,引进如下符号:(7.2.3),Ch7 相关与回归分析7.2 相关分析,7.2.1 相关系数,【例7-2】利用某国1951-1970年的消费Y和可支配收入X数据,计算它们之间的相关系数。解:根据相关系数的公式,有 于是,Ch7 相关与回归分析7.2 相关分析,返回,7.2.2 相关系数与相关程度,如果|=1,表明(Y,X)之间是完全线性相关,完全线性相关,是一种精确的线性函数关系;如果|=0,表明(Y,X)之间没有关系或者线性无关;如果0|1,(Y,X)是一种线性统计关系,线性统计关系,是最常见的相关关系;01是正的线性相关;-10是负的线性相关。|值越大,则线性关比较系密切,反之,则线性关系不密切。同理,|=1,表示样本(Y t,X t)为完全线性相关;=1,表示(Y t,X t)为完全正线性相关,样本的所有点(Y t,X t)都在一条直线上;=-1,表示(Y t,X t)为完全负线性相关,样本的所有点(Y t,X t)也都在一条直线上;=0,表示样本点(Y t,X t)在散点图上的分布是杂乱无章的,(Y t,X t)之间无相关关系;0|1,表示(Y t,X t)之间存在线性相关关系,其样本点(Y t,X t)大致地分布在某条直线左右。当|比较小时,样本点离该直线比较分散,而当|比较大(接近于1)时,样本点就靠近该直线。,Ch7 相关与回归分析7.2 相关分析,返回,7.2.3 相关系数的检验,检验样本相关系数,实质上是用样本相关系数,检验总体相关系数是否为0,如果=0,则两变量Y,X 之间,线性关系微弱;若0,则两变量Y,X 之间,线性关系显著。由的分布理论,可以证明:如果变量Y,X是正态变量,当=0,则与有关的统计量(7.2.4)与有关的统计量(7.2.5)根据这一定理,可以检验是否为0(总体两变量之间直线相关关系是否为不显著)。各种不同的统计量,构成不同的检验方法。因此,的检验方法,有t统计量检验、F统计量检验和的查表检验。的查表检验,是t检验或者F检验方法的结果。三种方法的检验结论相同。,Ch7 相关与回归分析7.2 相关分析,7.2.3 相关系数的检验,t统计量检验作统计假设零假设H0:=0,备择假设H1:0。计算样本相关系数的t值,选择显著性水平,取小概率=1%或者=5%。根据和自由度n-2,求t分布的临界值t/2,若|t|t/2,接受H0,表示Y,X之间相关不显著;若|t|t/2,拒绝H0,表示Y,X之间相关显著。,Ch7 相关与回归分析7.2 相关分析,7.2.3 相关系数的检验,F统计量检验作统计假设零假设H0:=0,备择假设H1:0。计算样本相关系数的F值,选择显著性水平,取=1%或者=5%。根据和自由度1,n-2,求F分布的两个临界值F1-/2(1,n-2),F/2(1,n-2),且F1-/2(1,n-2)F/2(1,n-2)或F F1-/2(1,n-2),拒绝H0,表示Y,X之间相关显著。说明:F检验是双侧检验,有两个临界值F1-/2(1,n-2),F/2(1,n-2),且F1-/2(1,n-2)F/2(1,n-2),即接受零假设H0的临界区域为F1-/2(1,n-2)FF/2(1,n-2)FF/2(1,n-2)、1/F1/F1-/2(1,n-2);由于有FF(1,n-2)和1/FF(n-2,1),于是可以证明,在H0成立的条件下,F双侧检验等价于两个统计量F、1/F的单侧检验,两个统计量中只要有一个满足检验的要求即可,即F F/2(1,n-2)或者1/FF1-/2(1,n-2)=1/F/2(n-2,1)就接受H0。通常的做法是检验FF/2(1,n-2),且统一记FF/2。,Ch7 相关与回归分析7.2 相关分析,7.2.3 相关系数的检验,的查表检验的查表检验,是t检验或者F检验方法衍生的结果。不论是t检验还是F检验,其临界值t/2、F/2,对自由度n-2(样本容量=n)和样本相关系数,都有一个临界要求,反算出样本相关系数临界值/2,那么由显著性水平、自由度n-2及临界样本相关系数/2,就可以构成一个相关系数检验表。在给定条件下查验该表,就可以判断变量Y,X之间是否线性相关。作统计假设H0:=0,H1:0。计算样本相关系数。选择显著性水平,取=1%或者=5%。根据和自由度n-2,查相关系数表求临界值/2,若|/2,接受H0,表示Y,X之间相关不显著;若|/2,拒绝H0,表示Y,X之间相关显著。,Ch7 相关与回归分析7.2 相关分析,7.2.3 相关系数的检验,【例7-3】利用某国1951-1970年的消费Y和可支配收入X的相关系数,在=5%时,是否可以认为Y和X之间存在显著性的线性相关关系。解:作统计假设H0:=0,H1:0。计算样本相关系数的t值。已知=0.999689,求得t=170.071。选择显著性水平,取=5%。根据和自由度n-2,求得t分布的临界值t/2(n-2)=t2.5%(20-2)=2.102。因为|t|=170.071t/2=2.102,所以拒绝H0,表示Y,X之间相关显著。,Ch7 相关与回归分析7.2 相关分析,返回,7.2.4 等级相关系数及其检验,等级相关系数(又称为顺序相关系数)。设有Xt和Yt两个数列,依数量的大小或者品质的优劣,分为1,2,3,n-1,n个等级,以VX,t表示各个Xt的等级数,以VY,t表示各个Yt的等级数,则等级相关系数 s为(7.2.6)式中,n是样本容量。该公式可由两个等级变量的相关系数,推导而来。与相关系数类似,s的取值范围为0|s|1。s为正值,存在正的等级相关关系,s取负值,存在负的等级相关。s=1,表明两种现象的等级完全相同,存在完全正相关;s=-1,表明两种现象的等级完全相反,存在完全负相关。,Ch7 相关与回归分析7.2 相关分析,7.2.4 等级相关系数及其检验,等级相关系数检验。当样本容量n20时,可利用以下的t统计量,进行 s的检验(7.2.7)当总体等级相关系数 s=0时,可以证明:t统计量服从自由度为n-2的t分布。在给定显著性水平下,如果|t|t/2(n-2),接受H0,表示Y,X之间相关不显著;若|t|t/2(n-2),拒绝H0,表示Y,X之间相关显著。同样也可以参照样本相关系数的检验方法,构造新的统计量t2去进行F检验,或者直接查相关系数表检验。,Ch7 相关与回归分析7.2 相关分析,7.2.4 等级相关系数及其检验,【例7-4】某校对学生某专业课程的复习时间和考试成绩进行调查。抽查10同学的有关数据如下表。计算复习时间与考试成绩的相关系数和等级相关系数。根据以上结果,能否得出复习时间越长考试成绩越高的结论。解:,Ch7 相关与回归分析7.2 相关分析,7.2.4 等级相关系数及其检验,解:首先对复习时间X与考试成绩Y按从小到大的顺序确定等级。对于Xt或者Yt相同的,取其应得等级的平均数。其次,计算相关系数。根据公式,得=0.587,t=2.05。在=5%、自由度=n-2=8条件下,得t/2(n-2)=2.306。因为|t|=2.05t/2(n-2)=2.306,表示Y,X之间相关不显著,难以判断复习时间X与考试成绩Y之间存在显著的线性关系。最后,计算等级相关系数 s。根据公式,得 s=0.9848,t s=16.04。在=5%、自由度=n-2=8条件下,得t/2(n-2)=2.306。因为|t s|=16.04t/2(n-2)=2.306,表示Y,X之间相关显著,存在复习时间越长考试成绩越高的现象。,Ch7 相关与回归分析7.2 相关分析,返回,7.3 一元线性回归分析,7.3.1 标准的一元线性回归模型7.3.2 一元线性回归模型的估计7.3.3 一元线性回归模型的检验7.3.4 误差项t的自相关检验 7.3.5 一元线性回归模型的预测,Ch7 相关与回归分析7.1 相关与回归的基本概念7.2 相关分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(new),返回,7.3.1 标准的一元线性回归模型,总体回归函数设因变量为Y,自变量为X;若Y的数学期望存在,且服从如下的分布 YN(1+2X,2)(7.3.1)式中1,2和2是不依赖于X的未知参数。则方程 Y=1+2X+u;u N(0,2)(7.3.2)就称为一元线性回归模型(或称为相关方程)。其中,是随机误差项,E()=0。又由于Y的数学期望是X的函数,E(YX)=1+2X(7.3.3)Y的取值主要由X的取值决定,因此,E(YX)是一个关于X的回归期望,它从平均意义上表达了Y与X的统计规律性,于是,E(YX)也可以作为Y的估计,故 X=1+2X(7.3.4)称为总体一元回归估计方程或者回归估计函数,1,2是这个回归方程中的回归系数,其图形表现为一条直线。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.1 标准的一元线性回归模型,误差项的标准假定 误差项的期望值恒为零,即E(tXt)=0(7.3.5)误差项的方差是同观察时点t无关的常数,即Var(tXt)=E(t2Xt)=2(7.3.6)时点不同的误差项之间不相关,即Cov(t,s)=E(ts)=0;ts(7.3.7)t的概率分布与1,2和X无关。X是给定的变量(确定变量),即X,不是有统计从属关系的随机变量。Cov(Xt,t)=E(Xtt)=0(7.3.8)t服从正态分布,即t N(0,2)(7.3.9)以上假定最早是由德国数学家高斯提出来的,也称为高斯假定或者标准假定。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.1 标准的一元线性回归模型,满足以上假定的一元线性回归模型,称为标准的一元线性回归模型。满足假定的一元线性回归模型,称为标准线性正态回归模型。应当指出的是,在现实的情况是由于种种原因,以上假定常常不能得到满足。其最一般的模型及回归函数为Y=1+2X+u,X=E(YX)=1+2X(7.3.10)u为随机误差项,E(u)=0,E(2)=2,Y与u同分布,且均为非正态分布,我们以下的讨论均以(7.3.10)式为基础,其余变量的解释如前。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.1 标准的一元线性回归模型,样本回归函数,就是根据样本资料(Yt,X t),对总体回归函数进行拟合的估计函数。由于样本(Yt,X t)来源于总体(Y,X),因此,样本回归线与总体回归线,有相同的函数形式。由样本关系方程(7.3.11)有样本回归函数(7.3.12)式中,Yt和X t分别是Y和X的第t次观察值;t为样本回归线上与X t相对应的值,它是对E(YtX t)的估计;为样本回归系数,是对总体回归系数的1,2的估计;t=Ytt是实际观察值与样本估计值之差,亦称残差,是一个可计算的量;n为样本容量;是对2的估计。样本回归函数是总体回归函数的近似反映。回归分析的主要任务,就是充分利用样本的信息,采用适当的方法,使得样本回归函数,尽可能接近真实的总体回归函数。,Ch7 相关与回归分析7.3 一元线性回归分析,返回,7.3.2 一元线性回归模型的估计,回归系数的估计 最小二乘法,简记为OLS法。它的准则是使t的平方和最小,即(7.3.15)由极值条件,有联立方程(7.3.16)整理得正规方程组(7.3.17),Ch7 相关与回归分析7.3 一元线性回归分析,7.3.2 一元线性回归模型的估计,回归系数的估计(续)求解正规方程组,得(7.3.18)利用(7.2.3)式,则最小二乘估计量,又可简写为(7.3.19),Ch7 相关与回归分析7.3 一元线性回归分析,7.3.2 一元线性回归模型的估计,【例7-5】利用某国1951-1970年的消费Y和可支配收入X数据,建立消费对可支配收入的回归估计方程。解:因为消费Y和可支配收入X之间是显著线性相关,所以,可以建立Y,X之间的一元回归估计模型Y=1+2X+u,X=E(YX)=1+2X根据最小二乘估计方法,得回归估计方程X=5.168775+0.900324X,S=3.174108481,2=0.9993781(2.205544043)(0.005293811)d=1.225513,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.2 一元线性回归模型的估计,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.2 一元线性回归模型的估计,最小二乘估计量的性质 可以证明,在高斯假定能够得到满足的条件下,(7.3.20)其方差(7.3.21)回归系数的最小二乘估计量,是最优的线性无偏估计量和一致估计量。以上性质,在文献中被称为高斯马尔可夫定理。该定理表明,在高斯假定条件下,最小二乘估计量,是一种最佳的估计方式。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.2 一元线性回归模型的估计,随机误差项的方差估计 数学上可以证明,2的无偏估计S2可由下式给出:(7.3.23)在一元线性回归模型中,残差t必须满足1,2最小二乘估计要求所导出的两个约束条件:(7.3.24)因而失去了2个自由度,所以,残差t的自由度为n-2。S越小,表明实际观测点与所拟的样本回归线的离差程度越小,即回归线具有较强的代表性;反之,S越大,表明实际观测点与所拟合的样本回归的离差程度越大,即回归线的代表性较差。因此,S又叫做回归估计的标准误差。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.2 一元线性回归模型的估计,【例7-6】利用例7-2、例7-5的有关数据,计算其消费对可支配收入回归估计方程的回归估计标准误差。解:已知n=20,(Y)=7206.3,(Y2)=2888129,(XY)=3166305,(2)=(Y2)-5.168775(Y)-0.900324(XY)=2888129-5.168775 7206.3-0.9003243166305=181.3493637S2=(2)/(n-2)=181.3493637/18=10.07496465S=3.174108481LXX=359506.4,(X)=7889.3,(X)/n=394.465另外可计算回归系数1,2估计值的标准差分别为(2.205544043)和(0.005293811)。上述结果如果用Excel软件计算将更为简单。,Ch7 相关与回归分析7.3 一元线性回归分析,返回,7.3.3 一元线性回归模型的检验,回归模型检验的种类包括理论意义检验、一级检验和二级检验。理论意义检验,主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论及其人们的经验不相符,就说明模型不能很好地解释现实的现象。一级检验,又称为统计学检验,它是利用统计学的抽样理论,来检验回归方程的可靠性,具体可分为拟合程度评价和显著性检验。一级检验,是所有回归分析必须通过的检验。二级检验,又称为经济计量学检验,它是对标准线性回归模型中的高斯假定条件能否满足,进行检验,具体包括序列相关、异方差性检验等。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.3 一元线性回归模型的检验,由于(7.3.30)LYY是实际观察值与其样本均值的总的离差平方和,SSR是由回归直线解释的那部分离差平方和,称为回归平方和,SSE是残差平方和,是用回归直线无法解释的部分离差平方和。公式两端同除以LYY,则(7.3.31)显然,各个样本观察值与样本回归线靠得愈近,SSR在LYY中的比例就越大。因此,可定义这一比例为可决系数(7.3.32),Ch7 相关与回归分析7.3 一元线性回归分析,7.3.3 一元线性回归模型的检验,可决系数2,是对回归模型拟合程度的综合度量指标,2越大,模型拟合程度越高;2越小,模型拟合程度越差。可决系数2具有如下性质:021;当样本观察值(Yt,X t)都处于回归直线上时,SSE=0,2=1;当观察值(Yt,X t)并不全部处于回归直线上时,SSE0,021;当模型中解释变量X与因变量Y完全无关时,LYY=SSE,2=0。2是样本观察值(Yt,X t)的函数,它也是一统计量;2的开平方根为样本相关系数。可决系数开平方根后的符号,由回归变差LXY决定,它们两者同号。注意:虽然2给出了一个回归的好坏、适与不适的程度,但不能说只有2=0时才表明X完全不能解释Y。因为,即使总体相关系数=0,样本相关系数也不会正好是0。所以,一个更根本的问题是:0是否表示X和Y真正相关0?回答这个问题的统计方法是问:2或是否显著地异于0?这就需要进行显著性检验。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.3 一元线性回归模型的检验,显著性检验回归分析的显著性检验,包括两方面的内容:一是对各回归系数的显著性检验;二是对整个回归方程的显著性检验。通常前者采用t检验,后者则是在方差分析的基础上,进行F检验。在一元线性回归模型中,由于只有一个解释变量X,对2=0的t检验,和对整个回归方程的F检验,是等价的。因此,这里只介绍对回归系数的显著性检验,而对整个回归方程的显著性检验,在下一节介绍。回归系数的显著性检验,就是根据样本估计的结果,对总体回归系数的有关假设进行检验。为了进行检验,必须了解 的概率分布。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.3 一元线性回归模型的检验,因为 均为线性估计量,是因变量Yt的线性组合,根据高斯假定,可知Yt是服从正态分布的变量,所以 也服从正态分布。有(7.3.34)其中在总体方差2已知的情况下,可利用Z检验方法,对回归系数进行假设检验。但一般来说,2是未知的,需要用其无偏估计量S2去代替。用 代表 的估计值,数学上可以证明,当样本为小样本时,有(7.3.35)利用以上结论,就可以对回归系数进行显著性检验。1,2的检验方法是相同的,但2的检验更为重要,因为它表明自变量X对因变量Y线性影响的程度。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.3 一元线性回归模型的检验,以2的检验为例,其回归系数的显著性检验步骤:作统计假设零假设H0:2=0,备择假设H1:20。计算回归系数2的t值选择显著性水平,取小概率=1%或者=5%。根据和自由度n-2,求t分布的临界值t/2,若|t|t/2,接受零假设H0,表示Y,X之间相关不显著;若|t|t/2,拒绝零假设H0,表示Y,X之间相关显著。对一元线性回归模型,利用(7.3.18),有(7.3.36)可以证明:检验H0:2=0等价于检验H0:=0,如果检验认为20,就意味着0,即认为X对Y的解释作用是真实的。由于t t(n-2),可以证明,t2=F F(1,n-2),于是在一元线性回归模型中,对2的t检验和对LYY的解释平方和做F检验也是完全等效的。,Ch7 相关与回归分析7.3 一元线性回归分析,返回,7.3.4 误差项t的自相关检验,自相关或称序列相关:如果误差项之间存在相关关系,Cov(t,s)=E(ts)0;ts;ts(7.3.37)则称这种现象为误差项t的自相关或称序列相关。如果进一步有t=et-1+t;t N(0,2);且E(t s)=0;ts;ts。(7.3.38)其中-1e1,则具有这种自回归关系的误差项相关,简称一阶自相关。E(t-1t)=E(tt+1)=e(7.3.39)如果误差项t存在自相关,则(7.3.12)式,便不能反映变量之间真正的依存关系,其用最小二乘法所做的回归估计,便是一个无效的估计,因此必须对t的独立性进行检验。由于总体资料是未知的,因此,只能以样本回归模型中的误差项t来检验。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,图解法虽然t是总体误差,t是样本误差,t和t不是同一回事,但它们是有关的。可以证明(7.3.40)如果t存在自相关,则借助于(7.3.40)式中t可以反映出来。因此,考察t可以揭示有关t序列相关的线索。为此,可以针对式(7.3.40)编制t对时点t的散布图;或者针对式(7.3.38)编制t对t-1散布图。如果散布图表现如图7-4,就可以推测其中存在自相关;如果表现不是这样,也许可以认定为不存在自相关。进一步,如果散布图有一种同号残差相随的倾向,就表明存在正相关E(ts)0;ts;如果散布图有一种异号残差相随的倾向,就表明存在负相关E(ts)0;ts。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,图解法,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,符号分析顺序记下LS回归中残差t=Ytt的符号,如果残差t 0,则记为“+”,若残差t 0,则为“”,如此一个残差序列t,t=1,2,3,n便可获得一个符号序列,比如“+”,符号序列中,连续同号的符号串,称为一个游程或者一个连串,一个游程中符号的个数,叫做游程的长度。可以证明,如果误差项t不存在序列相关e=0,则符号序列中符号“+”或“”的出现,应该是完全随机的;连串过多或者过少,都是违反随机原则的,应有 e0。利用符号检验方法,可以判断,如果连串过少,就表明有正的自相关;如果连串过多,就表明有负的自相关。符号检验的具体方法参见第六章。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,D-W检验D-W检验,也叫德宾沃森检验法(Durbin-Waston test)。该方法对检验是否存在一阶自相关,尤其有效。D-W检验法的统计量d定义为(7.3.41)其中n代表样本大小。因为,和 只相差一期观察值,它们是近似相等的,因此令,则(7.3.41)式可写成(7.3.42),Ch7 相关与回归分析7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,定义样本的一阶自相关系数e为(7.3.43)它是e的一个估计式。利用(7.3.43)式,可以把(7.3.42)式写成(7.3.44)d的变化范围为0到4。可见,如果不存在一阶自相关,有e=0,d2;如果存在完全的正自相关e=+1,于是d0,因此,d愈接近于0,则存在正自相关的可能性比较大,在残差图上各个t将聚集在一起,其差分势|t-t-1|表现必很小;如果e=-1,则连续的残差中有完全的负自相关,从而d4,因此,d愈接近于4,则愈能证实存在负自相关,其残差表现是一个正的t之后往往会有一个负的t,于是|t-t-1|t|。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,为了进一步判定在各种情况下,是否存在正的或负的自相关的问题,Durbin-Waston对任意的样本容量n和多达5个解释变量的情形,给出了d的分布及d的两个值dL(下界)和dU(上界)。如果d值落在0,dL范围内,则认为存在正自相关;如果d值落入dU,4-dU范围内,则认为存在负自相关;而当d落入dU,4-dU范围内时,则认定不存在自相关;但当d落入dL,dU或者4-dL,4-dU范围内时,则不能认定是否存在自相关。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,D-W双侧检验的具体步骤:作统计假设H0:e=0,H1:e0。计算样本残差t,计算(7.3.41)式d统计量。选择显著性水平,取=1%或者=5%。根据,查d统计量表求临界值dL/2,dU/2,若d4-dU/2,拒绝H0选择H1存在自相关;若dU/2d4-dU/2,则接受H0,表示不存在自相关;如果dL/2ddU/2,或者4-dL/2d4-dU/2,检验结果不确定。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,【例7-7】利用例7-2、例7-5、例7-6的有关数据,试对消费与可支配收入的回归估计方程进行D-W双侧检验。解:利用最小二乘估计方法,得回归估计方程的所有估计参数X=5.168775+0.900324X,S=3.174108481,2=0.9993781(2.205544043)(0.005293811)d=1.225513其中(2.205544043)和(0.005293811)为回归系数1,2估计值的标准差,而d为D-W检验法的统计量。对于n=20,包括常数项在内的自变量个数k=2,查D-W统计量d表,在=5%显著水平上,得dL=1.20和dU=1.41,因为d=1.225513在dL=1.20和dU=1.41之间,故不能做出是否存在自相关的决定。,Ch7 相关与回归分析7.3 一元线性回归分析,返回,7.3.5 一元线性回归模型的预测,回归预测的基本公式为(7.3.45)式中,X0是给定的X具体数值;0是X0给定时Y的预测值。回归预测是一种有条件的预测,在进行预测时,必须先给出X0的具体数值。当给出X0属于样本内的数值时,利用(7.3.45)式计算0称为内插检验或者事后预测。当给出X0属于样本之外的数值时,利用(7.3.45)式计算0称为外推预测或者事前预测。通常所说的预测就是指事前预测。预测误差0是根据样本回归方程计算的,它是样本观察值的函数,因而也是一随机变量。0与所要预测的Y的真值之间,必然存在一定的误差。这个误差的来源,一般可以概括为以下四个方面:模型结构误差所造成的误差。这一误差,可以用总体的方差2来评价。回归系数的估计值同其真值不一致所造成的误差。这一误差,可以用回归系数的最小二乘估计量的方差 来评价。这个方差值的大小,通常用来衡量模型的稳定性。自变量X的设定值同其实际值的偏离所造成的误差。未来时期1,2发生变化所造成的误差。在以上造成预测误差的原因中,、两项不属于回归方程本身的问题,而且也难以事先予以估计和控制。因此,在下面的讨论中,假定只存在、两种误差。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.5 一元线性回归模型的预测,设X0给定时Y的真值为Y0,有Y0=1+2X0+u0,(7.3.46)则有(7.3.47)式中,e0是预测的残差。利用期望值与方差的运算规则,以及前面给出的回归系数最小二乘估计量的期望值与方差,可以证明(7.3.48)在此基础上,可以证明,0是Y0的最优线性无偏估计预测,即在高斯假定得到满足的条件下,(7.3.45)式就是Y0的最佳预测方式。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.5 一元线性回归模型的预测,Y0的区间估计:由(7.3.47)、(7.3.48)式可知,在高斯假定条件下,e0服从于标准正态分布,即e0 N(0,Var(e0)(7.3.49)由于Var(e0)中的2是未知的,通常用其无偏估计量S2来代替。如果用Se0来表示预测的标准误差的估计值,(7.3.50)数学上可以证明(Y0-0)/Se0 t(n-2)(7.3.51)对于给定的置信度为1-,有Pro0-t/2(n-2)Se0 Y0 0+t/2(n-2)Se0=1-,(7.3.52)于是可以得出Y0的1-的置信区间为0-t/2(n-2)Se0 Y0 0+t/2(n-2)Se0,(7.3.53)式中,t/2(n-2)是置信度为1-、自由度为n-2的t分布的临界值。该区间以0为中点,长度为2 t/2(n-2)Se0。中点0随X0线性地变化;其长度在处最短;X0越远离,长度就越长。因此,置信区间的上限与下限曲线对称地落在回归直线两侧,而呈喇叭型。,Ch7 相关与回归分析7.3 一元线性回归分析,返回,7.4 多元线性回归分析,7.4.1 标准的多元线性回归模型7.4.2 多元线性回归模型的估计7.4.3 多元线性回归模型的检验7.4.4 多元线性回归模型的预测,Ch7 相关与回归分析7.1 相关与回归的基本概念7.2 相关分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(new),返回,7.4.1 标准的多元线性回归模型,设因变量Y和自变量X2,X3,X4,.,Xp的关系模型为Y=1+2X2+3X3+4X4+.+pXp+u;u N(0,2)(7.4.1)上式中,是随机误差项,且服从标准正态分布,1,2,3,4,p是总体回归系数,2是总体方差。由于j表示在其它自变量保持不变的条件下,自变量Xj的单位变动所引起的Y的平均变动,因此又叫偏回归系数。偏回归系数j和总体方差2均是不依赖于Xj的未知参数,必须利用样本资料进行估计;它们的估计值依然记为。显然,如果有来源于总体的n组样本(Y;X 2,X 3,X 4,X p)t,t=1,2,3,4,.,n-1,n,那么多元线性回归的总体模型可表为(7.4.2),Ch7 相关与回归分析7.4 多元线性回归分析(new),7.4.1 标准的多元线性回归模型,令Y=(Y1,Y2,Yn)1n,=(1,2,n)1n,u=(u1,u2,un)1n,e=(e1,e2,.,en)1n,=(1,2,3,4,.,p)1p,=()1 p,(7.4.3)则(7.4.2)式可写成矩阵形式Y=X+u;u N(0n,2 In)=N(0,2 I)(7.4.4)多元线性回归的总体向量函数表为X=X(7.4.5)多元线性的样本向量方程为Y=X+e;e N(0,I)(7.4.6)其回归的样本函数为X=X(7.4.7)此时,回归函数的图形表现不再是一条直线,而是一个向量平面。,Ch7 相关与回归分析7.4 多元线性回归分析(new),返回,7.4.2 多元线性回归模型的参数估计,回归系数的估计多元线性模型中,的估计,依然采用最小二乘法使残差平方和最小(7.4.8)分别对回归系数求偏导数并令其为0,就可以得出回归系数的最小二乘解。但更多的是将残差平方和写成(7.4.9)运用极值原理,Qe对微分并令其为0,也可求得使Qe最小的,这就是OLSE。,Ch7 相关与回归分析7.4 多元线性回归分析(new),7.4.2 多元线性回归模型的参数估计,(7.4.10)其中2 XY=XY+YX 是因为 XY和YX 都是一阶方阵,即为一个数。由(7.4.10)式有 XX=XY(7.4.11)当(XX)-1存在,即|XX