ch07相关与回归分析.ppt
《ch07相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《ch07相关与回归分析.ppt(83页珍藏版)》请在三一办公上搜索。
1、Ch7 相关与回归分析,统计学原理,7.1 相关与回归的基本概念7.2 相关分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(new),主要介绍:相关分析,回归技术,回归诊断方法。,Ch7 主要内容,Ch7 相关与回归分析7.1 相关与回归的基本概念7.2 相关分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(new),Ch7 学习目的,1,掌握相关与回归的基本概念2,掌握相关分析技术3,掌握一元线性回归方法4,掌握多元线性回归方法5,掌握回归诊断方法,Ch7 相关与回归分析7.1 相关与回归的基本概念7.2 相关
2、分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(new),Ch7 相关与回归分析,统计学原理,7.1 相关与回归的基本概念7.2 相关分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(new),7.1 相关与回归的基本概念,7.1.1 确定性关系与相关关系7.1.2 回归函数与经验方程7.1.3 相关与回归分析7.1.4 相关表与相关图7.1.5 相关关系的种类,Ch7 相关与回归分析7.1 相关与回归的基本概念7.2 相关分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(
3、new),返回,7.1.1 确定性关系与相关关系,确定性关系也叫函数关系。Y(X=X t),(7.1.1)即只要给定一个X,就可以确定一个Y,Y值随X的值变化,则变量Y,X之间,就是一种确定性的函数关系。Y(X=X t)是这两个变量之间的函数表达式。这个函数表达式,对应着一个具体的因果数学定理。相关关系也叫统计关系或者经验关系。相关关系的特征是,“2个以上变量的变化方向大致是规则的”,变量Y,X之间的某种近似规则关系,不是一种精确的确定性关系,只是一个经验关系 Y(X=X t)+;(7.1.2)是Y与(X=X t)的偏差,且总假定E()=0。这种经验关系就是统计相关关系。统计相关关系,常常表现
4、为一种统计定律。统计定律和相关关系,是相关回归分析的主要研究对象。,Ch7 相关与回归分析7.1 相关与回归的基本概念,返回,7.1.2 回归函数与经验方程,存在统计相关关系的变量Y,X之间,有Y(X=X t)+;(7.1.2)因为,E()=0,所以,E(Y|X=X t)(X t)是给定X=X t条件下Y的期望值,(X t)就是Y关于X的期望函数。它实际反映的是Y,X之间存在的统计规律。因为统计规律,总是可以在日常的实践过程中,不断回归重现。于是,期望函数,也称为Y关于X的回归方程或回归函数,记为(X=X t)E(Y|X=X t)(7.1.3)回归函数的具体表达式,通常也叫经验函数或者经验公式
5、。,Ch7 相关与回归分析7.1 相关与回归的基本概念,返回,7.1.3 相关与回归分析,相关与回归分析:是研究相关关系的一种有力数学工具。它是建立在对客观事物进行大量试验和观察的基础上,在不确定的现象中,寻找隐藏的统计规律性的数理统计方法。具体步骤是:第一步,根据研究的目的,通过观察和实验取得资料。第二步,整理资料。分组编制相关表,以便进行分析。第三步,绘制相关图。把成对的相关资料,绘成散布图或曲线图,从图形中,初步判断变量之间是否存在相关关系,以及相关的基本形式。第四步,相关关系的解析。建立回归方程,计算估计标准误差、相关系数等,以反映变量之间的关系、误差大小及密切程度,并运用数理统计方法
6、,进行检验和评价。,Ch7 相关与回归分析7.1 相关与回归的基本概念,返回,7.1.4 相关表与相关图,相关表与相关图,是研究相关关系的直观工具。一般在进行详细的定量分析之前,可以先利用它们,对现象之间存在的相关方向、形式和密切程度,作大致的判断。相关表,是一种反映变量之间相关关系的统计表。将某一变量,按其取值的大小顺序排列,然后再将与其相关的另一变量的值,对应排列,便可得到简单的相关表。利用相关表,便可得到相关图。相关图又称散布图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量的值,用坐标点(Xt,Y t)的形式描绘出来,用来反映两变量之间相关关系的图形。,Ch7 相关与回归
7、分析7.1 相关与回归的基本概念,7.1.4 相关表与相关图,【例7-1】利用某国1951-1970年的消费Y 和可支配收入X数据,可整理得相关表与相关图。,Ch7 相关与回归分析7.1 相关与回归的基本概念,返回,7.1.5 相关关系的种类,按相关的程度可分为完全相关、不完全相关、不相关 按相关的方向可分为正相关、负相关 按相关的形式可分为线性相关和非线性相关 按所研究的变量的多少可分为单相关、复相关和偏相关,Ch7 相关与回归分析7.1 相关与回归的基本概念,返回,7.2 相关分析,7.2.1 相关系数7.2.2 相关系数与相关程度7.2.3 相关系数的检验7.2.4 等级相关系数及其检验
8、,Ch7 相关与回归分析7.1 相关与回归的基本概念7.2 相关分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(new),返回,7.2.1 相关系数,相关系数也叫单相关系数。它是在线性相关的条件下,用来测定变量Y,X之间相关程度的一个重要指标。通常以表示总体的相关系数,以表示样本的相关系数。存在线性相关的变量总体(Y,X),定义为(7.2.1)式中:Cov(X,Y)是变量X和Y的协方差,Var(X)和Var(Y)分别是X和Y的方差。对来自总体(Y,X)的n组样本观察值(Y t,X t),t=1,2,3,n-1,n,记为(7.2.2)其中SX,Y=Cov
9、(Xt,Yt)是样本(Y t,Xt)的协方差,SX和SY分别是X和Y 的样本标准差。样本相关系数,是根据样本观察值计算的。,Ch7 相关与回归分析7.2 相关分析,7.2.1 相关系数,总体值为常数,在很多情况下,是无法直接按定义计算的,只能通过样本相关系数,去估计值。容易证明,样本相关系数,是总体相关系数的一致估计量。可以证明,存在线性相关的变量之间,不论是总体相关系数,还是样本相关系数,均有0|1,0|1。为便于计算,引进如下符号:(7.2.3),Ch7 相关与回归分析7.2 相关分析,7.2.1 相关系数,【例7-2】利用某国1951-1970年的消费Y和可支配收入X数据,计算它们之间的
10、相关系数。解:根据相关系数的公式,有 于是,Ch7 相关与回归分析7.2 相关分析,返回,7.2.2 相关系数与相关程度,如果|=1,表明(Y,X)之间是完全线性相关,完全线性相关,是一种精确的线性函数关系;如果|=0,表明(Y,X)之间没有关系或者线性无关;如果0|1,(Y,X)是一种线性统计关系,线性统计关系,是最常见的相关关系;01是正的线性相关;-10是负的线性相关。|值越大,则线性关比较系密切,反之,则线性关系不密切。同理,|=1,表示样本(Y t,X t)为完全线性相关;=1,表示(Y t,X t)为完全正线性相关,样本的所有点(Y t,X t)都在一条直线上;=-1,表示(Y t
11、,X t)为完全负线性相关,样本的所有点(Y t,X t)也都在一条直线上;=0,表示样本点(Y t,X t)在散点图上的分布是杂乱无章的,(Y t,X t)之间无相关关系;0|1,表示(Y t,X t)之间存在线性相关关系,其样本点(Y t,X t)大致地分布在某条直线左右。当|比较小时,样本点离该直线比较分散,而当|比较大(接近于1)时,样本点就靠近该直线。,Ch7 相关与回归分析7.2 相关分析,返回,7.2.3 相关系数的检验,检验样本相关系数,实质上是用样本相关系数,检验总体相关系数是否为0,如果=0,则两变量Y,X 之间,线性关系微弱;若0,则两变量Y,X 之间,线性关系显著。由的
12、分布理论,可以证明:如果变量Y,X是正态变量,当=0,则与有关的统计量(7.2.4)与有关的统计量(7.2.5)根据这一定理,可以检验是否为0(总体两变量之间直线相关关系是否为不显著)。各种不同的统计量,构成不同的检验方法。因此,的检验方法,有t统计量检验、F统计量检验和的查表检验。的查表检验,是t检验或者F检验方法的结果。三种方法的检验结论相同。,Ch7 相关与回归分析7.2 相关分析,7.2.3 相关系数的检验,t统计量检验作统计假设零假设H0:=0,备择假设H1:0。计算样本相关系数的t值,选择显著性水平,取小概率=1%或者=5%。根据和自由度n-2,求t分布的临界值t/2,若|t|t/
13、2,接受H0,表示Y,X之间相关不显著;若|t|t/2,拒绝H0,表示Y,X之间相关显著。,Ch7 相关与回归分析7.2 相关分析,7.2.3 相关系数的检验,F统计量检验作统计假设零假设H0:=0,备择假设H1:0。计算样本相关系数的F值,选择显著性水平,取=1%或者=5%。根据和自由度1,n-2,求F分布的两个临界值F1-/2(1,n-2),F/2(1,n-2),且F1-/2(1,n-2)F/2(1,n-2)或F F1-/2(1,n-2),拒绝H0,表示Y,X之间相关显著。说明:F检验是双侧检验,有两个临界值F1-/2(1,n-2),F/2(1,n-2),且F1-/2(1,n-2)F/2(
14、1,n-2),即接受零假设H0的临界区域为F1-/2(1,n-2)FF/2(1,n-2)FF/2(1,n-2)、1/F1/F1-/2(1,n-2);由于有FF(1,n-2)和1/FF(n-2,1),于是可以证明,在H0成立的条件下,F双侧检验等价于两个统计量F、1/F的单侧检验,两个统计量中只要有一个满足检验的要求即可,即F F/2(1,n-2)或者1/FF1-/2(1,n-2)=1/F/2(n-2,1)就接受H0。通常的做法是检验FF/2(1,n-2),且统一记FF/2。,Ch7 相关与回归分析7.2 相关分析,7.2.3 相关系数的检验,的查表检验的查表检验,是t检验或者F检验方法衍生的结
15、果。不论是t检验还是F检验,其临界值t/2、F/2,对自由度n-2(样本容量=n)和样本相关系数,都有一个临界要求,反算出样本相关系数临界值/2,那么由显著性水平、自由度n-2及临界样本相关系数/2,就可以构成一个相关系数检验表。在给定条件下查验该表,就可以判断变量Y,X之间是否线性相关。作统计假设H0:=0,H1:0。计算样本相关系数。选择显著性水平,取=1%或者=5%。根据和自由度n-2,查相关系数表求临界值/2,若|/2,接受H0,表示Y,X之间相关不显著;若|/2,拒绝H0,表示Y,X之间相关显著。,Ch7 相关与回归分析7.2 相关分析,7.2.3 相关系数的检验,【例7-3】利用某
16、国1951-1970年的消费Y和可支配收入X的相关系数,在=5%时,是否可以认为Y和X之间存在显著性的线性相关关系。解:作统计假设H0:=0,H1:0。计算样本相关系数的t值。已知=0.999689,求得t=170.071。选择显著性水平,取=5%。根据和自由度n-2,求得t分布的临界值t/2(n-2)=t2.5%(20-2)=2.102。因为|t|=170.071t/2=2.102,所以拒绝H0,表示Y,X之间相关显著。,Ch7 相关与回归分析7.2 相关分析,返回,7.2.4 等级相关系数及其检验,等级相关系数(又称为顺序相关系数)。设有Xt和Yt两个数列,依数量的大小或者品质的优劣,分为
17、1,2,3,n-1,n个等级,以VX,t表示各个Xt的等级数,以VY,t表示各个Yt的等级数,则等级相关系数 s为(7.2.6)式中,n是样本容量。该公式可由两个等级变量的相关系数,推导而来。与相关系数类似,s的取值范围为0|s|1。s为正值,存在正的等级相关关系,s取负值,存在负的等级相关。s=1,表明两种现象的等级完全相同,存在完全正相关;s=-1,表明两种现象的等级完全相反,存在完全负相关。,Ch7 相关与回归分析7.2 相关分析,7.2.4 等级相关系数及其检验,等级相关系数检验。当样本容量n20时,可利用以下的t统计量,进行 s的检验(7.2.7)当总体等级相关系数 s=0时,可以证
18、明:t统计量服从自由度为n-2的t分布。在给定显著性水平下,如果|t|t/2(n-2),接受H0,表示Y,X之间相关不显著;若|t|t/2(n-2),拒绝H0,表示Y,X之间相关显著。同样也可以参照样本相关系数的检验方法,构造新的统计量t2去进行F检验,或者直接查相关系数表检验。,Ch7 相关与回归分析7.2 相关分析,7.2.4 等级相关系数及其检验,【例7-4】某校对学生某专业课程的复习时间和考试成绩进行调查。抽查10同学的有关数据如下表。计算复习时间与考试成绩的相关系数和等级相关系数。根据以上结果,能否得出复习时间越长考试成绩越高的结论。解:,Ch7 相关与回归分析7.2 相关分析,7.
19、2.4 等级相关系数及其检验,解:首先对复习时间X与考试成绩Y按从小到大的顺序确定等级。对于Xt或者Yt相同的,取其应得等级的平均数。其次,计算相关系数。根据公式,得=0.587,t=2.05。在=5%、自由度=n-2=8条件下,得t/2(n-2)=2.306。因为|t|=2.05t/2(n-2)=2.306,表示Y,X之间相关不显著,难以判断复习时间X与考试成绩Y之间存在显著的线性关系。最后,计算等级相关系数 s。根据公式,得 s=0.9848,t s=16.04。在=5%、自由度=n-2=8条件下,得t/2(n-2)=2.306。因为|t s|=16.04t/2(n-2)=2.306,表示
20、Y,X之间相关显著,存在复习时间越长考试成绩越高的现象。,Ch7 相关与回归分析7.2 相关分析,返回,7.3 一元线性回归分析,7.3.1 标准的一元线性回归模型7.3.2 一元线性回归模型的估计7.3.3 一元线性回归模型的检验7.3.4 误差项t的自相关检验 7.3.5 一元线性回归模型的预测,Ch7 相关与回归分析7.1 相关与回归的基本概念7.2 相关分析7.3 一元线性回归分析7.4 多元线性回归分析(new)7.5 回归诊断与残差分析(new),返回,7.3.1 标准的一元线性回归模型,总体回归函数设因变量为Y,自变量为X;若Y的数学期望存在,且服从如下的分布 YN(1+2X,2
21、)(7.3.1)式中1,2和2是不依赖于X的未知参数。则方程 Y=1+2X+u;u N(0,2)(7.3.2)就称为一元线性回归模型(或称为相关方程)。其中,是随机误差项,E()=0。又由于Y的数学期望是X的函数,E(YX)=1+2X(7.3.3)Y的取值主要由X的取值决定,因此,E(YX)是一个关于X的回归期望,它从平均意义上表达了Y与X的统计规律性,于是,E(YX)也可以作为Y的估计,故 X=1+2X(7.3.4)称为总体一元回归估计方程或者回归估计函数,1,2是这个回归方程中的回归系数,其图形表现为一条直线。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.1 标准的一元线性回归
22、模型,误差项的标准假定 误差项的期望值恒为零,即E(tXt)=0(7.3.5)误差项的方差是同观察时点t无关的常数,即Var(tXt)=E(t2Xt)=2(7.3.6)时点不同的误差项之间不相关,即Cov(t,s)=E(ts)=0;ts(7.3.7)t的概率分布与1,2和X无关。X是给定的变量(确定变量),即X,不是有统计从属关系的随机变量。Cov(Xt,t)=E(Xtt)=0(7.3.8)t服从正态分布,即t N(0,2)(7.3.9)以上假定最早是由德国数学家高斯提出来的,也称为高斯假定或者标准假定。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.1 标准的一元线性回归模型,满足
23、以上假定的一元线性回归模型,称为标准的一元线性回归模型。满足假定的一元线性回归模型,称为标准线性正态回归模型。应当指出的是,在现实的情况是由于种种原因,以上假定常常不能得到满足。其最一般的模型及回归函数为Y=1+2X+u,X=E(YX)=1+2X(7.3.10)u为随机误差项,E(u)=0,E(2)=2,Y与u同分布,且均为非正态分布,我们以下的讨论均以(7.3.10)式为基础,其余变量的解释如前。,Ch7 相关与回归分析7.3 一元线性回归分析,7.3.1 标准的一元线性回归模型,样本回归函数,就是根据样本资料(Yt,X t),对总体回归函数进行拟合的估计函数。由于样本(Yt,X t)来源于
24、总体(Y,X),因此,样本回归线与总体回归线,有相同的函数形式。由样本关系方程(7.3.11)有样本回归函数(7.3.12)式中,Yt和X t分别是Y和X的第t次观察值;t为样本回归线上与X t相对应的值,它是对E(YtX t)的估计;为样本回归系数,是对总体回归系数的1,2的估计;t=Ytt是实际观察值与样本估计值之差,亦称残差,是一个可计算的量;n为样本容量;是对2的估计。样本回归函数是总体回归函数的近似反映。回归分析的主要任务,就是充分利用样本的信息,采用适当的方法,使得样本回归函数,尽可能接近真实的总体回归函数。,Ch7 相关与回归分析7.3 一元线性回归分析,返回,7.3.2 一元线
25、性回归模型的估计,回归系数的估计 最小二乘法,简记为OLS法。它的准则是使t的平方和最小,即(7.3.15)由极值条件,有联立方程(7.3.16)整理得正规方程组(7.3.17),Ch7 相关与回归分析7.3 一元线性回归分析,7.3.2 一元线性回归模型的估计,回归系数的估计(续)求解正规方程组,得(7.3.18)利用(7.2.3)式,则最小二乘估计量,又可简写为(7.3.19),Ch7 相关与回归分析7.3 一元线性回归分析,7.3.2 一元线性回归模型的估计,【例7-5】利用某国1951-1970年的消费Y和可支配收入X数据,建立消费对可支配收入的回归估计方程。解:因为消费Y和可支配收入
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ch07 相关 回归 分析
链接地址:https://www.31ppt.com/p-2674089.html