统计学第八章回归分析与相关分析ppt课件.ppt
第八章 回归分析与相关分析,8.1相关分析8.2一元线性回归分析,相关和回归分析是研究事物的相互关系、测定它们联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。,一、相关分析概述二、相关关系的测定,8.1相关分析, 出租汽车费用与行驶里程: 总费用=行驶里程 每公里单价, 家庭收入与恩格尔系数: 家庭收入高,则恩格尔系数低。,函数关系(确定性关系),相关关系(非确定性关系),比较下面两种现象间的依存关系,现象间的依存关系大致可以分成两种类型:,函数关系,指现象间所具有的严格的确定性的依存关系,相关关系,指客观现象间确实存在,但数量上不是严格对应的依存关系,函数关系与相关关系之间并无严格的界限:有函数关系的变量间,由于有测量误差及各种随机因素的干扰,可表现为相关关系;对具有相关关系的变量有深刻了解之后,相关关系有可能转化为或借助函数关系来描述。,按涉及变量的多少分为,相关关系的种类,按照表现形式不同分为,按照变化方向不同分为,相关分析的种类,一、相关分析概述二、相关关系的测定,8.1相关分析,定性分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断,定量分析,在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度,相关关系的测定,简单相关表,适用于所观察的样本单位数较少,不需要分组的情况,分组相关表,适用于所观察的样本单位数较多标志变异又较复杂,需要分组的情况,将现象之间的相互关系,用表格的形式来反映。,相关表,正 相 关,负 相 关,曲线相关,不 相 关,又称散点图,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。,相关图,在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标,用r表示,相关系数,相关系数r的取值范围:-1r1,是相关系数的平方,用 表示;用来衡量回归方程对y的解释程度。,判定系数取值范围:,越接近于1,表明x与y之间的相关性越强; 越接近于0,表明两个变量之间几乎没有直线相关关系.,判定系数,结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2。,第八章 回归分析与相关分析,8.1相关分析8.2一元线性回归分析,一、回归分析概述二、一元线性回归模型三、回归估计标准差四、线性相关的显著性检验五、回归估计与预测,8.2一元线性回归分析,回归分析,指根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法,回归:退回regression,回归分析与相关分析,理论和方法具有一致性;无相关就无回归,相关程度越高,回归越好; 相关系数和回归系数方向一致,可以互相推算。,联系:,相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量;相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。,回归分析与相关分析,区别:,注意,我们不能把回归分析看作是在变量间建立一个因果关系的过程。回归分析只能表明,变量是如何或者是以怎样的程度彼此联系在一起的。有关因果关系的任何结论,必须建立在理论分析的基础之上。,回归分析的种类,Simple Linear regression,一、回归分析概述二、一元线性回归模型三、回归估计标准差四、线性相关的显著性检验五、回归估计与预测,8.2一元线性回归分析,一元线性回归模型,对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为:,假定E()=0,有总体一元线性回归方程:,一元线性回归方程的几何意义,总体一元线性回归方程:,样本一元线性回归方程:,以样本统计量估计总体参数,截距a 表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b 表明自变量x每变动一个单位,因变量y平均变动b个单位。,残差(Residual):,一元线性回归方程中参数a、b的确定:,最小平方法,基本数学要求:,整理得到由两个关于a、b的二元一次方程组成的方程组:,进一步整理,有:,【分析】因为工业总产值与能源消耗量之间存在高度正相关关系( ),所以可以拟合工业总产值对能源消耗量的线性回归方程。,即线性回归方程为:,计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。,最小二乘法估计的优良性质,一元线性回归模型的假定,b与r的关系:,判定系数与相关系数的关系,判定系数与相关系数的区别:,判定系数无方向性,相关系数则有方向,其方向与样本回归系数 b 相同;判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向;相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度量值。,一、回归分析概述二、一元线性回归模型三、回归估计标准差四、线性相关的显著性检验五、回归估计与预测,8.2一元线性回归分析,回归估计标准差,是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值代表性的强弱;其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。,在大样本条件下,可用公式计算:,剩余离差平方和,回归离差平方和,总离差平方和,Lyy=U+Q,总离差平方和,回归离差平方和,剩余离差平方和,估计标准差越小,则变量间相关程度越高,回归线对Y的解释程度越高。,判定系数与估计标准差的关系:,一、回归分析概述二、一元线性回归模型三、回归估计标准差四、线性相关的显著性检验五、回归估计与预测,8.2一元线性回归分析,样本相关系数r的显著性检验(t检验法),提出假设:,目的,检验总体两变量间线性相关性是否显著,步骤,构造检验统计量:,相关系数的显著性检验(t检验法), 根据给定的显著性水平,确定临界值 ;, 计算检验统计量并做出决策。,步骤,一、回归分析概述二、一元线性回归模型三、回归估计标准差四、线性相关的显著性检验五、回归估计与预测,8.2一元线性回归分析,回归方程的估计与预测,估计的前提:回归方程经过检验,证明 X 和 Y 的关系在统计上是显著相关的。,对于给定的 X 值,求出 Y 平均值的一个估计值或 Y 的一个个别值的预测值。,对于给定的 X 值,求出 Y 的平均值的置信区间或 Y 的一个个别值的预测区间。,点估计,区间估计,点估计,若 x = 80(十万吨),则:,区间估计,对于给定的 x = x0 ,Y 的1-置信区间为:,即:,在大样本条件下,近似有:,SPSS输出结果(一),方差分析表,SPSS输出结果(二),SPSS输出结果(三),35.0024.0021.34872-1.6755718.7158823.9815738.0025.0023.73710-1.4496521.3653926.1088140.0024.0025.32935-1.2990423.1250927.5336042.0028.0026.92160-1.1484224.8779628.9652349.0032.0032.49447-.6212830.9293234.0596252.0031.0034.88284-.3953633.4599736.3057254.0037.0036.47509-.2447535.1163737.8338259.0040.0040.45572.1317939.1262841.7851662.0041.0042.84409.3577141.4397844.2484164.0040.0044.43634.5083242.9485545.9241365.0047.0045.23247.5836343.6943746.7705668.0050.0047.62084.8095545.9037849.3379169.0049.0048.41697.8848546.6324550.2014871.0051.0050.009221.0354748.0805351.9379072.0048.0050.805341.1107748.8006052.8100876.0058.0053.989841.4120051.6605556.31912,非标准预测值,标准预测值,下限,上限,八个同类工业企业的月产量与生产费用,简单相关表,分组相关表,统计学期末考试,一、单选(每小题1分,共15分)二、多选(第小题2分,共20分)三、填空(每空1分,共10分)四、简答(每小题5分,共15分)五、计算题(共40分,要求写出公式、算式) 第1、2题每题5分;第3、4、5题每题10分,