九章节相关与回归.ppt
第九章 相关与回归,相关和回归分析是研究事物的相互关系、测定它们联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是经济分析、预测和控制的重要工具。,第一节 相关与回归分析的基本问题,一、相关的概念与种类函数关系现象之间确实存在数量上的相互依存关系。表现在:一个现象发生数量上的变化,另一个与之相联系的现象也会相应地发生数量上的变化。相关关系现象之间数量上不确定、不严格的依存关系。相关关系的全称为统计相关关系,它属于变量之间的一种不完全确定的关系。,出租汽车费用与行驶里程:总费用=行驶里程 每公里单价,家庭收入与恩格尔系数:家庭收入高,则恩格尔系数低。,函数关系(确定性关系),相关关系(非确定性关系),比较下面两种现象间的依存关系,相关关系与函数关系的区别函数关系是变量之间的一种严格、完全确定性的关系,即一个变量的数值完全有另一个(或一组)变量的数值所决定、控制。函数关系通常可以用数学公式确切地表示出来。相关关系难以像函数关系那样,用数学公式去准确表达。,相关关系与函数关系的联系 由于客观上常会出现观察或测量上的误差等原因,函数关系在实际工作中往往通过相关关系表现出来。当人们对某些现象内部规律有较深刻认识时,相关关系可能变为函数关系。为此,在研究相关关系时,又常常使用函数关系作为工具,用一定的函数关系表现相关关系的数量联系。,相关关系的种类,根据相关关系的程度划分,根据相关关系的方向划分,根据自变量的多少划分,根据变量间相互关系的表现形式划分,不完全相关,完全相关,不相关,正相关,负相关,1、不相关。如果变量间彼此的数量变化互相独立,则其关系为不相关。自变量x变动时,因变量y的数值不随之相应变动。例如,产品税额的多少与工人的出勤率、家庭收入多少与孩子的多少之间都不存在相关关系。2、完全相关。如果一个变量的变化是由其他变量的数量变化所唯一确定,此时变量间的关系称为完全相关。即因变量y的数值完全随自变量x的变动而变动,它在相关图上表现为所有的观察点都落在同一条直线上,这种情况下,相关关系实际上是函数关系。所以,函数关系是相关关系的一种特殊情况。3、不完全相关。如果变量间的关系介于不相关和完全相关之间,则称为不完全相关。如妇女的结婚年龄与受教育程度之间的一种关系。大多数相关关系属于不完全相关,是统计研究的主要对象,根据相关关系的程度划分,1、正相关。指两个因素(或变量)之间的变化方向一致,都是呈增长或下降的趋势。即自变量x的值增加(或减少),因变量y的值也相应地增加(或减少),这样的关系就是正相关。例如,工业总产值增加,企业税利总额也随之增加;家庭消费支出随收入增加而增加等。2、负相关。指两个因素或变量之间变化方向相反,即自变量的数值增大(或减小),因变量随之减小(或增大)。如劳动生产率提高,产品成本降低;产品成本降低,企业利润增加等。,根据相关关系的方向划分,1、单相关。两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量。2、复相关。三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量。,根据自变量的多少划分,1、直线相关(或线性相关)。当相关关系的自变量x发生变动,因变量y值随之发生大致均等的变动,从图像上近似地表现为直线形式,这种相关通称为直线(或线性)相关。例如,销售量与销售额之间就呈直线相关关系。2、曲线(或非线性)相关。在两个相关现象中,自变量x值发生变动,因变量y也随之发生变动,这种变动不是均等的,在图像上的分布是各种不同的曲线形式,这种相关关系称为曲线(或非线性)相关。曲线相关在相关图上的分布,表现为抛物线、双曲线、指数曲线等非直线形式。例如,从人的生命全过程看,年龄与医疗费支出呈非线性相关。,根据变量间相互关系的表现形式划分,二、回归的概念和种类,1.回归的概念源自遗传学现代概念:研究自变量与因变量之间关系,其目的在于根据已知自变量来估计和预测因变量的总平均值。2.回归的种类根据回归变量多少,分为一元回归方程和多元回归方程根据回归是否线性,分为线性回归方程和非线性回归方程根据回归是否有滞后关系,分为自身回归方程和无自身回归现象的方程。,3.相关分析与回归分析的区别相关分析研究随机变量之间相互依存关系的方向和密切程度。直线相关用相关系数,曲线相关用相关指数表示。回归分析研究某一因变量与一个或多个自变量之间数据关系变动趋势的方法。用回归方程表示。相关分析研究的都是随机变量,不用区分因变量和自变量回归分析研究时,要定出因变量和自变量。其中,自变量是确定的普通变量,因变量是随机变量。,4.相关关系与回归分析的联系相关和回归是研究事务两个不可分割的方面。二者具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。,5.相关与回归分析的作用认识现象之间相关形式、方向、相关程度。对经济现象进行推算和预测。可用于补充缺少的资料。,6.相关分析和回归分析的任务 相关分析的主要内容揭示现象之间是否存在相关关系。确定相关关系的表现形式。确定现象变量间相关关系的密切程度和方向。回归分析的主要内容建立相关关系的回归方程。测定因变量的估计值与估计值的误差程度。,7.相关分析与回归分析的步骤进行相关关系的定性分析确定回归方程计算相关系数或相关指数,对回归方程进行显著性检验。利用回归方程式进行推算和预测对推算和预测作出置信区间估计。,第二节 简单直线相关分析,(一)直线相关分析的特点1.两个变量是对等关系2.只能算出一个相关系数3.相关系数有正负号,表示正相关或负相关4.相关系数的计算对资料有一定要求,相关的两个变量必须都是随机的,这也反映对等关系。相关系数的计算与应用有其独立意义,可直接从给定资料计算,可不经过回归分析。,(二)相关关系的判断,1.定性判断法这是从定性角度分析和判断现象之间是否具有相关关系,以及相关关系的类型。这种分析和判断所依据的是对现象的了解和对有关的理论知识、专业知识的掌握,以及一定的社会实践经验。,相关表、相关图法在定性判断的基础上,把具有相关关系的两个量的具体数值按照一定顺序平行排列在一张表上,以观察它们之间的相互关系,这种表就称为相关表;把相关表上一一对应的具体数值在直角坐标系中用点标出来而形成的散点图则称为相关图。利用相关图和相关表,可以更直观、更形象地表现变量之间的相互关系。,相关表:,相 关 图,2.定量测定相关系数(1)相关系数说明直线相关条件下,两个现象之间相关关系密切程度的统计分析指标。在计算相关系数之前,首先判定两个现象之间是否存在着直线相关,否则计算出的相关系数就没有实际意义。判定的一般方法是作图法。作图法是通过作散点图来判定两个现象之间是否存在直线相关。,(2)相关系数的计算 对两个变量之间线性相关程度的度量称为简单相关系数,用r 表示。而对于曲线相关来说,是用相关指数来衡量其相关程度的。直线相关系数也称皮尔逊相关系数。,3.相关系数r的意义,相关系数的取值范围是:1r1(r 1)r愈接近0,x与y之间的直线相关程度愈小,r 的值愈接近1,x与y之间的相关程度愈高。r 0表示两个变量之间不存在直线相关;r0.3,表示极低度相关 0.3 r 0.5,表示低度相关 0.5 r 0.8,表示中度相关 r 0.8,表示高度相关 r1表示存在着完全正相关;r-1表示存在着完全负相关。,但需要注意的是,r只表示x与y的直线相关密切程度。当r很小甚至等于0时,并不一定表示x与y之间就不存在其他类型的关系。变量之间的非线性相关程度较大可能导致r0,当 r0或r很小时,不能得出变量无关的结论。,第三节 简单直线回归分析,对两个线性相关的变量x和y,根据研究目的,确定出自便量和因变量,建立两个变量间的线性回归方程,然后用回归方程赖测定因变量的发展趋势的分析过程。,两个变量的地位不对等。分自变量和因变量因变量是随机变量,自变量为非随机变量,可以预先控制和给定。回归方程可据以利用自变量的给定值推算因变量的相应值。回归系数可正可负。正号说明正相关,负号说明负相关。,(一)简单直线回归分析的特点,1.简单直线回归方程又称一元线性回归方程。它是根据成对的两种变量的数据,寻找一直线方程代替两变量的变化趋势,根据自变量的变动,来推算因变量发展趋势和水平的方法。它是研究相互关联的两种经济现象数量变动依存关系的一种方法。,(二)简单直线回归方程的确定,当两变量x、y 之间存在直线相关关系时,可以用直线方程 近似代替x与y的关系。方程中的参数a是回归直线的起点值,表现为当时回归直线的y坐标,即y轴上的一个点,数学上叫截距。参数b 是回归直线的斜率,即回归系数。它代表自变量x每增加一个单位时,因变量y的平均增加值。a和b 数值确定了,直线回归方程也就确定了。确定a、b的数值可用最小平方法。,一元线性回归方程中参数a、b的确定:,最小平方法,基本数学要求:,进一步整理,有:,(三)相关性的显著性检验,R检验步骤:(1)计算相关系数R;(2)根据回归模型的自由度(n-m)和给定显著性水平值,从相关系数表中查出临界值R(n-m)。(3)判别:若R R(n-m),表明两变量之间线性相关关系显著,检验通过,模型可用于预测;若R R(n-m),表明两变量之间线性相关关系不显著,检验不通过,模型不能用于预测。,(四)估计标准误差,估计标准误差:也称剩余标准差,是剩余变差的平均数的方根。反映观测值与估计值之间的平均离差程度。,若各观测值与估计值的平均离差愈小,说明两变量之间的线性关系愈密切;反之,愈不密切,估计标准误与相关系数r的关系,二者都具有说明现象之间的相关关系密切程度的作用。相关关系与说明的现象之间的密切程度成正向关系,而估计标准误的概念比较明确,回归误差用绝对数表示,它所说明的密切程度并不那么明显,也不能说明是正相关还是负相关。相关关系越大,估计标准误越小。,(五)进行预测,1、点估计:2、区间估计:,例:,例:生产费用对产量的回归分析,解:(1)绘制散点图,(2)建立简单直线回归方程:,其中a124.15(千克)的含义为生产费用的起点值b0.4027表示产品产量每增加1千克,生产费用平均增加0.4027千元。,(3)计算相关系数,(4)如根据上表中有关数据,可计算出生产费用对产量回归的估计的标准误差:,千元,(5)预测。,当产量为150千克时,生产费用当产量为150千克时,生产费用的95置信区间为:即:172.2376,202.2724,相关与回归分析应注意的问题 应建立在现象之间确实存在相关关系的基础上回归方程、相关系数和回归误差应结合使用 要注意现象质的界限及相关关系作用的范围要具体问题具体分析 要考虑社会现象之间的复杂性,第四节 曲线相关与曲线回归分析,一.曲线相关与曲线回归的概念和分类曲线相关:指相关的两个变量对应值的散点图呈某种曲线形状的关系式.曲线回归:根据曲线相关的变量拟合的回归方程.常见的曲线一元回归方程有:(1)双曲线回归方程:(2)对数曲线回归方程:(3)二次曲线回归方程:(4)指数曲线回归方程:其中,(1)(2)(3)可以通过简单的变量换元可直接化为线性回归方程,采用最小平方法估计其待定参数;(4)常常通过对数变形,间接采用最小平方法估计参数,二、可线性化的曲线回归方程变换,第五节 时间数列自相关与自回归分析,时间数列自身相关:指一个变量自身随时间的不同,其值在前后期(前一期或前几期)之间表现出一定的依存关系.例如本年产品产量与上一年产量有关,可用上年的产品产量与本年的产量进行分析,又如荔枝的产量有大小之分,其本年的产46量与前两年的产量有关,可用前两年的产量与今年的产量进行相关分析,这种自身回归方程,对与掌握社会经济现象发展的规律性和进行经济预测决策都有重要作用简单自身回归方程参数a,b的估计与一元线性回归类似。例9-7,第六节 复相关与复回归分析,一、复相关与复回归分析的概念与种类复相关(多元相关):多个变量之间的依存关系。复回归(多元回归):根据一个因变量和多个自变量之间的关系建立的回归方程。复回归按照自变量的多少可以分为:二元线性回归:三元线性回归:n元线性回归:,二、二元线性回归分析,1、二元回归方程的确定2、参数的估计:最小二乘法3、复相关系数:表示一个因变量与多个子变量之间的相关 程度的指标。,4、估计标准误5、检验:R检验6、预测:点预测,区间预测同简单线形回归类似。,