《相关分析梁》PPT课件.ppt
第七章 相关分析,第一节 相关分析的意义和任务,一、相关关系的概念(注意相关关系与函数关系的区别),(一)函数关系,它反映着现象之间存在着严格的依存关系,也就是具有确定性的对应关系,这种关系可用一个数学表达式反映出来。,例如某种商品的销售额和销售量之间,由于价格因素,所以两者可表现为严格的依存关系。,(二)相关关系,它反映着现象之间的数量上不严格的依存关系,也就是说两者之间不具有确定性的对应关系,这种关系有二个明显特点:,1.现象之间确实存在数量上的依存关系,即某一社会经济现象变化要引起另一社会经济现象的变化;,2.现象之间的这种依存关系是不严格的,即无法用数学公式表示。,商品价格和商品销售量之间,存在着一定的依存关系,即商品价格发生变动,商品的销售量也会随之发生变动。,在具有相互依存关系的两个变量中,作为根据的变量称自变量,一般用X表示;发生对应变化的变量称因变量,一般用y表示。,二、相关关系的种类,1.按相关关系涉及的因素多少来分,可分为:单相关和复相关。,在实际工作中,如存在多个自变量,可抓住其中主要的自变量,研究其相关关系,而保持另一些因素不变,这时复相关可转化为偏相关。,二因素之间的相关关系称单相关,即只涉及一个自变量和一个因变量。,三个或三个以上因素的相关关系称复相关,或多元相关,即涉及二个或二个以上的自变量和因变量。,2.按相关关系的形式来分,可分为:直线相关和曲线相关,直线相关是指两个相关现象之间,当自变量X的数值发生变动时,因变量y随之发生近似于固定比例的变动,在相关图上的散点近似地表现为直线形式,因此称其为直线相关关系。,曲线相关是指两个相关现象之间,当自变量X的数值发生变动时,因变量y也随之发生变动,但这种变动在数值上不成固定比例,在相关图上的散点可表现为抛物线、指数曲线、双曲线等形式,因此称其为曲线相关关系。,3.按相关关系的性质来分,可分为:正相关和负相关,正相关是指两相关现象变化的方向是一致的。负相关是指两相关现象变化的方向是相反的。,4.按相关程度分,可分为:完全相关、不完全相关和不相关,完全相关就是相关现象之间的关系是完全确定的关系,因而完全相关关系就是函数关系。不相关是指两现象之间在数量上的变化上各自独立,互不影响。不完全相关就是介于完全相关和不相关之间的一种相关关系。相关分析的对象主要是不完全相关关系。,三、相关分析的任务和内容,相关分析的主要任务,概括起来是两个方面:,一方面,研究现象之间关系的密切程度,即相关分析;另一方面,研究自变量与因变量之间的变动关系,即回归分析。,相关分析的主要内容包括以下五个方面:,1.判断社会经济现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这是相关分析的出发点;2.确定相关关系的密切程度;3.测定两个变量之间的一般关系值;4.测定因变量估计值和实际值之间的差异,用以反映因变量估计值的可靠程度;5.相关系数的显著性检验。,第二节 简单线性相关分析,一、相关表和相关图,相关图,也称散布图(或散点图)。,某市1996年 2003年的工资性现金支出与城镇储蓄存款余额的资料,说明简单相关表和相关图的编制方法。从表可看出,随着工资性现金支出的增加,城镇储蓄存款余额有明显的增长趋势。所以,资料表明(如图)有明显的直线相关趋势。,二、相关系数的测定与应用,相关系数是在直线相关条件下,表明两个现象之间相关关系的方向和密切程度的综合性指标。一般用符号r表示。,r的测定方法:,仍以上例1资料计算:,经过计算,表明该市工资性现金支出与城镇储蓄存款余额之间存在着高度正相关。,积差法公式进一步化简如下:,2.简捷法,资料计算如下:,3.从单变量分组表计算相关系数,对r的解释如下:(即r的特点),(1)r取正值或负值决定于分子协方差;(2)r的绝对值,在0与1之间;(3)r的绝对值大小,可说明现象之间相关关系的紧密程度。,三、相关系数的密切程度,四、简单线性相关分析的特点,通过对r的计算方法的讨论,可看出二个明显特点:,2.相关关系中只能计算出一个相关系数r。,1.相关关系中,两个变量不必定出哪个是自变量,哪个是因变量,因此,相关的两个变量都是随机变量;,第三节 回归分析,在回归分析中,两个变量之间的回归称为简单回归,两个以上变量之间的回归称为复回归。无论是简单回归还是复回归,数学模型均有线性(直线)回归和非线性(曲线)回归之分。,一、回归分析的概念,回归分析就是对具有相关关系的变量之间数量变化的一般关系进行测定,确定一个相关的数学表达式,以便于进行估计或预测的统计方法。,回归这个统计术语,最早采用者是英国遗传学家高尔登。学生皮尔逊继续研究。,二、直线回归,(一)简单直线回归分析,简单直线回归方程的一般形式为:yc=a+bx,yc 因变量的估计值;x 自变量;a 回归直线在y轴上的截距;b 回归直线的斜率,称回归系数,表明x每增加 一个单位,因变量yc的平均变化值 b0,x与y为正相关 b0,x与y为负相关,a、b的确定:,在简单直线回归方程中,a、b为待定系数,常用最小平方法来确定,即(y-yc)2=最小值。,简单直线回归方程建立的步骤为:,确定自变量x和因变量y;计算x2、xy、x、y、x2、xy;代入公式,先求b,再求a。,仍用上例1资料得到:yc=-199.5+0.5858x表明该市工资性现金支出每增加1万元,储蓄存款余额就增加0.5858万元。,举例说明b(回归系数)在经济管理中的作用:,某企业的某种产品月产量与单位成本的关系呈直线关系,用直线回归方程表示是:yc,其中,x表示月产量(千件)y表示单位成本(元);a=77.36(元),表示生产这种产品在单位成本方面的条件;b=-1.818,表示月产品每增加1000件,单位成本平均降低1.818元。,从单变量分组表配合回归直线:,简单直线回归分析的主要特点:,1.直线回归分析时,要根据研究目的,在两个变量之间确定哪个是自变量,哪个是因变量。,2.在两个现象互为根据的情况下,可以有两个回归方程:yc=a+bx 称y倚x回归直线 xc=c+dy 称x倚y回归直线,(二)多元线性回归分析,多元线性回归分析可以看作是一元线性回归分析的扩展。现以二元线性回归模型进行回归分析,其方程式为:,以我国19731983年11年手表价格和手表销售量的实际资料为例,拟合一元线性回归方程为:yc=9643-65x此时,回归系数b表明,手表平均价格每降低1元/只,销售量约平均增长65万只。一元线性回归模型只列入了手表平均价格对销售量的影响,而忽略了居民收入这一很重要的因素,因此,现对此资料补入同期居民人均货币收入资料,将原来的一元线性回归模型扩展为二元线性回归模型进行回归分析。,列成计算表如下:,b1表明在手表平均价格固定时,人均货币收入每增加元,手表销售量平均增长18.6368万只;b2表明在人均货币收入固定时,手表平均价格每上升元/只,手表销售量平均减少8.0328万只。这里的b2比原一元线性回归模型中的同一回归系数b=-65要大得多,是因为一元线性回归模型只列入了手表平均价格对销售量的影响而忽略了居民收入这一很重要的因素,在手表平均价格的影响中渗入了居民收入的影响。,上面的方法推广到多个自变量,其回归方程为:,三、曲线回归,拟合方法:统计上通常采用变量代换法把非线性形式转换为线性形式处理,使线性回归分析的方法也能适用于非线性回归问题的研究。,某商店各个时期的商品流通费率和商品零售额资料如下:,散点图显示出x与y的变动关系为一条递减的双曲线。经济理论和实际经验都可说明,流通费率决定于商品零售额,体现着经营的规模效益。,双曲线方程为:,第四节 估计标准误差,一、估计标准误差的概念和作用,估计标准误差就是用来说明回归方程推算结果的准确程度的统计分析指标。以绝对值表示,其数值越小,说明推算结果的准确程度越高,回归直线的代表性也越大。用Syx表示,也可用Sy表示。,二、估计标准误差的计算方法,仍用前例资料计算Sy:,计算结果表明,城镇储蓄存款余额的实际值和估计值是有差距的,这个差距有的大,有的小,平均起来是33.22万元。,三、回归方差,即Sy2,Sy和r的异同点:,相同点:都具有说明相关关系密切程度的作用;,不同点:(1)r越大越好,而Sy越小越好;(2)r用相对数表现,密切程度的概念比较明确 Sy用绝对数表现,关系密切的程度表示得 不那么明显;(3)r能说明正、负相关,Sy不能说明。,多元线性回归估计标准差的测定公式见教材351页。,1、下面现象间的关系属于相关关系的是()。A、圆的周长和它的半径之间的关系 B、价格不变条件下,商品销售额与销售量之问的关系 C、家庭收入愈多,其消费支出也有增长的趋势 D、正方形面积和它的边长之间的关系,思考与练习,一、单 项 选 择 题,C,2、判定系数等于0.81,回归系数等于3时,则相关系数为()C.0.9 D.0.27,C,3、在相关分析中,要求相关的两个变量()。A、都是随机变量 B、因变量是随机变量 C、都不是随机变量 D、自变量是随机变量,A,4、回归分析中的两个变量()。A、都是随机变量 B、关系是对等的 C、都是给定的量 D、一个是自变量,一个是因变量,D,5、已知变量X和Y的协方差为-50,X的方差为170,Y的方差为220,其相关系数为()。A、0.26 B、-0.26 C、0.01 D、-0.01,B,6、某企业根据产量(X,千件)和单位产品成本(Y,元/件)资料配合的回归方程为,这个方程可表示()。A、产量每增加1000件,单位成本平均下降80元 B、产量每增加1件,单位成本平均下降1元C、产量每增加1000件,单位成本平均下降10元 D、产量每增加80件,单位成本平均下降10元,C,二、多 项 选 择 题,1、相关分析的特点有()。A、两变量不是对等的 B、两变量只能算出一个相关系数 C、相关系数有正负号 D、两变量都是随机的 E、相关系数的绝对值介于O和1之间,BCDE,2、变量间的相关关系按其程度划分有()。A、完全相关 B、不完全相关 C、不相关 D、正相关 E、负相关,ABC,3、变量间的相关关系按其形式划分有()。A、正相关 B、负相关 C、直线相关 D、曲线相关 E、单相关,CD,4、相关关系的种类,按影响因素多少不同分为()。A、正相关 B、负相关 C、单相关 D、复相关 E、线性相关,CD,5、若两个变量与的相关系数为0.92,则与()。A、正相关关系 B、负相关关系 C、高度相关关系 D、线性相关关系 E、相关密切程度很低,ACD,6、直线回归方程中的两个变量()。A、两个都是随机变量 B、两个都是给定的变量 C、一个是自变量,另一个是因变量 D、一个是给定的变量,另一个是随机变量 E、必须确定哪个是自变量,哪个是因变量,CDE,7、可用来判断现象之间相关方向的指标有()。A、估计标准误 B、相关系数 C、回归系数 D、两个变量的协方差 E、两个变量的标准差,BCD,8、下列关系中,相关系数小于0的现象有()。A、产品产量与原材料消耗量的关系 B、单位成本与产品产量的关系 C、商品价格与销售量的关系 D、纳税额与收入的关系 E、商品流通费用率与商品销售额的关系,BCE,9、工人的工资(元)依劳动生产率(千元)的回归方程为y=10+70 x,这意味着()。A、如果劳动生产率等于1000元,则工人工资为70元B、如果劳动生产率每增加1000元,则工人的工资平均提高70元C、如果劳动生产率每增加1000元,则工人工资为80元D、如果劳动生产率等于1000元,则工人工资为80元E、如果劳动生产率每下降1000元,则工人工资平均减少70元,BDE,三、判析 题,1、变量x与y的相关系数为0.8,变量m与n的相关系数为-0.9,则 x与y的相关密切程度高于m与n。(),错。变量m和n的相关程度高,2、回归系数既可以用来判断两个变量相关的方向,也可以用 来说明两个变量相关的密切程度。(),错。回归系数不能说明两个变量相关的密切程度。,3、估计标准误是说明回归方程代表性大小的统计分析指标,指标数值越大,说明回归方程的代表性越高。(),错。估计标准误指标数值越大,说明回归方程的代表性越低。,四、计 算 题,1、某企业上半年产品产量与单位成本的资料如下:,要求:(1)计算相关系数,说明两个变量相关的密切程度。(2)配合直线回归方程,指出产量每增加1千件时,单位成本平均变动多少?(3)假定产量为6千件时,单位成本为多少元?,解:(1)0.9091,(2)b=1.82,a=b=77.36c=a+bx=77.361.82x(3)当产量为6千件时,即x6,则 c=77.361.82666.45(元),2、检查五位学生统计学原理的学习时间与成绩如下表所示:,根据资料:(1)计算学习时间和学习成绩之间的相关系数。(2)建立学习成绩()倚学习时间()的直线回归方程。,3、根据5位同学西方经济学的学习时间与成绩分数计算出如下资料:试:(1)编制以学习时间为自变量的直线回归方程;(2)计算学习时间和学习成绩之间的相关系数,并解释相关的密切程度和方向。,End of Chapter 7,