第8章整理ppt.ppt
第八章 相关分析与回归分析,(教材第十一、十二章),第一节 相关分析,现象(变量)间的关系,函数关系:用函数表达式表示一一对应的精确关系,无关系,依存关系,相关关系:变量间存在依存关系,但非一一对应的精确关系,函数关系,它反映着现象之间存在着严格的依存关系,也就是具有确定性的对应关系,这种关系可用一个数学表达式反映出来。若两个现象x、y有严格的直线依存关系,则其函数关系还可用右图表示。,x0,y0,某种商品的销售额(y)与销售量(x)之间的关系可表示为 y=p x(p 为单价)圆的面积(S)与半径之间的关系可表示为S=R2 企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1 x2 x3,相关关系,它反映着现象之间在数量上不严格的依存关系,也就是说两者之间不具有确定性的对应关系,这种关系有二个明显特点:,现象之间确实存在数量上的依存关系,即某一社会经济现象变化要引起另一社会经济现象的变化;,现象之间的这种依存关系是不严格的,即无法用数学公式准确表示。,若现象间这种不严格的依存关系近似一种直线关系,则其相关关系的图示如右,为线性相关。,商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系,根据涉及变量多少:简单相关和复相关,相关关系类型,根据关系表现形式:线性相关和非线性相关,根据关系密切程度:完全相关、不完全相关和不相关,根据关系变动趋向:正相关和负相关,二因素之间的相关关系称单相关 三个或三个以上因素的相关关系称复相关在实际分析时,如存在多个变量与某变量存在关系时,可抓住其中主要的变量,研究其相关关系,而保持另一些因素不变,这时复相关可转化为偏相关,线性相关是指两个相关现象之间,当一变量X的数值发生变动时,另一变量y随之发生近似于固定比例的变动,其散点图近似地表现为直线形式,因此称其为直线或线性相关关系。非线性相关是指两个相关现象之间,当一变量X的数值发生变动时,另一变量y也随之发生变动,但这种变动在数值上不成固定比例,在相关图上的散点可表现为抛物线、指数曲线、双曲线等形式,因此称其为非线性或曲线相关关系。,完全相关就是相关现象之间的关系是完全确定的关系,因而完全相关关系就是函数关系。不相关是指两现象之间在数量上的变化上各自独立,互不影响。不完全相关就是介于完全相关和不相关之间的一种相关关系。相关分析的对象主要是不完全相关关系。,正相关是指两相关现象变化的方向是一致的。负相关是指两相关现象变化的方向是相反的。,相关分析与回归分析的区别,1.在相关分析中,不必确定自变量和因变量;而在回归分析中,必须事先确定哪个为自变量,哪个为因变量,而且只能从自变量去推测因变量,而不能从因变量去推断自变量。2.相关分析不能指出变量间相互关系的具体形式;而回归分析能确切的指出变量之间相互关系的具体形式,它可根据回归模型从已知量估计和预测未知量。3.相关分析所涉及的变量一般都是随机变量,而回归分析中因变量是随机的,自变量则作为研究时给定的非随机变量。,相关分析与回归分析的联系,相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。,相关分析是回归分析的基础和前提,回归分析是相关分析的深入和继续。,相关分析的主要内容:,判断社会经济现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这是相关分析的出发点;确定相关关系的密切程度;即测定两个变量之间的一般关系值;相关系数的显著性检验。,相关关系的度量:散点图与相关系数,散点图又称相关图。将x置于横轴上,y置于纵轴上,将(x,y)绘于坐标图上,用来反映两变量之间的相关关系。,未分组数据的散点图,分组数据的散点图,相关系数(简单线性),相关系数是在直线相关条件下,表明两个现象之间相关关系的方向和密切程度的综合性指标。一般地,若用样本数据计算,记为r;若用总体全部数据计算,则称为总体相关系数,记为。,简单线性相关系数r的测定方法:,积差相关系数,例题,相关系数的函数形式:CORREL或者,数据分析相关系数,对r的解释(即r的特点):,(1)r取正值或负值决定于分子项(协方差);(2)r的绝对值,在0与1之间;(3)r的绝对值大小,可说明现象之间相关关系的紧密程度。,r,实际应用与判断的一般准则,上例中,r=0.98,为高度相关,从单变量(单项式)分组表计算相关系数,Spearman(斯皮尔曼)等级相关系数(二列等级相关系数),r=0.676,考试成绩与产量之间:,我们观察到这两个变量间密切程度很高,但所计算出来的相关系数值并不高,为什么?非线性关系。,如果用两个变量等级值计算相关系数,,r=?,r=1,斯皮尔曼等级相关对数据条件的要求没有严格要求,只要两个变量观测值是成对的等级评定资料,或是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。,Di为对应的等级值之差,n为观测值组的个数或样本单位数,10名五年级学生数学成绩(X)与参与课堂学习的态度(Y)的资料如下表。据此判断,学习成绩与学习态度之间是否存在相关的联系?,两者之间高度相关,例题,当两组数据中,一个为连续型变量,另一个是绝对二分变量(即是绝对是非标志变量)时,用点二列相关系数表示两个变量的相关程度。,点二列相关系数,表示绝对二分变量中某一类别频率较大者 表示绝对二分变量中另一类别频率较小者 表示与二分变量中p类别相对应的连续变量的平均数 表示与二分变量中q类别相对应的连续变量的平均数 表示连续变量的标准差,在某班随机抽取20个学生的语文考试成绩如下表所示。据此信息,以99%的把握推断:该班学生的语文考试成绩与学生性别之间是否存在必然关系?,例题,p=11/20=0.55,q=0.45,男生为p,女生为q,男生的平均数为 女生分数的平均数为,所有语文考试成绩的标准差:,对相关系数进行显著性检验给定=0.01,df=n-2=20-2=18,查积差相关系数临界值表,得临界值 0.5614,学生语文考试成绩与学生性别之间的相关系数为0.396。,结论:学生语文考试成绩与性别无关,二列相关系数,当两组数据中,一个为连续型变量,另一个是相对二分变量(即是相对非标志变量)时,用点二列相关系数表示两个变量的相关程度。,表示相对二分变量中某一类别的频率 表示相对二分变量中另一类别的频率 表示与二分变量中p类别相对应的连续变量的平均数较大者 表示与二分变量中q类别相对应的连续变量的平均数较小者 表示连续变量的标准差 表示正态曲线下与P相对应的纵线高度,15名高中毕业生,重点中学5人,用“1”表示;非重点中学10人,用“0”表示,毕业考试平均成绩如下表所示。问毕业考试成绩是否与学校为重点中学或非重点中学有关?,例题,所有成绩的标准差:,查0.5-0.3333=0.1667(或0.6667-0.5=0.1667)所对应的正态曲线的纵线高度为y=0.3637,所以,高三学生毕业考试成绩与学校类别之间存在着显著性相关,对相关系数进行显著性检验给定=0.01,df=n-2=15-2=13,查(积差)相关系数临界值表,得临界值,相关系数临界值表,(简单线性)相关关系的显著性检验,样本相关系数r对于总体相关系数是否具有代表性呢?如,依据样本数据(xi,yi)计算所得r值较大时,能否推断总体相关关系显著呢?这就需要对相关系数的显著性进行检验。过程如下:,提出假设:=0,0,查表取得临界值:给定显著性水平时,根据自由度df=n-2查t分布表,取得临界值t/2,统计推断:,计算检验统计量:,若样本统计量tt/2,拒绝原假设,总体相关关系显著,若样本统计量tt/2,接受原假设,总体相关关系不显著,=0是原假设,意味着总体相关关系不显著,0是备择假设,意味着总体相关关系显著,例题,单位:万元,计算样本相关系数,并推断企业的月广告支出与月销售收入之间的相关关系是否显著(=0.05),计算样本相关系数:r=0.9469,提出假设:=0,0,查表t分布表:t/2(8)=2.306,计算检验统计量:,tt/2,拒绝原假设,总体相关关系显著,练习题,利用教材P345练习题2的数据,计算样本相关系数,并推断该行业产量与生产费用之间是否存在显著的相关关系,第二节 一元线性回归分析,一元线性回归模型 一元线性回归模型的一般形式 一元线性回归模型的基本假定回归参数的最小二乘估计回归方程的显著性检验预测与应用,当旨在分析变量之间关系的强度时,用相关分析.若目的是确定变量之间数量关系的可能形式,并用一个数学模型来表示这种关系形式,则叫回归分析。它可以从一个变量的变化来预测或估计另一个变量的变化。只有一个自变量的回归一元线性回归也称简单线性回归,一元线性回归模型的一般形式:y=0+1x+y与x的关系分为两部分:0+1x 是由于X的变化引起线性变化的部分;是(所有其他变量)随机因素造成的部分,一元线性回归模型,随机误差项,0、1结构参数或回归系数。,y,y=0+1x+,y=0+1x,Y为被解释变量(因变量Dependent variable)x为解释变量(自变量Independent variable)0,1是未知参数,叫回归系数(Coefficient of regression)是随机误差(不可观察),y=0+1x+,y=0+1x+,(1)x与y在总体上具有线性关系;(2)变量x没有测量误差(看成精确变量);(3)(xi,yi)和(xj,yj)彼此独立;(4)与某一个xi值对应的y值构成变量y上一个子总体,这样的子总体服从正态分布,且它们的方差相等;(5)是xi对应y的子总体的平均数的一个无偏估计。,一元线性回归的基本假设,y,回归参数的最小二乘估计,P345练习2,或,如何找到或建立最合适的直线呢?,为了由样本数据得到回归参数0,1的理想值,使用普通最小二乘估计(Ordinary Least Square Estimation,简记为OLSE)。对于每一个样本观测值(xi,yi),最小二乘法考虑观测值(Observed value)yi,与其期望值E(yi)的差越小越好,特别要求考虑n个差的平方和,如何求取或估计模型的参数?,例题,回归估计标准差Se代表了用回归方程得到的估计值与观测值(真实值)之间的平均差异程度.回归估计标准差越小,回归方程越理想,反之,回归方程越不理想。,思考,相关系数r与回归系数 正负号是否相同?,根据我国1981-1993年13年的样本数据。试建立消费函数,练习,根据样本得出的回归方程是否真正反映了两个变量之间的线性关系?自变量对应变量的解释程度如何?为此,需要要做出检验和评价。,回归方程检验,提出假设:H0:1=0,H1:10计算样本统计量:查F分布表,给定显著性水平并确定df=(1,n-2),查临界值F(1,n-2)统计推断:F F(1,n-2),拒绝H0,两变量线性关系显著 F F(1,n-2),接受H0,两变量线性关系不显著,(1)线性关系检验:F检验,=0.05,df=(1,n-2)=(1,3),查F分布表F(1,3)=10.128,统计推断:拒绝H0,人均收入与该商品销售额线性关系不显著,平方和分解,总平方和SST=回归平方和SSR+误差平方和SSE,.,.,思考,(2)回归系数检验:t检验,提出假设:1=0,10,查表取得临界值:给定显著性水平时,根据自由度df=n-2查t分布表,取得临界值t/2,若样本统计量tt/2,拒绝原假设,总体相关关系显著,若样本统计量tt/2,接受原假设,总体相关关系不显著,统计推断,计算样本统计量:,样本检验统计量:,=0.05时,根据自由度df=5-2=3,查t分布表,t/2=3.1824,推断:拒绝原假设,总体相关关系显著,SST=SSR+SSE在总平方和中,回归平方和所占比重越大,则线性回归效果越好,即回归直线与样本观测值拟合优度越好。而误差平方和越大,则拟合得越不理想。,拟合优度是回归直线对观测值的拟合程度。若观测点离回归直线近,则拟合程度好;反之,则拟合程度差。,R2的意义:在Y的变化中可由X解释或可由X决定的比率,R2=(0.95)2=0.9025,即,在Y的变化中,90.25%是由于X的变化引起的。,(3)拟合优度检验(可决系数、判定系数或决定系数R2),应用:预测值及置信区间,下面是20名工作人员的智商和某一次技术考试成绩,据此结果建立回归方程。如果另有一名工作人员智商为97,估计让其技术考试的成绩为多少(=0.05)?,例题,第三节 多元线性回归,回归参数的估计回归方程的显著性检验 拟合度检验 F检验回归系数的显著性检验多元线性回归方程的预测应用多元回归方程时存在的潜在问题回归分析实例,多元线性回归:一个因变量,两个以上自变量如:y-某公司的销售额,x1-广告宣传费;x2-个人可支配收入;x3-产品价格;x4-研究与发展费用;x5-各种投资;x6-销售费用。Y与多个自变量x1,x2,x3,x4,x5,x6有关,属于多元线性回归问题。,1.多元回归一般形式设随机变量y与一般变量x1,x2,xp的线性回归模型为:y=0+1x1+2x2+kxk+0,1,2,k 结构参数参数,也称回归系数;y-被解释变量(因变量);x1,x2,xp解释变量(自变量),可精确测量并可控制;随机误差,并假定,多元线性回归模型,二元线性回归参数的最小二乘估计,y=0+1x1+2x2+,求解正规方程组即可得到回归系数,k元线性回归参数的最小二乘估计,y=0+1x1+2x2+kxk+,求解正规方程组即可得到回归系数,例题,某地区10个零售企业资料如下,试建立回归直线,1.拟合度检验:回归方程对样本观测值的拟合程度,回归方程的显著性检验,3.回归系数的显著性检验多元线性回归中,回归方程显著并不意味着每个自变量对y的影响是显著的。所以要对每个i进行显著性检验。,多元线性回归方程的预测,1、共线性 x1,x2,xp之间存在密切的线性关系,称它们之间存在着多重共线性(Multi-collinearity)。此时对回归系数的估计不稳定。2、因果关系 回归分析能表现出变量彼此关联或有联系,但不能证明其因果关系。要确定x与y存在因果关系,必须有很强的逻辑性或理论性的基础。即使有很强的逻辑性和统计相关性,也只是表明可能存在因果关系。3、回归系数的大小 只有在计量单位相同或数据标准化的情况下,与各自变量相联系的回归系数大小才能直接比较。4、样本容量R2受n对于自变量个数p的影响。一般观测数n至少等于自变量个数p的1015倍。,应用多元回归方程时存在的潜在问题,回归分析结果:R0.857,R20.7495,调整R2 0.743F(5,194)116.09,p0.001,估计标准差:1.4863p0.001表明回归方程有意义。所有自变量整体对因变量具有预测作用,它们之间具有线性关系。R2 0.743表明消费者愿意支付价格的变异中有74.3可以被5个自变量或预测变量的变异所解释。,自变量对因变量的影响除音质不显著外,其余都显著。从BETA一列可以看出,影响大小依次为:移动性、平均月缴费、覆盖面、远距离收发能力。最不重要的是音质。,