欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    应用统计学-相关与回归分析.ppt

    • 资源ID:5723695       资源大小:525.50KB        全文页数:52页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    应用统计学-相关与回归分析.ppt

    第七章,1.相关关系,相关与回归,一、相关关系的概念,现象之间的数量关系存在着两种不同的类型:一种是函数关系,另一种是相关关系。,函数关系指的是变量之间存在着的严格的依存关系,它们之间的关系值是固定的,对于某一变量的每一个值,都有另一个变量的完全确定的值与之相对应。,例如,圆的面积等于圆周率乘以半径的平方。,相关关系是指变量之间确实存在的但关系值不固定的相互依存关系。在这种关系中,当一个(或几个)变量的值确定以后,另一个变量的值虽与它(或它们)有关,但却不能完全确定。这是一种非确定性的关系。,例如,电视机的拥有率与人均收入水平有关,但对于人均收入水平相同的地区,其电视机的拥有率可能不尽相同。,在客观事物中,尤其是在经济现象中,相关关系普遍存在。统计很有必要对这种关系进行研究。,在相关关系中,通常,在相互联系的现象之间存在着一定的因果关系,这时就把其中的起着影响作用的现象具体化,通过一定的变量反映出来,这样的变量称为自变量。,由于受到自变量变动的影响而发生变动的变量称为因变量。,在相关关系中,有时两个变量之间只存在相互联系而并不存在明显的因果关系。确定哪一个是自变量,哪一个是因变量,主要决定于研究的目的。,例如,在粮食亩产量与施肥量之间,施肥量这一变量是自变量,亩产量这一变量是因变量。,当研究的是两个变量之间的关系时,通常以符号X表示自变量,以符号Y表示因变量。,二、相关关系的种类,相关关系从不同的角度可以划分成不同的类型。,(一)正相关与负相关,从相关的方向看,相关关系可以分为正相关和负相关。,负相关是指相关变量之间的变化趋势相反,即当自变量的值增加,因变量的值随之减少;当自变量的值减少,因变量的值随之增加。,例如,产品产量与单位产品成本之间的关系。,正相关是指相关变量之间的变化趋势相同,即当自变量的值增加,因变量的值也随之增加;当自变量的值减少,因变量的值也随之减少。,例如,汽车的使用年限与汽车的修理费用之间的关系。,(二)线性相关与非线性相关,从相关的形式上来看,相关关系可分为线性相关和非线性相关。,线性相关也称直线相关,是指相关的两个变量之间变化的趋势呈线性或近似于线性。即自变量发生变动,因变量随之发生变动,其增加或减少量是大致均等的,从图形上看,其观察点的分布近似表现为直线形式。,非线性相关也称曲线相关,是指相关的两个变量之间变化的趋势呈非线性。即自变量发生变动,因变量随之发生变动,但其增加或减少量不是均等的,从图形上看,其观察点的分布表现为各种曲线形式。,(三)单相关和复相关,从相关变量的个数来看,相关关系可分为单相关和复相关。,单相关是指两个变量之间的相关关系。,复相关是三个或三个以上变量之间的相关关系。,例如,仅仅考虑施肥量对产量的影响,这就是一种单相关;如果除了施肥量之外,再考虑降雨量及深耕程度对产量的影响,则这种相关关系就是一种复相关。,三、回归与相关分析的概念,在对变量之间存在的相关关系进行分析研究时,最常用的方法就是回归分析和相关分析。回归分析和相关分析是相互联系的,它们从不同方面研究变量之间相关关系的本质。,回归分析是用来研究变量之间关系的可能形式的统计方法。它把两个或两个以上变量之间的变动关系加以模型化,用数学函数表达变量之间的关系。运用这种方法时,最终的目的通常在于预测或估计与某一个或某几个变量的给定值相对应的另一变量的数值。,相关分析是研究如何计量变量之间关系强度的统计方法。它能确定变量之间相关的程度,即变量之间某种关系的确切程度有多大。,回归分析和相关分析既有联系,又有区别。就其研究对象来说,两者都是研究变量之间的相关关系。但就彼此研究变量之间关系的性质来看,两者存在明显的区别。回归分析中,必须将相关变量区分为自变量和因变量,以确定其关系的可能形式,所研究变量属于非对等关系。相关分析中,计量变量之间关系的强度,不必区分自变量与因变量,所研究变量属于对等的关系。,四、相关图表,对现象变量之间是否存在相关关系以及存在怎样的相关关系进行分析、作出判断,这是进行回归和相关分析的前提。通过编制相关表和相关图,可以直观地、大致地判断现象变量之间是否存在相关关系以及关系的类型。,(一)相关表,相关表是表现现象变量之间相关关系的表格。,例如,为研究商店人均月销售额和利润率的关系,调查10家商店取得10对数据,以人均销售额为自变量,利润率为因变量,编制简单相关表如下表。,人均销售额与和利润率相关表,编号,人均月销售额(千元),利润率(),1,2,3,4,5,6,7,8,9,10,1,3,3,4,5,6,6,7,7,8,3.0,6.2,6.6,8.1,10.4,12.6,12.3,16.3,16.8,18.5,(二)相关图,所谓相关图,是把相关的两个变量之间的关系在平面直角坐标(第一象限)中反映出来。通常将自变量(x)置于横轴上,因变量(y)置于纵轴上,而将两个变量相对应的变量值用坐标点形式描绘出来。相关图就是用相关点的分布状况来描述相关关系的,所以又称为散点图。根据相关图,可以直观地看出变量之间相关关系的模式。,例如,前述人均月销售额与利润率的关系,可用相关图表示如下:,从图中,我们可以清楚地看出,这两个变量之间相关的方向(即正相关)以及相关的具体形式(直线相关),(e)较分散的反直线关系,(d)反曲线关系,(f)没有关系,x与y的一些可能关系的散点图,上图说明了相关图中的一些可能关系。图(a)和(b)表示的是正的和反的直线关系,即正线性相关和负线性相关。图(c)和(d)分别表示的是正的和反的曲线关系,即正非线性相关和负非线性相关。图(e)中是散布域很宽的反直线关系。散布域越宽,则表明变量之间的联系程度越差。图(f)中的图象表明两个变量之间没有什么关系。,2.简单线性回归,一、回归直线的确定,如果变量x和y相关,并且从相关图表中可以看出它们之间大致形成一种直线关系,我们就可在相关图上求出一条与各点最相配合的直线。,由于这些点所代表的若干对数据观察值,只是相互有一定关系的变量x、y的总体中的一个样本,故这样求出的直线是总体回归直线的估计线。在估计线上的点的纵坐标是相应于x的y的估计值。,这叫做样本回归直线。它是y对x的回归线,表明y对x的平均关系。,式中x为受控制的自变量,通常由研究者事先选定数值。,a为样本回归直线y的截距,它是样本回归直线通过纵轴的点的y坐标;,b为样本回归直线的斜率,它表示当x增加一个单位时y的平均增加数量,b又称回归系数。,如何确定回归直线方程呢?也就是说怎样确定方程中的参数a、b呢?,若用(xi,yi)(i=1,2,n)表示n组观察值,则对任意给定的xi,可得y的估计值为,这些数值同实际值yi之间存在着误差;,Q(a,b)=2=(yabx)2,为最小。这样便把寻找适当直线问题转化为使 Q(a,b)达到最小条件下求出a、b的问题。,因为Q(a,b)是a、b的非负二元函数,所以其最小值无疑是存在的。根据数学中的极值原理,令:,满足上述条件的a、b即为所求的未知参数。,由,化简得,(yabx)=0,(yabx)x=0,即:,y=na+bx,xy=ax+bx2,上述方程组称为标准方程组。解之,得:,因此即可确定回归方程式为:,这个方程称为在给定样本条件下的一元线性回归方程,对应的直线称为样本回归直线。显然,回归方程对于不同的样本是有差别的,因而,它具有经验的特征,所以在实用上,也将它叫做经验公式。,为了简化上述回归系数b的表达形式,引入如下离差乘积的和式:,于是,回归系数可简化为,为了相关性检验的需要,顺便引入关于 y 的离差平方和:,求回归方程式的系数往往是通过列表进行的。这里,我们以下表资料为倒,通过求某钢铁厂炼钢精炼时间对含碳量的回归方程,说明回归方程的确定。,1,0.9,100,10,2,3,4,5,6,7,8,9,2.0,1.0,1.2,1.4,1.5,1.6,1.7,1.8,1.9,105,235,130,145,170,175,190,190,220,可以看出,x与 y之间的关系近似为直线关系。我们可以对其配合一条回归直线。,为计算回归方程的系数a、b,我们先对原始数据进行加工。,y,x2,y2,xy,100,105,130,145,170,175,190,190,220,235,0.81,1.00,1.44,1.96,2.25,2.56,2.89,3.24,3.61,4.00,10000,11025,16900,21025,28900,30625,36100,36100,48400,55225,90,105,156,203,255,280,323,342,418,470,1660,23.76,294300,2642,于是:,所以:,故精炼时间关于含碳量的回归方程为:,计算结果表明,这个方程显示着钢水溶液的含碳量每增加0.1%,则精炼时间平均来说大约要延长12.06分。,根据回归方程,可以给出自变量的任一数值估计或预测因变量的平均可能值。,例如,求含碳量2.2%所需的精炼时间:,二、估计平均误差,回归方程的一个重要作用在于根据自变量的已知值估计因变量的可能值。这个估计值和真正的实际值可能一致,也可能不一致。例如,当含碳量为1.8%时,推算的炼钢时间为202.19分钟,而实际为190分钟,相差12.19分钟。这就产生了估计公式即回归方程的可靠性问题,也就是说,根据回归方程计算的估计值,其代表性如何?,为了度量估计公式即回归方程的可靠性,通常计算估计平均误差。估计平均误差度量观察值回绕着回归直线的变化程度或分散程度。通常用Sy代表估计平均误差,其计算公式为:,注意,公式中根号内的分母是n2,而不是n。这是由于Q=(yy)2有两个线性关系的约束,一是,一是,因而,Q=(yy)2的自由度为n2。,当实际观测值很多,而且数值较大时,根据上述公式计算估计平均误差十分麻烦。借助下列公式,可以简化计算步骤,所得计算结果也相一致。,估计平均误差是一个衡量回归方程代表性大小的分析指标。估计平均误差愈大,则数据点围绕回归直线的分散程度就愈大,回归方程的代表性愈小。估计平均误差愈小,则数据点围绕回归直线的分散程度愈小,回归方程的代表愈大,其可靠性愈高。,3.相关系数,相关分析是用以说明变量之间相关程度的统计工具。相关分析常常与回归分析联合使用,以衡量回归方程所表示的因变量变化的精确度如何。相关分析也可单独用于衡量变量之间的联系程度。本节我们讨论两个变量之间线性相关程度问题。两个变量之间线性相关程度的描述通常采用相关系数。,一、相关系数的意义,记,于是有:Q=Lyy(1r2),r称为相关系数。它是在线性相关条件下用来说明两个变量之间相关关系密切程度的指标。,因为Q0,Lyy0,故相关系数有一个重要性质:,r 1,r=1,(1),1 r=0,(2),r=0,(3),r=0,(4),0r1,(5),r=1,(6),相关图与相关系数经验关系,由于Lyy对于一组实测数据来讲是定值,故由QLyy(1r2)可知,当r较大接近于1时,离差平方和Q就较小而接近于0,此时,y与x高度相关。特别当r=1时,称它们是完全相关的,上图(1)、(6)所示。当r较小而接近于0时,Q就大,y与x的相关关系很弱,特别当 r=0时,称它们线性无关。如上图(3)、(4)所示,由于Lxy可正可负,所以相关系数r也可正可负。若r0则称y与x正相关,如上图(5)、(6)所示。此时,随着x的增大(或减小),y将呈现增大(或减小)的趋势。特别对于上图(6)的情形,由于r=1,故称完全正相关。若r0,则称y与x负相关,如上图(1)、(2)所示。此时,随着x的增大(或减小),y将呈现减小(或增大)的趋势。特别对于图(1)的情形。由于r=1,故称为完全负相关。,应当注意,相关系数r只表明x与y之间的线性关系的密切程度和方向。当r很小甚至为0时,只表明x与y之间的线性关系不密切,或不存在线性关系,并不表示x与y之间就没有关系,可能二者之间有非线性关系。如上图(4)所示,x与y之间就存在着曲线关系。,二、相关系数的计算,我们已经知道,相关系数的公式为:,第二节中我们介绍了离差乘积的和式:,于是有:,如果将分子分母同乘以n,又可得:,根据第二节中炼钢厂钢液含碳量与精炼时间资料,可计算相关系数。那里,我们已经求得:,于是其相关系数为:,计算得出r=0.9892,表明精炼时间和含碳量之间为正相关关系。而且r值接近于1,表示两者关系很密切。,三、线性相关的显著性检验,回归方程在一定程度上揭示了变量之间的内在联系,但它所揭示的规律性是否显著?只有当相关系数r的绝对值大到一定程度时,用回归直线表示x与y之间的关系,并说明相关系数 r显著,配置回归直线才有意义。,那么r究竟大到多大时,x与y之间才存在线性关系,配置回归直线才有意义呢?,为了给出相关系数的定量刻划,相关系数显著性检验表给出了显著性水平a为0.10,0.05,0.02,0.01,0.001时的临界值。如果相关系数观测值r大于相应的临界值,则认为y与x的线性相关关系是显著的,配置回归直线有意义。否则便认为y与x的线性相关关系不显著。,查表时,使用的自由度为nm1。其中n为样本容量,m为参与试验的因素个数,因而,在一元回归场合下查表用自由度为n2。,对于第二节中的资料,我们算得相关系数r=0.9892。,若a=0.01,查表得临界值:,r(0.01;102)=0.7646,0.9892r(0.01;10 2),所以,第二节中求得的回归方程所表达的精炼时间y与钢液含碳百分比之间的线性关系对于a=0.01是显著的,也就是说配置的回归方程有意义。这种显著性通常称为高度显著。,

    注意事项

    本文(应用统计学-相关与回归分析.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开