欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    回归和相关分析.ppt

    • 资源ID:5947465       资源大小:580.50KB        全文页数:45页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    回归和相关分析.ppt

    第 九 章 相 关 与 回 归,主要内容,一 线性相关 二 秩相关 三 分类变量的关联性分析,一 线性相关的概念 线性相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由散点图直观的说明。目的:研究 两个变量X,Y数量上的依存(或相关)关系。特点:统计关系,二、相关系数的意义与计算,1.意义:相关(correlation coefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。,2.计算:样本相关系数的计算公式为,例-某地15名3岁儿童体重与体表面积资料如表9.1,试求相关系数。由例-得 由公式得,相关系数的特点,1.相关系数r是一个无量纲的数值,且-10为正相关,r0为负相关;3./r/越接近于1,说明相关性越好./r/越接近于0,说明相关性越差.,相关系数的统计推断,(一)相关系数的假设检验,例9-2 继例9-1中算得r=-0926后,试检验相关是否具有统计学意义,检验步骤,本例 n=15,r=-0.926,由公式(11-4)和公式(9-5)得,本例,查 界值表得,故拒绝 接受,认为凝血酶浓度与凝血酶时间之间存在负相关。此结果与查表的结果是一致的。,线性相关中应注意的问题,1.样本的相关系数接近零并不意味着两变量间一定无相关性.2.一个变量的数值人为选定时莫作相关.3.出现异常值时甚用相关.4.相关未必真有内在联系.5.分层资料盲目合并易出假象.,简单回归分析Simple linear regression analysis,双变量计量资料:每个个体有两个变量值 总体:无限或有限对变量值 样本:从总体随机抽取的n对变量值(X1,Y1),(X2,Y2),(Xn,Yn)目的:研究X和Y的数量关系 方法:回归与相关 简单、基本直线回归、直线相关,简单回归分析,直线回归的概念,目的:研究应变量Y对自变量X的数量依 存关系。特点:统计关系。X值和Y的均数的关系不同于一般数学上的X 和Y的函数关系,为了直观地说明直线回归的概念,以15名健康人凝血酶浓度(X)与凝血时间(Y)数据(表-1)进行回归分析,得到图-1所示散点图(scatter plot),由图-可见,凝血时间随凝血酶浓度的增加而减低且呈直线趋势,但并非所有点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫直线回归方程,以区别严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。,样本线回归方程,为各X处Y的总体均数的估计。,简单线性回归模型,1a 为回归直线在 Y 轴上的截距,2.b为回归系数,即直线的斜率,b 的统计学意义是:X 每增加(减)一个单位,Y 平均改变b个单位,残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。,原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小,回归参数的估计最小二乘原则,Y的离均差,总变异,残差,回归的变异,回归参数的估计方法,简单回归分析,为了直观地说明直线回归的概念,以15名健康人凝血酶浓度(X)与凝血时间(Y)数据(表-1)进行回归分析,得到图-1所示散点图(scatter plot),简单回归分析,简单回归分析,本例:n=15 X=14.7 X2=14.81 Y=224 XY=216.7 Y2=3368,简单回归分析,回归方程的假设检验,建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有?,1方差分析,Y的离均差,总变异,残差,回归的变异,第二 节 线性回归的应用(估计和预测),反映其抽样误差大小的标准误为,例9-1中,第一观测值X1=1.1,0.4994,0.404,代入(9.8)式获得第一观测点X1对应的 的标准误为 0.1599Y的总体均数的95%置信区间为 14.0957(2.16)(0.1599)(13.7502,14.4412),以上是给定某一X值时所对应的总体均数的置信区间。当同时考虑X的所有可能取值时,总体均数的点估计就是根据样本算得的回归直线(1-)置信区间的上下限连起来形成一个弧形区带,称为回归直线的(1-)置信带(confidence band)。同样,因为其标准误是X的函数,所以在均数()点处置信带宽度最小,越远离该均数点,置信带宽度越大。,图9-4中,左图显示位于最小二乘回归线上下两侧的两条弧形虚线为总体回归线的(1-)置信区带。右图的实线表示可能的总体回归线,它们落在弧形虚线所确定的置信带内。(1-)置信带的意义是:在满足线性回归的假设条件下,可以认为真实的回归直线落在两条弧形曲线所形成的区带内,置信度为(1-),PI,CI,决定系数(coefficient of determination),定义为回归平方和与总平方和之比,计算公式为:,取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。,直线回归应用的注意事项,直线回归用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分析。,1根据分析目的选择变量及统计方法,2进行回归分析前应绘制散点图,(1)散点图可考察两变量是否有直线趋势;(2)可发现异常点(outlier)。,散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。,3资料的要求,直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量;对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X,一般情况下两个回归方程不相同)。,反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P值。P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。,4结果解释及正确应用,谢谢大家!,

    注意事项

    本文(回归和相关分析.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开