欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPTX文档下载  

    回归分析思路ppt课件.pptx

    • 资源ID:2080097       资源大小:534.07KB        全文页数:45页
    • 资源格式: PPTX        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    回归分析思路ppt课件.pptx

    回归方法的分析思路,冯国双,回归家族,线性回归Logistic回归Poisson回归负二项回归Weibull回归Cox回归分位数回归Tobit回归,研究目的,比较组间差异寻找危险因素数据分类发展趋势预测,数据类型/分布,线性回归Logistic回归Poisson回归Cox回归Tobit回归Weibull回归Gamma回归,因变量为连续资料,因变量为分类资料,因变量为计数资料,因变量为生存资料,因变量为截取资料,服从Weibull分布,服从gamma分布,应用条件检查,线性回归:线性(linearity)可简单通过绘制散点图来观察独立性(independent)通常可根据专业知识来判断正态性(normality)可绘制残差的正态概率图,或对残差进行正态性检验等方差性(equal variance)可通过绘制残差与因变量预测值的散点图来观察,应用条件检查,Logistic回归独立性线性:logit P与自变量满足线性有序logistic回归/累积比数logit模型需满足比例优势假定条件(Proportional odds assumption),应用条件检查,Cox回归需满足等比例风险假定条件(Proportional hazards assumption),应用条件检查,不满足条件怎么办?线性回归:线性不满足:非线性回归,广义可加模型独立性不满足:多水平模型,空间回归模型正态性不满足:变量变换,非参数回归,分位数回归等方差性不满足:加权最小二乘回归,gamma回归,应用条件检查,不满足条件怎么办?累积比数logit模型:不满足比例优势假定:偏比例优势模型Cox回归:不满足等比例风险假定:非等比例Cox回归,应用条件检查,其它常用替代方法:Tobit回归:解决因变量超出某一界限无法测量的问题如:某实验室检测指标,一旦超出1000,便检测不出结果,只能用大于1000表示工资的纳税,低于一定值,没有纳税某问卷调查中,询问去年每周性生活频率(1)完全没有(2)3次,应用条件检查,其它常用替代方法:零膨胀Poisson回归(zero-inflated Poisson)可用于计数资料中含有大量0值的情形如:吸烟数量,很多人不吸烟,记为0,吸烟的人才开始记录为1、2、3、,应用条件检查,其它常用替代方法:竞争风险模型(competing risk model)用于生存分析中出现结局以外的其它事件的情形如:观察胃癌发生的影响因素,结局为胃癌发生,但中间可能会出现其它结局,如其它疾病所致的死亡,进入分析阶段,自变量形式审查:检查自变量与因变量或因变量的变换形式(如logit)之间是否为线性关系,进入分析阶段,关于自变量的形式理论上,回归分析中的自变量可以使任何形式,定量资料和定性资料均可。实际中分析数据时,可结合专业解释角度,对自变量的取值和形式进行适当调整。如logistic回归、Poisson回归等更倾向于自变量以分类的形式进入方程,主要出于解释方便的原因。,分析阶段,单因素分析是否一定要做单因素分析?(一直有争议)自变量较多时,排除意义不大的变量初步探索每一自变量与因变量的大致关系,分析阶段,多因素分析寻找所谓的“独立预后”因子多因素分析的变量筛选原则:“少而精”原则,尽量保留所有对因变量有影响的变量,尽可能地剔除掉可有可无的变量,分析阶段,最常遇到的问题:单因素分析和多因素分析结果差别较大,地区、温度对手足口发病率的单因素分析结果 Parameter StandardVariable DF Estimate Error t Value Pr|t|district 1 12.51083 7.84584 1.59 0.1251temp 1 1.41579 0.19707 7.18|t|district 1 13.56288 3.57262 3.80 0.0011temp 1 1.43461 0.15541 9.23.0001提示:城市的平均温度高于农村(13.29 vs 12.56),分析阶段,分析阶段,变量筛选技术前进法、后退法、逐步法、最优子集法有人称为数据驱动过程(data-driven procedure)只要你对数据严刑拷打,它总会招供!,分析阶段,选择不同的参数检验方法似然比检验得分检验(score test)/拉格朗日乘数检验/求导检验Wald 2检验,分析阶段,考虑交互效应交互效应的分析应以专业为主!如果交互效应有意义,关注点就不再是变量的主效应,而是变量之间的交互效应,回归模型评价,通用指标R2反映自变量对因变量的解释能力,值越大,表示自变量对因变量的解释能力越强校正R2 对决定系数的修正,当加入无意义变量时,该值反而会有所降低AIC增加了对自由度的“惩罚”,可用于嵌套或非嵌套模型的比较。SCAIC的一种修正方法,对自由度的“惩罚”力度不同BIC贝叶斯信息准则,基于似然比的一种指标残差residual反映了模型预测值与实际值差别的大小,其值越小,表示模型拟合效果越好,回归模型评价,Logistic回归、Poisson回归等Pearson 2 比较预测值和观测值的差别。若2值很小,意味着观测值和预测值无“显著差别”,模型很好地拟合了数据。反之,若2值很大,统计检验便有“显著差别”,提示拟合了不佳的模型。Deviance比较饱和模型和现有模型的差别。该值越大,表示现有模型与饱和模型的偏差越大,拟合效果越差。,回归诊断,1.多重共线性(multi-collinearity)通俗讲即自变量之间存在高度相关诊断指标(多数回归通用):方差扩大因子(Variance Inflation Factor,VIF),指由于共线性所导致的参数估计值的方差增加量,当VIF大于10,通常表示共线性很强容忍度(Tolerance,TOL),方差扩大因子VIF的倒数。当TOL小于0.1,通常表示共线性很强条件指数(condition index),最大条件指数即条件数大于10,可能存在共线性;大于30,可能存在严重共线性,回归诊断,Parameter Standard VarianceVariable DF Estimate Error t Value Pr|t|Tolerance InflationIntercept 1-19.81963 9.54699-2.08 0.0430.0age 1 0.16384 0.07392 2.22 0.0311 0.91387 1.09424sbp 1 0.20371 0.06231 3.27 0.0019 0.49948 2.00208dbp 1 0.04428 0.09259 0.48 0.6345 0.50374 1.98514lwbc 1 6.81149 3.08482 2.21 0.0318 0.95559 1.04647 Condition-Proportion of Variation-Number Eigenvalue Index Intercept age sbp dbp lwbc 1 4.93648 1.00000 0.00024614 0.00097341 0.00035412 0.00044024 0.00073452 2 0.02951 12.93424 0.00020887 0.59401 0.01020 0.05172 0.06232 3 0.02374 14.41944 0.00675 0.00071741 0.05990 0.10842 0.43894 4 0.00563 29.61956 0.03024 0.01926 0.92954 0.69965 0.01194 5 0.00465 32.59568 0.96255 0.38504 0.00000203 0.13977 0.48607,回归诊断,存在多重共线性怎么办(1)根据专业情况,删除其中不重要的变量(2)采用统计学方法处理,如:主成分回归、主成分logistic回归岭回归偏最小二乘回归(partial least square regression)SAS和SPSS中均可实现,回归诊断,2.异常点 离群点(outliners)高杠杆点(high leverage points)强影响点(influential points),回归诊断,离群点(outliners)主要针对因变量而言,远离其它因变量的值。标准化残差内部学生化残差外部学生化残差通常绝对值大于2,考虑可能是离群点SPSS通常给出标准化残差SAS通常给出两个学生化残差,回归诊断,高杠杆点(high leverage points)针对自变量而言,远离其它自变量的值。H称为帽子矩阵,对角线元素为hii,度量了第i个观测的影响,反映了第i个观测与所有观测在自变量矩阵X上的平均值之间的距离根据hii值判断,通常大于(k+1)/n(k为自变量个数),提示可能是高杠杆点,回归诊断,强影响点(influential points)对模型有较大影响,包含或不包含该点可导致模型的参数估计值发生较大改变DFBETA:删除某观测值后对参数估计值的影响 标准:大于DFFITS:删除某观测值后对模型拟合的影响 标准:大于,k为自变量数,回归诊断,强影响点(influential points)CookD:杠杆值和残差的综合度量 标准:大于4/(n-k-1),k为自变量个数COVRATIO:杠杆值和残差的综合度量,受残差的影响更大 标准:|COVRATIO-1|大于3(k+1)/n,回归诊断,Dependent Predicted Std Error Std Error Student Obs Variable Value Mean Predict Residual Residual Residual-2-1 0 1 2 1 746.0000 614.4432 22.6312 131.5568 45.791 2.873|*|2 553.0000 613.5529 19.2172-60.5529 47.325-1.280|*|3 562.0000 612.7515 16.5538-50.7515 48.321-1.050|*|4 563.0000 612.7515 16.5538-49.7515 48.321-1.030|*|5 570.0000 612.5734 16.0357-42.5734 48.496-0.878|*|6 575.0000 603.1355 39.9076-28.1355 31.881-0.883|*|7 581.0000 611.5050 13.7319-30.5050 49.198-0.620|*|8 605.0000 611.4160 13.6156-6.4160 49.230-0.130|9 607.0000 611.3269 13.5126-4.3269 49.258-0.0878|10 621.0000 611.2379 13.4234 9.7621 49.283 0.198|11 624.0000 610.6146 13.2015 13.3854 49.343 0.271|12 626.0000 609.4571 14.6273 16.5429 48.939 0.338|13 632.0000 608.6558 16.7333 23.3442 48.259 0.484|14 640.0000 608.8339 16.2049 31.1661 48.439 0.643|*|15 656.0000 608.7448 16.4653 47.2552 48.352 0.977|*|,内部学生化残差,回归诊断,Cooks Hat Diag Cov-DFBETAS-Obs D RStudent H Ratio DFFITS Intercept x 1 1.008 4.5684 0.1963 0.1946 2.2578 2.1162-1.8348 2 0.135-1.3149 0.1415 1.0445-0.5339-0.4710 0.3883 3 0.065-1.0548 0.1050 1.0982-0.3614-0.2864 0.2184 4 0.062-1.0322 0.1050 1.1062-0.3536-0.2803 0.2137 5 0.042-0.8696 0.0986 1.1521-0.2875-0.2200 0.1636 6 0.610-0.8745 0.6104 2.6624-1.0947 0.9018-1.0332 7 0.015-0.6047 0.0723 1.1913-0.1688-0.0880 0.0470 8 0.001-0.1253 0.0711 1.2601-0.0347-0.0171 0.0086 9 0.000-0.0844 0.0700 1.2604-0.0232-0.0108 0.0050 10 0.001 0.1906 0.0691 1.2531 0.0519 0.0227-0.0097 11 0.003 0.2614 0.0668 1.2434 0.0699 0.0154 0.0031 12 0.005 0.3262 0.0820 1.2561 0.0975-0.0176 0.0422 13 0.014 0.4690 0.1073 1.2678 0.1626-0.0629 0.1001 14 0.023 0.6282 0.1007 1.2232 0.2102-0.0729 0.1221 15 0.055 0.9755 0.1039 1.1243 0.3322-0.1219 0.1989,外部学生化残差,回归诊断,存在异常点怎么办(1)根据专业情况,考虑是否可以删除(2)采用统计学方法处理,如:稳健回归分位数回归SAS中可实现,回归诊断,3.空单元(zero cell count)主要发生在logistic回归分析中即自变量各水平的交叉列联表中有些单元(格子)的观测频数为0。此时易产生一个0或的OR值,使相应变量的作用无法合理解释。可分为结构性空单元和抽样性空单元解决方法:增大样本量采用确切logistic回归(exact logistic),回归诊断,Standard Wald Parameter DF Estimate Error Chi-Square Pr ChiSqchc 1 13.3772 260.3 0.0026 0.9590 Odds Ratio Estimates Point 95%WaldEffect Estimate Confidence Limitschc 999.999 999.999 确切logistic回归分析结果 95%ConfidenceParameter Estimate Limits p-Valuechc 12.691*1.880 Infinity 0.0058,回归诊断,4.完全分离(complete separation)主要发生在logistic回归中若自变量 存在一临界值c,当xic时,事件发生,而xic时,则事件不发生。于是,若xi的值已知,便决定了事件发生与否。此时,因变量的两种结果在取值上无任何重迭,即所谓数据的“完全分离”。这类数据不存在最大似然估计,导致估计系数很大,尤其是标准误非常大。解决方法:增大样本量,或剔除该变量,回归诊断,Standard Wald Parameter DF Estimate Error Chi-Square Pr ChiSqchc 1 18.8198 55.7243 0.1141 0.7356 Odds Ratio Estimates Point 95%WaldEffect Estimate Confidence Limitschc 999.999 999.999 确切logistic回归分析结果 95%ConfidenceParameter Estimate Limits p-Valuechc 84.365*7.605 Infinity 0.0001,回归诊断,5.过离散(overdispersion)主要发生于logistic回归、Poisson回归等主要表现为测量方差大于期望方差,如Poisson分布的期望方差等于均值,实际估计方差大于均值,便出现过离散现象原因:重要变量未纳入、连接函数错误、异常值、共线性等解决方法:对过离散进行校正,如Pearson法、Deviance法等,回归诊断,Deviance and Pearson Goodness-of-Fit StatisticsCriterion Value DF Value/DF Pr ChiSqDeviance 47.4761 26 1.8260 0.0062Pearson 40.4986 26 1.5576 0.0348校正前校正后,再次分析,根据回归诊断结果,找出模型拟合不佳的原因,具体问题具体分析,重新拟合,重新评价。可能需要多次重复过程最终建立最佳模型,可能是多个,回归模型解释,细节问题:如何求logistic回归中的RR值对数二项分布回归(log-binomial regression)利用SAS中的proc genmod过程Breslow-Cox回归 利用SAS中的proc phreg过程,结语,回归分析近几年发展的一些方向:非独立数据分析空间滞后回归模型因果关系的推断潜变量的分析贝叶斯模型,Any questions?,一舟春风钓长河,两岸翠绿荡山歌。疑临陶翁忘返处,却是冯君信手乐。作者 冯国双配诗 陈景武,

    注意事项

    本文(回归分析思路ppt课件.pptx)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开