回归分析思路ppt课件.pptx
《回归分析思路ppt课件.pptx》由会员分享,可在线阅读,更多相关《回归分析思路ppt课件.pptx(45页珍藏版)》请在三一办公上搜索。
1、回归方法的分析思路,冯国双,回归家族,线性回归Logistic回归Poisson回归负二项回归Weibull回归Cox回归分位数回归Tobit回归,研究目的,比较组间差异寻找危险因素数据分类发展趋势预测,数据类型/分布,线性回归Logistic回归Poisson回归Cox回归Tobit回归Weibull回归Gamma回归,因变量为连续资料,因变量为分类资料,因变量为计数资料,因变量为生存资料,因变量为截取资料,服从Weibull分布,服从gamma分布,应用条件检查,线性回归:线性(linearity)可简单通过绘制散点图来观察独立性(independent)通常可根据专业知识来判断正态性(n
2、ormality)可绘制残差的正态概率图,或对残差进行正态性检验等方差性(equal variance)可通过绘制残差与因变量预测值的散点图来观察,应用条件检查,Logistic回归独立性线性:logit P与自变量满足线性有序logistic回归/累积比数logit模型需满足比例优势假定条件(Proportional odds assumption),应用条件检查,Cox回归需满足等比例风险假定条件(Proportional hazards assumption),应用条件检查,不满足条件怎么办?线性回归:线性不满足:非线性回归,广义可加模型独立性不满足:多水平模型,空间回归模型正态性不满足
3、:变量变换,非参数回归,分位数回归等方差性不满足:加权最小二乘回归,gamma回归,应用条件检查,不满足条件怎么办?累积比数logit模型:不满足比例优势假定:偏比例优势模型Cox回归:不满足等比例风险假定:非等比例Cox回归,应用条件检查,其它常用替代方法:Tobit回归:解决因变量超出某一界限无法测量的问题如:某实验室检测指标,一旦超出1000,便检测不出结果,只能用大于1000表示工资的纳税,低于一定值,没有纳税某问卷调查中,询问去年每周性生活频率(1)完全没有(2)3次,应用条件检查,其它常用替代方法:零膨胀Poisson回归(zero-inflated Poisson)可用于计数资料
4、中含有大量0值的情形如:吸烟数量,很多人不吸烟,记为0,吸烟的人才开始记录为1、2、3、,应用条件检查,其它常用替代方法:竞争风险模型(competing risk model)用于生存分析中出现结局以外的其它事件的情形如:观察胃癌发生的影响因素,结局为胃癌发生,但中间可能会出现其它结局,如其它疾病所致的死亡,进入分析阶段,自变量形式审查:检查自变量与因变量或因变量的变换形式(如logit)之间是否为线性关系,进入分析阶段,关于自变量的形式理论上,回归分析中的自变量可以使任何形式,定量资料和定性资料均可。实际中分析数据时,可结合专业解释角度,对自变量的取值和形式进行适当调整。如logistic
5、回归、Poisson回归等更倾向于自变量以分类的形式进入方程,主要出于解释方便的原因。,分析阶段,单因素分析是否一定要做单因素分析?(一直有争议)自变量较多时,排除意义不大的变量初步探索每一自变量与因变量的大致关系,分析阶段,多因素分析寻找所谓的“独立预后”因子多因素分析的变量筛选原则:“少而精”原则,尽量保留所有对因变量有影响的变量,尽可能地剔除掉可有可无的变量,分析阶段,最常遇到的问题:单因素分析和多因素分析结果差别较大,地区、温度对手足口发病率的单因素分析结果 Parameter StandardVariable DF Estimate Error t Value Pr|t|distri
6、ct 1 12.51083 7.84584 1.59 0.1251temp 1 1.41579 0.19707 7.18|t|district 1 13.56288 3.57262 3.80 0.0011temp 1 1.43461 0.15541 9.23.0001提示:城市的平均温度高于农村(13.29 vs 12.56),分析阶段,分析阶段,变量筛选技术前进法、后退法、逐步法、最优子集法有人称为数据驱动过程(data-driven procedure)只要你对数据严刑拷打,它总会招供!,分析阶段,选择不同的参数检验方法似然比检验得分检验(score test)/拉格朗日乘数检验/求导检验
7、Wald 2检验,分析阶段,考虑交互效应交互效应的分析应以专业为主!如果交互效应有意义,关注点就不再是变量的主效应,而是变量之间的交互效应,回归模型评价,通用指标R2反映自变量对因变量的解释能力,值越大,表示自变量对因变量的解释能力越强校正R2 对决定系数的修正,当加入无意义变量时,该值反而会有所降低AIC增加了对自由度的“惩罚”,可用于嵌套或非嵌套模型的比较。SCAIC的一种修正方法,对自由度的“惩罚”力度不同BIC贝叶斯信息准则,基于似然比的一种指标残差residual反映了模型预测值与实际值差别的大小,其值越小,表示模型拟合效果越好,回归模型评价,Logistic回归、Poisson回归
8、等Pearson 2 比较预测值和观测值的差别。若2值很小,意味着观测值和预测值无“显著差别”,模型很好地拟合了数据。反之,若2值很大,统计检验便有“显著差别”,提示拟合了不佳的模型。Deviance比较饱和模型和现有模型的差别。该值越大,表示现有模型与饱和模型的偏差越大,拟合效果越差。,回归诊断,1.多重共线性(multi-collinearity)通俗讲即自变量之间存在高度相关诊断指标(多数回归通用):方差扩大因子(Variance Inflation Factor,VIF),指由于共线性所导致的参数估计值的方差增加量,当VIF大于10,通常表示共线性很强容忍度(Tolerance,TOL
9、),方差扩大因子VIF的倒数。当TOL小于0.1,通常表示共线性很强条件指数(condition index),最大条件指数即条件数大于10,可能存在共线性;大于30,可能存在严重共线性,回归诊断,Parameter Standard VarianceVariable DF Estimate Error t Value Pr|t|Tolerance InflationIntercept 1-19.81963 9.54699-2.08 0.0430.0age 1 0.16384 0.07392 2.22 0.0311 0.91387 1.09424sbp 1 0.20371 0.06231 3.
10、27 0.0019 0.49948 2.00208dbp 1 0.04428 0.09259 0.48 0.6345 0.50374 1.98514lwbc 1 6.81149 3.08482 2.21 0.0318 0.95559 1.04647 Condition-Proportion of Variation-Number Eigenvalue Index Intercept age sbp dbp lwbc 1 4.93648 1.00000 0.00024614 0.00097341 0.00035412 0.00044024 0.00073452 2 0.02951 12.9342
11、4 0.00020887 0.59401 0.01020 0.05172 0.06232 3 0.02374 14.41944 0.00675 0.00071741 0.05990 0.10842 0.43894 4 0.00563 29.61956 0.03024 0.01926 0.92954 0.69965 0.01194 5 0.00465 32.59568 0.96255 0.38504 0.00000203 0.13977 0.48607,回归诊断,存在多重共线性怎么办(1)根据专业情况,删除其中不重要的变量(2)采用统计学方法处理,如:主成分回归、主成分logistic回归岭回归
12、偏最小二乘回归(partial least square regression)SAS和SPSS中均可实现,回归诊断,2.异常点 离群点(outliners)高杠杆点(high leverage points)强影响点(influential points),回归诊断,离群点(outliners)主要针对因变量而言,远离其它因变量的值。标准化残差内部学生化残差外部学生化残差通常绝对值大于2,考虑可能是离群点SPSS通常给出标准化残差SAS通常给出两个学生化残差,回归诊断,高杠杆点(high leverage points)针对自变量而言,远离其它自变量的值。H称为帽子矩阵,对角线元素为hii,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 分析 思路 ppt 课件

链接地址:https://www.31ppt.com/p-2080097.html