回归分析线性回归Logistic回归对数线性模型.ppt
《回归分析线性回归Logistic回归对数线性模型.ppt》由会员分享,可在线阅读,更多相关《回归分析线性回归Logistic回归对数线性模型.ppt(71页珍藏版)》请在三一办公上搜索。
1、1,回归分析线性回归Logistic回归对数线性模型,吴喜之,2,回归分析,顾客对商品和服务的反映对于商家是至关重要的,但是仅仅有满意顾客的比例是不够的,商家希望了解什么是影响顾客观点的因素以及这些因素是如何起作用的。一般来说,统计可以根据目前所拥有的信息(数据)建立人们所关心的变量和其他有关变量的关系(称为模型)。假如用Y表示感兴趣的变量,用X表示其他可能有关的变量(可能是若干变量组成的向量)。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或响应变量,而X称为自变量或解释变量或协变量。建立这种关系的过程就叫做回归。,3,回归分析,一旦建立了回归模型可以对各种变量的关系有了进一步的
2、定量理解还可以利用该模型(函数)通过自变量对因变量做预测。这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它并不一定涉及时间先后的概念。,4,例1 有50个从初中升到高中的学生.为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据:highschool.sav),从这张图可以看出什么呢?,5,还有定性变量,该数据中,除了初三和高一的成绩之外,还有一个定性变量它是学生在高一时的家庭收入状况;它有三个水平:低、中、高,分别在数据中用1、2、3表示。,6,还有定性变量,下面是对三种收入对高一成绩和高一与初三成绩差的盒形图,7,例1:相关系数,8,S
3、PSS的相关分析,相关分析(hischool.sav)利用SPSS选项:AnalizeCorrelateBivariate再把两个有关的变量(这里为j3和s1)选入,选择Pearson,Spearman和Kendall就可以得出这三个相关系数和有关的检验结果了(零假设均为不相关)。,9,定量变量的线性回归分析,对例1中的两个变量的数据进行线性回归,就是要找到一条直线来最好地代表散点图中的那些点。,10,检验问题等,对于系数b1=0的检验对于拟合的F检验R2(决定系数)SSR/SST,可能会由于独立变量增加而增加(有按自由度修正的决定系数:adjusted R2),简单回归时R等于相关系数,11
4、,回到例1:R2等,12,SPSS的回归分析,自变量和因变量都是定量变量时的线性回归分析(hischool.sav)利用SPSS选项:AnalizeRegressionLinear再把有关的自变量选入Independent,把因变量选入Dependent,然后OK即可。如果自变量有多个(多元回归模型),只要都选入就行。,13,多个自变量的回归,如何解释拟合直线?,什么是逐步回归方法?,14,例子:RISKFAC.sav,不算序号和(192个)国家有21个变量包括地区(Region)、(在城镇和乡村)使用干净水的、生活污水处理的、饮酒量(litre/yearperson)、(每万人中)内科医生数
5、目、护士和助产士数、卫生工作者数、病床数、护士助产士和内科医生之比、卫生开支占总开支的、占政府开支的、人均卫生开支$、成人识字率、人均收入$、每千个出生中5岁前死亡人数、人口增长率、(男女的)预期寿命(年)、每10万生育的母亲死亡数,15,16,例子:RISKFAC.sav,该数据有许多相关的变量和许多缺失值假定要用各种变量描述每千个出生中5岁前死亡人数(因变量)可以先做两两相关也可以做定量变量的两两散点图等等或者用逐步回归淘汰变量目的在于摸清关系的底细,17,例子:RISKFAC.sav:相关,18,例子:RISKFAC.sav:逐步回归,选中女性预期寿命和农村干净水的作为自变量(第二个自变
6、量相对不那么显著pvalue=0.019),模型:女性预期寿命模型:农村干净水的,19,RISKFAC.sav:散点图及自变量相关性Pearson相关,20,RISKFAC.sav:散点图及自变量相关性非参数度量KendallSpearman,21,介绍三个检查异常点的统计量,残差(Residual).(本例用SPSS中的一种),它描述了样本点到回归直线的远近程度。杠杆值(Levarage)。它描述距离数据总体的远近。高杠杆点对回归的参数影响较大,但其残差通常较小。Cook统计量。它结合了残差和杠杆值,因此反映了残差和杠杆二者的影响(较全面),22,全模型(两个自变量:女性预期寿命和农村干净水
7、的),23,RISKFAC.sav:全模型异常点诊断:残差,96(Lesotho),23(Botswana),153(Sierra Leone),192(Zimbabwe),模型:女性预期寿命模型:农村干净水的,24,RISKFAC.sav:全模型异常点诊断高杠杆点,23(Botswana),140(Romania),192(Zimbabwe),模型:女性预期寿命模型:农村干净水的,25,RISKFAC.sav:全模型异常点诊断Cook距离,23(Botswana),96(Lesotho),192(Zimbabwe),140(Romania),模型:女性预期寿命模型:农村干净水的,26,模型1
8、因变量和自变量之一的散点图X:女性预期寿命(年)Y:每千个出生中5岁前死亡人数,27,RISKFAC.sav:只用女性预期寿命作为自变量,模型:全模型模型:农村干净水的,28,RISKFAC.sav模型1异常点诊断残差,23(Botswana),96(Lesotho),192(Zimbabwe),模型:全模型模型:农村干净水的,29,RISKFAC.sav:模型1异常点诊断高杠杆点不太突出,模型:全模型模型:农村干净水的,30,RISKFAC.sav:模型1异常点诊断Cook距离,192(Zimbabwe),96(Lesotho),23(Botswana),模型:全模型模型:农村干净水的,31
9、,模型2因变量和自变量之一的散点图X:农村干净水使用Y:每千个出生中5岁前死亡人数,32,RISKFAC.sav:只用农村净水使用,模型:全模型模型:女性预期寿命,33,140(Romania),RISKFAC.sav模型2异常点诊断残差,模型:全模型模型:女性预期寿命,34,RISKFAC.sav:模型2异常点诊断高杠杆点不太突出,模型:全模型模型:女性预期寿命,35,RISKFAC.sav:模型2异常点诊断Cook距离,140(Romania),模型:全模型模型:女性预期寿命,36,对该例子(RISKFAC.sav)的结果解释,单独用第一个自变量比单独用第二个较好模型1(相应于模型)的“异
10、常点”为一些非洲国家;它们可能不适合用这个模型。模型2(相应于模型)的“异常点”为Romania;它可能不适合用这个模型。从散点图来看,第一个模型更加线性。两个自变量的模型的“异常点”为单独模型“异常点”的混合。其实,用一个自变量就够了。这两个自变量是相关的。当然是用第一个了。可能把异常点排除后再重新建模更好。,37,自变量中有定性变量的回归,例1的数据中,还有一个自变量是定性变量“收入”,以虚拟变量或哑元(dummy variable)的方式出现;这里收入的“低”,“中”,“高”,用1,2,3来代表.所以,如果要用这种哑元进行前面回归就没有道理了.以例1数据为例,可以用下面的模型来描述:,3
11、8,自变量中有定性变量的回归,现在只要估计b0,b1,和a1,a2,a3即可。哑元的各个参数a1,a2,a3本身只有相对意义,无法三个都估计,只能够在有约束条件下才能够得到估计。约束条件可以有很多选择,一种默认的条件是把一个参数设为0,比如a3=0,这样和它有相对意义的a1和a2就可以估计出来了。对于例1,对b0,b1,a1,a2,a3的估计分别为28.708,0.688,-11.066,-4.679,0。这时的拟合直线有三条,对三种家庭收入各有一条:,39,例子:RISKFAC.sav:因变量:成人识字率,自变量:区域(属性变量)、人口增长率、人均收入,40,41,SPSS实现(hischo
12、ol.sav),AnalyzeGeneral linear modelUnivariate,在Options中选择Parameter Estimates,再在主对话框中把因变量(s1)选入Dependent Variable,把定量自变量(j3)选入Covariate,把定量因变量(income)选入Factor中。然后再点击Model,在Specify Model中选Custom,再把两个有关的自变量选入右边,再在下面Building Term中选Main effect。Continue-OK,就得到结果了(系数和检验等),42,SPSS Syntax:UNIANOVA s1 BY inco
13、me WITH j3/METHOD=SSTYPE(3)/INTERCEPT=INCLUDE/CRITERIA=ALPHA(.05)/DESIGN=income j3.,43,注意,这里进行的线性回归,仅仅是回归的一种,也是历史最悠久的一种。但是,任何模型都是某种近似;线性回归当然也不另外。它被长期广泛深入地研究主要是因为数学上相对简单。它已经成为其他回归的一个基础。总应该用批判的眼光看这些模型。,44,例2 这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.sav).年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而(定性)变量“观点”则为包含认可(用1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 分析 线性 Logistic 对数 模型
链接地址:https://www.31ppt.com/p-6557828.html