《多元线回归》PPT课件.ppt
第二章 多元线性回归(multiple linear regression),第一节相关和回归第二节一元线性回归模型第三节多元线性回归模型第四节方程的解释能力第五节回归方程的检验和回归系数的推断统计第六节虚拟变量的应用第七节多重共线性及其解决方案第八节计算机应用第九节研究实例,参见郭志刚主编,社会统计分析方法SPSS软件应用第二章,中国人民大学出版社1999,第一节 相关和回归,一、相关统计量用一个数值表示两个变量间的相关程度(无单位度量)(-1+1),解读,X与y的相关系数为0.6,x与z的相关系数为0.3,答案:只能说明x与y相关程度高于x与z的相关程度,但不能说前者是后者的两倍,二、计算相关的思路定距:数量上的“共变”定类、定序:“连同发生”隐含根据一个变量去预测或估计另一个变量的意思人们正是根据预测的准确程度来界定定类或定序变量之间的关系的消减误差比例,三、相关测量逻辑展示(一)Lambda相关测量法基本逻辑:以一个定类变项的值来预测另一个定类变项的值时,如果以众值作为预测准则,可以减少多少误差公式:,练习:根据下表数据计算lambda,思考并运算:如果数据有如下变化,lambda值会发生什么变化呢?,存在的问题:1、Lambda系数以众值为预测准则,不理会众值以外的次数分布,对数据利用率低。2、因为上述计算方式,如果全部众值集中在条件次数表的同一列或同一行中,则Lambda系数会等于0,相关失去意义,(二)相关系数r1、协方差的思想2、r系数计算3、PRE计算思路,四、回归,回归是相关分析的深入回归分析的结果是建立一个数学模型以表达变量之间的关系在分析观测数据的基础上,确定一个能反映变量之间关系的近似函数表达式,线性关联,整体研究方案,1(多)个定距(类)变量,1个定距变量,理论思路,经验支撑,方法论指导,注意,回归模型只是整个研究方案中的一环,它必须依赖理论和经验的支撑,服从研究设计的需要,在研究方法论的指导下展开,研究变量间的因果关系,预测,是否吻合预先构想,评价模型拟合度,求解模型参数,估计,第二节一元线性回归,参见:卢叔华社会统计学,北京大学出版社1997 第十二章 回归与相关,一、回归方程与线性回归方程二、回归方程的建立与最小二乘法三、回归方程的假定与检验,一、回归方程与线性回归方程,两变量x与y对于确定的xi,yi是随机变量,可计算其均值回归方程是研究自变量不同取值时,y的均值的变化当因变量y的均值与自变量x呈线性规律时,称线性回归方程根据x个数不同,分为一元线性回归、多元线性回归,关于模型,现实数据=模型+误差没有误差的不是模型,是复制复制很精确,但是往往太不简洁设置模型一般而言是希望用简洁的方式表述复杂信息,达到较好的精确度,二、回归方程的建立与最小二乘法,回归分析的目的:找出错误最小的方法来预测因变量的数值拟合思路:各点到待估直线铅直距离之和为最小最小二乘,原理:(1)散点图(2)每个x值对应的y的均值,构成回归线(曲折)(3)用最小平方法绘制回归直线(各个样本个案的估计误差和为误差总数。为避免正负抵消,改为将误差的平方值相加。如果回归直线位置能够使此平方和最小,即为最佳拟和直线),线性回归方程式不但有简化资料的作用,而且可以推广应用于预测或估计样本以外之个案的数值,回归系数的意义:b值的大小表示每增加一个单位的x值,y值的变化有多大,三、回归方程的假定与检验,(一)基本假定1、自变量x可以是随机变量,也可以是非随机变量,其误差忽略不计2、对于每一个x值,yi都是随机变量。Y的所有子总体y1,y2yn,方差相等3、y的所有子总体,其均值都在一条直线上线性假定4、随机变量yi是统计独立的5、y的所有子总体都满足正态分布,(二)检验F检验,第三节 多元线性回归模型,一、多元的思路二、回归方程的建立三、回归方程的解释四、标准化回归系数,一、多元的思路,关联性 Association 和因果性Causality统计意义上的关联性很容易发现,难的是,如何确立因果联系。然而我们在研究中更加关心的是因果性的解释。,因果关系存在的必要条件:1、变量间的关系是strong and consistent;2、变量间有适当的时序性;3、变量间的关系不能够被其他变量所解释。,对观察数据的统计控制,我们如何排除其他备选解释?和实验室的实验不同的是,我们不能控制社会现象发生的环境。对于观察数据,因果性问题可以部分地通过统计控制来解决即,我们可以把个体根据我们所要控制的特征分成几个小组,来比较组内的结果变量的差异对定量变量最常用的统计控制体现在多元回归模型中。,二、回归方程的建立,多元回归模型一般表达式,建立的多元回归方程:,其中,称y对x的回归系数或偏回归系数可用最小二乘法求解,多元回归系数的估计,首先看只有两个自变量的模型:我们仍可以用最小二乘法,使得观测的Y值和预测的Y值的差距的平方和最小。利用微积分,,Let Z(a,b1,b2)=(Y-a-b1X1-b2X2)2,对三个未知参数a,b1,and b2 求导:,解方程:,这种方法可以扩展到任意多的自变量的模型。计算机可以直接给出估计的系数。,三、回归方程的解释,在任何情况下,a 始终为当所有自变量为0时的应变量值(截距)斜率系数 b1 到 bk 表示在其他变量不变的情况下,相关的X增加一个单位,Y所对应的变化。,对于方程:,如果xi增加一个单位,即xi变为xi+1,而其他自变量均保持不变,相应有,则y的变化幅度为,规范解读方式,(在其他变量不变的情况下,)xi平均变化一个单位,y平均相应变化bi个单位,x及未包括进方程中的其他与x有关的一切因素对y的总影响,一元回归系数,多元回归系数,偏回归系数:除去方程中其他因素对y的共同影响后,某自变量对y的边际影响,回归系数的意义,四、标准化回归系数,问题,需要判别所考察的因素的重要程度,解决,将回归系数标准化,做法,1、先将变量标准化,再 计算2、利用回归系数计算,变量 每平均变化一个标准分数,y将平均变化 个标准分数,第四节方程的解释能力,一、确定系数二、调整的确定系数三、多元相关系数四、方差分析,一、确定系数,(01),回归方程解释的差异与用y均值解释的差异之比,模型中所有变量解释y的变化占总变化的比例,受奇异值影响,散点图,预测与残差,e=(Y-),The sum of squared errors,我们通过对该项(残差)最小化方法求得 a and bi.,拟合优度,where and,和前面一样,是衡量 Y的所有变异中由所有自变量的差异共同解释的比例 越高,模型拟合数据的程度就越好。当加入新的变量时,只升不降。由于常常是随着自变量数目的增加而增加,所以直接比较 没有太大的意义。,二、调整的确定系数,(1:10),偏高,三、多元相关系数R,因变量观测值和预测值之间的相关程度,四、方差分析,y的总变差平方和,回归平方和,余差平方和,检验,统计推断,回归方程,回归系数,回归系数的置信区间,为什么不显著?,第五节回归方程的检验和回归系数的推断统计,实质,假设,计算,H0:B1B2Bk0,(BSS/k)/ESS/(n-k-1),在总体中,X1,Xk的变化都不引起Y的线性变化,P与a比较,决定是否拒绝H0,检验在a水平统计性显著,并拒绝H0、接受H1,我们有相当大的把握断定,统计量b1,bk不等于0不是由于抽样误差造成的。,表述,检验样本y与x1,xk的线性关系是否显著,判断能否肯定总体回归系数中至少有一个不等于0,一、回归方程的显著性检验,二、回归系数的显著性检验,具体做法:,TSig T,H0:Bj0 H1:Bj0,三、回归系数的置信区间,样本量太小,变量数太多,Xj标准差过小,自变量线性相关,确实不相关,非线性关系,四、回归系数不显著的原因,第六节虚拟变量的应用,什么变量需要虚拟?,分类变量,虚拟变量,一个变量只有两个可能值1 or 0.对于一个两分的变量:gender:1.male 2.female 我们可以重新编码 1=male and 0=female.由此,gender 就变成了一个虚拟变量,表示被访者是否男性.,如何虚拟?,二分变量(是、否),把二分状态看作连续变化的过程,将某一个分类变量(有n个选项)转换成(n-1)个二分变量,以没有进入变量表达的那个类别为参照进行解释,说明不同类别间y取值的变化,均值的意义是编码为1的案例占样本的比例,为什么要在回归分析中引入虚拟变量?,有时我们社会研究的样本数据中观察的个体可以分成不同的组别。组与组、或群体与群体间的在自变量和应变量的平均数会有差异在这种情况下,不控制组别特征的回归模型结果会导致 所估计的偏回归系数偏差。特别是,系数可能低估或者高估一个自变量对应变量的影响强度。,第七节多重共线性及其解决方案,多元线性回归的解释方式:“在其他变量不变的前提下,xi平均变化一个单位y将平均变化bi个单位”,如果xi与另一自变量存在高度相关,则这种解释不成立,因为“在其他变量不变的前提”不可能实现,此即所谓的“多重共线性”,回归方程整体显著,但各个自变量都不显著,多重共线性的表现之一:,自变量之间存在高度线性相关,后果:影响回归方程的有效性 回归预测结果将不可靠 xi与y之间的关系不准确,鉴别多重共线性的思路:,在自变量之间建立回归方程,以该回归方程的确定系数来判断自变量之间的相关程度,具体做法:假定有k个自变量,先以第一个自变量x1为因变量建立回归方程,计算确定系数若值较大,说明至少有一个自变量与x1相关,也即存在共线性问题;按此方法依次建立回归方程,根据确定系数的变化来判断共线性问题,去掉与y相关较低,而与其他自变量相关高的变量,去掉可以被其余自变量线性表出的变量,增加样本规模,采用新的样本数据,利用先验信息组合变量,逐步删除(逐步回归方法即可消除此问题),变量变换,补救办法,全部纳入,全部删除,向前回归,逐步回归,向后回归,选择最优回归方程,第八节计算机操作,第九节 研究实例,社会意识的行动逻辑性别不平等的现象学社会学解释框架浙江学刊2006年第5期,表3 家务劳动时间多元回归分析(2000年),注:做饭时间回归模型 R2=0.387,sig=0.000;洗衣时间回归模型 R2=0.323,sig=0.000,研究实例,对加强化学实验教学效果的统计分析,研究实例,城市居民最低生活保障线的测定童星刘松涛社会学研究2000 年第4 期,