第四章定性变量的建模.ppt
《第四章定性变量的建模.ppt》由会员分享,可在线阅读,更多相关《第四章定性变量的建模.ppt(119页珍藏版)》请在三一办公上搜索。
1、第四章 定性变量的建模,背景,定类与定序变量统称为定性变量在经济领域,许多重要因素都需要使用定性数据加以刻画:经济体制(改革前-改革后)、所有制形式(国有-集体-外资等等)、区域(东-中-西)、性别(男-女)、信用等级自变量采用定性数据,在量化与解释上要十分注意,因变量如果采用定性数据,会给模型的估计与解释带来更大的困难。,背景,本章的研究对象是定性变量无论是定类还是定序,处理方法是一致的但,当定序变量的水平很多时,可以当定量变量处理 例:大学排名,背景,定性变量的水平可以是自然的,也可以是人为规定的 自然的:性别 人为规定:规定水平:相貌对工资的影响 合并水平(计量等级的退化):地区差异对人
2、均收入的影响 大学排名对最初工资的影响,背景,有时,自变量的影响有如下模式:在某个区间内的变动,不会显著影响因变量,但区间外与区间内的不同则会有显著影响。此时直接用原始变量效果不好,则可将变量转换为水平较少的定性变量进行建模 定量变量的系数不显著,有时将其退化为定性变量就会显著。,背景,定性变量有些来自于不得已有些来自于主动,主要内容,一、定性变量作为自变量的建模方法 虚拟变量法 二、定性变量作为因变量的建模方法,一、定性变量作为自变量的建模,(一)二值变量的建模 1、二值变量的量化方法 2、回归系数的含义 3、多个虚拟变量的建模与解释 4、含虚拟变量模型的其他变化 5、Chow检验(二)多值
3、变量的建模,(一)二值变量的建模,所谓二值变量,是指变量只有两种可能取值,是某种属性或者不是二值变量可以是自然的,也可以是人为规定的 人为规定:所有制:国有企业-非国有企业,1、二值变量的量化方法,可以有三种量化方法1),1、二值变量的量化方法,2),1、二值变量的量化方法,3),1、二值变量的量化方法,使用虚拟变量(dummy variable)的基本原则0,1只是代号用0,1代入,会有较好的经济含义二值变量,只需设置一个虚拟变量,否则会出现完全共线性问题(有截距项),2、回归系数的含义,较正式的表述:,2、回归系数的含义,虚拟变量回归系数的基本含义:不同属性模型之间的截距移动,2、回归系数
4、的含义,虚拟变量回归系数可以解释为:在其他因素水平相同的情况下,不同属性的平均差异以前数据为例,虚拟变量回归系数为67,意味着在资本水平相同的情况下,三资企业的平均利润要高于国有及国有控股企业67亿元。在解释时,一定要注意谁是基组(取0),2、回归系数的含义,类似模型都蕴含有一个假定:斜率是一致的,即无论对于哪一组(按虚拟变量属性划分),其它变量对因变量的影响都是一样的,3、多个虚拟变量的建模与解释,如果在自变量有两个以上虚拟变量,则可以有三类建模方法,3、多个虚拟变量的建模与解释,3、多个虚拟变量的建模与解释,第一种模型可以变化为四组方程:,3、多个虚拟变量的建模与解释,所以,虚拟变量回归系
5、数的含义:,3、多个虚拟变量的建模与解释,第二种模型也可以变化为四组方程:,3、多个虚拟变量的建模与解释,所以,虚拟变量回归系数的含义(平均意义上):,4、含虚拟变量模型的其他变化,考虑交互影响的模型显然,资本水平不同,利润会有不同,三资企业和国有企业的差异也不会都是67亿元,4、含虚拟变量模型的其他变化,在交互模型中,虚拟变量前的回归系数只表示在资本为0情况下,三资企业与国有企业的利润差距,4、含虚拟变量模型的其他变化,交互模型中虚拟变量前回归系数的经济含义不好,可以采用如下方法解决:,4、含虚拟变量模型的其他变化,4、含虚拟变量模型的其他变化,交互项的引入实际意味着非虚拟变量的斜率是不一致
6、的。,4、含虚拟变量模型的其他变化,判断是否需要交互项,可通过相应系数的t检验来进行;要注意到:是否需要交互项等价于检验斜率是否相等;,5、Chow检验,简言之,所以需要虚拟变量,是因为在虚拟变量不同水平下,自变量对因变量的影响程度有差别,这种差别表现在截距和斜率上。判断系数是否相同的方法是使用Chow statistics进行检验。,5、Chow检验,邹至庄统计量(Chow statistics)检验对象:两个变量相同、样本不同的模型的回归系数是否相同。,5、Chow检验,检验统计量:,5、Chow检验,判断规则 如果样本F值大于临界值,则可拒绝原假设,认为各回归系数(包括截距项)中至少有一
7、个系数不同。如果不能,则两组样本可以合并,统一建模。,如果允许截距不同,仅需要判断斜率是否相同,办法是:在模型中设置交互项,检验所有交互项的联合显著性,如果不能拒绝原假设,应认为斜率无显著差异。,(二)多值变量的建模,多值变量意味着虚拟变量有3个以上取值,如考虑季节的影响,则季节有四个水平。,(二)多值变量的建模,正确量化方法,(二)多值变量的建模,基本原则:只用0,1来量化,0,1只表示真或不真只需设置比水平数少一个的虚拟变量,(二)多值变量的建模,基本解释 每个虚拟变量前的系数都表示和基组(不专设虚拟变量的组)相比,在因变量上的平均差异。,(二)多值变量的建模,对于定序变量而言,由于水平之
8、间的差值依然没有意义,所以,上述方法仍然适用。,(二)多值变量的建模,有时,某定性因素的多个虚拟变量在统计上都不显著,但这并不意味着该因素就一定是不显著的,此时联合检验将发挥关键作用。,要点,自变量中定性变量的回归系数,在解释上与定量变量有很大不同,此时判定系数含义,主要不使用导数,而是依靠将定性变量代入,计算不同方程之间的差别。,二、因变量为定性变量,线性概率模型(LPM)Logit模型Probit模型Tobit模型,(一)线性概率模型,Linear Probability Model,(一)线性概率模型,线性概率模型的解释,(一)线性概率模型,线性概率模型的问题 1、异方差 2、常规检验失
9、效 3、函数设定不当 4、易出现无法解释的结果,异方差,函数设定不当,线性概率模型是线性的,而实际是非线性关系,函数设定不当,易出现无法解释的结果,由于函数形式设定不当,预测时很难避免出现得到的Y值大于1或小于0的情况,为结果的解释带来困难。,解决思路,(二)Logit模型,又称Logistic模型,该模型克服了线性概率模型的取值范围的弱点。,(二)Logit模型,(二)Logit模型,(二)Logit模型,(二)Logit模型,(二)Logit模型,1、模型的解释2、模型的数据与估计3、模型的检验4、累积模型与多项模型,1、模型的解释,1、模型的解释,发生比和发生比率(Odds and Od
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 定性 变量 建模
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-2906501.html