含定性变量的回归模型.ppt
《含定性变量的回归模型.ppt》由会员分享,可在线阅读,更多相关《含定性变量的回归模型.ppt(82页珍藏版)》请在三一办公上搜索。
1、1,第9章 含定性变量的回归模型,信计学院统计系 沈菊红,2,变量的类型,间隔尺度(数值型变量),有序尺度(有次序关系),名义尺度(定性变量),(定量变量),如身高、重量等连续的量,如某产品分上、中、下三等,如医学化验中的阴性、阳性,3,对定性变量数量化:只取0和1两个值的变量称为虚拟变量。,4,虚拟变量的回归,9.1 含有一个虚拟自变量的回归9.2 用虚拟自变量回归解决方差分析问题9.3 因变量是定性变量的回归模型9.4 Logistic回归模型,5,含有一个虚拟自变量的回归,6,虚拟变量(dummy variable),用数字代码表示的定性变量虚拟变量可有不同的水平只有两个水平的虚拟变量比
2、如,性别(男,女)有两个以上水平的虚拟变量贷款企业的类型(家电,医药,其他)虚拟变量的取值为0,1,7,虚拟自变量的回归,回归模型中使用虚拟自变量时,称为虚拟自变量的回归当虚拟自变量只有两个水平时,可在回归中引入一个虚拟变量比如,性别(男,女)一般而言,如果定性自变量有k个水平,需要在回归中模型中引进k-1个虚拟变量,8,虚拟自变量的回归(例题分析),【例】为研究考试成绩与性别之间的关系,从某大学商学院随机抽取男女学生各8名,得到他们的市场营销学课程的考试成绩如右表,9,虚拟自变量的回归(例题分析),散点图,y与x的回归,10,回归方程为,11,虚拟自变量的回归(例题分析),引进虚拟变量时,回
3、归方程可写为:E(y)=0+1x男(x=0):E(y)=0男学生考试成绩的期望值女(x=1):E(y)=0+1女学生考试成绩的期望值注意:当指定虚拟变量0,1时0总是代表与虚拟变量值0所对应的那个分类变量水平的平均值1总是代表与虚拟变量值1所对应的那个分类变量水平的平均值与虚拟变量值0所对应的那个分类变量水平的平均值的差值,即 平均值的差值=(0+1)-0=1,12,虚拟自变量的回归(例题分析),【例】为研究工资水平与工作年限和性别之间的关系,在某行业中随机抽取10名职工,所得数据如右表,y与x1的回归及分析,y与x1,x2的回归及分析,13,虚拟自变量的回归(例题分析),引进虚拟变量时,回归
4、方程可写为:E(y)=0+1x1+2x2女(x2=0):E(y|女性)=0+1x1男(x2=1):E(y|男性)=(0+2)+1x10的含义表示:女性职工的期望月工资收入(0+2)的含义表示:男性职工的期望月工资收入 1含义表示:工作年限每增加1年,男性或女性工资的平均增加值 2含义表示:男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值(0+2)-0=2,14,15,16,例题分析,【例9.1】某经济学家想调查文化程度对家庭储蓄的影响,在一个中等收入的样本框中,随机调查了13户高等学历家庭与14户中低学历的家庭。因变量y为上一年家庭储蓄增加额,自变量 为上一年家庭总收入,自变量 表
5、示家庭学历。高学历家庭,低学历家庭,调查数据见下表。,17,18,19,建立 对 的线性回归,并计算残差,20,两个自变量 与 的系数都是显著的,复决定系数,回归方程为,该结果表明,中等收入的家庭每增加1万元收入,平均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少于低学历的家庭,平均少3701元。,21,如果不引入学历定性变量,用 对家庭年收入 作一元线性回归,得 说明拟合效果不好。对 的一元回归残差 见表中。,22,如果不考虑家庭年收入,13户高学历家庭的平均年储蓄增加额为3008.62元,14户低学历家庭的平均年储蓄增加额为5059.36元,高学历家庭每年的储蓄额比低学历的家庭平均少
6、5059.363008.622050.74元,而用前面的回归法算出的值是3701元,两者并不相等。3701元是在假设两者的家庭年收入相等的基础上的储蓄差值,反映了学历高低对储蓄额的真实差异。(调整后的),23,说明:虽然虚拟变量取某一数值,但这一数值没有任何数量大小的意义,它仅仅用来说明变量的性质或属性。,24,自变量中含有定性变量的回归模型的应用,25,一.回归系数相等的检验【例9.2】在例9.1中引入01型虚拟自变量的方法是假定储蓄增加额y对家庭收入的回归斜率 与家庭年收入 无关,只影响。该假定是否合理,需作统计检验。检验方法是引入含交互效应的回归模型,(9.1),回归模型(9.1)可以分
7、解为如下的两个线性回归模型 高学历家庭,低学历家庭,(9.2),(9.3),26,要检验两个回归方程的回归系数相等,就是检验,当拒绝 时,认为,这时高学历与低学历家庭的储蓄回归模型被拆分为两个不同的模型(9.2和(9.3)式;当接受 时,认为,此时高学历与低学历家庭的储蓄回归模型是,(9.4),拟合模型(9.1),回归系数检验如下表,27,从输出结果看到,应该接受。问题:是否首先剔除?,否,因为与经济意义不符,对模型(9.2)与(9.3),当 时,表明两个回归方程的常数项相等,当 时,表明两个回归方程的斜率相等。,28,二.用虚拟自变量回归解决方差分析问题,29,设 是正态总体 的样本,原假设
8、为记 则有 进而有,记 则上式改写为,引入虚拟自变量,将(2)式表示为多元线性回归模型,(2),(1),30,其中,由于c个自变量 之和恒等于1,存在完全共线性。为此,剔除,建立回归模型,(3),31,(1)式回归方程显著性检验的原假设为,由 可知,(1)式和(4)式的两个原假设是等价的。作(4)式的显著性F检验,该检验与单因素方差分析的F检验是等价的。称自变量全是定性变量的回归模型为方差分析模型;如果模型中既包含数量变量,又包含定性变量,其中以定性自变量为主,称这样的模型为协方差模型。,(4),32,方差分析的回归方法(例题分析),引进虚拟变量建立回归方程:E(Y)=0+1x1+2x2+3x
9、3用Excel进行回归0家电制造业投诉次数的平均值(0+1)零售业投诉次数的平均值(0+2)旅游业投诉次数的平均值(0+3)航空公司投诉次数的平均值,33,使用虚拟变量需注意的问题,虚拟变量陷阱:若定性变量有k个类别,则引入k个虚拟变量将会产生完全多重共线性问题,避免方法:只引入(k-1)个虚拟变量,34,自变量中含有定性变量的回归模型的应用,三.分段回归【例9.2】用分段回归建立某工厂生产批量 与单位成本(美元)的回归模型。,35,单位成本对批量的散点图,36,假定回归直线的斜率在 处改变,建立回归模型,来拟合,其中,(9.5),模型(9.5)实际上是一个二元线性回归模型,记,则有,(9.6
10、),37,(9.6)式可以分解为两个线性回归方程 当 时,(9.6)式的回归方程为,(9.7),当 时,(9.6)式的回归方程为,(9.8),用普通最小二乘法拟合模型(9.6),38,39,用普通最小二乘法得回归方程为,对回归系数 作显著性检验,不能认为本数据适合于折线回归拟合。此模型说明生产批量小于500时,每增加1个单位批量,单位成本降低0.004美元;当生产批量大于500时,每增加1个单位批量,单位成本降低0.004+0.004=0.008美元.,40,作 对 的一元线性回归。,41,一元回归方程为,42,因变量是定性变量的回归模型,因变量只有两个可能结果,可用虚拟变量来表示。定性因变量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 定性 变量 回归 模型
链接地址:https://www.31ppt.com/p-5693109.html