《数学建模讲座回归分析ppt课件.pptx》由会员分享,可在线阅读,更多相关《数学建模讲座回归分析ppt课件.pptx(89页珍藏版)》请在三一办公上搜索。
1、数学建模培训回归分析与建模,主讲人:黄旭东安徽师范大学数学计算机科学学院统计系系主任,2,课程背景: 由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。通过对数据的统计分析,找出与数据拟合最好的模型,回归模型是用统计分析方法建立的最常用的一类模型。,3,What Shall We Talk?内容安排,一、多元回归分析二、虚拟变量模型三、多元Logistic 回归分析,一、多元回归分析,5,5,实例1对中国国内旅游消费支出的定量研究,国内旅游消费支出度量及增长的状况怎样? (消费支出度量、增长速度)分析影响国内旅游消费支出的因素有哪些?
2、(如收入、闲暇时间、交通设施、人口、社会环境等)国内旅游消费支出与各种影响因素关系的性质是什么? (如增加、减少)各种因素对国内旅游消费支出影响的程度和具体数量规律是什么? (各种因素变动具体会引起旅游消费支出变动多少)所作数量分析结果的可靠性如何?对旅游消费增长的政策效应分析、对国内旅游消费支出发展趋势的预测等,5,6,6,实例2:中国家庭用汽车市场的研究家用汽车市场状况如何?(用销售量观测)影响汽车销量的主要因素是什么?(如收入、价格、费用、道路状况、政策、消费行为特征等)各种因素对汽车销量影响的性 质怎样?(正、负)各种因素影响汽车销量的具体 数量关系是什么?所得的分析结论是否可靠?今后
3、汽车市场的发展前景怎样? 应如何制定汽车的产业政策?,6,7,7,实例3:中国股票价格波动的研究股票价格变动的情况怎样? (用股价指数观测)影响股票价格变动的主要 因素是什么? (基本面、资金、政策、利率、公司业绩、投资者信心等)股价与各种影响因素的关系是什么? (利空、利多)各种因素影响的具体数量规律是什么?所得的数量分析结果可不可靠?今后股票价格的发展趋势可能会怎样?,8,这类实例需要研究的共性问题: 提出所研究的经济问题及度量方式(如消费、股票价格、汽车) 确定作为研究对象的经济现象的变量 分析主要影响因素(根据经济理论、实际经验) 选择若干作为影响因素的变量 分析各种影响因素与所研究经
4、济现象的相互关系 决定相互联系的数学关系式 确定所研究的经济问题与各种影响因素间的数量规律 需要有科学的数量分析方法 分析和检验所得数量结论的可靠性 需要运用统计检验方法 运用数量研究的结果作经济分析和经济预测 对数量分析的实际应用结论:以上问题的研究具有普遍性,需要运用回归分析方法去研究,8,案例 在一项对某社区家庭对某种消费品的消费需要调查中,得到下表所示的资料。,请用手工与软件两种方式对该社区家庭对该商品的消费需求支出作二元线性回归分析,其中手工方式要求以矩阵表达式进行运算。 (1)估计回归方程的参数及随机干扰项的方差 ,计算 及 。 (2)对方程进行 检验,对参数进行 检验,并构造参数
5、95%的置信区间。 (3)如果商品单价变为35元,则某一月收入为20000元的家庭的消费支出估计是多少?构造该估计值的95%的置信区间。,步骤一:建立工作表,并输入数据(1)打开Eviews软件,进入主界面,界面如下:,(2)点击File New workfile 得到如下界面:,(3)由于数据为截面数据,则依次点击: workfile frequency Undated or irregular;由于数据的个数为10,则按如下列步骤依次填入: Start date1 End date 10 OK结果如下图:,(4)建立序列对象: 定义解释变量X1 在workfile窗口中,依次点击: Obj
6、ects New Object series; 在Name for object中输入X1,界面如下所示:,定义解释变量X2在workfile窗口中,依次点击: Objects New Object series; 在Name for object中输入X2,界面如下所示:,定义被解释变量Y: 同理,在workfile窗口中,依次点击: Objects New Object series; 在Name for object中输入Y,界面如下所示:,(5)录入数据: 同时选中X、Y右击: Open as Group Edit+/- 相应的界面如下所示:,输入数据,数据输入后得到如下界面:,步骤二
7、:,第一问: (1)估计回归方程的参数及随机干扰项的方差 ,计算 及 。,(1)普通最小二乘估计: 在主界面:QuickEstimate Equation 出现如下界面:,依次输入 y c x1 x2(注意:要有空格)点击ok ,得到Equation窗口,如下图所示:,从该估计中,可得到随即干扰项的残差平方和 为2116.847根据 得到随即干扰项的方差 为,可决系数为调整的可决系数为,第二问: (2)对方程进行 检验,对参数进行 检验,并构造参数95%的置信区间。,(1) F检验,方程显著性的 检验是要检验模型中参数 是否显著不为零。原假设:备择假设:根据样本得到 =32.29408给定显著
8、性水平a=0.05,查F分布表得到临界值通过 来拒绝原假设,即线性关系显著成立,(2)t检验,提出假设,在软件中得到两个变量 的 值,分别为 =3.061617, =4.902030在显著性水平a=0.05,查 分布表得到 可见,两个变量的t值都大于该临界值,所以拒绝原假设,则在95%的水平下两个解释变量都通过了变量的显著性检验。,参数的置信区间,已知从回归计算中得到根据得到 的置信区间为(-17.35,-2.23) 的置信区间为(0.0148,0.0424),第三问: (3)如果商品单价变为35元,则某一月收入为20000元的家庭的消费支出估计是多少?构造该估计值的95%的置信区间。,进行以
9、下操作: 拓展工作空间:打开workfile窗口,点击 Procs Change workfile Range 将End date的数据1011 OK 确定预测值的起止日期:打开workfile窗口,点击 Procs Sample,将1011 OK 界面分别如下:,在x1的最下方填入35,在x2的最下方填入20000,按回车键。在出现的Equation界面,点击Forecast 出现相应界面如下:,在Forecast name中输入YF在S.E(optional)中输入W在workfile中双击yf可得到下面界面,得到X1=35,X2=20000时家庭的消费支出为Y=856.202507115
10、,双击w,得到,从上表可得根据得个值的95%的预测区间(759.41,952.99),在95%的置信度下均值的置信区间为即为(768.6,943.8),二、 虚拟变量模型,(一)虚拟变量的基本含义 (二)虚拟变量的引入 (三)虚拟变量的设置原则,在对在校学生的消费行为进行的调查中,发现在校生的消费行为呈现多元化的结构。人际交往消费、手机类消费、衣着类消费、化妆品类消费、电脑类消费、旅游类消费占有较大的比例;而食品类消费、学习用品类消费不突显。显然,男女生在消费上存在差异。为了了解男、女生的消费支出结构差异,应当如何建立模型?面临的问题:如何把男女生这样的非数量变量引入方程?,引例:男女大学生消
11、费真有差异吗?,(一)虚拟变量的基本含义,许多经济变量是可以定量度量。一些影响经济变量的因素是无法定量度量。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量,记为D。虚拟变量只作为解释变量。,1、虚拟变量(dummy variables),一般地,在虚拟变量的设置中: 基础类型、肯定类型取值为1; 比较类型,否定类型取值为0。例如,反映文程度的虚拟变量可取为:D=1,本科学历D=0,非本科学历虚拟变量能否取1、0以外的数值?,同时含有一般解释变量与
12、虚拟变量的模型称为虚拟变量模型或者方差分析(analysis-of variance: ANOVA)模型。例如,一个以性别为虚拟变量考察企业职工薪金的模型:,其中:Yi为企业职工的薪金;Xi为工龄; Di=1,若是男性,Di=0,若是女性。,2、虚拟变量模型,(二)虚拟变量的引入,虚拟变量作为解释变量引入模型有两种基本方式:加法方式和乘法方式。上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。 在该模型中,如果仍假定E(i)=0,则企业男、女职工的平均薪金为:,1、加法方式,假定20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水
13、平相差2。 可以通过对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。,0,2,将上例中的性别换成教育水平,教育水平考虑三个层次:高中以下、高中、大学及其以上。,高中以下,高中,大学及以上,在上例中同时引入性别和教育水平:,女职工本科以下学历的平均薪金:,女职工本科以上学历的平均薪金:,男职工本科以下学历的平均薪金:,男职工本科以上学历的平均薪金:,加法方式引入虚拟变量,考察:截距的不同。许多情况下,斜率发生变化,或斜率、截距同时发生变化。斜率的变化可通过以乘法的方式引入虚拟变量来测度。,2、乘法方式,例如,根据消费理论,收入决定消费。但是,农村居民和城镇居民的边际消费
14、倾向往往是不同的。这种消费倾向的不同可通过在消费函数中引入虚拟变量来考察。,农村居民:,城镇居民:,例如,根据消费理论,收入决定消费。但是,在自然灾害、战争等反常年份,消费倾向往往发生变化。这种消费倾向的变化可通过在消费函数中引入虚拟变量来考察。,例如,根据消费理论,收入决定消费。但是,从某一个时点开始,消费倾向发生变化。这种消费倾向的变化也可通过在消费函数中引入虚拟变量来考察。,当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。对于一元模型,有两组样本,则有可能出现下述四种情况中的一种: 1=1 ,且2=2 ,即两个回归相同,称为重合回归(Coincident Regressi
15、ons);11 ,但2=2 ,即两个回归的差异仅在其截距,称为平行回归(Parallel Regressions);1=1 ,但22 ,即两个回归的差异仅在其斜率,称为汇合回归(Concurrent Regressions);11,且22 ,即两个回归完全不同,称为相异回归(Dissimilar Regressions)。,3、同时引入加法与乘法形式的虚拟变量,通过统计检验,判断两个时期中消费函数的截距和斜率是否发生变化。,例如,以1978-2009年的数据为样本,以GDP作为解释变量,建立居民消费函数。根据分析,1992年前后,自发消费和消费率都可能发生变化。,(三)虚拟变量的设置原则,每一
16、定性变量(qualitative variable)所需的虚拟变量个数要比该定性变量的状态类别数(categories)少1。即如果有m种状态,只在模型中引入m-1个虚拟变量。例如,季节定性变量有春、夏、秋、冬4种状态,只需要设置3个虚变量:,如果设置第4个虚变量,则出现“虚拟变量陷井”(Dummy Variable Trap),为什么?,解释变量完全共线性,包含季节变量的正确模型:,如果在服装需求函数模型中必须包含3个定性变量:季节(4种状态)、性别(2种状态)、职业(5种状态),应该设置多少虚变量?模型含常数项模型不含常数项,三、多元Logistic 回归分析,Multiple Logis
17、tic Regression Analysis,线性回归模型的一个局限性是要求因变量是定量变量(定距变量、定比变量)而不能是定性变量(定序变量、定类变量)。但是在许多实际问题中,经常出现因变量是定性变量(分类变量)的情况。可用于处理分类因变量的统计分析方法有:判别分别(Discriminant analysis)、Probit 分析、Logistic 回归分析和对数线性模型等。在社会科学中,应用最多的是Logistic回归分析。Logistic 回归分析根据因变量取值类别不同,又可以分为Binary Logistic 回归分析和Multinomial Logistic 回归分析,Binary
18、Logistic 回归模型中因变量只能取两个值1 和0(虚拟因变量),而Multinomial Logistic 回归模型中因变量可以取多个值。本章将只讨论Binary Logistic 回归,并简称Logistic 回归。,因变量只取两个值,表示一种决策、一种结果的两种可能性。例如,某个人能否拥有房子,受到多种因素的影响,如家庭情况、工龄、收入情况等,但最终的可能性只有两个,要么拥有住房,要么没有住房。我们把Y=1 定义为拥有住房,Y=0 定义为其它情况,即,从模型角度出发,不妨把事件发生的情况定义为Y=1,事件未发生的情况定义为Y=0,这样取值为0、1 的因变量可以写为下式:,我们可以采用
19、多种方法对取值为0、1 的因变量进行分析。通常以p 表示事件发生的概率(事件未发生的概率为1-p),并把p 看作自变量Xi 的线性函数,即,不同形式的F(),就有不同形式的模型,最简单的莫过于使F()为一线性函数,即,我们可能会认为可用普通最小二乘法对上式进行估计,但因p 的值一定在区间0,1内,而且当p 接近于0 或1 时,自变量即使有很大变化p 的值也不可能变化很大,所以对上式直接用普通最小二乘法进行估计是行不通的。,从数学上看,函数p 对Xi 的变化在p=0 或p=1 的附近是不敏感的、缓慢的,且非线性的程度较高。于是要寻求一个p 的函数 ( p),使得它在p=0 或p=1 附近时变化幅
20、度较大,而函数的形式又不是很复杂,因此,我们引入p 的Logistic 变换(或称为p 的Logit 变换),即,其中,p/(1-p);logit(p)是因变量Y=1 的差异比(odds ratio)或似然比(likelihood ratio)的自然对数,称为对数差异比(log odds ratio)、对数似然比(log likelihood ratio)或分对数。,很明显, ( p)以logit(0.5)=0 为中心对称(如表10-54所示), ( p)在p=0和p=1 的附近变化幅度很大,而且当p 从0 变化1 时, ( p)从-变到+。用 ( p)代替式(10-113)中的p就克服了前面
21、指出的两点困难。如果p 对Xi 不是线性的关系, ( p)对Xi 就可以是线性的关系了。用 ( p)代替前式中的p,得,将p 由 来表示,得,医学研究中经常遇到分类型变量,二分类变量:生存与死亡有病与无病有效与无效感染与未感染多分类有序变量:疾病程度(轻度、中度、重度)治愈效果(治愈、显效、好转、无效)多分类无序变量:手术方法(A、B、C)就诊医院(甲、乙、丙、丁),医学研究者经常关心的问题,哪些因素导致了人群中有的人患胃癌而有的人不患胃癌?哪些因素导致了手术后有的人感染,而有的人不感染?哪些因素导致了某种治疗方法出现治愈、显效、好转、无效等不同的效果?,是回归分析问题:Y=f(x),如何解决
22、这样的问题?,不存在,1、什么是Logistic 回归分析?,研究因变量y取某个值的概率变量p与自变量x的依存关系。,p=p(y=1|x)=f(x),(一) Logistic 回归分析的概念,2、Logistic回归分析的分类,按数据的类型:非条件logistic回归分析(成组数据)条件logistic回归分析(配对病例-对照数据)按因变量取值个数:二值logistic回归分析多值logistic回归分析按自变量个数:一元logistic回归分析多元logistic回归分析,Logistic回归分析,第二节 Logistic 回归分析的数学模型,令y是1,0变量,x是任意变量,p=p(y=1|
23、x),那么,二值变量y关于变量x的一元logistic 回归模型是:,其中,和是未知参数或待估计的回归系数。该模型描述了y取某个值(这里y=1)的概率p与自变量x之间的关系。,(1) 二值一元logistic回归模型:,令y是1,0变量,x1,x2,xk是任意k个变量; p=p(y=1|x1,x2,xk),那么,变量y关于变量x1,x2,xk 的k元logistic回归模型是:,(2) 二值多元logistic回归模型:,注意:对于二值Logistic回归模型,Y=0的模型是:,p = p(y=0|x1,xk ) = 1 - p(y=1|x1,xk),Logistic 回归模型的另外一种形式,它给出变量z=logit(p)关于x 的线性函数。,(3) 多值logistic回归模型:,例如,当y取值1,2,3时,logistic回归模型是:,P1 = p(y=1) = P1P2 = p(y=2) =P2-P1P3 = p(y=3) =1-P2,累积概率模型,独立概率模型,谢谢大家!,
链接地址:https://www.31ppt.com/p-1917904.html