回归分析 课件.pptx
2022/12/1,1,7.1 回归分析概述7.2 一元线性回归分析法7.3 多元线性回归分析法7.4 非线性回归分析法7.5 回归分析软件7.6 非线性回归的SPSS实现 7.7 曲线估计7.8 带虚拟自变量的回归分析,第七章 回归分析法,2022/12/1,2,学习目标,掌握一元回归分析法的数学模型、参数估计、回归检验及在实际中的应用掌握多元回归分析法的数学模型、参数估计、回归检验及在实际中的应用掌握非线性回归分析法的各种回归模型、参数估计、回归检验及在实际中的应用了解回归、回归分析的定义,回归变量之间的关系,回归分析的类型理解回归分析法的应用步骤,第七章 回归分析法,2022/12/1,3,7.1引文分析概述,7.1.1 回归分析 从各种事物之间的因果关系出发,通过对与研究对象有联系的事物与现象的变化趋势进行分析,在此基础上预测研究对象未来数量状态的一种方法。,7.1 回归分析概述,2022/12/1,4,7.1回归分析概述,7.1.2回归分析的类型(1)按模型中自变量数划分:一元线性回归模型和多元线性回归模型;(2)按模型中变量关系划分:线性回归模型和非线性回归模型;(3)按模型中有无虚拟变量划分:普通回归模型和虚拟变量回归模型;(4)按自变量与时间关系划分:与时间无关的相关关系、相对时间的滞后性的相关关系、时间序列关系。,2022/12/1,5,7.1.3 回归分析法的应用步骤(1)根据对客观现象的定性认识确定变量之间是否存在相关关系;(2)判断相关关系的大致类型;(3)绘制散点图,并初步推测回归模型;(4)进行回归分析并拟合出回归模型;(5)对回归模型的可信度进行检验;(6)运用模型进行预测。,7.1回归分析概述,7.2.1 一元线性回归模型 式中:yi -第i组的预测目标,称为因变量; - yi 的估计值; xi -第i组可以控制或预先给定的影响因素,称为自变量; a,b-回归模型参数,即a表示截距,b表示斜率; ei-第i组随机误差项,呈正态分布。,2022/12/1,6,7.2 一元线性回归分析法,2022/12/1,7,7.2.2 确定模型参数(最小二乘法)(1)求离差平方和:(2)由微积分的极值原理,分别对a和b求一阶偏导数,并令其等于零:,7.2 一元线性回归分析法,2022/12/1,8,(3)求解出回归参数a和b:,7.2 一元线性回归分析法,2022/12/1,9,7.2 一元线性回归分析法,7.2.3回归检验1.R检验(即相关系数的显著性检验) 检验规则:当|R|=1,表示x和y完全相关;当0 |R| 1,表示x和y完全相关;当|R|=0,表示x和y不相关。,2022/12/1,10,7.2 一元线性回归分析法,7.2.3回归检验2.T检验 以对b检验为例,构造t统计量 t= / T检验的一般步骤如下:计算T值;对于给定的显著水平a,查自由度为n-2的T分布的临界值表,得临界值: 比较T值与 值的大小,如果 则认为线性回归显著,一元回归模型成立,否则认为线性回归不显著,一元回归模型不成立。,2022/12/1,11,7.2 一元线性回归分析法,7.2.3回归检验3.F检验 F检验的一般步骤如下:计算F值;对于给定的显著水平a,查自由度为1,n-2的F分布的临界值表,得临界值: ;比较T值与 值的大小,如果 则认为线性回归显著,一元回归模型成立,否则认为线性回归不显著,一元回归模型不成立。,2022/12/1,12,7.2 一元线性回归分析法,7.2.4实例5-1 已知某汽车的2002-2008年的年销售额如表5-1所示,试用一元线性回归法预测2010年和2012年的销售额。,2022/12/1,13,7.2 一元线性回归分析法,画散点图分析得知变量之间存在相关关系,并据此选择一元线性回归模型。,2022/12/1,14,7.2 一元线性回归分析法,计算一元线性回归的相关数据如表5-2所示。,2022/12/1,15,7.2 一元线性回归分析法,计算出参数a、b,得出一元线性回归模型:求出相关系数R为0.961,说明x与y有很强的正相关关系。F检验。 ,给定显著水平=0.05,查F分布表F0.05(1,5)=6.61,则F F0.05(1,5)。所以,建立一元线性回归模型成立。计算预测值。,7.3.1 多元线性回归模型 式中:yi -第i组的预测目标,称为因变量; - yi 的估计值; xi -第i组可以控制或预先给定的影响因素,称为自变量; b0,bi-回归模型参数,即b0表示回归常数,bi表示回归系数; ei-回归余项,实际观测值与回归估计值之间的离差,呈正态分布。,2022/12/1,16,7.3 多元线性回归分析法,2022/12/1,17,7.3.2 确定模型参数(最小二乘法)(1)求离差平方和:(2)由微积分的极值原理,分别对b0、 b1、 b2、 bi、求一阶偏导数,并令其等于零,然后求解含有k-1个未知参数的线性方程组得出参数估计值。,7.3 多元线性回归分析法,2022/12/1,18,7.3 多元线性回归分析法,7.3.3回归检验1.R检验 检验规则:复相关系数检验根据给定的显著性水平查出相关系数的临界值,然后与复相关系数进行比较!以判断回归方程的有效性。,2022/12/1,19,7.3 多元线性回归分析法,7.3.3回归检验2.T检验 T检验的一般步骤如下:计算T值;对于给定的显著水平a,查自由度为n-k-1的T分布的临界值表,得临界值: , 比较ti值与 值的大小,如果 |ti| ta ,则认为认为回归系数bi与0有显著差异,相应的自变量xi必须保留在回归方程中;否则相应的自变量xi必须从回归方程中删除。,2022/12/1,20,7.3 多元线性回归分析法,7.3.3回归检验3.F检验 F检验的一般步骤如下:计算F值;对于给定的显著水平a,查自由度为k,n-k-1的F分布的临界值表,得临界值: ;比较F值与 值的大小,如果 则认为线性回归显著,多元线性回归模型成立,否则认为线性回归不显著,多元线性回归模型不成立。,2022/12/1,21,7.3 多元线性回归分析法,7.3.4实例5-2 某地区的蔬菜消费量与许多因素有关,如与该地区的人口数、可支配收入、蔬菜价格、副食年人均消费量等有关,经分析决定保留人口数、蔬菜价格和副食年人均消费量三个因素,对蔬菜未来三年的消费量进行预测。,2022/12/1,22,明确预测目的,即预测要解决什么问题,包括弄清预测对象及可以定量描述它的指标,在本例中,预测对象是某地区的蔬菜需求量;选择合适的自变量,根据对相关自变量(即对销售量影响的因素)的显著性影响的评价,确定三个自变量:人口数、蔬菜年平均价格、副食品年人均消费量; 根据相关判断建立三元线性回归模型,并计算三元线性回归模型的相关数据,填入表5-4中;建立三元线性回归方程:,7.3 多元线性回归分析法,2022/12/1,23,7.3 多元线性回归分析法,2022/12/1,24,回归检验。1)R检验。相关系数计算如表55所示,将相关数据代入R中: ,相关系数R为0.9323,表明自变量与因变量之间高度正相关;三元线性回归方程可以用于对蔬菜未来的需求量进行预测。,7.3 多元线性回归分析法,2022/12/1,25,2)F检验(回归方程显著性检验)。 若以显著性水平a0.05,查自由度为3,6的F分布临界值表,得临界值Fa4.76。因为FFa,所以F检验通过。确定预测值。若根据科学方法测算,2009年时消费人口达到570万,蔬菜年平均价格为14.5角,副食年人均消费量为52.5千克,那么2009年的蔬菜消费量可以预测为:,7.3 多元线性回归分析法,2022/12/1,26,7.3 多元线性回归分析法,2022/12/1,27,7.4 非线性回归分析法,7.4.1非线性回归模型(1)双曲线回归模型 (2)对数曲线回归模,2022/12/1,28,7.4 非线性回归分析法,7.4.1非线性回归模型(3)指数曲线回归模型 有时,参数b也可以写成自然数e为底的指数形式,即 (4)对数曲线回归模型,2022/12/1,29,7.4 非线性回归分析法,7.4.2模型变换与参数估计,2022/12/1,30,7.4 非线性回归分析法,7.4.3实例5-3 某企业1999年2008年的商品零售额和商品流通费用水平yi如表58所示,试根据表中的资料,拟合适当的回归分析模型分析商品零售额和商品流通费用水平关系,在对未来几年零售额预测的基础上预测相应的商品流通水平。,2022/12/1,31,7.4 非线性回归分析法,绘制散点图 ,并据其分析两者都呈双曲线规律变化。因此,建立双曲线模型,对双曲线模型进行线性变换,得一元线性回归模型:yi= a+bxi ;,2022/12/1,32,7.4 非线性回归分析法,模型参数估计 ,将双曲线模型变换后的模型,可以像前面的一元线性回归模型采用最小二乘法对模型参数进行估计: 得回归模型为:y1.321135.163x,将其转换后代回得预测模型:,2022/12/1,33,7.4 非线性回归分析法,回归检验(R检验) 相关系数为0.98,说明本问题中研究的商品流通费用水平与商品零售额之间存在高度相关关系,用双曲线回归模型来描述它们之间的关系是恰当的。,2022/12/1,34,7.4 非线性回归分析法,据此,可以在对2009年2018年的经济预测基础上预测出相应的商品流通费用水平如表59。,2022/12/1,35,7.5 回归分析软件,(1)SPSS软件 SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。,2022/12/1,36,7.5 回归分析软件,(2)Excel软件 Excel是微软公司Office软件产品的一个很重要的组成部分,是一个性能优越的电子制表软件,并且支持较强的数据分析、图表绘制、宏命令、VBA编程及决策支持分析功能。 Excel的“回归分析”分析工具是“分析工具库”的一部分,此工具通过对一组观察值使用“最小二乘法”直线拟合,进行线性回归分析,此工具可用来分析单个因变量是如何受一个或几个自变量影响的。,2022/12/1,37,7.5 回归分析软件,(3)Eviews软件 Eviews是Econometrics Views的缩写,它的本意是对社会经济关系与经济活动的数量规律,采用计量经济学方法与技术进行“观察”。计量经济学研究的核心是设计模型、收集资料、估计模型、检验模型、运用模型进行预测、求解模型和运用模型。Eviews是完成上述任务得力的必不可少的工具。Eviews拥有数据处理、作图、统计分析、建模分析、预测和模拟六大类功能,可应用于科学计算中的数据分析与评估、财务分析、宏观经济分析与预测、模拟、销售预测和成本分析等。,2022/12/1,38,7.5 回归分析软件,(4)SAS软件 SAS(Statistical Analysis System)是一个模块化、集成化的大型应用软件系统。它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。 SAS系统基本上可以分为四大部分:SAS数据库部分;SAS分析核心;SAS开发呈现工具;SAS对分布处理模式的支持及其数据仓库设计。 SAS系统主要完成以数据为中心的四大任务:数据访问;数据管理SAS的数据管理功能并不很出色,而是数据分析能力强大所以常常用微软的产品管理数据,再导成SAS数据格式要注意与其他软件的配套使用;数据呈现;数据分析。,2022/12/1,39,7.5 回归分析软件,(5)实例5-4 已知某汽车的1月11月的月销售额如表510所示,用SPSS软件进行分析,建立回归模型预测12月份的销售额。,2022/12/1,40,7.5 回归分析软件,把数据输入到SPSS中,建立数据文件如图53。选择Graphslegacy dialogs在下拉菜单中选择scatter plot,出现窗口如图54。,2022/12/1,41,7.5 回归分析软件,选择simple scatter,按define按钮,出现窗口如图55;,2022/12/1,42,7.5 回归分析软件,选择图55中的y和x分别到图56中对应的Y axis与X axis,然后按OK按钮。SPSS输出结果如图57所示。,2022/12/1,43,7.5 回归分析软件,2022/12/1,44,7.5 回归分析软件,选择AnalyzecorrelateBivariate, 出现窗口如图58;,2022/12/1,45,7.5 回归分析软件,将变量x和y选入到Variables框中;选中Correlation Coefficients框中的Pearson;选中Test of Significance框中的Twetailed;选中Flag significant correlations;如图59所示;,2022/12/1,46,7.5 回归分析软件,按OK按钮。SPSS输出结果如图510所示。结果表明,x与y的相关系数为0.941,呈高度正相关;,2022/12/1,47,7.5 回归分析软件,选择Analyzeregressionlinear,出现窗口如图511所示;,2022/12/1,48,7.5 回归分析软件,选择左侧框中的y与x分别到右侧对应的Dependent与independent(多元线性回归分析只需将多个自变量输入到independent中即可),然后按OK按钮。SPSS输出结果如图512513514515所示;,2022/12/1,49,7.5 回归分析软件,2022/12/1,50,7.5 回归分析软件,输出结果(1)表明该模型中的x是进入变量,没有移出变量,具体的进入/退出的方法为Enter;输出结果(2)是模型的拟合优度情况简报,表明x和y的相关系数为0.941,决定系数为0.874,输出结果(3)是模型的检验结果,回归模型F值为70.237,P值为0.000,因此回归模型通过了检验,可以用于预测;输出结果(4)表明了回归模型为y0.3260.037x。 由回归模型可以预测汽车12月份的销售额为y0.3260.037120.77(亿)。,7.6.1 统计学上的定义和计算公式,7.6 非线性回归的SPSS实现,定义:研究在非线性相关条件下,自变量对因变量的数量变化关系,称为非线性回归分析。 在实际问题中,变量之间的相关关系往往不是线性的,而是非线性的,因而不能用线性回归方程来描述它们之间的相关关系,而要采用适当的非线性回归分析。,非线性回归问题大多数可以化为线性回归问题来求解,也就是通过对非线性回归模型进行适当的变量变换,使其化为线性模型来求解。一般步骤为:, 根据经验或者绘制散点图,选择适当的非线性回归方程; 通过变量置换,把非线性回归方程化为线性回归; 用线性回归分析中采用的方法来确定各回归系数的值; 对各系数进行显著性检验。,计算公式如下。 在本节中介绍几种常见的非线性回归模型,并分别给出其线性化方法及图形。, 研究问题 研究民用汽车总量与国内生产总值的关系。数据如表所示。(资料来源:中国统计年鉴2007,中国统计出版社,2007年),7.6.2 SPSS中实现过程, 实现步骤,图7-9 “Simple Scatterplot”对话框,图7-10 散点图,图7-11 “Curve Estimation”对话框(一),7.6.3 结果和讨论,(1)第一部分输出相关统计量和参数的值,如下表所示。,(2)第二部分输出的是观察值和Cubic,Power两种曲线预测值的对比图,如图7-12所示。,7.7.1 统计学上的定义和计算公式,7.7 曲 线 估 计,定义:在一元回归分析中,一般首先绘制自变量和因变量间的散点图,然后通过数据在散点图中的分布特点选择所要进行回归分析的类型,是使用线性回归分析还是某种非线性的回归分析。,然而,在实际问题中,用户往往不能确定究竟该选择何种函数模型更接近样本数据,这时可以采用曲线估计的方法,其步骤如下:, 首先根据实际问题本身特点,同时选择几种模型; 然后SPSS自动完成模型的参数估计,并显示R2、F检验值、相伴概率值等统计量; 最后,选择具有R2统计量值最大的模型作为此问题的回归模型,并作一些预测。, 研究问题 试用SPSS对国内生产总值和社会消费品零售总额之间的关系进行曲线回归分析。数据如表7-4所示。(资料来源:中国统计年鉴2007,中国统计出版社,2007年),7.7.2 SPSS中实现过程,表7-419782006年社会消费品零售总额, 实现步骤,图7-13 “Curve Estimation”对话框(二),图7-14 “Curve Estimation:Save”对话框(一),(1)SPSS输出结果文件中的第一部分如下表所示。,7.7.3 结果和讨论,(2)输出的结果文件中第二部分如图7-15所示。,(3)由于进行曲线估计时所选的曲线模型种类较多,所以使得输出的观察值与在各种函数模型条件下预测值的对比图比较复杂,不易分辨出究竟Linear,Quadratic,Cubic及Power这4种曲线究竟哪种的对样本观察值的拟合优度更符合实际。,(4)重新回到图所示对话框,在“Model”框内只选中“Quadratic”和“Cubic”这两种拟合优度更高的曲线模型进行估计。得出它们与观察值的对比图,如图所示。,(5)如果在图所示对话框中选中了“Display ANOVA table”项,作回归方程显著性检验,将输出相应的方差分析表,以Cubic模型为例(如下表所示),其结果是:回归方程显著有意义,并且x,x2,x3三个自变量的系数显著不为零。,(6)由于在图所示对话框中选了“Save”项,且在图所示的“Save Variables”框中选择了“Predicted values”,“Residuals”和“Prediction intervals”3个选项,因此在SPSS数据编辑窗口中就增了fit_1,err_1,lcl_1,ucl_1等44个变量的值,如图所示。,曲线估计分析结果保存,7.8.1 统计学上的定义和计算公式,7.8 含虚拟自变量的回归分析,定义:前面几节所讨论的回归模型中,因变量和自变量都是可以直接用数字计量的,即可以获得其实际观测值(如收入、支出、产量、国内生产总值等),这类变量称作数量变量、定量变量或数量因素。然而,在实际问题的研究中,经常会碰到一些非数量型的变量,如性别、民族、职业、文化程度、地区、正常年份与干旱年份、改革前与改革后等定性变量。,在建立一个实际问题的回归方程时,经常需要考虑这些定性变量。例如,建立粮食产量预测方程就应考虑到正常年份与受灾年份的不同影响;建立空调的销售模型时,除了要考虑居民收入和商品价格这两个量的因素之外,还必须将“季节”这个质的因素,作为一个重要解释变量。,由于受到质的因素影响,回归模型的参数不再是固定不变的。例如,在空调销售模型中,收入、价格与空调销售额的关系是随着季节变化而改变的,也就是说,在不同的季节回归模型的参数也会有所不同。再如,我国居民的消费行为在改革开放前后大不相同,因此消费函数的参数也会发生变化。显然,如果忽略质的因素,仍把模型中的参数看作是固定不变的,得到的参数估计量就不能正确描述经济变量之间的关系。,在回归分析中,对一些自变量是定性变量的先作数量化处理,处理的方法是引进只取“0”和“1”两个值的01型虚拟自变量。当某一属性出现时,虚拟变量取值为“1”,否则取值为“0”。例如,令“1”表示改革开放以后的时期,“0”则表示改革开放以前的时期。再如,用“l”表示某人是男性,“0”则表示某人是女性。虚拟变量也称为哑变量。需要指出的是,虽然虚拟变量取某一数值,但这一数值没有任何数量大小的意义,它仅仅用来说明观察单位的性质和属性。,如果在回归模型中需要引入多个01型虚拟变量D时,虚拟变量的个数应按下列原则来确定:对于包含一个具有k种特征或状态的质因素的回归模型,如果回归模型不带常数项,则中需引入k个01型虚拟变量D;如果有常数项,则只需引入k1个01型虚拟变量D。当k=2时,只需要引入一个01型虚拟变量D。,计算公式如下。 下面以自变量所含定性变量是一个还是多个来分别说明如何构造含虚拟自变量的回归模型。 (1)自变量中只含一个定性变量,且这个定性变量只有两种特征的简单情况时。 (2)自变量中含多个定性变量时。, 研究问题 研究采取某项保险革新措施的速度y与保险公司的规模x1及其类型d之间的关系,数据如表7-6所示。,7.8.2 SPSS中实现过程,保险公司革新情况, 实现步骤,图 “Linear Regression”对话框(三),(1)第一部分输出结果文件中的第一个表格如下表所示。,7.8.3 结果和讨论,(2)输出的结果文件中第二个表格如下表所示。,(3)输出的结果文件中第三个表格如下表所示。,(4)输出的结果文件中第四个表格如下表所示。,2022/12/1,103,本章小结,回归分析法主要用于研究事物之间不确定的因果关系,通过分析事物的变化趋势,据此对事物的未来状况作出预测。从不同的角度划分,其类型主要有:一元线性回归分析法、多元线性回归分析法和非线性回归分析法。在利用回归分析法解决问题时,先要根据变量的个数和变量之间的关系,选择合适的回归模型并建立回归模型。在建立模型之后,还要进行回归检验,以确保所选择模型的有效性和科学性。,Enter:所有X一次性全部进入Forward:X一个一个进,每次进入P-value最小的X,直到未进入的X都不显著Backward:所有的X先一次性进入,然后一个一个剔除,每次剔除P-value最大的X,直到保留的X全都显著Stepwise:X一个一个进,但是进入新的X以后,会重新审查所有已进入X的P-value,如果进入新的X导致原来的X的P-value从significant变成不显著t,则把原来的X剔除。总的来说,forward只进不出,backward只出不进,stepwise又进又出。,