中国民航客运量的回归模型论文1.doc
回归分析论文题目:中国民航客运量的回归模型学校:平顶山学院院系:数学与信息科学学院专业:10级统计学学号:101120154姓名:赵春杰 日期:2012年10月26日我国民航客运量的变化趋势及其成因摘要改革开放以来,中国的经济飞速发展,人民的生活水平也发生了很大的变化;民航一直是交通运输中的一种不可少的方式,一定程度上也反映了人民的生活水平的提高,为了对民航客运量做出准确地评估和预测,本文利用多元线性回归分析方法研究我国民航客运量的变化趋势及其成因,数据来自中国统计年鉴(19812010年民航客运量),利用spss软件对数据进行处理和分析.关键词多元线性回归分析、回归方程、显著性检验、相关性、民航客运量一、模型的建立与分析 (一)研究我国1981年至2010年民航客运量与各影响因素之间的关系1)数据来源:中国统计年鉴(19812010年民航客运量)如下表1 表1.我国民航客运量与影响因素年份y民航客运总量(万人)x1GDP(万元)x2居民消费(万元)x3铁路客运量(千人)x4民航航线里程(万公里)x5来华旅游入境人数(万人)19814014891.62627.99530021.83776.7119824455323.42902.99992223.27792.4319833915962.73231.110604422.91947.719845547208.1374211035326.021285.22198574490164687.411211027.721783.3198699710275.25302.110857932.432281.951987131012058.66126.111242938.912690.231988144215042.87868.112264537.383169.481989128316992.38812.611380747.192450.141990166018667.89450.99571250.682746.21991217821781.510730.69508055.913335.651992288626923.513000.19969383.663811.51993338335333.916412.110545896.084152.71994403948197.921844.2108738104.564368.41995511760793.728369.7102745112.94638.651996555571176.633955.994797116.655112.75199756307897336921.593308142.55758.791998575584402.339229.395085150.586347.841999609489677.141920.4100164152.227279.562000672299214.645854.6105073150.298344.3920017524109655.249435.9105155155.368901.2920028594120332.753056.6105606163.779790.8320038759135822.857649.897260174.959166.21200412123159878.365218.5111764204.9410903.82200513827184937.472652.5115583199.8512029.23200615968216314.482103.5125656211.3512494.21200718576265810.395609.8135670234.313187.33200819251314045.4110594.5146193246.1813002.74200923052340506.9121129.9152451234.5112647.59201026843397983154554.1168145276.513182.34 2)研究方法:建立y与自变量的多元线性回归模型如下:其中 =0 var()=3)实证分析:(1)对收集数据作相关分析,用spss软件计算增广相关矩阵,输出结果如下表2.相关性y民航客运总量(万人)x1GDP(万元)x2居民消费(万元)x3铁路客运量(千人)x4民航航线里程(万公里)x5来华旅游入境人数(万人)Pearson 相关性y民航客运总量(万人)1.000.996.994.809.936.932x1GDP(万元).9961.000.995.820.929.922x2居民消费(万元).994.9951.000.784.950.937x3铁路客运量(千人).809.820.7841.000.597.622x4民航航线里程(万公里).936.929.950.5971.000.978x5来华旅游入境人数(万人).932.922.937.622.9781.000Sig. (单侧)y民航客运总量(万人).000.000.000.000.000x1GDP(万元).000.000.000.000.000x2居民消费(万元).000.000.000.000.000x3铁路客运量(千人).000.000.000.000.000x4民航航线里程(万公里).000.000.000.000.000x5来华旅游入境人数(万人).000.000.000.000.000.从相关矩阵看出,y与,的相关系数都在0.9以上,说明所选自变量与y高度线性相关的,用y与自变量做多元线性回归是合适的。y与的相关系数=0.809,值=0,这说明铁路客运量对民航客运量影响较弱。一般认为铁路客运量与民航客运量之间呈负相关,铁路与民航共同拥有旅客,乘了火车就乘不了飞机。但就中国的实际情况分析我国居民收入普遍不高,一般外出、旅游乘火车的比较多,而且随着我国铁路建设越来越普遍,乘坐火车外出的人也越来愈多。但是仅凭相关系数的大小是不能决定变量的取舍的,在初步建模时还是应该包含的。(2)对数据进行线性回归分析得出以下各表表3.模型汇总b模型RR 方调整 R 方标准 估计的误差Durbin-Watson1.997a.994.993620.9191.512a.预测变量: (常量), x5来华旅游入境人数(万人), x3铁路客运量(千人), x2居民消费(万元), x4民航航线里程(万公里), x1GDP(万元)。b.因变量: y民航客运总量(万人)拟合优度用于描述回归方程对样本观测值的拟合程度,样本决定系数的取值在0,1区间内,越接近1,表明回归拟合的效果越好;越接近0,表明回归拟合的效果差。在实际应用中,人们用复相关系数R来表示回归方程对原始数据拟合程度的的好坏,它衡量作为一个整体的与y的线性关系的大小,由表3可以看出样本决定系数,复相关系数,则表明回归方程对样本观测值的拟合程度较高,整体的与y的线性相关性较高。表4.Anovab模型平方和df均方FSig.1回归1.529E953.058E8793.051.000a残差9252978.91024385540.788总计1.538E929再由表4可以看出:F=793.051,P值=0.000,表明回归方程高度显著,说明整体上对y有高度显著的线性影响表5.系数a模型非标准化系数标准系数tSig.共线性统计量B标准 误差试用版部分容差VIF1(常量)-1579.8492026.482-.780.443x1GDP(万元).052.015.7833.532.002.056.005195.838x2居民消费(万元).014.043.075.314.756.005.004226.766x3铁路客运量(千人).015.018.037.834.413.013.1267.906x4民航航线里程(万公里)3.56411.101.039.321.751.005.01757.963x5来华旅游入境人数(万人).134.138.079.975.339.015.03826.264可得回归方程为从表5中可以看出并不是所有的自变量x单独对y都有显著影响,最大的p值为0.756远大于0.05,没有通过回归系数的显著性检验,这说明尽管回归方程通过了显著性检验,但也会出现某些单个自变量x(甚至于每个x)对y并不显著的情况。(3)由于某些单个自变量不显著,因而在多元回归中并不是包含在回归方程中的自变量越多越好,为了解决这个问题我们可以采取一种简单的剔除多余变量的方法:“后退法”得以下各表表6.模型汇总e模型RR 方调整 R 方标准 估计的误差Durbin-Watson1.997a.994.993620.9192.997b.994.993609.6213.997c.994.993601.5914.997d.994.993594.9301.513 由表6可以看出:用“后退法”进行分析其各个回归方程模型对样本观测值的拟合程度,回归方程均通过了显著性检验。表7.Anovae模型平方和df均方FSig.1回归1.529E953.058E8793.051.000a残差9252978.91024385540.788总计1.538E9292回归1.529E943.822E81028.372.000b残差9290953.01325371638.121总计1.538E9293回归1.529E935.095E81407.901.000c残差9409719.38226361912.284总计1.538E9294回归1.528E927.642E82159.200.000d残差9556437.20427353942.119总计1.538E929a. 预测变量: (常量), x5来华旅游入境人数(万人), x3铁路客运量(千人), x2居民消费(万元), x4民航航线里程(万公里), x1GDP(万元)。b. 预测变量: (常量), x5来华旅游入境人数(万人), x3铁路客运量(千人), x4民航航线里程(万公里), x1GDP(万元)。c. 预测变量: (常量), x5来华旅游入境人数(万人), x3铁路客运量(千人), x1GDP(万元)。d. 预测变量: (常量), x5来华旅游入境人数(万人), x1GDP(万元)。e. 因变量: y民航客运总量(万人)由表7可知 =793.051 =1028.372 =1407.901 =2159.200 = = = =0.000表明在利用“后退法”进行分析得到的四个回归方程高度显著。表8.系数a模型非标准化系数标准系数tSig.B标准 误差试用版部分1(常量)-1579.8492026.482-.780.443x1GDP(万元).052.015.7833.532.002.056x2居民消费(万元).014.043.075.314.756.005x3铁路客运量(千人).015.018.037.834.413.013x4民航航线里程(万公里)3.56411.101.039.321.751.005x5来华旅游入境人数(万人).134.138.079.975.339.0152(常量)-1579.4841989.609-.794.435x1GDP(万元).056.006.8459.017.000.140x3铁路客运量(千人).015.018.037.844.407.013x4民航航线里程(万公里)5.3209.412.058.565.577.009x5来华旅游入境人数(万人).124.131.073.943.355.0153(常量)-837.4171475.442-.568.575x1GDP(万元).059.005.88112.950.000.199x3铁路客运量(千人).009.013.021.637.530.010x5来华旅游入境人数(万人).180.084.1062.127.043.0334(常量)90.159231.011.390.699x1GDP(万元).061.003.91623.382.000.355x5来华旅游入境人数(万人).147.067.0872.212.036.034利用“后退法”首先剔除x2,得到回归模型2:,其中=0.577>0.05,回归方程系数未通过检验,再剔除x4得回归模型3,其中=0.530>0.05回归方程系数未通过检验,再剔除x3得回归模型4 =0.000 =0.036 均小于0.05 回归方程系数通过检验通过以上的方法我们最终得到因变量y与x1和x5保持着高度线性相关性,但在实际应用时,为了模型的结构合理,我们有时也保留个别对y影响不大的变量,这种情况尤其是在建立宏观经济模型时常常如此。(4)作散点图如下图9图9 .民航客运量随年份变化趋势图由该散点图可以看出,从1981年至1990年我国的民航客运量变化的幅度较小,1990年至2010年变化幅度较大,为了使所建的模型能对未来的情况进行预测,我把收集到的数据分成了两部分进行讨论:一部分是从1981年至1990年的数据,另一部分是1991年至2010年的数据。(二)对1981年至1990年我国民航客运量与各影响因之间的关系进行分析表10.1981年至1990年我国民航客运量与各影响因之间数据表年份y民航客运总量(万人)x1GDP(万元)x2居民消费(万元)x3铁路客运量(千人)x4民航航线里程(万公里)x5来华旅游入境人数(万人)19814014891.62627.99530021.83776.7119824455323.42902.99992223.27792.4319833915962.73231.110604422.91947.719845547208.1374211035326.021285.22198574490164687.411211027.721783.3198699710275.25302.110857932.432281.951987131012058.66126.111242938.912690.231988144215042.87868.112264537.383169.481989128316992.38812.611380747.192450.141990166018667.89450.99571250.682746.21)对该表的数据用spss进行分析,得y与自变量相关性如表表11.相关性yx1x2x3x4x5Pearson 相关性y1.000.962.957.332.945.960x1.9621.000.999.307.979.896x2.957.9991.000.320.975.895x3.332.307.3201.000.195.551x4.945.979.975.1951.000.847x5.960.896.895.551.8471.000Sig. (单侧)y.000.000.174.000.000x1.000.000.194.000.000x2.000.000.183.000.000x3.174.194.183.295.050x4.000.000.000.295.001x5.000.000.000.050.001.从相关矩阵看出,y与,的相关系数都在0.9以上,说明所选自变量与y高度线性相关的,用y与自变量做多元线性回归是合适的。y与的相关系数=0.332 ,值=0,这说明铁路客运量对民航客运量影响较弱,就中国的实际情况分析我国居民收入普遍不高,一般外出、旅游乘火车的比较多,因此影响较弱。2)对数据进行线性回归分析得出以下各表表12.模型汇总b模型RR 方调整 R 方标准 估计的误差1.997a.994.98853.242由表12可以看出样本决定系数,复相关系数,则表明回归方程对样本观测值的拟合程度较高,整体的与y的线性相关性较高。表13.Anovab模型平方和df均方FSig.1回归2038229.2915407645.858143.806.000a残差11338.80942834.702总计2049568.1009再由表13可以看出:F=143.806,P值=0.000,表明回归方程高度显著,说明整体上对y有高度显著的线性影响表14.系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)742.011396.7411.870.135x1-.058.189-.606-.307.774x2.126.336.662.375.727x3-.010.004-.182-2.663.056x411.63011.994.252.970.387x5.426.074.7985.757.005得回归方程:由表可知:只有=0.005<0.05,通过了检验,其他的p值都大于0.05。这表明来华旅游入境人数对民航客运量的影响较大,1979年我国开始实行改革开放,国民经济有了迅猛发展,外国旅游人数愈来愈多,来华旅游者大都比较富裕,且路程较远,他们都会选择乘飞机作为交通工具,因此对民航客运量的影响较大。 3)直方图 :(三)对1991年至2010年我国民航客运量与各影响因之间的关系进行分析 表15.1991年至2010年我国民航客运量与各影响因之间数据表 年份y民航客运总量(万人)x1GDP(万元)x2居民消费(万元)x3铁路客运量(千人)x4民航航线里程(万公里)x5来华旅游入境人数(万人)1991217821781.510730.69508055.913335.651992288626923.513000.19969383.663811.51993338335333.916412.110545896.084152.71994403948197.921844.2108738104.564368.41995511760793.728369.7102745112.94638.651996555571176.633955.994797116.655112.75199756307897336921.593308142.55758.791998575584402.339229.395085150.586347.841999609489677.141920.4100164152.227279.562000672299214.645854.6105073150.298344.3920017524109655.249435.9105155155.368901.2920028594120332.753056.6105606163.779790.8320038759135822.857649.897260174.959166.21200412123159878.365218.5111764204.9410903.82200513827184937.472652.5115583199.8512029.23200615968216314.482103.5125656211.3512494.21200718576265810.395609.8135670234.313187.33200819251314045.4110594.5146193246.1813002.74200923052340506.9121129.9152451234.5112647.59201026843397983154554.1168145276.513182.341) 做散点图:2)曲线估计:由上图可知,民航客运量y随年份变化的情况用指数分布模型更适合。3)对表15的数据用spss进行分析,得y与自变量相关性如表表16.相关性yx1x2x3x4x5Pearson 相关性y1.000.995.990.947.944.908x1.9951.000.995.945.947.904x2.990.9951.000.928.958.908x3.947.945.9281.000.827.777x4.944.947.958.8271.000.962x5.908.904.908.777.9621.000Sig. (单侧)y.000.000.000.000.000x1.000.000.000.000.000x2.000.000.000.000.000x3.000.000.000.000.000x4.000.000.000.000.000x5.000.000.000.000.000. 表17.模型汇总b模型RR 方调整 R 方标准 估计的误差1.996a.992.989742.138表18.Anovab模型平方和df均方FSig.1回归9.675E851.935E8351.339.000a残差7710767.81314550769.129总计9.752E819由表16可得y与自变量的相关系数都在0.9以上,说明y与自变量之间高度相关;由表17可以看出样本决定系数,复相关系数,则表明回归方程对样本观测值的拟合程度较高,整体的与y的线性相关性较高;再由表18可以看出:F=351.339,P值=0.000,表明回归方程高度显著,说明整体上对y有高度显著的线性影响,,但是仅凭相关系数的大小是不能决定变量的取舍的。表19系数a非标准化系数标准系数tSig.B标准 误差试用版VIF1(常量)-3698.6863640.821-1.016.327x1.042.021.6392.005.065180.010x2.032.053.174.603.556147.298x3.044.033.1331.351.19817.110x4-7.10317.385-.059-.409.68936.668x5.251.187.1251.342.201.908.338.032.06515.412由表19得线性回归方程: 而的值均大于0.05,回归系数并没有通过显著性检验,我们可以采取“后退法”或“前进法”进行分析,其中“后退法”具体的方法及分析步骤前面已经给出,这里不再叙述,读者也可以参考 何晓群实用回归分析。用“前进法”进行分析得表20:可知y与x1高度相关。20.系数a模型非标准化系数标准系数tSig.相关性B标准 误差试用版零阶偏部分1(常量)830.007269.9493.075.007x1.065.002.99542.899.000.995.995.995结论通过以上一系列的分析,x1GDP(万元)、x2居民消费(万元)、x5来华旅游入境人数(万人)和x4民航航线里程(万公里)与民航客运量y(万人)均具有正相关关系,这表明近几年我国经济迅猛发展,国民收入增加,乘飞机外出、旅游等其他活动的人数比例有所增加,民航里程线也增加,而且来华旅游者大都比较富裕,加上路程较远,他们就选择了飞机作为交通工具,因此对民航客运量的影响较大,进一步刺激了我国经济的发展;很显然x3铁路客运量(千人)对民航客运量的影响较弱。参考文献:1 何晓群实用回归分析北京:高等教育出版社,2008.52中国统计年鉴中国统计年鉴(19812010年民航客运量)【注】写这篇论文用了大概两周的时间,因为这次是第一次写论文,对论文的格式和要求并不了解,所以刚开始的时候遇到了很多问题,在复制spss分析的表格和图像时,有的表格和图像太大,调整时候很是麻烦,还有在分析时不够全面具体有很多不足之处还请老师多多指点。