统计学《课程设计》论文中国农民收入区域差异的因素分析.doc
统计学课程设计论文中国农民收入区域差异的因素分析Factor Analysis on Income of Farmers in China学 院:理学院专 业:统计学姓 名:学 号:指导教师:论文提交日期:二一二年十一月摘 要最近几年,中国农民收入增长乏力,农村居民消费不旺,城乡收入差距拉大,已是不争的事实。实际上,不仅仅是城乡居民收入差距拉大,就是农民内部也出现了明显的地区差异,这种差异不但没有缩小的趋势,相反却越来越表现出拉大的迹象。由于我国幅员辽阔,各省、市、自治区之间的资源禀赋和经济发展水平不同,农村居民人均纯收入地区差异较为明显。为了更好地分析各地区农村居民人均纯收入及其影响因素的不同,本文首先采用回归分析对近年来我国农民收入变动趋势和收入结构变化进行分析,再利用因子分析和聚类分析对全国31个省、市、自治区进行分类,进一步分析中、东、西部的农民的贫富差距及其原因。因此,该研究对于促进农村经济的发展,提高农民生活水平,具有重要的现实意义。关 键 词:农民收入;地区差异;回归分析;因子分析;系统聚类法Factor Analysis on Income of Farmers in ChinaAbstractIn recent years, Chinese farmers' income growth of weakness, the rural residents consumption not prosperous, widening income gap between the urban and rural, already is an indisputable fact. In fact, not only the income of urban and rural residents gap becomes widening, but also an obvious region difference appears among farmers. We cannot observe any narrowing tendency of this difference, but instead there is much more showing signs of widening. Because our country is known for her massive land, between provinces, municipalities and autonomous regions of the endowment of resources and economic development level is different, and per capita net income of rural residents is obvious regional distinct. In order to analyse the difference of per capita net income of rural residents and its influencing factors in the area, this paper first by regression analysis recent years Chinese farmers' income changing trend and income structure changing, the use of factor analysis and cluster analysis to the national 31 provinces, the city, the autonomous region classification,and with further analysis on east and west of the gap between rich and poor farmers and its reason. Therefore, this research has an important practical significance on promoting the development of rural economy, and raising the farmers living standard.Key words:farmers' income; Regional difference; Regression analysis; Factor analysis; Hierarchical Clustering Method目录1. 引言11.1 研究的背景及意义11.2 本文的研究方法11.3 数据来源12. 检测结果与分析12.1 农村居民家庭人均纯收入分析12.1.1回归分析简介12.1.2 建立回归模型22.2 我国各地区农村居民人均纯收入分析32.2.1 因子分析的基本原理32.2.2 因子分析KMO检验32.2.3 因子分析共同度42.2.4 因子分析的总方差解释52.2.5 因子碎石图52.2.6 因子载荷矩阵62.2.7 因子得分系数72. 2.8 利用因子得分进行聚类72.2.9 各 类之间农村居民家庭人均纯收入的单因素方差分析92.2.10 对各类地区之间的人均纯收入均值进行多重比较103 结论11致 谢1参 考 文 献1附 录1 1. 引言1.1 研究的背景及意义中国自1978年实行改革开放政策以来,经济持续高速增长,我国农村经济发展取得了巨大成就,但是农村、农业和农民问题仍然是新世纪我们所面临的重大问题。“三农”问题说到底就是提高农民收入问题,如何提高农民收入,制约和影响农民收入提高的主要因素有哪些?就这些问题,许多学者从不同的角度进行了分析研究,提出了许多切实可行的措施。比如,调整农村产业结构,改革农村税收体制,采用新技术、新品种,进行现代化农业建设,等等。但是,目前就世界各国通用的衡量收入分配差距程度的指标基尼系数来说,中国的基尼系数已经超过了国际上公认的警戒线,进入差距较大的范围,并且这种差距拉大的趋势还在继续,基尼系数直逼差距悬殊的界限。这种状况引起了经济学者和政策制定者的高度关注,相关的研究文献提出了一些有针对性的解决措施。中国政府相继实行的西部开发,振兴东北老工业基地,中部崛起等一系列政策,就是力图从地域层面解决经济发展中的差距过大问题。从地区分布来看,东、中、西部之间农民人均纯收入分配的不均等程度在扩大,而各经济区内部收入差异在缩小,并且农民收入增长和收入差距有明显的区域分布特点:东部经济发达地区农民收入较高,增速也相对较快,中部地区农民收入水平次之,西部地区农民收入最低。这种分布状况与这三个地区的整体经济发展水平相一致。为什么会出现这种现象?这种现象中是否隐含着某种深层次根源?这很值得我们深思.1.2 本文的研究方法本文首先根据1982年到2011年全国各省农村经济和农村收入数据,分析全国农村居民家庭收入的变动趋势,运用回归分析和简单图表分析了解农村居民家庭收入的增长情况。第二,分析我国农村人均纯收入及影响因素,运用因子分析提取变量中的主要因素,再对因子得分进行聚类分析,将我国各省市农村进行分类,并比较各类的差异。1.3 数据来源本案例的数据来源于中国统计年鉴,主要获取1982-2011年全国各省市农村经济和农村村收入数据,主要用于分析农村人均纯收入的变化情况和对省市进行分类。本例中共有有2个数据文件,数据见表1和表2分别见附录。2. 检测结果与分析 2.1 农村居民家庭人均纯收入分析2.1.1回归分析简介回归分析研究的主要对象是客观事物变量间的统计关系,它是建立在客观事物和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律行的统计方法。回归分析是建立统计模型研究变量间相互关系的密切程度、结构状态、模型预测的一种有效工具。2.1.2 建立回归模型运用SPSS软件绘制表1数据的散点图研究农村居民家庭人均纯收入与时间的变化关系,散点图如图1所示。图1 19822011年全国农村居民家庭人均纯收入分布图Figure 1 In 1982-2011 the per capita net income of rural households scattergram图1散点图的特点可以看出,农村居民家庭人均纯收入(Y)与时间t的呈现的对数变化,考虑建立Y与t的对数线性模型: (1)在SPSS中进行回归分析,得到如表3和表4所示的结果:表3 Model Summary(b)Table 3 Model Summary (b)ModelRR SquareAdjusted R SquareStd. Error of the Estimate10.987(a)0.9740.9730.158733a Predictors: (Constant) ,年份 b Dependent Variable: 农村家庭人均纯收入表4 人均纯收入年度回归系数表Table 4 per capita net income - annual regression coefficient tableModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)-210.8386.685-31.5400.000时间0.1090.0030.98732.6270.000判定系数,说明年份解释农村居民家庭人均纯收入总变异的98.7%。在5%的显著性水平下,回归系数通过t检验,p值非常小,趋近于0。说明回归效果较好,得到如下回归方程: (2)从全国农村居民家庭人均纯收入与年份的函数中可以看出,我国农村居民家庭人均纯收入增长速度较快。2.2 我国各地区农村居民人均纯收入分析2.2.1 因子分析的基本原理因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息。因子分析方法由研究原始变量的相关矩阵内部的依赖关系出发,把多个具有错综复杂关系的原始变量归结为少数几个综合因子的一种多元统计方法。因子分析的基本思想是根据相关性大小把原始变量分组,使同组内的变量之间的相关性较高,不同组的变量间的相关性则较低。对于所研究的某一具体问题,原始变量可以分解成少数几个公共因子的线性函数和与公共因子无关的特殊因子之和的形式。2.2.2 因子分析KMO检验表5是KMO检验及巴特莱特球形检验结果。在因子分析中读者注意选择KMO and Bartlett's test of sphericity 检验统计量,得到如下结果:表5 KMO and Bartlett's TestTable 5 KMO and Bartlett 's TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.0.762Bartlett's Test of SphericityApprox. Chi-Square296.998df28Sig.0.000由表5可以看出,KMO检验值为0.762,说明原始变量有相关性,而巴特莱特球形检验的P值为0,拒绝原假设,通过检验,也说明原始变量之间有较强的相关性。比较适合做因子分析。2.2.3 因子分析共同度如表6所示是因子分析的共同度,显示了所有变量的共同度数据。第一列是因子分析初始值下的变量共同度,它表明对原有8个变量如果采用主成分分析法提取所有8个特征根,那么原有变量的方差都可被解释,变量的共同度均为1;第二列列出了按指定条件提取特征根时的共同度。从表中可以看到,变量的绝大部分信息可被因子解释,这些变量信息丢失较少。表6 因子共同度分析Table 6 factor common degree analysisInitialExtraction人均GDP城市化水平农业机械总动力农村居民家庭纯收入人均二产人均三产农业总产值农业投入1.0001.0001.0001.0001.0001.0001.0001.0000.9450.9250.8280.9550.8790.8660.9470.7982.2.4 因子分析的总方差解释如表7所示是因子分析的总方差解释,是相关系数矩阵的特征值、方差贡献率及累计方差贡献率的计算结果。表7 Total Variance ExplainedTable 7 Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsRotation Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %Total% of VarianceCumulative %14.65058.12158.1214.65058.12158.1214.64758.08958.08922.49431.17889.3002.49431.17889.3002.49731.21089.30030.3584.47193.77140.2192.74396.51450.1301.62798.14160.0590.74298.88270.053066299.54480.0360.456100.000表7给出了因子分析各阶段的特征根及方差贡献率,共有两个因子的特征根大于1,应提取相应的两个公因子。同时可以看出,前两个因子已经可以解释原始变量89.300%的方差,已经包含了大部分的信息。2.2.5 因子碎石图如图2所示是因子分析的碎石图。从图中可以看到,第一、二个特征值明显大于后面的特征值,说明提取第一、二个因子是合适的。图2 碎石图Figure 2 gravel diagram2.2.6 因子载荷矩阵表8 Rotated Component Matrix(a)Table 8 Rotated Component Matrix (a)Component12农村人均家庭纯收入0.9740.082人均GDP0.972-0.007城市化水平0.958-0.086人均二产0.9320.103人均三产0.918-0.154农业总产值-0.1000.968农业机械总动力-0.1850.891农业投入0.2850.847表8为旋转后的因子载荷阵,从表中可以看出,经过旋转后的载荷系数已经明显两极分化了,第一个公因子在农村人均家庭纯收入人均GDP、城市化水平人均二产、人均三产这几个指标上有较大载荷,说明这几个指标有较强的相关性,可以归为一类,命名为“经济因子”;第二个公因子在农业总产值、农业机械总动力、农业投入这几个指标上有较大载荷,同样可以归为一类,命名为“农业因子”。2.2.7 因子得分系数因子得分就是观测量的共性因子的值。给出了因子得分系数矩阵,根据表中的因子得分系数和原始变量的标准化值可以计算每个观测值的各因子的得分。表9 因子得分系数矩阵Table 9 factor score coefficient matrixComponent12人均GDP0.9720.026城市化水平0.960-0.052农业机械总动力-0.2150.884农村居民家庭人均纯收入0.9700.115人均二产0.9280.135人均三产0.922-0.122农业总产值-0.1330.964农业投入0.2560.8562. 2.8 利用因子得分进行聚类聚类分析的目的是把分类对象按照相似性的大小分成若干类,类的数目不必确定,分类完全根据数据自身的特点来完成,在分类结束以后,要求同类的对象相似,而不同类的对象差别大。聚类分析是应用前面因子分析得出的因子得分变量,对全国31个省市自治区进行聚类,本文采用系统聚类,利用SPSS中聚类分析得到结果如下:NeimengguNingxiaXinjiangXizangSichuanGansuGuizhouGuangxiYunnanQinghaiChongqingHainanShanxiShanxi2JiangxiAnhuiHunanHeilongjiangHubeiFujianJilinLiaoningGuangdongZhejiangJiangsuHebeiHenanShangdongBeijingShanghaiTianjin总结聚类图得:第一类:北京、上海、天津;第二类:河北、河南、山东;第三类:海南、山西、陕西、江西、安徽 、湖南、黑龙江、湖北、福建、吉林、辽宁、广东、浙江、江苏。 第四类:内蒙古、宁夏、新疆、西藏、四川、甘肃、贵州、广西、云南、青海、重庆。从聚类结果看,第一类是城市化水平最高的三个直辖市,农村居民的人均纯收入最高,城市的工业化水平高,第二、三产业发达,第一产业比重低,农村居民的人均纯收入的主要来源是工资性收入。第二类都是经济比较发达的省份,3个省份农业都比较发达,其中河南更是农业大省,各省的农村居民的人均纯收入相对较高,工业化水平也相对较高。第三类省市主要是东北三省、中部省份和海南岛等14个省份,农业生产相对比较发达,尤其是东三省更是我国的主要粮食产区,农业生产机械化程度高,此类地区人均收入水平接近国家平均水平,相对较低,工业化水平相对不高。第四类省份主要是西部大开发的省份,农业生产水平相对较低,工业化水平低,第一产业比重相对较高,城市化水平较低,各省的农村居民的人均纯收入相对较低。2.2.9 各 类之间农村居民家庭人均纯收入的单因素方差分析本文利用2011年各省、市、自治区的农村居民家庭人均纯收入指标,根据系统聚类结果,进行单因素方差分析,对各类地区之间人均纯收入是否存在差异进行方差检验。利用SPSS中单因素方差分析,得到如下结果:表10 单因素方差分析结果List 10 single factor variance analysis resultsSum of SquaresdfMean SquareFSig.Between Groups2E+008365217274.6621.7650.000Within Groups80902304272996381.614Total3E+00830从表10可以得出,p<0.05,且F=21.765,拒绝原假设,认为地区因素引起收入之间的差异是显著的。2.2.10 对各类地区之间的人均纯收入均值进行多重比较利用费歇提出的最小显著差异方法(Least Significant Difference)进行检验。表11 多重比较结果Table 11 Multiple comparison resultsMean Difference (I-J)Std. ErrorSig.95% Confidence IntervalLower BoundUpper Bound直辖市东部7014.94667(*)1280.850770.0004386.85809643.0354中部9076.36846(*)1004.782010.0007014.726111138.0108西部6212.69750(*)1012.601440.0004135.01108290.3840东部直辖市-7014.94667(*)1280.850770.000-9643.0354-4386.8580中部2061.421791004.782010.050-.22064123.0642西部-802.249171012.601440.435-2879.93571275.4374中部直辖市-9076.36846(*)1004.782010.000-11138.0108-7014.7261东部-2061.421791004.782010.050-4123.06420.2206西部-2863.67096(*)627.988760.000-4152.1975-1575.1445西部直辖市-6212.69750(*)1012.601440.000-8290.3840-4135.0110东部802.249171012.601440.435-1275.43742879.9357中2863.67096(*)627.988760.0001575.14454152.1975表11结果显示,在0.05的置信水平下,进行多重比较得到的P值均小于0.05,拒绝原假设,认为各类地区之间的农村居民家庭人均纯收入的差异是显著的。第一类的农村居民家庭人均纯收入最高,其次是第二类,第三类,最低的是第四类。3 结论分别通过回归分析、因子分析和聚类分析看出,相对于不太发达的西部地区,东部地区、中部地区则是比较发达。如何缩小我国农村东中西三大区域间农民收入差距呢?我们认为应遵循经济发展的梯度理论,加大政策扶持力度,深化农村产业结构改革,加快推进城镇化进程。具体建议如下:一、 建立农产品价格保障制度 二、 加快对中、西部地区的战略件投入,改善投资环境,加快劳动密集型产业向中西部产业集中三、 积极进行中西部地区的城镇化建设四、 积极推进中西部地区农村产业结构变革五、 实现东中西部地区的经济联合,加强与东部地区的经济交流致 谢本论文是在我们的老师孙鹏哲的亲切关怀和悉心指导下完成的。她严肃的态度,严谨的治学精神,精益求精的工作作风,深深地感染和激励着我们。从课题的选择到项目的最终完成,孙老师都始终给予我们细心的指导和不懈的支持。这一段时间,孙老师在学业上、在思想上给予我们以精心指导,在此谨向孙老师致以诚挚的谢意和崇高的敬意。我们还要感谢在一起完成论文的团队,成员包括:姚荣、娜日娜、潘晓龙、王强、马赤诚,正是由于我们的团结合作,才克服一个一个的困难和疑惑,直至本文的顺利完成。特别说明马赤诚负责了论文数据收集及整理,姚荣数据建模、潘晓龙负责了数据分析,娜日娜负责了论文的分析结果的解释、王强负责了课程论文的撰写。在论文即将完成之际,我的心情无法平静,从开始进入课题到论文的顺利完成,有多少可敬的师长、同学、朋友给了我们无言的帮助,在这里请接受我诚挚的谢意!书到用时方恨少,在这篇论文的撰写过程中,我们深感自己的水平还非常的欠缺。生命不息,学习不止,人生就是一个不断学习和完整的过程。参 考 文 献1 夏怡凡. SPSS统计分析精要与实例详解.北京电子工业出版社,2010.3,2 任雪松.多元统计分析. 中国统计出版社,2010.12,3 内蒙古统计局.2011年内蒙古统计年鉴M.中国统计出版社,2011 4 张平,中国农村区域间居民的收入分配J.经济研究,1992, (2).张平.中国农村居民间区域间收入不平等与非农就业J.经济研究,1998,(8)5 Rozelle, s.,Stagnation without Equity: Patterns of Growth and Inequality in Chinas Rural Economy, The China Journal, vol. 35(January 1996),pp: 6392 6 林震岩,多变量分析-SPSS的操作与应用,北京大学出版社, 2007.8 附 录附录一:数据表1年份全国农村居民家庭人均纯收入(Y)(元)1982270.111983309.771984355.331985397.61986423.761987642.551988453.41989494.221990686.311991675.511992745.951993921.6219941220.9819951577.7419961926.0719972090.1319982161.9819992210.3420002253.4220012366.420022475.6320032622.2420042936.420053254.9320063587.042007414020084760.6220095153.1720105919.0120116977.29表2省市名称人均GDP城市化水平农业机械总动力农村居民家庭人均纯收入人均二产人均三产农业总产值农业投入beijing803940.8727614735.6814068.7435828.18328.02265411092tianjin864960.77587.7912321.2223577.1416606.59317.3264111385hebei337190.45510151.37119.699007.035801.814309.42137373173shanxi308020.49682809.175601.48232.185174.271047.8482275830neimengg566660.56623033.586641.569639.387514.651843.57046296661liaoning503490.64052248.668296.5411183.428383.23106.53048486949jilin378700.53421457509.957042.696203.511850.2807277006heilongj326370.5653736.297590.688788.465447.562536.30042366294shanghai825600.89104.06216053.7927985.8629187.08287.03282709jiangsu610220.6193937.3410804.9516308.3610448.924297.1388832939zhejiang587910.6232427.4613070.6917229.412771.562172.8607702724anhui253950.4485409.786232.214342.934053.982955.449339334fujian474330.5811206.16288778.5510598.288421.162307.0563238183jiangxi259880.45738056891.635365.423615.071900.5843338817shandong469760.50911628.978342.1313742.687746.116650.9429775289henan290120.405710195.88546604.037241.474007.475734.19802452756hubei342330.518333716897.925901.625394.343501.9937389588hunan298930.4514651.546567.065015.784909.563787.46977480973guangd505000.6652345.289371.7314547.312125.293754.86442519633guangxi254990.41812767.67055231.334005.724088.692720.98755269032hainan290120.505425.246446.013530.155156.89821.3089264049chongq347050.551071.096480.415416.235646.521021.13275161974sichuan261470.41833155.136128.554609.173988.894081.8092539819guizhou161170.34961730.3084145.352499.362314.02997.81645288866yunnan190380.3682411.054721.993858.533479.371810.52705388096xizang201520.26378.064904.282870.845734.87100.77215177578shanxi2331970.4732000.00255027.876553.614282.51666.0575350518gansu196280.37151977.553909.374012.483462.341057.01739188778qinghai288270.4622421.314608.466090.864428.54201.31728272663ningxia326920.4982729.12455409.955830.994690.23305.938290216xinjiang302570.43541643.675442.157188.065212.171846.1828243541