用因子分析和聚类分析研究我国主要农产品单位面积产量解读.doc

上传人：仙人指路1688

文档编号：4167553

上传时间：2023-04-08

格式：DOC

页数：22

大小：520KB

《用因子分析和聚类分析研究我国主要农产品单位面积产量解读.doc》由会员分享，可在线阅读，更多相关《用因子分析和聚类分析研究我国主要农产品单位面积产量解读.doc（22页珍藏版）》请在三一办公上搜索。

1、统计计算方法与统计软件课程设计题目: 用因子分析和聚类分析研究我国主要农产品单位面积产量学院：班级：学生姓名：学生学号：指导教师： 2015 年 07 月 10 日设计题目用因子分析和聚类分析来分析主要农产品单位面积产量设计类型（相应选项打）题目来源：科研项目工程实际自拟题目其他题目性质：应用类理论研究类软件工程类信息类设计目标运用因子分析和聚类分析来对我国主要农产品单位面积产量进行分析，找出他们之间的关系，从而得到结论。计划调查（或研究）内容搜集我国主要农产品单位面积产量，运用所学的SPSS对数据进行合理的分析，找出他们之间的关系。可以预见的困

2、难及解决途径1、运用软件对数据进行分析。解决方法：熟悉软件2、计算时可能出现误差。解决方法：多次实验3、软件的运用。解决方法：软件多次使用。参考文献与参考资源（包括网址与地址）1 肖华勇.统计计算与软件应用M.西北工业大学出版社,20092 3 林海明.对主成分分析法运用中十个问题的解析J.统计与决策,2007.(16):16-18.4 许丽利.聚类分析的算法及引用D.吉林大学，2014.计划与进度的安排1、第一天：根据设计题目，安排进度。2、第二天：查阅资料，进行设计前必要的资料准备。3、第三天、第四天、第五天：程序编写、上机调试。4、第二周的第一天：上机调试程序、结果分析。5、第二周

3、的第二天：撰写设计报告。指导教师评语：签名：评分：目录摘要I1 题目分析2 1.1 调查目的21.2 设计方法22 背景分析32.1理论一 32.2 理论二33 实例分析43.1 数据43.2 运用公式进行分析54 运用SPSS进行分析75 结论167 参考文献17摘要针对统计计算方法与统计软件课程中所学的因子分析和聚类分析，对我国主要农产品单位面积产量进行分析，并对所得到的结论进行整理，调查面积按生产单位和农户所调查品种当年实际种植面积计算，不按耕地面积、收获面积和计划播种面积计算。如遇灾害全部或部分改种其它作物，则按各种作物实际种植面积计算。间作、套种的作物按各种作物占有面积折算，不要多

4、算或少算。多年生作物（如苎麻、甘蔗）按当年留存的可收面积计算。关键词：因子分析聚类分析农作物产量单位面积 1 题目分析1.1调查目的本次课程设计的目的是为了了解我国农产品的产量，农产品成本是农产品价值的重要组成部分，在市场经济条件下，及时、准确地了解和掌握农产品的生产成本水平，对于制定合理的农产品价格与流通政策，加强农业宏观调控，科学有效地组织指导农业生产，优化农业生产结构，促进农业生产的稳步发展，具有十分重要的意义。1.2设计方法运用因子分析和聚类分析两种方法，利用SPSS软件对主要农产品单位面积产量进行分析，从而得到结果。因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间

5、的联系，即将相关比较密切的几个变量归在同一类中，每一类变量就成为一个因子，以较少的几个因子反映原资料的大部分信息。运用这种研究技术，我们可以方便地找出影响某时间的主要因素是哪些，以及它们的影响力运用这种研究技术，我们还可以为市场细分做前期分析。我们所研究的样品（网点）或指标（变量）之间存在程度不同的相似性（亲疏关系以样品间距离衡量）。于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据。把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另一类，直到把所有的样品（或指标）聚合完毕，这就是

6、聚类分析。2 背景分析2.1理论一因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系，即将相关比较密切的几个变量归在同一类中，每一类变量就成为一个因子（之所以称其为因子，是因为它是不可观测的，即不是具体的变量），以较少的几个因子反映原资料的大部分信息。因子分析是处理多变量数据的一种统计方法，它可以揭示多变量之间的关系，其主要目的是从众多的可观测得变量中概括和综合出少数几个因子，用较少的因子变量来最大程度地概括和解释原有的观测信息，从而建立起简洁的概念系统，揭示出事物之间本质的联系。主要适用于在没有任何前提预设假定下，研究者用它来对观察变量因子结构的寻找、对因子的内容以及变量

7、的分类。通过共变关系的分解，进而找出最低限度的主要成分，让你后进一步探讨这些主成分或共同因子与个别变量之间的关系，找出观察变量与其对应因子之间的强度，即所谓的因子负荷值，以说明因子与所属的观察变量的关系，决定因子的内容。要求研究者对研究对象潜在变量的内容与性质，在测量之初就必须有非常明确的说明，或有具体的理论基础，并已先期决定相对应的观测变量的组成模式，进行因子分析的目的是为了检验这一先前提出的因子结构的适合性。2.2理论二聚类分析是研究“物以类聚”的一种科学有效的方法。做聚类分析时，出于不同的目的和要求，可以选择不同的统计量和聚类方法。系统聚类是目前应用最为广泛的一种聚类方法，其基本思想

8、是：先将待聚类的n个样品（或者变量）各自看成一类，共有n类；然后按照实现选定的方法计算每两类之间的聚类统计量，即某种距离（或者相似系数），将关系最为密切的两类合为一类，其余不变，即得到n-1类；再按照前面的计算方法计算新类与其他类之间的距离（或相似系数），再将关系最为密切的两类并为一类，其余不变，即得到n-2类；如此下去，每次重复都减少一类，直到最后所有的样品（或者变量）都归为一类为止。 3 实例分析3.1数据表3-1 2013数据(单位：吨)地区谷物棉花花生油菜籽芝麻黄红麻甘蔗甜菜烤烟北京6191107829987909200000天津5344123734840145000

9、00河北547694636581613137523740455751807山西4509130723141431108100488583030内蒙古572614541969116290300395883903辽宁7044188132591911194300514022876吉林7875184837650115100272612510黑龙江6248028756198145100319322511上海6888195526692142142704832900江苏66421349374527371781060761100001700浙江645314232823198417003293619

10、5500安徽565188147342289141229484012102582福建600275526441456124632136115302141江西5963154627611285116248684464302126山东624492344302545162400223332677河南5954101645442418152855827167802526湖北6256110634002042161218383828824501906湖南6163124125101545154628525181602203广东5395028451188148324228978902391广西536

11、7106627761013131614687203201720海南4768027350159636066851001200重庆622866020581860102916163709101918四川5917942251622451315210540638212471995贵州39735871894161410426005706020001640云南453719421617171989620676269001976西藏55230192426040000陕西428615772946194016581003180002332甘肃4333173239921950000503513397青

12、海3822002070000225000宁夏58793400179425167500004816新疆62892047566125821493007230103.2运用公式进行分析因子分析：考虑个成分的随机观测向量。因子模型要求线性相依，其中有m个公共因子f1 f2.fm 和特殊因子组成。具体如下：如果fi与fj相互独立（ij），则称该因子模型为正交因子模型。正交因子模型具有如下特性：x的方差可表示为:（）hi2是m个公共因子对第i个变量的贡献，称为第i个共同度（communality）或共性方差，公因子方差（common variance）（）i称为特殊方差（specific vari

13、ance），是不能由公共因子解释的部分因子负载aij是随机变量xi与公共因子fj的相关系数。称gj2为公共因子fj对x的“贡献”，是衡量公共因子fj重要性的一个指标。聚类分析：所谓直接聚类法，是指在建立模糊相似矩阵之后，不去求传递闭包，也不用布尔矩阵法，而是直接从模糊相似矩阵出发求得聚类图。其步骤如下：取（最大值），对每个作相似类，且 =，即将满足的与放在一类，构成相似类。相似类与等价类的不同之处是，不同的相似类可能有公共元素，即可出现 ,.此时只要将有公共元素的相似类合并，即可得水平上的等价分类。取为次大值，从中直接找出相似度为的元素对（即），将对应于的等价分类中所在的类与所在的类合并，

14、将所有的这些情况合并后，即得到对应于的等价分类。取为第三大值，从中直接找出相似度为的元素对（即），将对应于的等价分类中所在的类与所在的类合并，将所有的这些情况合并后，即得到对应于的等价分类。以此类推，直到合并到成为一类为止。4 运用Spss进行分析点击分析，在点击将维，选择因子分析，将谷物、棉花、花生油、菜籽、芝麻、黄红麻、烤烟、甜菜、甘蔗导入变量，在描述中选择单变量，在抽取中选择碎石图，点击确定因子分析表5-1附注创建的输出01-JUL-2015 11:57:28注释输入活动的数据集数据集1过滤器权重拆分文件工作数据文件中的 N 行31缺失值处理对缺失的定义MISSING=EXCLUDE

15、：用户定义的缺失值作为缺失对待。使用的案例LISTWISE：统计量基于对所使用任何变量都不含缺失值的案例。语法FACTOR/VARIABLES 谷物棉花花生油菜籽芝麻黄红麻甘蔗甜菜烤烟/MISSING LISTWISE/ANALYSIS 谷物棉花花生油菜籽芝麻黄红麻甘蔗甜菜烤烟/PRINT INITIAL KMO EXTRACTION ROTATION FSCORE/PLOT EIGEN/CRITERIA MINEIGEN(1) ITERATE(25)/EXTRACTION PC/CRITERIA ITERATE(25)/ROTATION VARIMAX/SAV

16、E REG(ALL)/METHOD=CORRELATION.资源处理器时间00:00:01.75已用时间00:00:01.16所需的最大内存12144 (11.859K) 字节已创建的变量FAC1_1成份得分 1FAC2_1成份得分 2FAC3_1成份得分 3表5-2KMO 和 Bartlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。.596Bartlett 的球形度检验近似卡方68.892df36Sig.001KMO值为0.596，大于最低限度0.5，说明可以做因子分析，Bartlett的显著性为0.001，小于0.05，说明可以进一步进行因子分析。表5-3公因子方

17、差初始提取谷物1.000.843棉花1.000.805花生1.000.658油菜籽1.000.789芝麻1.000.763黄红麻1.000.690甜菜1.000.713烤烟1.000.857提取第一列，我们可以清楚的看到。除了花生和黄红麻以外，其余所提取的变量信息在70%以上，所以它丢失的信息量较少，因此可以进一步做因子分析。表5-4解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的 %累积 %合计方差的 %累积 %合计方差的 %12.54028.22028.2202.54028.22028.2202.37126.34222.03022.55550.7752.0302

18、2.55550.7752.01122.34331.14412.71663.4911.14412.71663.4911.29514.38341.08312.03775.5281.08312.03775.5281.12112.4605.7828.68584.2126.4755.27389.4857.4404.88994.3748.2983.31497.6889.2082.312100.000表5-5解释的总方差成份旋转平方和载入累积 %126.342248.685363.068475.52856789在初始特征值一栏中，有4个特征值大于1，保留4个主成分，它们的累计方差贡献率为75.528%。图5

19、-1从碎石图可知，特征值大于1的有4个点，说明保留4个主成分。表5-6成份矩阵a成份1234谷物-.896.054.124.146棉花.465.248.690-.225花生.128.789-.129-.050油菜籽.269.202-.340.748芝麻-.348.792-.123.012黄红麻-.768.153.166.220甜菜.785.126-.279.047烤烟.308-.001.620.615表5-7提取方法 :主成份。aa. 已提取了 4 个成份。旋转成份矩阵a成份1234谷物.908.026-.129-.014棉花-.304.250.678-.436花生-.129

20、.793-.019.109油菜籽-.154.112.108.861芝麻.334.786-.146.112黄红麻.821.113-.013.055甜菜-.790.132.050.262烤烟.011-.109.871.293提取方法 :主成份。旋转法 :具有 Kaiser 标准化的正交旋转法。aa. 旋转在 7 次迭代后收敛。第一个主成分主要包含谷物、黄红麻、甜菜的信息。第二个主成分主要包含：花生、芝麻的信息。第三个主成分主要包含：油菜籽的信息。表5-8成份转换矩阵成份12341-.938.003.331.1032.045.990.087.1033.252-.040.855-.4514.

21、234-.137.390.880提取方法 :主成份。旋转法 :具有 Kaiser 标准化的正交旋转法。表5-9成份得分系数矩阵成份1234谷物.391.003.030.036棉花-.063.126.506-.424花生-.069.396-.064.055油菜籽-.008.016.059.763芝麻.122.388-.099.084黄红麻.371.040.110.090甜菜-.339.066-.084.187烤烟.155-.099.724.268提取方法 :主成份。旋转法 :具有 Kaiser 标准化的正交旋转法。构成得分。依据系数矩阵得：主成分F1=0.391谷物0.063棉花

22、0.069花生0.008油菜籽+0.122芝麻+0.371黄红麻0.339甜菜+0.155烤烟主成分F2=0.003谷物+0.126棉花+0.396花生+0.016油菜籽+0.388芝麻+0.040黄红麻+0.066甜菜0.099烤烟主成分F3=0.030谷物+0.126棉花0.064花生+0.059油菜籽0.099芝麻+0.110黄红麻0.084甜菜+0.724烤烟主成分F4=0.036谷物0.424棉花+0.055花生+0.763油菜籽+0.084芝麻+0.090黄红麻+0.187甜菜+0.268烤烟表5-10成份得分协方差矩阵成份123411.000.000.000.0002.0001

23、.000.000.0003.000.0001.000.0004.000.000.0001.000提取方法 :主成份。旋转法 :具有 Kaiser 标准化的正交旋转法。构成得分。在SPSS中打开数据，点击分析，再点击分类，选择系统聚类，在统计量中点击单一方案中选择聚类数4，在绘制中选择树状图，点击确定。聚类表5-11附注创建的输出01-JUL-2015 12:00:57注释输入活动的数据集数据集1过滤器权重拆分文件工作数据文件中的 N 行31缺失值处理对缺失的定义用户定义的缺失值作为缺失数据对待。使用的案例统计是在所使用的变量不带有缺失值的案例基础上进行的。语法CLUSTER 谷物棉花花

24、生油菜籽芝麻黄红麻甘蔗甜菜烤烟 /METHOD BAVERAGE /MEASURE=SEUCLID /ID=地区 /PRINT SCHEDULE /PLOT DENDROGRAM VICICLE.资源处理器时间00:00:00.39已用时间00:00:00.42表5-12案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比3096.813.231100.0a. 平方 Euclidean 距离已使用b. 平均联结（组之间）平均联结（组之间）表5-13聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 21121882830.89100132111363982

25、19.88400534286827770.286006417229858566.2480075112510283933.900201464614091408.78230117121716308926.14704178202119848091.5700099162025234915.46508201091826578313.1030015113433513643.69006231271534968271.89200161313035485945.167102814112439668215.82950191591449779521.709100211672952502643.41612022171

26、22758343243.2547021185889407962.1450022191011110347827.30001420201016141984512.2431992521912161611690.0891517242257182437698.6571816232335476777945.36111222624923484997631.2982102525910658939872.544242027263311344738322.33323028279191555790170.2402502928131939619222.30313262929194670415599.59828270图

27、5-2图5-35结论验得到，除了花生和黄红麻以外，其余所提取的变量信息在70%以上，所以它丢失的信息量较少，第一个主成分主要包含谷物、黄红麻、甜菜的信息，第二个主成分主要包含：花生、芝麻的信息，第三个主成分主要包含：油菜籽的信息。4个特征值大于1，保留4个主成分，它们的累计方差贡献率为75.528%，KMO值为0.596，大于最低限度0.5，说明可以做因子分析，Bartlett的显著性为0.001，小于0.05，说明可以进一步进行因子分析。培养了我选用参考书，查阅手册及文献资料的能力。培养独立思考，深入研究，分析问题、解决问题的能力。通过实际编译系统的分析设计、编程调试，掌握应用软件的分析

28、方法和工程设计方法。通过课程设计，培养了我严肃认真的工作作风，逐步建立正确的生产观念、经济观念和全局观念。而且做课程设计同时也是对课本知识的巩固和加强，平时看课本时，有些问题就不是很能理解，做完课程设计，那些问题就迎刃而解了。而且还可以记住很多东西。认识来源于实践，实践是认识的动力和最终目的，实践是检验真理的唯一标准。所以这个期末测试之后的课程设计对我们的作用是非常大的。程设计使我懂得了理论与实际相结合是很非常重要的，只有理论知识是远远不够的，只有把所学的理论知识与实践相结合起来，从理论中得出结论，才能真正为社会服务，从而提高自己的实际动手能力和独立思考的能力。在整个设计过程中，构思是很花费

29、时间的。调试时经常会遇到这样那样的错误，有的是因为粗心造成的语法错误。当然，很多也时用错了方法，总是实现不了。同时在设计的过程中发现了自己的不足之处，对以前所学过的知识理解得不够深刻，掌握得不够牢固。6参考文献1 肖华勇.统计计算与软件应用M.西北工业大学出版社,2009.2崔俊凯.计算机软件基础.机械工业出版社M,2010.3张庆利.SPSS宝典.电子工业出版社M,2007.4薛薇.统计分析与SPSS的应用.中国人民大学出版社M,2008.5杨卡.因子分析在高校学生成绩管理中的应用J，现代企业教育，2014,03:4-6.6李蓉,李宇.基于因子分析与聚类分析方法的我国西部区域划分问题的研

30、究J.科技广场，2006,03:2-3.7胡建人.基于因子分析法的企业成长性评价模型J.中国外资，2009,08:120-1228许静，谭月嫄，杨超.中国国民消费的影响因子分析J.中国集体经济，2015,02:3-5.9郁菁.基于因子和聚类分析的全国城镇居民消费结构地区差异研究.重庆城市管理职业学院学报J，2007,02:31-34.10朱歆玥.聚类分析在研究全国城镇居民消费结构地区差异中的应用J.科技之苑，2006，01:12-15.11许国琼.基于，类力法的我国各省市城镇居民消费结构分析D.海南大学，2010.12李子豪.因子分析在统计学的应用D.兰州大学，2011.课程设计评阅书课程设计报告评语：（评阅意见主要对设计任务的合理性、规范性和正确性以及设计报告书的完整性、规范性和通顺性等方面作出评价）报告成绩：答辩记录与评语：答辩成绩：课程设计总成绩：教师签名：年月日