主成分分析与因子分析法.ppt
《主成分分析与因子分析法.ppt》由会员分享,可在线阅读,更多相关《主成分分析与因子分析法.ppt(37页珍藏版)》请在三一办公上搜索。
1、,主成分分析法与因子分析法,主要内容,主成分分析法 因子分析法附:主成分分析法与因子分析法的区别,主成分分析法(Principal Components Analysis,PCA),主成分分析法概述主成分分析的基本原理 主成分分析的计算步骤,一、主成分分析概述,假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?,引子,当然不能。汇报什么?发现在如此多的变量之中,有很
2、多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。需要把这种有很多变量的数据进行高度概括,用少数几个指标简单明了地把情况说清楚。,主成分分析法(Principal Components Analysis)和因子分析法(Factor Analysis)就是把变量维数降低以便于描述、理解和分析的方法。主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标),而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。这些综合变量就叫因子或主成分,它是不可观测的,即它不是具体的变量,只是几
3、个指标的综合。在引入主成分分析之前,先看下面的例子。,什么是主成分分析法?,成绩数据,53个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,从本例可能提出的问题,能不能把这个数据表中的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?,事实上,以上问题在平时的研究中,也会经常遇到。它所涉及的问题可以推广到对企业、对学校、对区域进行分析、评价、排序和分类等。比如对n个样本进行综合评价,可选的描述样本特征的指标很多,而这些指标往往存在一定的相关性(既不完全独立,又不完全相关),这就给研究带来很大不便。若选指标太多,会增加分析问题的难度与复杂性,选指标太少,有
4、可能会漏掉对样本影响较大的指标,影响结果的可靠性。,这就需要我们在相关分析的基础上,采用主成分分析法找到几个新的相互独立的综合指标,达到既减少指标数量、又能区分样本间差异的目的。,二、主成分分析的基本原理,(一)主成分分析的几何解释(二)主成分分析的基本思想,(一)主成分分析的几何解释,例中数据点是六维的;即每个观测值是6维空间中的一个点。希望把6维空间用低维空间表示。先假定只有二维,即只有两个变量,语文成绩(x1)和数学成绩(x2),分别由横坐标和纵坐标所代表;每个学生都是二维坐标系中的一个点。,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化。
5、为了实现样本数据的标准化,应求样本数据的平均和方差。对数据矩阵Y作标准化处理,即对每一个指标分量作标准化变换,变换公式为:,其中,样本均值:样本标准差:,原始变量 经规格化后变为新变量,其均值为零,方差为1。对二维空间来讲n个标准化后的样本在二维空间的分布大体为一椭圆形,该椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少,极端的情况下,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。,假定语文成绩(X1)和数学成绩(X2)分别为标准化后的分数,右图为其散点图,椭圆倾斜为45度。,如果将坐标轴 X1 和 X2 旋转45,那么点在新坐标系中的坐标(Y1,Y2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 因子分析

链接地址:https://www.31ppt.com/p-5178280.html