主成分分析课件.ppt
《主成分分析课件.ppt》由会员分享,可在线阅读,更多相关《主成分分析课件.ppt(113页珍藏版)》请在三一办公上搜索。
1、2023/6/11,1,主成分分析,1 主成分分析的基本思想与理论,2 主成分分析的几何意义,3 总体主成分及其性质,4 样本主成分的导出,5 有关问题的讨论,6 主成分分析步骤及框图,7 主成分分析的上机实现,2023/6/11,2,主成分分析,目录 上页 下页 返回 结束,主成分分析(principal components analysis)也称主分量分析,是由霍特林(Hotelling)于1933年首先提出的。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主
2、成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。本章主要介绍主成分分析的基本理论和方法、主成分分析的计算步骤及主成分分析的上机实现。,2023/6/11,3,目录 上页 下页 返回 结束,1 主成分分析的基本思想与理论,1.1 主成分分析的基本思想,1.2 主成分分析的基本理论,2023/6/11,4,目录 上页 下页 返回 结束,1.1 主成分分析的基本思想,在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及
3、其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。,2023/6/11,5,目录 上页 下页 返回 结束,1.1 主成分分析的基本思想,既然研究某一问题涉
4、及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:,1.每一个主成分都是各原始变量的线性组合;2.主成分的数目大大少于原始变量的数目,2023/6/11,6,目录 上页 下页 返回 结束,1.1 主成分分析的基本思想,3.主成分保留了原始变量绝大多数信息4.各主成分之间互不相关,通过主成分分析,可以从事物
5、之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。,2023/6/11,7,目录 上页 下页 返回 结束,1.2 主成分分析的基本理论,设对某一事物的研究涉及个 指标,分别用 表示,这个 指标构成的 维随机向量为。设随机向量 的均值为,协方差矩阵为。,对 进行线性变换,可以形成新的综合变量,用 表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足下式:,(5.1),2023/6/11,8,目录 上页 下页 返回 结束,1.2 主成分分析的基本理论,由于可以任意地对原始变
6、量进行上述线性变换,由不同的线性变换得到的综合变量 的统计特性也不尽相同。因此为了取得较好的效果,我们总是希望 的方差尽可能大且各 之间互相独立,由于,=,而对任给的常数,有,2023/6/11,9,目录 上页 下页 返回 结束,1.2 主成分分析的基本理论,因此对 不加限制时,可使 任意增大,问题将变得没有意义。我们将线性变换约束在下面的原则之下:,3.是 的一切满足原则1的线性组合中方差最大者;是与 不相关的 所有线性组合中方差最大者;,是与 都不相关的 的所有线性组合中方差最大者。,2023/6/11,10,目录 上页 下页 返回 结束,1.2 主成分分析的基本理论,基于以上三条原则决定
7、的综合变量 分别称为原始变量的第一、第二、第 个主成分。其中,各综合变量在总方差中占的比重依次递减,在实际研究工作中,通常只挑选前几个方差最大的主成分,从而达到简化系统结构,抓住问题实质的目的。,2023/6/11,11,目录 上页 下页 返回 结束,2 主成分分析的几何意义,由第一节的介绍我们知道,在处理涉及多个指标问题的时候,为了提高分析的效率,可以不直接对 个指标构成的 维随机向量 进行分析,而是先对向量 进行线性变换,形成少数几个新的综合变量,使得各综合变量之间相互独立且能解释原始变量尽可能多的信息,这样,在以损失很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。这一节
8、,我们着重讨论主成分分析的几何意义,为了方便,我们仅在二维空间中讨论主成分的几何意义,所得结论可以很容易地扩展到多维的情况。,2023/6/11,12,目录 上页 下页 返回 结束,2 主成分分析的几何意义,设有 个样品,每个样品有两个观测变量,这样,在由变量 组成的坐标空间中,个样品点散布的情况如带状,见图5-1。,图5-1,2023/6/11,13,目录 上页 下页 返回 结束,2 主成分分析的几何意义,由图可以看出这 个样品无论沿 轴方向还是沿 轴方向均有较大的离散性,其离散程度可以分别用观测变量 的方差和 的方差定量地表示,显然,若只考虑 和 中的任何一个,原始数据中的信息均会有较大的
9、损失。我们的目的是考虑 和 的线性组合,使得原始样品数据可以由新的变量 和 来刻画。在几何上表示就是将坐标轴按逆时针方向旋转 角度,得到新坐标轴 和,坐标旋转公式如下:,2023/6/11,14,目录 上页 下页 返回 结束,2 主成分分析的几何意义,其矩阵形式为:,其中,为旋转变换矩阵,由上式可知它是正交阵,即满足,2023/6/11,15,目录 上页 下页 返回 结束,2 主成分分析的几何意义,2023/6/11,16,目录 上页 下页 返回 结束,2 主成分分析的几何意义,设变量 遵从二元正态分布,分布密度为:,令 为变量 的协方差矩阵,其形式如下:,令,则上述二元正态分布的密度函数有如
10、下矩阵形式:,2023/6/11,17,目录 上页 下页 返回 结束,2 主成分分析的几何意义,令,则上面的方程变为:,2023/6/11,18,目录 上页 下页 返回 结束,2 主成分分析的几何意义,这是一个椭圆的方程,长短轴分别为:,因此有:,2023/6/11,19,目录 上页 下页 返回 结束,2 主成分分析的几何意义,与上面一样,这也是一个椭圆方程,且在 构成的坐标系中,其主轴的方向恰恰正是 坐标轴的方向。因为 所以,就是原始变量 的两个主成分,它们的方差分别为,在 方向上集中了原始变量 的变差,在 方向上集中了原始变量 的变差,经常有 远大于,这样,我们就可以只研究原始数据在 方向
11、上的变化而不致于损失过多信息,而 就是椭圆在原始坐标系中的主轴方向,也是坐标轴转换的系数向量。对于多维的情况,上面的结论依然成立。,这样,我们就对主成分分析的几何意义有了一个充分的了解。主成分分析的过程无非就是坐标系旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐标轴的方向就是原始数据变差最大的方向。,2023/6/11,20,目录 上页 下页 返回 结束,3 总体主成分及其性质,由上面的讨论可知,求解主成分的过程就是求满足三条原则的原始变量 的线性组合的过程。本节先从总体出发,介绍求解主成分的一般方法及主成分的性质,然后介绍样本主成分的导出。,2023/6/11
12、,21,目录 上页 下页 返回 结束,3.1 总体主成分,主成分分析的基本思想就是在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。而这里对于随机变量 而言,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度的信息的反应,而相关矩阵不过是将原始变量标准化后的协方差矩阵。我们所说的保留原始变量尽可能多的信息,也就是指的生成的较少的综合变量(主成分)的方差和尽可能接近原始变量方差的总和。因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。一般地说,从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得
13、的主成分是不同的。下面我们分别就协方差矩阵与相关矩阵进行讨论。,2023/6/11,22,目录 上页 下页 返回 结束,3.1 总体主成分,(1)从协方差矩阵出发求解主成分,2023/6/11,23,目录 上页 下页 返回 结束,3.1 总体主成分,类似的,我们可以得出:,2023/6/11,24,目录 上页 下页 返回 结束,3.1 总体主成分,2023/6/11,25,目录 上页 下页 返回 结束,3.1 总体主成分,且:,令,则有,类似的,有,2023/6/11,26,目录 上页 下页 返回 结束,3.1 总体主成分,由以上结论,我们把 的协方差矩阵 的非零特征值 对应的标准化特征向量
14、分别作为系数向量,分别称为随机向量 的第一主成分、第二主成分、第 主成分。的分量 依次是 的第一主成分、第二主成分、第 主成分的充分必要条件是:,(1),即 为 阶正交阵;(2)的分量之间互不相关;(3)的 个分量是按方差由大到小排列。,2023/6/11,27,目录 上页 下页 返回 结束,3.1 总体主成分,于是随机向量 与随机向量 之间存在下面的关系式:,(5.4),注:无论 的各特征根是否存在相等的情况,对应的标准化特征向量 总是存在的,我们总可以找到对应各特征根的彼此正交的特征向量。这样,求主成分的问题就变成了求特征根与特征向量的问题。,2023/6/11,28,目录 上页 下页 返
15、回 结束,3.1 总体主成分,(二)主成分的性质,性质1 的协方差阵为对角阵。这一性质可由上述结论容易得到,证明略。,2023/6/11,29,目录 上页 下页 返回 结束,3.1 总体主成分,2023/6/11,30,目录 上页 下页 返回 结束,3.1 总体主成分,正因如此,才把 称为 的主成分。进而我们就更清楚为什么主成分的名次是按特征根 取值的大小排序的。,2023/6/11,31,目录 上页 下页 返回 结束,3.1 总体主成分,图5-2,由图5-2可知,第二个及第三个特征值变化的趋势已经开始趋于平稳,所以,取前两个或是前三个主成分是比较合适的。这种方法确定的主成分个数与按累积贡献率
16、确定的主成分个数往往是一致的。在实际应用中有些研究工作者习惯于保留特征值大于1的那些主成分,但这种方法缺乏完善的理论支持。在大多数情况下,当 时即可使所选主成分保持信息总量的比重达到85以上。,2023/6/11,32,目录 上页 下页 返回 结束,3.1 总体主成分,定义5.2 第 个主成分 与原始变量 的相关系数 称做因子负荷量。因子负荷量是主成分解释中非常重要的解释依据,因子负荷量的绝对值大小刻画了该主成分的主要意义及其成因。在下一章因子分析中还将要对因子负荷量的统计意义给出更详细的解释。由下面的性质我们可以看到因子负荷量与系数向量成正比。,2023/6/11,33,目录 上页 下页 返
17、回 结束,3.1 总体主成分,由性质3知因子负荷量 与向量系数 成正比,与 的标准差成反比关系,因此,绝不能将因子负荷量与向量系数混为一谈。在解释主成分的成因或是第 个变量对第 个主成分的重要性时,应当根据因子负荷量而不能仅仅根据 与 的变换系数。,2023/6/11,34,目录 上页 下页 返回 结束,3.1 总体主成分,2023/6/11,35,目录 上页 下页 返回 结束,3.1 总体主成分,2023/6/11,36,目录 上页 下页 返回 结束,3.1 总体主成分,(三)从相关阵出发求解主成分,2023/6/11,37,目录 上页 下页 返回 结束,3.1 总体主成分,2023/6/1
18、1,38,目录 上页 下页 返回 结束,3.1 总体主成分,(四)由相关阵求主成分时主成分性质的简单形式,由相关阵出发所求得主成分依然具有上面所述的各种性质,不同的是在形式上要简单,这是由相关阵 的特性决定的。我们将由相关阵得到的主成分的性质总结如下:,2023/6/11,39,目录 上页 下页 返回 结束,3.1 总体主成分,注意到,且,结合前面从协方差矩阵出发求主成分部分对主成分性质的说明,可以很容易的得出上述性质。虽然主成分的性质在这里有更简单的形式,但应注意其实质与前面的结论并没有区别;需要注意的一点是判断主成分的成因或是原始变量(这里原始变量指的是标准化以后的随机向量)对主成分的重要
19、性有更简单的方法,因为由上面第4条知这里因子负荷量仅依赖于由 到 的转换向量系数(因为对不同的,因子负荷量表达式的后半部分 是固定的)。,2023/6/11,40,目录 上页 下页 返回 结束,4 样本主成分的导出,记,2023/6/11,41,目录 上页 下页 返回 结束,4 样本主成分的导出,为样本协方差矩阵,作为总体协方差阵 的无偏估计,是样本相关矩阵,为总体相关矩阵的估计。由前面的讨论知,若原始资料 阵是经过标准化处理的,则由矩阵 求得的协方差阵就是相关矩阵,即 与 完全相同。因为由协方差矩阵求解主成分的过程与同相关矩阵出发求解主成分的过程是一致的,下面我们仅介绍由相关阵 出发求解主成
20、分。根据总体主成分的定义,主成分 的协方差是:,其中 为对角阵,2023/6/11,42,目录 上页 下页 返回 结束,4 样本主成分的导出,即:,2023/6/11,43,目录 上页 下页 返回 结束,4 样本主成分的导出,2023/6/11,44,目录 上页 下页 返回 结束,4 样本主成分的导出,对于 可以得到完全类似的方程,于是,所求的新的综合变量(主成分)的方差()是 的 个根,为相关矩阵的特征值,相应的各个 是其特征向量的分量。,2023/6/11,45,目录 上页 下页 返回 结束,4 样本主成分的导出,2023/6/11,46,目录 上页 下页 返回 结束,4 样本主成分的导出
21、,由此可知新的综合变量(主成分)彼此不相关,并且 的方差为,则 分别称为第一、第二、第 个主成分。由上述求主成分的过程可知,主成分在几何图形中的方向实际上就是 的特征向量的方向,关于主成分分析的几何意义我们还要在下一节详细讨论;主成分的方差贡献就等于 的相应特征值。这样,我们在利用样本数据求解主成分的过程实际上就转化为求相关阵或协方差阵的特征值和特征向量的过程。,2023/6/11,47,目录 上页 下页 返回 结束,5 有关问题的讨论,5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分,5.5.2 主成分分析不要求数据来自于正态总体,5.5.3 主成分分析与重叠信息,2023/6/11,4
22、8,目录 上页 下页 返回 结束,5.1 关于由协方差矩阵或相关矩阵出发求解主成分,由前面的讨论可知求解主成分的过程实际就是对矩阵结构进行分析的过程,也就是求解特征值的过程。在实际分析过程中,我们可以从原始数据的协方差矩阵出发,也可以从原始数据的相关矩阵出发,其求主成分的过程是一致的。但是,从协方差阵出发和从相关阵出发所求得的主成分一般来说是有差别的,而且这种差别有时候还很大。下面我们举例说明这个问题,为了叙述方便,我们以二维数据为例。,【例5.1】假定我们研究某一经济问题共涉及两个指标:产值和利税。其中产值以百万元计,利税以万元计,得原始资料矩阵如下:,2023/6/11,49,目录 上页
23、下页 返回 结束,5.1 关于由协方差矩阵或相关矩阵出发求解主成分,2023/6/11,50,目录 上页 下页 返回 结束,5.1 关于由协方差矩阵或相关矩阵出发求解主成分,2023/6/11,51,目录 上页 下页 返回 结束,5.1 关于由协方差矩阵或相关矩阵出发求解主成分,因此,所得的主成分的表达式为:,其中,第一主成分保留了原始变量99.50%的信息,我们在分析中就可以把第二主成分舍掉,这样达到简化问题的目的。第一主成分与原始变量的因子负荷量分别为:,由此可知,第一主成分反应了利税指标0.9871的信息,方差较大的利税指标对第一主成分起了主要作用。,2023/6/11,52,目录 上页
24、 下页 返回 结束,5.1 关于由协方差矩阵或相关矩阵出发求解主成分,2023/6/11,53,目录 上页 下页 返回 结束,5.1 关于由协方差矩阵或相关矩阵出发求解主成分,2023/6/11,54,目录 上页 下页 返回 结束,5.1 关于由协方差矩阵或相关矩阵出发求解主成分,由此可以看出,由协方差阵出发求解主成分所得的结果及由相关阵出发求解主成分所得的结果有很大不同,所得主成分解释原始变量方差比例与主成分表达式均有显著差别,且两者之间不存在简单的线性关系。正因有此差别,所以在处理实际问题时就面临着选取由协方差矩阵出发求解主成分还是由相关阵出发求解主成分的问题,为了更好的理解这种差别,我们
25、对原始变量转换成同一度量单位再求主成分。,2023/6/11,55,目录 上页 下页 返回 结束,5.1 关于由协方差矩阵或相关矩阵出发求解主成分,2023/6/11,56,目录 上页 下页 返回 结束,5.1 关于由协方差矩阵或相关矩阵出发求解主成分,由此可知,第一主成分保留原始变量的信息与主成分与原始变量的关系式均与上两种情况有很大差别,那么,究竟哪种方法得到的结果更为可信呢,在实际研究中我们应该作何选择呢?,2023/6/11,57,目录 上页 下页 返回 结束,5.1 关于由协方差矩阵或相关矩阵出发求解主成分,一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,我们不直接
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 课件
链接地址:https://www.31ppt.com/p-5178315.html