应用多元统计分析(pca分析)第6章主成分分析PPT.ppt
《应用多元统计分析(pca分析)第6章主成分分析PPT.ppt》由会员分享,可在线阅读,更多相关《应用多元统计分析(pca分析)第6章主成分分析PPT.ppt(48页珍藏版)》请在三一办公上搜索。
1、第六章 主成分分析,第一节 引言,第二节 主成分的几何意义及数学 推导,第三节 主成分的性质,第四节 主成分方法应用中应注意 的问题,第五节 实例分析与计算机实现,第一节 引言,多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。,主成分分析也称主分量分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。
2、人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。,我们知道,当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”
3、越强,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。主成分分析的数学模型是,设p个变量构成的p维随机向量为X=(X1,Xp)。对X作正交变换,令Y=TX,其中T为正交阵,要求Y的各分量是不相关的,并且Y的第一个分量的方差是最大的,第二个分量的方差次之,等等。为了保持信息不丢失,Y的各分量方差和与X的各分量方差和相等。,第二节 主成分的几何意义及数 学推导,一 主成分的几何意义,二 主成分的数学推导,一、主成分的几何意义,主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。因此,主成分分析在二维空间中有明显的几何意义。假设共有n个样品,每
4、个样品都测量了两个指标(X1,X2),它们大致分布在一个椭圆内如图6.1所示。事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。显然,在坐标系x1Ox2中,单独看这n个点的分量X1和X2,它们沿着x1方向和x2方向都具有较大的离散性,其离散的程度可以分别用的X1方差和X2的方差测定。如果仅考虑X1或X2中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃某个分量不是“降维”的有效办法。,图6.1 主成分的几何意义,易见,n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它们为原始变量X1和X2的综合变量,n个点y1在轴上的方差达到最大,即在此方向
5、上包含了有关n个样品的最大量信息。因此,欲将二维空间的点投影到某个一维方向上,则选择y1轴方向能使信息的损失最小。我们称Y1为第一主成分,称Y2为第二主成分。第一主成分的效果与椭圆的形状有很大的关系,椭圆越是扁平,n个点在y1轴上的方差就相对越大,在y2轴上的方差就相对越小,用第一主成分代替所有样品所造成的信息损失也就越小。,考虑两种极端的情形:一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50的信息,这显然是不可取的。造成它的原因是,原始变量X1和X2的相关程度几乎为零,也就是说,它们所包含的信息几乎不重迭,因此无法用
6、一个一维的综合变量来代替。另一种是椭圆扁平到了极限,变成y1轴上的一条线,第一主成分包含有二维空间点的全部信息,仅用这一个综合变量代替原始数据不会有任何的信息损失,此时的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍弃它当然没有信息损失。,二、主成分的数学推导,第三节 主成分的性质,一 主成分的一般性质,二 主成分的方差贡献率,一、主成分的一般性质,二、主成分的方差贡献率,第四节 主成分方法应用中应注 意的问题,一 实际应用中主成分分析的出发点,二 如何利用主成分分析进行综合评价,一、实际应用中主成分分析的出发点,这里我们需要进一步强调的是,从相关阵求得的主成分与协差阵求得
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 pca 分析 成分 PPT
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6279906.html