一章主成分分析.ppt
《一章主成分分析.ppt》由会员分享,可在线阅读,更多相关《一章主成分分析.ppt(27页珍藏版)》请在三一办公上搜索。
1、第16章 主成分分析,中国疾病预防控制中心,学习目标,了解主成分分析的数学模型;熟悉主成分分析的方法步骤;掌握主成分分析的作用和应用领域;掌握PRINCOMP过程并运用此过程进行数据分析。,概述,主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在统计分析中也称为变量。因为每个变量都不同程度地反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人
2、们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。,概述,科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。例如,糖尿病、动脉硬化等疾病的病因是多种多样的,收集的资料中包含的信息是丰富多彩的。再如,在心理学研究中,描述儿童气质的指标可以有9个,描述儿童活动能力的指标可以有6个,;在临床医学研究中,描述儿童生长发育的的可以有12个指标,鉴别阑尾炎病型的可以有27个指标。然而,重叠的、低质量的信息越多,越不利于医生作出诊断。指标较多时,给资料分析带来很多麻烦,增加了分析问题的复杂性和难度。例如,在线性回归分析中,要求模型中的自变量是相互独立的,否则,估计
3、的结果是不准确的,甚至是相反的结论,产生误导。,概述,在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。比如描述儿童生长发育的指标中,身高、腿长和臂长这三个指标可能是相关的,而胸围、大腿围和臂围这三个围度指标也会有一定的相关性。如果分别用每一个指标对儿童的生长发育做出评价,那么这种评价就是孤立的、片面的,而不是综合的。仅选用几个“重要的”或“有代表性”的指标来评价,就失去了许多有用的信息,容易得出片面的结论。所以,我们需要一种综合性的分析方法,既可减少指标变量的个数,又尽量不损失原指标变量所包含的信息,对资料进行全面
4、的综合分析。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。,概述,主成份分析的基本思想就是将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息,符合专业含义。何为主成分?简而言之,主成分实际上就是由原变量X1Xm线性组合出来的个互不相关、且未丢失任何信息的新变量,也称为综合变量。多指标的主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。,主成分分析简介,主成分分析法是一种数学变换的方法,它把给定的一组相关变量通过线性变换转成另一组不相关
5、的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维处理技术。,主成分分析的方法步骤,主成分分析的过程,就是确定原来变量xj()在各主成分zi()上的载荷lij。从主成分分析的基本原理和数学模型可以看出,主成分分析的任务是估计主成分,确定主成分的个数,解释主成分的实际意义和计算主成分得分。假设有k个指标x1,x2,xk,每一个指标有n个观测值,它们的标准化指
6、标变量是,,主成分分析的方法步骤,对原始指标数据进行标准化变换:将原始数据标准化,然后利用标准化的数据计算主成分。X为标准化后的数据矩阵,则:,主成分分析的方法步骤,计算相关系数矩阵:其中,,主成分分析的方法步骤,计算相关矩阵的特征值和特征值所对应的特征向量:求主成分的问题,实际上就是要求出标准化指标变量X的协方差矩阵Cov(X)的特征值和特征向量。X的协方差矩阵为:,主成分分析的方法步骤,求得k个非负特征值,将这些特征值按从小到大的顺序排列为:再由解得每一特征值对应的特征向量,从而求得各主成分:,主成分分析的方法步骤,计算主成分贡献率及累计贡献率各主成分互不相关,即的相关系数:于是,各主成分
7、间的相关系数矩阵为单位矩阵。一般地,主成分Zi的贡献率为:,主成分分析的方法步骤,确定主成分的个数当得到了k个主成分后,要根据确定主成分个数的准则和主成分的实际意义来确定主成分的个数。一般说,确定主成分个数的准则有两个:以累积贡献率来确定:当前P个主成分的累积贡献率达到某一特定值时(一般采用70%85%为准则),则保留前P个主成分。根据特征值大小来确定,一般地,取特征值大于或等于1为准则。若有s个特征值大于或等于1,那么就可以确定主成分的个数为s个。一般可以将两种确定主成分个数的方法结合起来,选出有实际意义的主成分。,主成分分析的方法步骤,计算主成分载荷第i个主成分Zi的特征值的平方根与第j原
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一章主 成分 分析

链接地址:https://www.31ppt.com/p-5495058.html