欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    数理统计12主成分分析.ppt

    • 资源ID:6297300       资源大小:619KB        全文页数:42页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数理统计12主成分分析.ppt

    第七章,主成分分析与因子分析,多元问题的复杂性:指标(变量)多,指标间存在相关性。问题能否构造出一些综合指标使满足如下条件 指标个数尽可能少,指标间相互独立,尽可能多地包含原指标所含的关于总体的信息。例如做一件上衣要测量的指标有身长、袖长、胸围、腰围、肩宽、肩厚等等十几项指标。某服装厂生产一批新型服装,需将十几项指标综合为3项指标(分别反应长度、胖瘦、特体),用作分类的型号。,7.1 主成分分析,主成分(主分量)分析是将原来众多具有相关性的指标化为少数几个相互独立的综合指标的一种统计方法。,化高维为低维 降维 化相关为独立 追源,1、主成分的求法,设 为 维随机向量,,那么如何将这 个指,标综合成很少的几个指标,且要尽可能反映原来指标的作用,又彼此不相,关呢?一个自然的方法是寻找指标,的一个综合指标 线性组合。,我们先来考虑第一个综合指标,其中 是待定的常向量。现在的任务是选取适,当 的使得 最大限度地反映原来指标用,,这就相当于要求 要有尽可能大的方差,即选,取 使得,尽可能地大。,说明 是 的无界函数。,然而不能通过加大向量 的长度使 的方差变,因为对任意的常数,有,因此如果对 不加,大,,即只要 变长 倍,相应的方差就扩大 倍,也,限制,问题就会变得毫无意义。,一个自然的限,制是令,即要求 是单位向量。,问题变为:在 的条件下,求使,达到最大的。,定理1,设总体 的均值和协方差阵分别为,是总体 的 个指标,令,其中,则使得 的方差,和,达到最大的 正好是矩阵 的最大特征根 所,对应的特征向量。,证明,用Lagrange乘数法来证明。令,则有,令,可得,这样就有,由于,根据克莱姆法则知,上述齐次线性,方程有非零解的充要条件是系数行列式为零,,即,这说明 是矩阵 的特征根,且由 可知,是对应于 特征根 的特征向量。,又由,可知欲使 的方差 最大,只要取,为的最大特征根即可,这样 就是对应的单,位特征向量。,第一个综合指标为,其中 是的对应于矩阵 最大特征值 的单位,特征向量,称 为第一主成分。,若协方差矩阵 即是非负定的,由矩阵论,知它有 个非负的特征根,不妨设为,是对应的 个特征向量。,自然 应为 的第二大特征根 所对应的单位,特征向量,并称 为第二主成分。,类似地,第二个综合指标可以取为,重复以上过程,可得 的第 个综合指标,称为 的第 个主成分。,总之,我们可得到 个主成分,且,其中 是协方差阵 的非零特征根并,有,而 是,对应的单位特征向量。,若用矩阵可表示如下,其中,且,即矩阵 是行正交矩阵。,因此,主成分分析也可以看作是对原来,的 个指标 进行了一次正交变,换,而得到 个互不相关的综合指标,即主,成分,寻找总体 的主成分就转化为求 的协差阵 的特征值和相应的单位特征向量问题。,求主成分的步骤:,1.,求 的协方差阵 的特征值,记为,2.,求 对应的单位特征向量,3.,获得第 个主成分,在实际应用时,经常会遇到 个指标的量,纲不尽相同,或取值差异很大的问题,处理,的一般方法是先将各指标进行标准化,即,的协差阵为,即为相关矩阵,其中,求 的主成分就是求 的特征值和相应,的单位特征向量,然后可得 的分量的线性,组合,即为所求的主成分。,2主成分的几何意义,3、贡献率和主成分的解释,构造综合指标的目的是想用尽可能少的主,成分,来代替原有的 个指标,,且能对原始资料所具有的意义做出合理的解释。,那么到底应该选择多少主成分才合理呢?下面,就来讨论总体主成分个数的选取问题,对样本,主成分也有类似的分析。,设 维总体 的协方差阵为,的第 个主成分为,由于这些主成分 时互不相关的,因,此有,这说明 的“总方差”(即个分量的方差之和),等于 个互不相关的随机变量 的方,差之和,其中 具有最大的方差,,次之且,有方差,具有最小方差,这样主成,分依次集中了 各分量的变化的主要部分,第,一主成分 的方差最大,即是以变化最大的方,向向量为系数所得到的线性函数作为,比值,表明了方差 在“全部方差”中所占的比重,,显,然这个比值越大,表明 这个变量“综合”原始,资料 的能力越强。通常称这个比值,为第一主成分的贡献率。类似地称,为第 个主成分的贡献率。而称,为前 个主成分的累计贡献率。,这就是说,贡献率约达,则对应的主成分,反映 的能力就越强,反之则弱。因此,在实,用常常略去那些贡献率小的主成分。经验指出:,一般要求前 个主成分的累计贡献率超过70%,就足够了。这样就可以用前 个不相关的主成,分 的变化来刻画 的 个相关分量,的变化,即就是说可以用低维指标,来反映高维指标,的变化特性。,协方差阵 和相关矩阵 往往是未知的。这时,在实际问题中,所研究的总体 的均值,需对总体进行抽样,设样本为,取 和 的估计分别为,样本均值,4、样本主成分,样本相关矩阵,设 的特征值为,对应的单位特征向量为,则称,为 的第 个样本主成分。,样本协方差阵,同样地,若记 的特征值为,对应的单位特征向量为,则称,为 标准化变量的第 个样本主成分,其中,对于样本,可以得到相应的主,成分的样本,为了区别起见,将这小节的主成分统称为,样本主成分;而上一小节的主成分统称为总体,主成分。,服装的定型分类问题:为了较好地满足市场的需要,服装生产厂要了解所生产的一种服装究竟设计几种型号合适,这些型号的服装应按这样比例分配生产计划才能达到较好的经济效益。现对128个成年男子按16项指标进行测量,16项指标是:1、身长 2、坐高 3、胸围 4、头高 5、裤长 6、下裆 7、手长 8、领围 9、前胸 10、后背 11、肩厚 12、肩宽 13、袖长 14、肋围 15、腰围 16、腿肚,5、主成分分析实例,原始数据矩阵应是16128阶的矩阵,如第一行向量,即是128人按身长量出的尺寸。第二列向量,是第二个男子按上述16项指标量出的尺寸。,1)样本相关系数矩阵 首先计算各指标的均值与样本标准差,指标 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16,样本均值 164.5 90 85.7 138.1 96 75.5 19.4 35.8 36 34.8 12.2 20.7 15.1 73.2 86.3 50.1,样本标准差 6.8 3.7 3.2 6.5 4.9 4.4 1.1 1.6 2.6 2.6 1.1 1.4 3.4 4.2 3.7 2.9,比较表中标准差:标准差大的指标依次为身高、头高。标准差小的指标为手长、领围、肩厚、肩宽。,2)标准化处理 将Y经过标准化处理,得数据矩阵X,从而可得样本相关阵R,由于矩阵R是对称的,因此只列出下三角形部分元素。,在以上表中若取前三个特征值的累计方差贡献率可达到70%,不妨就取这前三个特征值可求其相应的特征向量。,1身长 0.34 0.20 0.012坐高 0.27 0.14-0.06 3胸围 0.23-0.33 0.144头高 0.34 0.18 0.035裤长 0.33 0.20 0.036下档 0.29 0.27-0.037手长 0.29 0.19 0.028领围 0.19-0.37-0.159前胸 0.09 0.07 0.6310后背 0.15-0.17-0.5311肩厚 0.10-0.35-0.2012肩宽 0.24-0.02-0.3113袖长 0.32 0.11-0.0214肋围 0.18-0.37 0.2515腰围 0.27-0.27 0.1416腿肚 0.16-0.36 0.24,第一特征向量 第二特征向量 第三特征向量,4)主成份:第一主成份:,第二主成份:,第三主成份:,5)主成份的含义 从三个特征向量 的取值特点我们来分析和解释各主成份的含义,(1)第一主成份F1的系数皆为正,故此F1表示各指标尺寸同时大或同时小。这就是说,身材魁梧的人,他的各种指标相应的尺寸都比较大,而身材矮小的人,各种指标相应的尺寸都比较小。因此把第一主成份F1看成是刻画尺寸大小的因子。,(2)、第二主成份F2的系数有正有负,其绝对值的大小相差不太大,系数为正的有:身长(X1)、坐高(X2)、头高(X4)、裤长(X5)、下裆(X6)、手长(X7)、袖长(X13)。系数为负的有:胸围(X3)、领围(X8)、后背(X10)、肩厚(X11)、肋围(X14)、腰围(X15)、腿肚(X16),显然,正系数反映“长”的尺寸,负系数反映“围”的尺寸。因此第二主成份F2主要反映人的胖瘦情况,所以把它看成是刻画形状的因子。由于F1和F2所刻画的是两种不同性质的因子,故在人的身材高矮大致相同时可通过F2来分胖瘦。,(3)第三主成份F3的系数多数取值很小,接近于0,只有两个系数绝对值比较大,前胸(X9)、后背(X10)。所以可把第三个主成份F3视作反映特殊体型的因子,如在身材高矮的程度和胖瘦的程度大致相同时,通过F3来区分各种特殊体型,如驼背等畸形。通过对主成份的含义说明,可见F1、F2、F3这三个主成份确实反映了男子的体型的主要信息,因此用这三个具有代表性的指标代替原有16指标,设计各种型号服装,对满足各类消费者的需要有重要的指导意义。,例7.1 社区调查数据的主成分分析。调查了12个社区,五个变量。使用 SPSS 处理。,5、主成分分析实例,

    注意事项

    本文(数理统计12主成分分析.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开