医学统计学主成分分析及因子分析(第20章)课件.ppt
2022/12/6,医学统计学,1,主 成 分 分 析与 因 子 分 析,Principal Components Analysis & Factor Analysis,第二军医大学卫生统计学教研室 张罗漫,第20章,2022/12/6,医学统计学,2,讲课内容:第一节 主成分分析第二节 因子分析,2022/12/6,医学统计学,3,第一节 主成分分析Principal Components Analysis,2022/12/6,医学统计学,4,一、基本思想数据的降维、数据的解释 将原来众多具有一定相关性的指标,组 合成一组新的相互无关的综合指标。 从中选取几个较少的综合指标尽可能多 的反映原来众多指标的信息。这种既减少了指标的数目又抓住了主要矛 盾的做法有利于问题的分析和处理。,2022/12/6,医学统计学,5,2022/12/6,医学统计学,6,如何利用这些指标对每一儿童的生长发育 作出正确评价?仅用单一指标: 结论片面; 没有充分利用原有数据信息。利用所有指标: 各指标评价的结论可能不一致,使综合 评价困难; 工作量大。,2022/12/6,医学统计学,7,找出几个综合指标(长度、围度、特体),这些综合指标是原始指标的线性组合,既保留了原始指标的信息,且互不相关。各综合指标提供的“信息”量大小用其方差来衡量。衡量一个指标的好坏除了正确性与精确性外,还必须能充分反映个体间的变异,一 项指标在个体间的变异越大,提供的信息 量越多。,2022/12/6,医学统计学,8,二、数学模型及几何意义,2022/12/6,医学统计学,9,Z = A X,2022/12/6,医学统计学,10,第一主成分,在所有Zi中最大,2022/12/6,医学统计学,11,第二主成分,理论上主成分个数最多为m个(指标个数)实际工作中确定的主成分个数总是小于m个,2022/12/6,医学统计学,12,X1,X2,1,1,2,-2,-2,-1,-1,2,0,相关变异,2022/12/6,医学统计学,13,X1,X2,Z1,Z2,1,1,2,-2,-2,-2,-2,1,1,-1,-1,-1,-1,2,2,2,0,2022/12/6,医学统计学,14,Z1,Z2,-2,-2,1,1,-1,-1,2,2,0,相关变异,2022/12/6,医学统计学,15,三、主成分的求法及性质,2022/12/6,医学统计学,16,(一)主成分的求法 1. 对各原始指标值进行标准化,为了方便,仍用Xij表示Xij。,2022/12/6,医学统计学,17,标准化后的数据矩阵,X =,2022/12/6,医学统计学,18,2. 求出X1 , X2 , , Xm 的相关矩阵R,R=Cov(X) =,2022/12/6,医学统计学,19,Pearson 相关系数,标准化后的协方差,协方差,2022/12/6,医学统计学,20,2022/12/6,医学统计学,21,(r11 i) ai1+ r12 ai2+ + r1m aim =0 r21 ai1+ (r22 i) ai2+ + r2m aim=0 rm1 ai1+ rm2 ai2+ + (rmm i) aim =0,i为矩阵R的第i个特征值, 共有m个非负特征值,由大到小的顺序排列为:1 2 m0i=Var(Zi),2022/12/6,医学统计学,22,4. 由以上方程组,求出相应于特征值 i 的 特征向量(eigenvector) (ai1 , ai2 , , aim),2022/12/6,医学统计学,23,(二)主成分的性质 1.各主成分互不相关,2022/12/6,医学统计学,24,2.主成分的贡献率与累积贡献率 (原始指标值标准化),(指标个数),2022/12/6,医学统计学,25,3.主成分个数的选取(1)前k个主成分的累积贡献率70%。(2)主成分Zi的特征值i 1。,4.因子载荷(第i主成分Zi与第j原始指标Xi间相关系数),2022/12/6,医学统计学,26,5.样品的主成分得分,2022/12/6,医学统计学,27,四、实例,2022/12/6,医学统计学,28,2022/12/6,医学统计学,29,2022/12/6,医学统计学,30,2022/12/6,医学统计学,31,1.主成分个数的选取 3很接近于1; 3 与2的贡献率相差不大,为25%左右, 若舍去3不合理。 取前三个主成分。,2022/12/6,医学统计学,32,2.列出主成分表达式,Z1为急性炎症成分(X1转氨酶、X2肝大指数)Z2为慢性炎症成分(X3硫酸锌浊度 )Z3为癌变成分(X4甲胎球蛋白 ),2022/12/6,医学统计学,33,3.求出因子载荷阵,2022/12/6,医学统计学,34,4.主成分得分,2022/12/6,医学统计学,35,标准化指标主成分还原为原始指标主成分,2022/12/6,医学统计学,36,将该肝病患者的四项肝功能指标代入 原始指标主成分表达式: Z1=2.50865 Z2=1.06626 Z3=1.22943 该肝病患者可能为急性炎症。,2022/12/6,医学统计学,37,五、主成分分析的应用 1.对原始指标进行综合 以互不相关的较少个综合指标反应众多原 始指标提供的信息。 主成分回归(解决多元共线问题)。,2.进行综合评价,2022/12/6,医学统计学,38,3.进行探索性分析 利用因子载荷阵,找出影响各综合指标的 主要原始指标。 4.对样品进行分类 利用主成分得分对样品进行分类: Z1为急性炎症成分 Z2为慢性炎症成分 Z3为癌变成分,2022/12/6,医学统计学,39,第二节 因子分析Factor Analysis,2022/12/6,医学统计学,40,一、因子分析基本思想从分析多个可观测的原始指标的相关关系入手,找到支配这种相关关系的有限个不可观测的潜在变量。是多元分析中处理降维的一种统计方法。,如:脑部疾病患者的意识清醒状态可由语言能力、辩识能力、记忆能力、理解能力与思维逻辑能力等可观测的指标反映。,2022/12/6,医学统计学,41,二、因子分析数学模型,common factor,2022/12/6,医学统计学,42,2022/12/6,医学统计学,43,Xi:观测指标(标准化数据) Fi:公因子 ei:特殊因子aij:因子载荷(计算关键项),2022/12/6,医学统计学,44,X = AF + e,2022/12/6,医学统计学,45,2022/12/6,医学统计学,46,2022/12/6,医学统计学,47,三、因子模型的性质 矩阵A的统计意义1.公共度(共性方差 ),2022/12/6,医学统计学,48,因子的共性方差,2022/12/6,医学统计学,49,2.因子贡献与因子贡献率矩阵A第j列元素 反映了第j个公因子Fj对所有原始指标的影响;数据标准化后全部原始指标的总方差为指标个数m。,Fj对原始指标的方差贡献率,2022/12/6,医学统计学,50,各因子的贡献,2022/12/6,医学统计学,51,3.因子载荷及因子载荷阵,A,2022/12/6,医学统计学,52,四、因子载荷阵的求解及计算步骤 1. 收集原始数据并整理为下表,2022/12/6,医学统计学,53,2.对各指标进行标准化3.求指标间的相关系数矩阵RX4.求指标间的约相关系数矩阵R* (1)R*的非对角线元素与相关矩阵RX的 非对角线元素相等 (2)R*的对角线元素为共性方差,2022/12/6,医学统计学,54,5. 求出约关系数矩阵R*所有大于零的特 征值及相应的特征向量6. 写出因子载荷阵A,得出原始指标X的 公因子表达式,2022/12/6,医学统计学,55,要求:1. 保留公因子个数q小于指标个数m,原则: j1 前k个公因子累积贡献率70%2. 各共性方差 接近于1。3. 各原始指标在同一公因子Fj上的因子载荷 之间的差别应尽可能大。,2022/12/6,医学统计学,56,五、实例,2022/12/6,医学统计学,57,1.主成分解,2022/12/6,医学统计学,58,2022/12/6,医学统计学,59,2022/12/6,医学统计学,60,主成分解:除因子1可初步认定为综合因子外,其余3个因子的专业意义不明显。2.主因子解:除因子1可初步认定为综合因子外,其余3个因子的专业意义不明显。,2022/12/6,医学统计学,61,六、因子旋转当各公因子的专业意义难以解释时,可以 通过因子旋转来解决。如求得的因子载荷阵A不甚理想,可右乘 一个正交阵T,使AT有更好的实际意义, 使各原始指标在同一公因子上 之间 差别尽可能增大。称因子正交旋转。正交旋转可保持各指标的共性方差不变; 各公因子互不相关。常用方差最大旋转法等。,2022/12/6,医学统计学,62,2022/12/6,医学统计学,63,2022/12/6,医学统计学,64,七、几点注意 1.因子分析的解不唯一(1)同一问题可以有不同的因子分析解: 主成分解、主因子解、极大似然解(2)进行因子旋转以获得更为满意的解。2.因子得分 不能直接进行计算,但可以估计。,2022/12/6,医学统计学,65,3.主成分分析与因子分析间的关系(1)两者的分析重点不一致 Z=AX主成分为原始变量线性组合,重点在综合原始变量信息。 X=AF+e原始变量为公因子与特殊因子线性组合,公因子重点反映支配原始变量的不可观测的潜在因素。,重要,2022/12/6,医学统计学,66,(2)两者之间有密切的关系因子分析完全能够替代主成分分析,并且 功能更为强大。主成分分析是一种思想,是一种得到目的 的中间手段,是其它多元统计分析方法的 基础,如因子分析常用主成分法求解。主成分分析单独应用有其独到之处,如应 用于综合评价与主成分回归时非常实用、 科学。,2022/12/6,医学统计学,67,讲课内容:第一节 主成分分析第二节 因子分析,2022/12/6,医学统计学,68,Thank you!,