主成分分析、因子分析.ppt
主成分分析(Principal component analysis),主成分的定义,从n个观察对象的m个变量中寻找i(i m)个相互独立并具有特定结构的成分,来反映原始的 个数据信息的一种多元统计分析方法。,主成分的数学模型:,C=AZ C:主成分向量A:正交矩阵Z:原始变量标准化转换后向量,主成分线性组合表达式:,特征根与特征向量,特征根():第i个主成分的方差特征向量:各主成分对应的系数注:特征根与特征向量是根据原变量相关系数的矩阵计算出来的。,主成分的贡献率,主成分的贡献率 每个特征根占总方差的比例,越大,表明相应的主成分反映X的信息(“总方差”)就越多。主成分的累积贡献率 前i个主成分特征根之和占总方差的比例,累积贡 献越大,表明前i个主成分反映了X的信息(“总方差”)就越多。,Bartlett法:取有统计学差异的经验法:累积贡献率达(70、80、85、)均数法:取大于或者约等于1的,主成分的个数i的确定,上机内容:,主成分计算主成分评价主成分回归,1.主成分计算,见教材p50例4.1,SAS的步骤,数据步(data步):略 过程步(proc步)PRINCOMP(主成分计算过程),SAS中PRINCOMP过程,Proc princomp 选项;*var 变量列表;,Run;,*:表示Princomp过程必须的语句。,程序4.1,title 主成分分析;data exp4_1;input x1-x6;cards;14 13 28 14 22 39.9 9 12 10 23 46;proc princomp;var x1-x6;run;,2.主成分评价,步骤:提取主成分(Proc princomp)用主成分做评价第一主成分:排序法前两个主成分:散点图前i个主成分:综合得分法 见教材P56例4.4,例4.4的程序,title 主成分评价;data exp4_4;input id$x1-x16;cards;教青 0.77 1.14 0.19 1.52 0.77 0.19 0.57 0.57 0.19 0.00 0.00 0.19 4.56 0.38 0.38 0.00.工老 1.95 1.30 0.00 0.65 0.00 0.00 0.00 0.00 1.30 0.00 0.00 0.00 1.95 3.24 0.65 0.00;proc princomp out=prindata;var x1-x16;run;,指定紧接着的前一个变量类型为字符型变量,“Outc”表示产生一个名为C的数据集,C包含原始数据及各观测值对应的变量个数的主成分,例4.4的程序(第一主成分、前i个主成分),title 主成分评价;data exp4_4;input id$x1-x16;cards;略;proc princomp out=prindata;var x1-x16;run;proc print data=prindata;var id prin1 prin2 prin3 prin4;run;,例4.4的程序,title 主成分评价;data exp4_4;input id$x1-x16;cards;略;proc princomp out=prindata;var x1-x16;run;title plot of the first factor and the second factor;proc gplot data=prindata;plot prin2*prin1;run;,3.主成分回归,步骤:提取主成分(Proc princomp)选取前i主成分做回归(Proc reg)见教材p60例4.5,例4.5程序(提取主成分),title 主成分回归;data exp4_5;input x1 x2 x3 y;cards;13.0 9.2 50.0 13.0.49.0 34.8 2500.0 36.0;proc princomp out=prindata;var x1-x3;run;,例4.5程序(主成分回归),title 主成分回归;data exp4_5;input x1 x2 x3 y;cards;略;proc princomp out=prindata;var x1-x3;run;proc reg outest=prindata;model y=x1 x2 x3/pcomit=1;output;run;proc print data=prindata;run;,“Outestc”表示产生一个名为C的数据集,C包含回归模型拟合过程与参数估计值,“pcomit=n”指定每个n值都做进程通讯 即IPC分析作用:回归过程除了用最后n个主成分外的其余几个主成分(用了前“变量数 n”个的主成分)来做回归。并把IPC分析出相应参数输出到Outest指定的数据集c中。,因子分析(factor analysis),因子分析的定义,寻找隐含在多变量数据中的无法直接观察,但又支配多个变量间相互关系的少数几个(小于原指标个数)专业上有意义的,相互间彼此独立的公因子的一种多元统计分析方法。,因子分析的数学模型,L:因子载荷矩阵F:公因子U:特殊因子,对原变量的协方差结构进行分解:X的方差共同度特殊方差,因子分析实质:,因子模型的估计(估计出因子载荷系数);主成分法极大似然法主因子法迭代因子法确定有实际意义的的因子载荷矩阵正交旋转协交旋转 计算因子得分,因子分析的内容,SAS的步骤 数据步(data步):略 过程步(proc步)factor(因子分析过程),Proc factor 选项;Run;,Factor过程,Factor过程的选项:,Method/M=prin ml prinitrotate=varimax promax Nn Socreres,主成分分析法,极大似然法,迭代主因子法,方差最大旋转,斜交旋转,保留公因子的个数,如缺省系统只保留特征根大于1的公因子数,因子得分,计算残差矩阵,用主成分法估计因子模型见教材P68例5.3,1.因子模型的估计,例5.3程序,title 主成分因子分析;data exp5_3;input x1-x6;cards;14 13 28 14 22 39.9 9 12 10 23 46;proc factor method=prin n=3;var x1-x6;run;,用极大似然法估计因子模型见教材P70例5.4,1.因子模型的估计,例5.3程序,title 极大似然法分析;data exp5_4;input x1-x6;cards;14 13 28 14 22 39.9 9 12 10 23 46;proc factor method=ml n=3;var x1-x6;run;,方差最大正交旋转,2.因子旋转,