SAS多元统计分析.ppt
《SAS多元统计分析.ppt》由会员分享,可在线阅读,更多相关《SAS多元统计分析.ppt(84页珍藏版)》请在三一办公上搜索。
1、Chapter7 SAS多元统计分析,Chapter7 SAS多元统计分析,多元统计分析是统计学的重要应用工具,SAS实现了许多常用的多元统计分析方法。SAS用于多变量分析的过程有PRINCOMP(主成分分析)、FACTOR(因子分析)、CANCORR(典型相关分析)、MDS(多维标度过程)、MULTTEST(多重检验)、PRINQUAL(定性数据的主分量分析)、CORRESP(对应分析),用于判别分析的过程有DISCRIM(判别分析)、CANDISC(典型判别)、STEPDISC(逐步判别),用于聚类分析的过程有CLUSTER(谱系聚类)、FASTCLUS(K均值快速聚类)、MODECLUS
2、(非参数聚类)、VARCLUS(变量聚类)、TREE(画谱系聚类的结果谱系图并给出分类结果)。,下一页,返回本节首页,Chapter7 SAS多元统计分析,一、主成分分析二、因子分析三、聚类分析四、判别分析,下一页,返回本节首页,上一页,一、主成分分析,主成分分析简介数学模型与几何解释PRINCOMP 过程菜单操作方法主成分的应用 主成分回归:解决多重共线性问题 综合评价,下一页,返回本节首页,上一页,主成分分析简介,在实际经济工作中,我们经常碰到多变量或多指标问题,比如,企业经济效益的评价、地区经济发展情况比较等问题。这些问题的研究一般都先要设定研究的指标,也就是设定评价企业经济效益与评价地
3、区经济发展情况的指标体系。由于变量或指标较多,分析问题具有相当的复杂性。然而,在多数情况下,这些不同的变量或指标之间,存在一定的相关性。这样,人们自然希望用较少的变量或指标来代替原来较多的变量或指标,而这些较少的变量或信息涵盖了原来变量或指标的信息。利用这种降维的思想,产生了主成分分析方法。,下一页,上一页,主成分分析,就是设法将原来变量或指标重新组合成一组新的、互不相关的几个综合变量或指标,同时根据实际需要从中选取几个较少的综合变量或指标来尽可能多地反映原变量或指标的信息。这种将多变量或多指标转化成少数几个互不相关的综合变量或综合指标的统计方法叫做主成分分析或称主分量分析。需要注意的是,主成
4、分分析往往不是目的,而是达到目的的一种手段。因此,它常常用在大型研究项目的某个中间环节中。例如,将它用到多重回归中,便产生了主成分回归,它可以克服回归问题中由于自变量之间的高度相关而产生的分析困难。另外,主成分分析还可以用于典型相关分析、聚类分析和因子分析中。,下一页,返回本节首页,上一页,数学模型与几何解释,假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,Fk(kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。,这种由讨论多个指标
5、降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。,满足如下的条件:,主成分之间相互独立,即无重叠的信息。即,主成分的方差依次递减,重要性依次递减,即,每个主成分的系数平方和为1。即,主成分分析的几何解释,平移、旋转坐标轴,为了方便,我们在二维空间中讨论主成分的几何意义。设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑
6、xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。,如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。,根据旋转变换的公式:,旋转变换的目的是为了使得n个样品点在Fl轴方向上的离 散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。,Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来
7、的虚假性。二维平面上的个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。,PRINCOMP 过程进行主成份分析,PRINCOMP过程的一般格式:Proc Princomp DATA=数据集;Var 变量列表;Partial 变量列表;Weight 变量;Freq 变量;By 变量;Run;,下一页,上一页,PROC PRINCOMP语句TYPECOV或TYPECORR指明数据集类型,例如:DATAnew TYPECORR:表明new为一相关系数CORR数据集。OUT输出数据集存储原始数据和主分量得分等。OUTS
8、TAT输出数据集存储变量的平均数、标准差、相关系数、特征值、特征向量等。另外,COV指定由协方差矩阵计算(一般由相关系数矩阵进行);N个数指定主分量个数。STD将输出标准化的主分量得分。NOINT不含截距。NOPRINT不输出分析结果。PROC PRINCOMP过程中的主要语句VAR语句指明分析的数值变量。PARTIAL语句指明对偏相关或协方差矩阵进行分析的数值变量。,下一页,上一页,例:对我国上市公司的经济效益水平进行主成分分析,选择的主要经济效益指标共有以下几个:资金利税率,产值利税率,百元销售成本实现的利润,百元销售收入实现的利税,流动资金周转次数,主营业务利润增长率等6个。试分析经济效
9、益的主要影响因素。,下一页,上一页,Data sasuser.jjxy;infile“x:jjxy.txt”;input name$x1-x6;run;proc princomp data=sasuser.jjxy n=6 out=prin;var X1-x6;run;proc print data=prin;var prin1-prin6;run;,下一页,上一页,第一、第二主成分的表达式为:PRIN1=0.469779 X1+0.440631 X2+0.371196 X3+0.472717 X4+0.122706 X5+0.456998 X6PRIN2=0.008123 X1-0.2724
10、33 X2+0.442503 X3-0.012902 X4+0.797595 X5-0.305909 X6,下一页,上一页,如果要对特征值大的第一、第二主成分得分按照从小到大的顺序排序并进行打印,进而对各上市公司的经济效益进行分类,那么可编写如下语句:Proc sort data=prin;By descending prin1;Run;proc print data=prin;Var prin1 x1 x2 x3 x4 x5 x6;Title 用第一主成分反映的经济效益情况依次列出各公司名单;Run;Proc sort data=prin;By descending prin2;Run;Pr
11、oc print data=prin;Var prin2 x1 x2 x3 x4 x5 x6;Title 用第二主成分反映的经济效益情况依次列出各公司名单;Run;,下一页,返回本节首页,上一页,菜单操作方法,单击solutions=analysis=analyst(在这里选择需要分析的数据集)=statistics=MULTIVARIATE=PRINCIPAL COMPONENT(主成份分析),下一页,返回本节首页,上一页,主成分在综合评价中的应用,例:主成分分析在企业经济效益综合评价中的应用综合评价值,其中,下一页,上一页,Rank 语句(有序变量转换成名次变量),proc rank da
12、ta=输入数据名 选项串;/*选项包括:ties=high(或=low)相等数据取高(或低)名次(内设为均值);descending 数据由大到小排成名次1,2,;out=输出文件名*/var 被排序数值变量名串;ranks 名次变量名串;run;,下一页,上一页,计算综合得分及名次,data new;set prin;z=prin1*0.6824/(0.6824+0.2093)+prin2*0.2093/(0.6824+0.2093);run;Proc rank data=new;Var z;Ranks zrank;Run;,说明:1.主成分分析是通过降维技术用少数几个综合变量来代替原始多个
13、变量的一种统计分析方法。这些综合变量集中了原始变量的大部分信息。2、第一主成分所包含的信息量最大,第二主成分其次,其它主成分依次递减,各主成分之间互不相关,这就保证了各主成分所含的信息互不重复。3.取多少个主成分,既要考虑至(前几个主成分的累计贡献率达到一定比例,也要考虑到应选取尽可能少的主成分以较好地达到降维的目的。4.当各变量的单位不相同时,应从相关矩阵出发进行主成分分析。5.计算出主成分之后,应对要使用的前若干个主成分作出符合实际背景和意义的解释。,下一页,返回本节首页,上一页,二、因子分析,因子分析简介因子分析数学模型FACTOR 过程因子分析应用,下一页,返回本节首页,上一页,因子分
14、析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。,因子分析简介,下一页,上一页,但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综
15、合评价。而这三个公共因子可以表示为:,称 是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分,称为特殊因子。,下一页,上一页,因子分析数学模型,设 个变量,如果表示为,下一页,上一页,称为 公共因子,是不可观测的变量,他们的系数称为因子载荷。是特殊因子,是不能被前m个公共因子包含的部分。并且满足:,即不相关;,即 互不相关,方差为1。,下一页,上一页,即互不相关,方差不一定相等,。,下一页,上一页,因子载荷矩阵的估计方法:主成分分析法主因子法极大似然估计法,下一页,返回本节首页,上一页,FACTOR 过程,SAS/STAT 模块中的 FACTOR 过程可
16、以用来进行因子分析、分量分析、因子旋转。对因子模型可以使用正交旋转和斜交旋转,可以用回归法计算得分系数,同时也可以把因子得分的估计值存储在输出数据集中。FACTOR 过程的结构如下:,下一页,上一页,FACTOR 过程格式:,PROC FACTOR DATA=数据集;PRIORS 公因子方差;VAR 变量表;PARTIAL 变量表;FREQ 变量;WEIGHT 变量;RUN;,下一页,上一页,PROC FACTOR语句的,OUTSTAT=输出数据集用于存储因子分析的结果。METHOD=因子选择方法包括PRINCIPAL,PRINIT,USL,ALPHA,ML,HARRIS,IMAGE,PATT
17、ERN。常用方法为PRINCIPAL(主成份法)、ML(极大似然法)和PRINIT(迭代主因子法)。SCORE表示要求算出因子得分模型中的系数。NORMKAlSER|RAW|WEIGHT|COV|NONE,为因子旋转指定因子模型中列的标准化方法。PRIORS=指定计算共性方差初始估计值的方法。包括ONE,MAX,SMC,ASMC,INPUT,RANDOM。其中ONE(等于1.0),SMC(多元平方相关系数),RANDOM(0与1之间的随机数)。ROTATE因子转轴方式包括NONE,VARIMAX,QUARTMAX,EQUAMAX,ORTHOMAX,HK,PROMAX,PROCRUSTE5。常用
18、的有VARIMAX(最大方差转轴法)、ORTHOMAX(正交最大方差转轴法)和PROMAX(在正交最大方差转轴的基础上进行斜交旋转)。SIMPLE结果输出包括简单统计数。CORR结果输出包括相关系数。NFACTOR=n要求保留n个公因子,否则只保留特征值大于1的那些公因子。,下一页,返回本节首页,上一页,因子分析应用,计算因子得分,求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子的得分做聚类分析的变量,做回归分析中的回归因子。,下一页,上一页,实例分析:80-90 年代我国经济发展情况分析,为分析我国80年代(1980-1991年)经济发展情况,采用8 个指标:
19、x1:社会总产值;x2:国民收入;x3:一次性能源生产总量;x4:货物周转量;x5:固有的固定资产投资额;x6:职工工资总额;x7:社会商品零售额;x8:财政收入。考虑经济逐年增长,以每年值对上年的比为随机变量的观测值,(见程序中数据表)对其做因子分析并分析因子含义。,下一页,上一页,data sasuser.ecm1;input y x1-x8;cards;19801.11671.10090.98721.05631.06651.19441.18890.983519811.06341.06860.99251.00970.89491.06161.09811.004119821.09821.080
20、41.05621.07461.26641.07561.09361.031619831.11691.11231.06731.0771.12621.05961.10871.111219841.11831.19341.09241.11671.2451.21271.1851.202519851.26051.2421.09881.1151.41791.22021.2751.242719861.14961.11951.03011.11161.17731.20011.14981.21119871.20941.1851.03571.10321.16151.13341.17581.048519881.29311
21、.26041.04971.07181.20231.23131.27841.109419891.15651.11251.06091.07410.91771.13051.08991.121719901.10191.09171.02251.02411.15511.1271.02451.123719911.15161.12051.00891.06791.24311.12631.13441.0901;run;,下一页,上一页,proc factor data=sasuser.ecm1 outstat=ecfact;var x1-x8;run;proc print data=ecfact;run;proc
22、 factor data=sasuser.ecm1 priors=max n=2 outstat=ecfact2 rotate=v;var X1-X8;Run;proc print data=ecfact2;run;第一个 proc factor 语句用来调用因子分析过程,处理的数据是ecm1,方法是主成份分析,outstat=输出比out=更详尽,包括描述统计量、corr(or cov)、特征根、主因子等;第二个proc factor 规定了先验公因子方差估计,取相关变量的最大值,执行主因子分析;同时要求提取两个因子n=2并产生方差最大旋转。,下一页,返回本节首页,上一页,说明1:建立了因子
23、分析数学目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释。由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化。有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法。,说明2:因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义;主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量,
24、即主成分;因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。,下一页,返回本节首页,上一页,三、聚类分析,聚类分析简介聚类分析种类Q型聚类系统聚类分析:直观,易懂;快速聚类:快速,动态;有序聚类:保序(时间顺序或大小顺序);R型聚类 CLUSTER过程的一般格式聚类分析应用,下一页,返回本节首页,上一页,聚类分析简介,俗话说:“物以类聚,人以群分”,在自然科学和社会科学等各领域中,存在着大量的分类问题。例如在档案学中,人们根据档案文件的不同内容把各种文件分别归类存放。在营销学中,营销人员根据消费者的消费特征把消费者分成不同类型。在生物学中,根据动物的不同习性把动物分成不同种类。在经
25、济学中,根据居民家庭生活消费支出结构,把来自不同地区的消费者分成不同的消费层次。在投资学中,根据投资者的投资行为把投资者分成风险厌恶型、风险中性和风险爱好型等等。所有这些涉及根据已知现象的某些“相似”特征进行分类的问题都可归结为统计学中的聚类分析。,下一页,上一页,所谓聚类分析就是根据样品或指标的“相似”特征进行分类的一种多元统计分析方法,这里的类就是“相似”元素的集合。聚类分析起源于分类学,只不过早期对现象的分类,由于技术上的落后和对分类要求不高,人们主要依靠经验和专业知识来进行,很少利用数学工具进行定量的研究。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 多元 统计分析

链接地址:https://www.31ppt.com/p-5447390.html