实用多元统计分析.ppt

资源ID：5257988 资源大小：653.50KB 全文页数：52页
资源格式： PPT 下载积分：15金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要15金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

实用多元统计分析.ppt

应用统计学精品课程,第十章实用多元统计分析Unit ten practical multi-dimensional statistical analysis,西安理工大学工程管理系马斌余梁蜀Project Management Department of XIAn University of TechnologyMa Bing Yu Liangshu,应用统计学精品课程,10.2,10.3,10.4,判别分析 Distinction analysis,主成分分析 Principal components analysis,因子分析 Factor components analysis,应用统计学精品课程,10.1,聚类分析 Cluster analysis,10.1.1 数据的处理10.1.2 聚类分析中的统计量10.1.3 分类的形成,应用统计学精品课程,应用统计学精品课程,10.1.1 数据的处理在工程项目中，假定对n个样品测定其m个指标，得到以下数据矩阵,其中，Xij是第i个样品j个指标（变量）的观测值。如果各个指标的测量单位、测量结果的数量级及数值变动范围存在很大的差异，我们就有必要在分类之前对数锯进行标准化或正规划。,1）数据的标准化令（i=1,2,;j=1,2,m)其中，通过上述变换的变量Yij是标准化变量，这时，它的均值为0，标准差为1。2）数据的正规化令,应用统计学精品课程,其中，是数据第j列数据中的最小值；是数据阵第j列数据中的最大值；是第j列数据的级差。通过正规化变换后的数据阵中的每一列出现0与1各至少1个，其余则介于0与1之间。聚类分析中的统计量1）样品或指标间相似程度的类型两个样品或指标对应的的两行（列）对应的元素比较接近,具有成比例关系或互相消长的关系。,应用统计学精品课程,2）衡量样品或指标间相似性的统计量的类型（1）距离系数在实际应用中，常用下式表达作为距离系数显然，对于正规化的数据，有（，）d（，）越小。第i个变量与第j个变量就越相似；反之，相似性就越小。,应用统计学精品课程,（）相似系数显然，cos ij cos ij绝对值越大，第i个变量的与第j个变量就越相似，反之相反。,应用统计学精品课程,（）相关系数显然,R（i,j)R（i,j)的绝对值越大，第个变量与第个变量之间的关系就越密切；反之，就越不密切。,应用统计学精品课程,分类的形成原则：（）若选出的一对变量未曾连接过，就连结为一组。（）若选出的变量对中，有一个已同别的连结成组，则把另一个变量与这个组连接。（）若对选出的变量分别在已连结好的两组内，则把这两个组连结。,应用统计学精品课程,应用统计学精品课程,10.2,判别分析 Distinction analysis,基本思想线性判别函数判别指标与判别法则,应用统计学精品课程,应用统计学精品课程,10.2.1 基本思想判别函数，记作 Z=Z(Y1,YP)均值同样，对于总体X2有均值,通过判别分析的方法，可以构造出一个介于和之间的指标ZC，设Z为某个待定判别的判别值。,应用统计学精品课程,线性判别函数判别函数其中，C1,CP是待定系数。通过下式可以确定C1,CP。,应用统计学精品课程,判别指标与判别法则根据判别函数可求得和，通常可以用它们的加权平均作为判别指标，即有,应用统计学精品课程,这样我们有以下判别法则：设为某一判别样品的判别值，则,应用统计学精品课程,10.2.4 判别函数的评价对于判别函数其有效性需要进行检验。在统计学中，常采用马哈拉诺比斯D2统计量 D2可直观地设想为总体X1和X2之间的距离（称为综合距离系数函数）。可以证明统计量服从第一自由度为P，第二自由度为n1+n2-p-1的F分布。这样可以查F分布进行检验并评价判别函数。,应用统计学精品课程,实际中，先求出再求出各判别变量Yt(t=1,p)的贡献系数对“贡献”小的判别变量可根据实际情况筛选掉。,应用统计学精品课程,统计学精品课程,10.3,主成分分析 Principal components analysis,10.3.1 主成份分析10.3.2 主成份的导出10.3.3 主成份的定义主成份的性质应用实例,主成分分析法是多元统计分析中的一种，是一种简化数据结构的方法。它用于将多个变量变换为少数几个综合变量，这几个综合变量变换为少数几个综合变量，这几个综合变量可以反映原来多个变量的大部分信息，而它们相互之间又是无关的。,统计学精品课程,主成分的概念在项目管理中，假定对n个样品测定其m个指标（变量）X1，Xm得以下数据矩阵以后我们将原指标记为X1，Xm,将它们的主成分记为Y1,Ym.当m=2时，原指标记为X1和X2,其关系见下页图,应用统计学精品课程,容易看出Y1将X1和X2,的主要信息都反映了。那么用Y1来表达X1和X2,还是不错的。如果取椭圆的短轴作为第二主成分Y2，那么，图10.2上的点，对原指标X1，X2,的值记为X1t和Xt2(t=1,n),对主成分Y2的值记为Y1t，Yt2(t=1,n),则有,应用统计学精品课程,所谓Y1反映的信息，就是在整个平方和中所占的比例越大越好，即Y1的平方和（或方差）越大越好。主成分的导出在标准化的情况下，样本的相关系数即为样本协方差，即,应用统计学精品课程,对于数据矩阵（10.1），其样本相关矩阵R和样本协方差矩阵S相同，即为了导出主成分，只须求R或S阵的特征根和特征向量即可。,应用统计学精品课程,主成分的定义设为X1，Xm是m个变量，可以抽得其n个样品，它的第i（i=1,m)个主成分为其中，,应用统计学精品课程,并且满足：（1）第一主成分Y1是一切形如使Y的方差达到极大者。（2）第二主成分Y2是一切形如并与Y1无关，使Y的方差达到极大者；（3）第k个主成分Yk是一切形如并与Y1YK-1不相关，使Y的方差达到极大者。,应用统计学精品课程,主成分的性质设对于变量X1，Xm的n个样品的数据矩阵，其协方差矩阵为S，设S的m个特征值1m0,对应的m个单位正交特征向量为则：,应用统计学精品课程,（1）X1，Xm的第i个主成分Yi的系数就是第i个特征值i所对应的正交化特征向量则,应用统计学精品课程,（2）第i个主成分Yi的方差为第i个特征值i，每两个不相同主成分间的协方差为0，则Y1,Ym的协方差矩阵S是一对角矩阵，其对角元素分别为1m，其他元素均为0。（3）S和的对角元素之和相等，即两个协方差矩阵的迹相等由此可得，第k个主成分的方差占总方差的比例=称此为主成分Yk的贡献率。则前K个主成分的累计贡献率=,应用统计学精品课程,（4）主成分Yi与Xj的相关系数称为因子负荷量。（5）,应用统计学精品课程,应用统计学精品课程,为了研究上海、北京房地产指数与其他价格指数之间的关系，设定4个变量，见表10.12。,表10.12 房地产指数变量,10.3.5 应用实例,表中10.12中所有变量的数据均取自1997年1月2000年6月有关的统计资料，样本容量为n=42。根据这些数据计算的样本相关矩阵为,其特征值为：1=2.333，2=1.089 3=0.540 4=0.038,对应的特征向量分别为,应用统计学精品课程,这样就可以得到4个主成份。其第一、第二主成份分别为,应用统计学精品课程,根据小节中的结论（2）、（3）可以求出各个主成份的方差和方差贡献，见表10.13。,表10.13 方差贡献,由表10.13可见，前两个主成份的累计方差贡献率达到了85.5%这就说明如用两个成分Y1 和 Y2 去代替原来的4个变量X1,X2,X3,X4的话，所不能解释的方差不足15%，因此不致损失太多的信息。利用（10.33）还可以求出因子负荷，表10.14 给出了计算结果。,应用统计学精品课程,表10.14 因子负荷,由因子负荷表可以看出第一主成份Y1和变量X1,X3,X4关系密切，因此，它的意义或命名应根据X1,X3,X4的意义来决定；第二主成份Y2和X2 的关系最密切，而与X1,X3,X4的关系不密切。,应用统计学精品课程,应用统计学精品课程,10.4,因子分析 Factor components analysis,10.4.1 因子分析的基本思想10.4.2 子分析的数学表达式10.4.3 正交因子模型与回归模型的比较10.4.4 关于因子负荷的主要结论应用实例,应用统计学精品课程,因子分析的基本思想因子分析的基本思想是将可以直接观测的变量进行分类，使彼此之间相关性较密切的变量分在同一类中，且使不同类的变量之间的相关性尽量降低。这样每一类的变量实质上代表了一个本质因子。因子分析就是要寻找这种类型的模型或结构。,因子分析的数学表达式设m个变量的n个样品的观测数据矩阵为由于X1，Xm之间可能互相独立，也可能彼此相关，因此，我们将m个变量Xi（i=1,m)表示成因子F1FP以及因子ui(i=1,m)的线性组合,应用统计学精品课程,应用统计学精品课程,式中，FK(K=1,P)与所有的变量X1，Xm都有关，称为公共因子；而ui(i=1,m)仅与相应的一个变量Xi有关，称为单因子。公共因子的系数aik(i=1,p)称为第i个变量Xi在第k个公共因子FK上的因子载荷。,为讨论问题的方便，假定原始变量Xi、公共因子FK以及单因子ui均已化为标准化，且各因子互相独立。若进一步假定公共因子F1FP满足EFK=0(K=1,P)Cov(FK,Ft)=单因子u1,um满足Eui=0(i=1,m)Cov(ui,uj)=以上模型称为正交因子模型。,应用统计学精品课程,正交因子模型与回归分析比较对于线性组合中的一个式子与多元回归模型进行比较，可见它们的形式是类似的，但参数的意义与自变量的性质不同，两者的比较详见下页表,应用统计学精品课程,正交因子模型与回归模型的比较,应用统计学精品课程,关于因子负荷的主要结论由因子模型系数构成的矩阵称为因子负荷矩阵。它具有以下结论，见下页,应用统计学精品课程,（1）因子负荷aij(i=1,m;j=1,p)是第i个变量Xi与第j个公共因子Fj 的协方差,即 aij=cov(Xi,Fj)由Xi与Fj标准化的假设，可知aij是Xi与 Fj的相关系数，它反映了Xi与Fj的关系的密切程度。（2）公共因子F1Fm是与单因子ui的对同一变量Xi的方差所作的总贡献，由两部分组成：一部分由公共因子组成即称为公共因子方差；另一部分称为单因子方差，即,应用统计学精品课程,上式也就是即总方差=公共因子方差+单因子方差,应用统计学精品课程,应用实例,应用统计学精品课程,在10.3节主成份分析的实例中，对于样本相关矩阵,按照两个正交因子的模型，求出其因子负荷矩阵为,试求：（1)正交因子模型;（2)各个变量的共同度以及对应的单因子方差;(3)每个因子的方差贡献率以及两个因子的累计方差贡献率；（4）说明两个因子的意义。,应用统计学精品课程,解：（1）正交因子模型为,应用统计学精品课程,（2）、（3）的计算结果归纳在表10.16中。,表10.16 计算结果,（4）由第一因子F1的负荷看，X1,X3,X4的负荷都很大，因此，F1主要反应的是除了中房北京城市指数之外的因子，即房地产股票指数、上海城市指数、零售价格指数的影响；相反地，F2则主要是城市指数的影响。但从共同度来看，X1(即房地产股票指数）对这两个因子的依据程度相对要小一些，它们的方差的38.2%不能被这两个公共因子所解释，因此被包含在单因子的方差之中。,应用统计学精品课程,应用统计学精品课程,Thank you!,

注意事项

本文（实用多元统计分析.ppt）为本站会员（小飞机）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。