欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    实用多元统计分析.ppt

    • 资源ID:5257988       资源大小:653.50KB        全文页数:52页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    实用多元统计分析.ppt

    应用统计学精品课程,第十章 实用多元统计分析Unit ten practical multi-dimensional statistical analysis,西安理工大学工程管理系 马斌 余梁蜀Project Management Department of XIAn University of TechnologyMa Bing Yu Liangshu,应用统计学精品课程,10.2,10.3,10.4,判别分析 Distinction analysis,主成分分析 Principal components analysis,因子分析 Factor components analysis,应用统计学精品课程,10.1,聚类分析 Cluster analysis,10.1.1 数据的处理10.1.2 聚类分析中的统计量10.1.3 分类的形成,应用统计学精品课程,应用统计学精品课程,10.1.1 数据的处理在工程项目中,假定对n个样品测定其m个指标,得到以下数据矩阵,其中,Xij是第i个样品j个指标(变量)的观测值。如果各个指标的测量单位、测量结果的数量级及数值变动范围存在很大的差异,我们就有必要在分类之前对数锯进行标准化或正规划。,1)数据的标准化令(i=1,2,;j=1,2,m)其中,通过上述变换的变量Yij是标准化变量,这时,它的均值为0,标准差为1。2)数据的正规化令,应用统计学精品课程,其中,是数据第j列数据中的最小值;是数据阵第j列数据中的最大值;是第j列数据的级差。通过正规化变换后的数据阵中的每一列出现0与1各至少1个,其余则介于0与1之间。聚类分析中的统计量1)样品或指标间相似程度的类型 两个样品或指标对应的的两行(列)对应的元素比较接近,具有成比例关系或互相消长的关系。,应用统计学精品课程,2)衡量样品或指标间相似性的统计量的类型(1)距离系数在实际应用中,常用下式表达作为距离系数 显然,对于正规化的数据,有(,)d(,)越小。第i个变量与第j个变量就越相似;反之,相似性就越小。,应用统计学精品课程,()相似系数 显然,cos ij cos ij绝对值越大,第i个变量的与第j个变量就越相似,反之相反。,应用统计学精品课程,()相关系数 显然,R(i,j)R(i,j)的绝对值越大,第个变量与第个变量之间的关系就越密切;反之,就越不密切。,应用统计学精品课程,分类的形成 原则:()若选出的一对变量未曾连接过,就连结为一组。()若选出的变量对中,有一个已同别的连结成组,则把另一个变量 与这个组连接。()若对选出的变量分别在已连结好的两组内,则把这两个组连结。,应用统计学精品课程,应用统计学精品课程,10.2,判别分析 Distinction analysis,基本思想线性判别函数判别指标与判别法则,应用统计学精品课程,应用统计学精品课程,10.2.1 基本思想 判别函数,记作 Z=Z(Y1,YP)均值同样,对于总体X2有均值,通过判别分析的方法,可以构造出一个介于 和 之间的指标ZC,设Z为某个待定判别的判别值。,应用统计学精品课程,线性判别函数 判别函数 其中,C1,CP是待定系数。通过下式可以确定C1,CP。,应用统计学精品课程,判别指标与判别法则 根据判别函数可求得 和,通常可以用它们的加权平均作为判别指标,即有,应用统计学精品课程,这样我们有以下判别法则:设为某一判别样品的判别值,则,应用统计学精品课程,10.2.4 判别函数的评价 对于判别函数 其有效性需要进行检验。在统计学中,常采用马哈拉诺比斯D2统计量 D2可直观地设想为总体X1和X2之间的距离(称为综合距离系数函数)。可以证明统计量 服从第一自由度为P,第二自由度为n1+n2-p-1的F分布。这样可以查F分布进行检验并评价判别函数。,应用统计学精品课程,实际中,先求出 再求出各判别变量Yt(t=1,p)的贡献系数对“贡献”小的判别变量可根据实际情况筛选掉。,应用统计学精品课程,统计学精品课程,10.3,主成分分析 Principal components analysis,10.3.1 主成份分析10.3.2 主成份的导出10.3.3 主成份的定义主成份的性质应用实例,主成分分析法是多元统计分析中的一种,是一种简化数据结构的方法。它用于将多个变量变换为少数几个综合变量,这几个综合变量变换为少数几个综合变量,这几个综合变量可以反映原来多个变量的大部分信息,而它们相互之间又是无关的。,统计学精品课程,主成分的概念 在项目管理中,假定对n个样品测定其m个指标(变量)X1,Xm得以下数据矩阵 以后我们将原指标记为X1,Xm,将它们的主成分记为Y1,Ym.当m=2时,原指标记为X1和X2,其关系见下页图,应用统计学精品课程,容易看出Y1将X1和X2,的主要信息都反映了。那么用Y1来表达X1和X2,还是不错的。如果取椭圆的短轴作为第二主成分Y2,那么,图10.2上的点,对原指标X1,X2,的值记为X1t和Xt2(t=1,n),对主成分Y2的值记为Y1t,Yt2(t=1,n),则有,应用统计学精品课程,所谓Y1反映的信息,就是 在整个平方和中所占的比例越大越好,即Y1的平方和(或方差)越大越好。主成分的导出 在标准化的情况下,样本的相关系数即为样本协方差,即,应用统计学精品课程,对于数据矩阵(10.1),其样本相关矩阵R和样本协方差矩阵S相同,即为了导出主成分,只须求R或S阵的特征根和特征向量即可。,应用统计学精品课程,主成分的定义设为X1,Xm是m个变量,可以抽得其n个样品,它的第i(i=1,m)个主成分为其中,,应用统计学精品课程,并且满足:(1)第一主成分Y1是一切形如 使Y的方差达到极大者。(2)第二主成分Y2是一切形如并与Y1无关,使Y的方差达到极大者;(3)第k个主成分Yk是一切形如并与Y1YK-1不相关,使Y的方差达到极大者。,应用统计学精品课程,主成分的性质 设对于变量X1,Xm的n个样品的数据矩阵,其协方差矩阵为S,设S的m个特征值1m0,对应的m个单位正交特征向量为则:,应用统计学精品课程,(1)X1,Xm的第i个主成分Yi的系数就是第i个特征值i所对应的正交化特征向量则,应用统计学精品课程,(2)第i个主成分Yi的方差为第i个特征值i,每两个不相同主成分间的协方差为0,则Y1,Ym的协方差矩阵S是一对角矩阵,其对角元素分别为1m,其他元素均为0。(3)S和的对角元素之和相等,即两个协方差矩阵的迹相等由此可得,第k个主成分的方差占总方差的比例=称此为主成分Yk的贡献率。则前K个主成分的累计贡献率=,应用统计学精品课程,(4)主成分Yi与Xj的相关系数 称为因子负荷量。(5),应用统计学精品课程,应用统计学精品课程,为了研究上海、北京房地产指数与其他价格指数之间的关系,设定4个变量,见表10.12。,表10.12 房地产指数变量,10.3.5 应用实例,表中10.12中所有变量的数据均取自1997年1月2000年6月有关的统计资料,样本容量为n=42。根据这些数据计算的样本相关矩阵为,其特征值为:1=2.333,2=1.089 3=0.540 4=0.038,对应的特征向量分别为,应用统计学精品课程,这样就可以得到4个主成份。其第一、第二主成份分别为,应用统计学精品课程,根据小节中的结论(2)、(3)可以求出各个主成份的方差和方差贡献,见表10.13。,表10.13 方差贡献,由表10.13可见,前两个主成份的累计方差贡献率达到了85.5%这 就说明如用两个成分Y1 和 Y2 去代替原来的4个变量X1,X2,X3,X4的话,所不能解释的方差不足15%,因此不致损失太多的信息。利用(10.33)还可以求出因子负荷,表10.14 给出了计算结果。,应用统计学精品课程,表10.14 因子负荷,由因子负荷表可以看出第一主成份Y1和变量X1,X3,X4关系密切,因此,它的意义或命名应根据X1,X3,X4的意义来决定;第二主成份Y2和X2 的关系最密切,而与X1,X3,X4的关系不密切。,应用统计学精品课程,应用 统计学精品课程,10.4,因子分析 Factor components analysis,10.4.1 因子分析的基本思想10.4.2 子分析的数学表达式10.4.3 正交因子模型与回归模型的比较10.4.4 关于因子负荷的主要结论应用实例,应用 统计学精品课程,因子分析的基本思想 因子分析的基本思想是将可以直接观测的变量进行分类,使彼此之间相关性较密切的变量分在同一类中,且使不同类的变量之间的相关性尽量降低。这样每一类的变量实质上代表了一个本质因子。因子分析就是要寻找这种类型的模型或结构。,因子分析的数学表达式 设m个变量的n个样品的观测数据矩阵为 由于X1,Xm之间可能互相独立,也可能彼此相关,因此,我们将m个变量Xi(i=1,m)表示成因子F1FP以及因子ui(i=1,m)的线性组合,应用统计学精品课程,应用统计学精品课程,式中,FK(K=1,P)与所有的变量X1,Xm都有关,称为公共因子;而ui(i=1,m)仅与相应的一个变量Xi有关,称为单因子。公共因子的系数aik(i=1,p)称为第i个变量Xi在第k个公共因子FK上的因子载荷。,为讨论问题的方便,假定原始变量Xi、公共因子FK以及单因子ui均已化为标准化,且各因子互相独立。若进一步假定公共因子F1FP满足EFK=0(K=1,P)Cov(FK,Ft)=单因子u1,um满足Eui=0(i=1,m)Cov(ui,uj)=以上模型称为正交因子模型。,应用统计学精品课程,正交因子模型与回归分析比较 对于线性组合中的一个式子 与多元回归模型 进行比较,可见它们的形式是类似的,但参数的意义与自变量的性质不同,两者的比较详见下页表,应用统计学精品课程,正交因子模型与回归模型的比较,应用统计学精品课程,关于因子负荷的主要结论 由因子模型系数构成的矩阵 称为因子负荷矩阵。它具有以下结论,见下页,应用统计学精品课程,(1)因子负荷aij(i=1,m;j=1,p)是第i个变量Xi与第j个公共因子Fj 的协方差,即 aij=cov(Xi,Fj)由Xi与Fj标准化的假设,可知aij是Xi与 Fj的相关系数,它反映了Xi与Fj的关系的密切程度。(2)公共因子F1Fm是与单因子ui的对同一变量Xi的方差所作的总贡献,由两部分组成:一部分由公共因子组成即 称为公共因子方差;另一部分称为单因子方差,即,应用统计学精品课程,上式也就是 即 总方差=公共因子方差+单因子方差,应用统计学精品课程,应用实例,应用统计学精品课程,在10.3节主成份分析的实例中,对于样本相关矩阵,按照两个正交因子的模型,求出其因子负荷矩阵为,试求:(1)正交因子模型;(2)各个变量的共同度以及对应的单因子方差;(3)每个因子的方差贡献率以及两个因子的累计方差贡献率;(4)说明两个因子的意义。,应用统计学精品课程,解:(1)正交因子模型为,应用统计学精品课程,(2)、(3)的计算结果归纳在表10.16中。,表10.16 计算结果,(4)由第一因子F1的负荷看,X1,X3,X4的负荷都很大,因此,F1主要 反应的是除了中房北京城市指数之外的因子,即房地产股票指数、上海城市指数、零售价格指数的影响;相反地,F2则主要是城市指 数的影响。但从共同度来看,X1(即房地产股票指数)对这两个因 子的依据程度相对要小一些,它们的方差的38.2%不能被这两个公 共因子所解释,因此被包含在单因子的方差之中。,应用统计学精品课程,应用统计学精品课程,Thank you!,

    注意事项

    本文(实用多元统计分析.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开