多变量分析资料课件.ppt
《多变量分析资料课件.ppt》由会员分享,可在线阅读,更多相关《多变量分析资料课件.ppt(47页珍藏版)》请在三一办公上搜索。
1、第十章 多变量分析,一、多变量分析的作用,简化数据结构,选择变量子集合主成分分析、因子分析、聚类分析对数据进行分类处理,分类研究,构造分类模式因子分析、判别分析、聚类分析构造模型:探索企业经营活动的数量规律预测模型:回归分析;描述模型:聚类分析、因子分析等。,二、聚类分析方法及其应用,1.聚类分析(Cluster Analysis)的基本原理也称集群分析,是研究“物以类聚”的一种统计方法。是应用最为广泛的一种分类工具。测量研究目标之间的相似性,根据相似的程度将研究目标进行分类。通过聚类分析,可以将性质相近的个体归为一类,性质差异较大的个体属于不同的类,使得类内个体具有较高的同质性,类间个体具有
2、较高的异质性。聚类类型:R型聚类:对变量进行聚类。Q型聚类:对样本进行聚类。,测量研究目标相似性的方法:两目标之间的距离,判断准则:距离最短,两目标的关联系数,判断准则:相似系数最大,2.聚类分析的方法逐项分类法(集合法):首先将所有的研究样本作为一个或几个大类,然后逐渐分解成多类直至单个样本。系统分类法(分离法):从单个样本开始,逐渐按最小距离或最大相似系数进行归类。,3.聚类分析示例例:某公司对顾客饮用啤酒的习惯和态度进行调查,其中两个问题如下:“您每月大约喝多少瓶啤酒?”“您对饮酒就是人生的快乐这句话的看法如何?”(采取“同意10不同意1”10 个量级层次)其中对五位顾客的调查结果如下表
3、所示。,将顾客按啤酒饮用量和态度分类的聚类分析如下:解:1.数据变换(极值变换)(所用的两组数据单位不同,需要进行标准化处理),2.计算各样本之间的距离,G1 G2 G3 G4 G5,3.类别合并:选择最短距离并将相应的两类合并为一新类别,然后计算新类别与剩下各类的距离。,G1 G2 G3 G4 G5,因为,mind4,0,d5,0,所以记G6=G4,G5,根据D1,6minD1,4,D1,5调整距离矩阵得:,G1 G2 G3 G6,因为,mind3,1,d6,1,所以记G7=G3,G6,调整距离矩阵得:,G1 G2 G7,因为,mind1,2,d2,2,所以记G8=G1,G2,4.绘制聚类分
4、析图,距离,顾客,1,2,3,4,5,0.04,0.09,0.1,0.29,如果把顾客分为两类,则第一类顾客包括1和2,第二类顾客包括3、4、5。第一类顾客的特点是啤酒饮用量大且认为酒是人生很快乐的事,第二类顾客相反。,聚类分析应用案例,在便利店内供应cappuccino咖啡,有服务员提供顾客需要的服务,最干净的加油站浴室:美孚公司将会更换新型的动力设施,所有这些都是公司市场营销策略提升的一部分。在此之前,美孚公司的主要策略都是降价,但是公司发现盈利性并不好,现在对超过2000个驾驶人员的调查研究,公司发现除了降价之外另有策略。美孚公司研究发现,汽油的消费者有5种类型,分别如下:道路卫士(ro
5、ad warriors):用油量大,关心信用卡、便利店和洗车服务,这类顾客占顾客总数的16%。真正蓝领(true blues):他们钟情于某一品牌,有时对某个加油站特别中意。这一类的消费者占到总数的16%,F3第三代(generation F3):他们希望加油站同时提供食品和燃料,要求快速的服务,这些年轻的消费者占到总数的27%居家人士(homebodies):这些人开车带小孩到处逛,他们使用方便和舒适的加油站,他们占消费者总数的21%。价格敏感者(price shoppers):对品牌和加油站不忠诚,他们只找最便宜的加油站,这类消费者占总数的20%。由于只有20%的消费者对价格敏感,按照美孚
6、公司高级管理人员Border Walker的说法,美孚公司的新策略是“向消费者推出优质的产品和服务”。美孚公司希望价格仍然有相当的竞争性,但是不再对价格战感兴趣。美孚公司相信顾客将会放弃低价而倾向于“好的购买体验”。当然,美孚公司在制定新的策略的过程中,市场细分时采用了聚类分析的方法。假设分析和策略是正确的,美孚公司可以得到的回报将是巨大的,每加仑提价2美分对于美孚来说意味着年收入增加1.18亿美元,每股盈利增加30美分。Source:“mobile bets drivers pick cappuccino over low price”the Wall Street Journal,Jan.
7、30,1995,PROBLEM?,在实际问题的分析过程中,人们往往希望尽可能多地收集关于分析对象的数据信息,进而能够对他有比较全面、完整的把握和认识。于是对某个分析对象的描述就会有许多指标。但如果收集的变量指标非常多,虽然能够全面地对事物有精确的度量,但却给实际的统计分析工作带来了较大的问题。(统计工作异常繁琐,相当多的信息重叠)。人们想到是否可以通过减少相应指标来解决上述问题,但这又必然造成某些重要信息的丢失。,三、因子分析方法及其应用,1.因子分析的作用以最少的信息丢失,将原始的众多指标综合成几个较少的综合指标,这些指标称为因子变量。2.因子分析的基本原理因子分析的出发点是用较少的相互独立
8、的因子变量来代替原有变量的绝大部分信息。,因子分析是一种主要用于数据化简和降维的多元统计分析方法。在面对诸多具有内在相关性的变量时,因子分析试图使用少数几个随机变量来描述这许多变量所体现的一种基本结构,从而将数据降至一个可以掌握的水平(a manageable level)。这既便于问题的分析,易于抓住问题的本质所在,同时也为后续的统计分析奠定了基础。,将每个原始的测评变量用(不可观测的)公共因子及特殊因子线性表示:,或者,式中:Xi是原始变量(i=1,2,m)Fj是公共因子(j=1,2,p)是Xi的特殊因子,aij是第i个变量Xi与第j个公共因子Fj之间的相关系数,称为因子载荷。,因子分析的
9、几个相关概念,因子载荷:在各公共因子不相关的前提下,因子载荷aij就是第i个原始变量和第j 个公共因子的相关系数,即表示xi依赖Fj的比重,反应了第i个原始变量在第j个公共因子上的相对重要性。公共因子Fj的方差贡献:衡量因子Fj重要程度的一个量。,设有n个被调查者,m个原始调查变量,则调查结果矩阵为:,另设m个原始调查变量,因子分析是,假设有p个因子(pm),,他们是原始变量的线性组合,这样就把原有的m个变量简化为P个综合因子。在因子分析中可依据每个样本的原始数据,由上式计算每个样本的因子得分,并可由因子得分对样本进行分类。而在因子分析中则主要是将各原始变量作为P个新因子的线性组合,上式称为因
10、子模型,其b称为因子载荷系数。因子载荷表示各因子与原始变量之间相关性的大小,是两者之间的相关系数。,3.因子分析的步骤及示例,i=第i个被调查者,i=1,n;j第j个变量,j=1m;,(1)收集原始资料,建立原始信息矩阵:,发出320张评分表,请顾客对A1、A16等十六家商店打分。每家各有20名顾客为其打分,将表格汇总后得到数据矩阵(部分):,(2)对x矩阵中的数据进行标准化处理,使指标具有可比性。,(3)计算各观察变量之间的相关系数R,xij,xik第i个被调查者对应于变量j和k值,(4)求相对应于相关系数矩阵的特征方程|R-E|0的特征向量以及特征值,并按大小顺序排序。,判断准则可采取下列
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多变 分析 资料 课件

链接地址:https://www.31ppt.com/p-3010795.html