欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    《应用多元统计》PPT课件.ppt

    • 资源ID:5505665       资源大小:1.50MB        全文页数:245页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《应用多元统计》PPT课件.ppt

    应用多元统计分析,第一章 绪 论,1.1 多元统计分析的应用,降维问题主成分分析因子分析归类问题判别分析聚类分析变量间的相互联系回归分析 典型相关分析多元数据的统计推断理论基础,判别实例,疾病的鉴别,据经验,今天与昨天的湿度差和今天的压温差是预报明天是否下雨的两个重要因素。现根据收集到的一批样本数据预报明天是否会下雨。,红楼梦后40回是否为高鹗所写?,根据人均年消费性支出,将全国所有省、市和自治区进行分类。,对欧洲11种语言进行分类服装定型分类,聚类实例,1.2 多元统计数据的图表示法,散布图矩阵轮廓图雷达图(蜘蛛图、星座图)调和曲线图切尔诺夫脸(脸谱图),姓名 性别 数学 语文 英语 物理Tom 男 80 76 81 90Jack 男 55 67 79 63Rose 女 27 52 53 43Andy 女 62 57 66 69Cici 女 94 80 76 71,教材:应用多元统计分析高惠璇 北京大学出版社主要参考书目:1.应用多元分析王学民 上海财经大学出版社2.线性统计模型 王松桂 高等教育出版社3.统计建模与R软件 薛毅 陈立萍 编著 清华大学出版社4.多元统计分析及R语言建模 王斌会编著 暨南大学出版社,第二章 随机向量与多元正态分布,随机向量样本的统计量多元正态分布的定义与基本性质随机向量的二次型,2.1 随机向量,随机向量的联合分布、边缘分布和条件分布,均值向量协方差阵相关阵,随机向量的数字特征,均值向量和协方差阵的性质,设X,Y是随机向量,A,B是常数矩阵,则,随机向量X的协方差阵是对称非负定矩阵。,,其中L为非负定矩阵。,2.2 样本的统计量,样本数据阵,样本均值向量样本离差阵A,样本协方差阵样本相关阵R,例1:统计各国家八项男子径赛运动记录:x1:100米(秒)x2:200米(秒)x3:400米(秒)x4:800米(秒)x5:1500米(分)x6:5000米(分)x7:10000米(分)x8:马拉松(分)计算相关阵。,设 为随机向量,相互独立且均服从N(0,1)分布;设为p维常数向量,A为pq常数矩阵,则称 X=AU+服从p元正态分布,记为。,2.3 正态随机向量,p维正态分布,正态分布的性质,2.4 随机向量X的二次型,第三章 回归分析,例:为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,8岁,每个层抽10个男孩,共抽60个男孩。资料如下:,一元线性回归模型,在许多经济问题中,一元线性回归只不过是回归分析中的一种特例,它通常是对影响某种经济现象的许多因素进行了简化考虑的结果。若某公司管理人员要预测来年该公司的销售额y时,研究认为影响销售额的因素不只是广告宣传费x1,还有可支配收入x2,价格x3,研究与发展费用x4,各种投资x5,销售费用x6.研究我国民航客运量y的变化趋势及其成因,发现国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。,3.1 多元线性回归模型,3.2 最小二乘法估计,定义,经验回归方程:,例1:一元线性回归,例2:某气象站收集了15年关于年初的最高温度X(从1月11日算起)与秋季第一次强冷空气出现日期Y(从9月11日算起)的数据,,回归拟合值和残差,回归拟合值拟合向量残差值残差向量,作业:p171:4-1(1),2.证明:,中心化和标准化,中心化,标准化,经验回归方程:,3.2 最小二乘法估计的性质,例1:一元线性回归及性质,x取值越分散,系数波动越小,例2:假设我们要求出四个物体的重量一种方法是将每个物体称k次,譬如称4次,然后求平均。假定称量的误差的方差都为用yij表示第i个物体第j次称重时得到的重量,i=1,2,3,4;j=1,2,3,4.(1)写出相应的线性模型(2)求出(3)计算,例3(组合称重法)在天平的两个秤盘上分别放上这四个物体中的几个,并在其中的一个秤盘上加上砝码使之达到平衡。则有线性回归模型,其中y为使天平达到平衡所需的砝码重量。约定,如果砝码在左边秤盘上则y为负值。xi的值为0,1或-1,0表示第i个物体没有被称,1和-1分别表示该物体放在左边和右边秤盘上。回归系数就是相应物体的重量,我们总共称了4次,如下:,线性回归模型的检验,3.3 回归方程的显著性检验,复相关系数,决定系数R2,即修正的R2,复相关系数,回归系数的检验,点预测,3.4 因变量的预测,区间预测,例:一元预测,x0离平均值越近,预测区间长度越短,3.5 自变量的选择与逐步回归,自变量选择的准则,最小均方残差,评价所有可能的方程,Cp最小,自变量选择的方法,向前选择法向后剔除法逐步法,3.6 复共线性与岭估计,完全复共线性与复共线性,复共线性对回归系数的影响,对方差的影响;对符号的影响,假设x1,x2,y满足模型y=10+2x1+x2+,方差扩大因子,特征根判定复共线性,若VIFj10,严重复共线性,XX至少有一个特征根很小,条件数,若ki100,严重复共线性,能否通过自变量间的相关系数来检查复共线性?,已知x1,x2数据如下,另外由x3=x1+x2构造数据x3,自变量个数大于2时,不能简单分析相关系数判别复相关性。,消除复共线性的方法,剔除一些自变量增大样本容量有偏估计,岭估计,性质2,性质1,性质3,岭参数k的选择,1.Hoerl-Kennard公式,2.岭迹法,各回归系数的岭估计基本稳定;其岭估计的符号变得合理;残差平方和增大不太多。,例1:假设x1,x2,y满足模型y=10+2x1+x2+,最小二乘回归方程Y=11.292+11.307*x1-6.591*x2,复习作业,假设我们要求出四个物体的重量一种方法是将每个物体称k次,譬如称5次,然后求平均。假定称量的误差的方差都为用yij表示第i个物体第j次称重时得到的重量,i=1,2,3,4;j=1,2,3,4,5.(1)写出相应的线性模型(2)求出(3)计算,5.如何判断是否存在复共线性,若复共线性严重,有什么处理方法?,第三章 判别分析,判别问题,判别(discriminate)已知k个总体G1,G2,Gk。根据训练样品建立判别函数根据判别函数对待判样品进行归类,判别方法,距离判别贝叶斯(Bayes)判别费希尔(Fisher)判别逐步判别,3.1 距离判别,判别准则(discriminate criterion)可写成:判X G1,当d(X,G1)d(X,G2)X 待判,当d(X,G1)=d(X,G2),按就近原则归类!,欧氏距离,马氏距离,马氏距离的性质,马氏距离不受变量单位的影响,是一个无单位的数值。,一般情况下,马氏距离也是x,y经“标准化”后的欧氏距离。,一般情况时的距离判别,判别函数,一元情况?(不妨设(1)(2),时的距离判别,判别函数,一元情况?,实例,错判率,训练样本作为检验集当训练样本足够大时,留出一些样品不参加建立判别准则而作为检验集舍一法(交叉确认法),即每次留出一个样品用来检验,用其余n-1个样品建立判别准则,胃癌的鉴别,228134201124513410402001671227170150781001672014225125714130100612150117761201331026160100510185115519170125641651425313510821210011772,距离判别函数,各类协方差矩阵相等时 各类协方差矩阵不等时,相应的判别准则为:,3.2贝叶斯(Bayes)判别,距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。,设肺癌发病为0.1%,患肺癌的人质中吸烟的占90%,不患肺癌的人中吸烟者占20%,问某吸烟者患肺癌吗?,先验概率与后验概率,最大后验概率准则,特别,总体服从正态分布的情形,判别函数,广义平方距离,寻找m维空间的一个划分:D1,D2,Dk,使得使用这个划分来判别归类时所带来的平均损失达到最小。,贝叶斯判别准则,错判概率与错判损失,平均损失,贝叶斯判别准则,定理,错判损失都相等时贝叶斯判别准则,两个总体时的Bayes判别,例p1=0.6,p2=0.4,L(1|2)=12,L(2|1)=4,f1(x)=0.36,fx(x)=0.24.,两个正态总体时的Bayes判别,协方差不等,协方差相等,距离判别,广义距离判别,最大后验概率判别,贝叶斯判别,判别方法比较,例2:据经验,今天与昨天的湿度差和今天的压温差是预报明天是否下雨的两个重要因素。现根据收集到的一批样本数据预报明天(x1=0.6,x2=3)是否会下雨.假定(x1,x2)服从二维正态分布,且两组协方差矩阵相等)。,1.用距离判别;2.若已知先验概率p1=0.3,p2=0.7,用Bayes判别;3.先考虑为明天安排一项活动,若L(2|1)=3L(1|2),如何预测?,3.3费希尔(Fisher)判别,基本思想投影即把K类的m维数据投影(变换)到某一个方向,使得变换后的数据,同类别的点“尽可能聚在一起”,不同类别的点“尽可能分离”,以此达到分类的目的。,两类Fisher判别示意图,Y,X,L=b1X+b2Y,G1,G2,组间离差阵,组内离差阵之和,总离差阵,T=A+B,Fisher 判别基本思想,原则是使两组间的组间离差尽量大,而每个组的组内离差尽量小。,组间离差平方和,合并组内离差平方和,向量a的求法,实例,多总体的Fisher判别,先由第一个判别函数判别,若不能判别样品X的归属,则由第二个判别函数判别,,先由s个判别函数将m元数据降为s元,然后使用距离判别,胃癌的鉴别,228134201124513410402001671227170150781001672014225125714130100612150117761201331026160100510185115519170125641651425313510821210011772,12.751.1312.051.2612.88-.853.43-1.7912.89.012.16-.262-2.041.193-1.16-.032.32.932-1.97.792-.84.433-.87-.833-.45-1.963-2.37.093-1.78-.09,两总体的Fisher判别,投影后两方差相等,投影后两方差不相等,3.4 判别效果的检验*,两总体判别效果的检验,推广到m元情况,k个总体判别效果的检验,接受原假设;否则拒绝原假设,m个指标对k个总体有强的区别能力。,3.5 逐步判别*,向前法向后法逐步选择,逐步判别法采用有进有出的算法,即每一步都进行检验。首先,将判别能力最强的变量引进判别函数,而对较早进入判别函数的变量,随着其他变量的进入,其显著性可能发生变化,如果其判别能力不强了,则删除。,变量判别能力的度量,设判别函数中已经有r个变量(X1,Xr),增加变量Xr+1时,变量判别能力的检验,设判别函数中已经有r个变量,要检验某个变量xr+1对判别效果的贡献,或者说变量对判别是否有附加的信息。H0:xr+1判别分析没有附加的信息H1:xr+1对判别分析有附加的信息,逐步判别的基本步骤,1.数据准备,2.计算单变量的统计量,考虑可否引入变量进入判别式,3.考虑可否引入新变量进入判别式,设判别函数中已经有r个变量,考虑能否从其余m-r个变量中选出在给定r个变量的条件下其判别效果显著的变量。,4.考虑可否剔除变量,设已经有r(r2)个变量进入了判别式,考虑较早选入模型的变量得重要性是否有较大得变化,应及时将其从模型中剔除。,实例,胃癌的鉴别,228134201124513410402001671227170150781001672014225125714130100612150117761201331026160100510185115519170125641651425313510821210011772,12.082.261.45.0412.22-1.311.66-1.5013.53.473-.43-.142-1.69.992-.78.292.41.092-1.85.773-1.20-.053-.60-.363-.01-1.513-1.99-.332-.78.29,威沙特分布,定义,性质,霍特林分布,定义,威尔克斯分布,定义,复习,3.马氏距离的定义;马氏距离判别方法,重点是 各组内协方差阵相等时的情况;,2.组内离差阵、组间离差阵、总离差阵,各组内协方差阵、合并样本协方差阵、总协方差阵的定义;,4.最大后验概率判别和广义平方距离判别,5.贝叶斯判别,重点是两个正态总体的情况,6.费希尔判别的思想和投影向量的求法,1.判别问题和判别方法,误判概率的估计;,7.各种判别方法的比较,第四章 聚类分析,Cluster analysis,4.1 聚类分析的方法,聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类。聚类原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。,Q型聚类分析R型聚类分析,聚类分析的分类,聚类的方法,系统聚类法动态聚类法有序样品聚类法,4.2 距离与相似系数,变量分类,定量变量(连续变量)定性变量(没有真正数量的变化,只有性质上的差异)有序变量(如产品分为一等品、二等品、三等品)名义变量(如性别、职业),数据的变换方法,中心化变换标准化变换极差标准化变换极差正规化变换对数变换,Q型聚类以距离作为统计量,它是将每一个样品看作m维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。,样品间的距离,明氏距离(Minkowski),欧式距离,切比雪夫距离,兰氏距离(Lance&Williams),这是无量纲的量,由于它对大的奇异值不敏感,这样使得它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。,马氏距离(PCMahalanobis),斜交空间距离,设项目个数为m,第k个项目的类目数为rk,则样品X(i)的取值为,定性变量样品间的距离,例X(1):男,20岁以下,有,游戏,上网X(2):女,2030,有,文字处理,设m1为两个样品在m个项目的所有类目中1-1配对的总数;m0为0-0配对的总数;m2为不配对的总数,两个样品间的距离,若每个项目只能取一个类目,变量间的相似系数,R型聚类以相似程度作为统计量,相似系数的绝对值越接近于1,表示指标间的关系越密切,绝对值越接近于0,表示指标间的关系越疏远。,夹角余弦,Pearson相关系数,相关系数,变量间的距离,利用相似系数定义变量间的距离,利用样本协方差阵或相关矩阵,类似样品间的距离,定性变量间的相似系数,两变量的列联表,定性变量间的相关系数,例:关于计算机的调查报告中,问拥有计算机与年龄是否有关系?与性别是否有关系?,列联系数,连关系数,二值变量的列联表和相似系数,点相关系数,系统聚类(层次聚类法)的基本思想,初始每个样本自成一类,并规定样品间的距离和类与类间的距离;然后距离最近的两类合并成为新类,并计算新类与其它类间的距离;接下去再将最近小类聚成一类,如此反复,直到所有样本聚成一类为止。,4.3 系统聚类法(Hierarchical clustering),系统聚类的基本步骤,计算n个样品两两间的距离,构成距离矩阵,记作D(0)。n个样品自成一类,类与类间的距离与样品间的距离相同(除离差平方和外),即D(1)=D(0)。合并距离最近的两类为一新类。计算新类与当前各类的距离。若类的个数等于1,转到步骤(5),否则回到步骤(3)。画聚类图。决定类的个数,及各类包含的样品数。,最短距离法(single linkage)最长距离法(complete linkage)中间距离法(median method)可变距离法(flexible median)重心法(centroid)类平均法(average)可变类平均法(flexible average)Ward最小方差法(Wards minimum variance),类间距离,S1,S3,S2,S4,S5,最短距离(single linkage),2.最长距离(complete linkage),S1,S3,S4,S5,例1:6个不同民族的标化死亡率与出生时的期望寿命,各民族之间的欧氏距离(标准化资料)D(1),最短距离系统聚类D(2),最短距离系统聚类D(3),最短距离系统聚类D(4),最短距离系统聚类D(5),谱系聚类图(最短距离法),藏族哈萨克族 维吾尔族 朝鲜族 蒙古族 满族,Dendrograms(cluster trees),0.311,0.406,0.526,1.208,1.448,最长距离系统聚类各民族之间的欧氏距离(标准化资料)D(1),最长距离系统聚类D(2),最长距离系统聚类D(3),最长距离系统聚类D(4),最长距离系统聚类D(5),谱系聚类图(最长距离法),藏族哈萨克族 维吾尔族 朝鲜族 蒙古族 满族,Dendrograms(cluster trees),0.311,0.422,0.526,1.732,3.570,3.中间距离法,4.可变法,5.重心法(两类重心间的距离,采用欧式距离),S1,S3,S2,S4,S5,6.类平均法:平方距离的平均,类平均距离系统聚类,例:对1,2,6,8,11聚类,7.可变类平均法,Ward 寻找到一个局部最优解的方法。两类合并后增加的离差平方和为类间的平方距离。,8.离差平方和法(Ward法),例:对1,2,6,8,11聚类,系统聚类方法的统一,4.4系统聚类法的性质及类的确定,1.单调性,设Dk表示系统聚类法中第k次并类时的距离,若序列Dk,k=1,2,n-1是单调上升的,则称它具有单调性。,重心法和中间距离法不具有单调性,系统聚类法的性质,2.空间的浓缩与扩张,两种系统聚类法,设在第k步的距离矩阵分别为A(k)和B(k),若Aij(k)=Bij(k),k=1,n-1,则称第一种方法比第二种方法更扩张或第二种方法比第一种方法更浓缩.,类个数的确定,观察散点图直观确定由适当的阀值确定,观察谱系聚类图确定,各类重心间的距离必须很大;各类包含的元素不要太多;类的个数符合实用目的;若采用几种不同的几类方法处理,在各自的聚类图中应发现相同的类。,8种系统聚类法所得聚类图,使用统计量确定类的个数,R2统计量半偏R2统计量伪F统计量伪t2统计量,对31个省市自治区的聚类,变量的系统聚类,对3453名成年女子测了14个部位(上体长、手臂长、下体长、总体高、身高、前腰节高、后腰节高、胸围、腰围、臀围、颈围、前胸宽、后背宽、总肩宽)的数据,对4个变量聚类。,4.5 动态聚类,(1)任取两个凝聚点,(3)新的凝聚点,(2)初始分类,(4)新的分类,凝聚点的选择,1.随机地选择2.人为选择,当人们对所欲分类的问题有一定了解时,根据经验,预先确定分类个数和初始分类,并从每一类中选择一个有代表性的样品作为凝聚点。3.将数据人为地分为A类,计算每一类的重心,就将这些重心作为凝聚点。,凝聚点就是一批有代表性的点,是欲形成类的中心。凝聚点的 选择直接决定初始分类,对分类结果也有很大的影响,由于凝聚点 的不同选择,其最终分类结果也将出现不同。,例:对1,4,5,7,11用密度法选凝聚点(d=2,D=4)(d=3,D=6),4.用密度法选择凝聚点。以某个正数d为半径,以每个样品为球心,落在这个球内的样品数(不包括作为球心的样品)就叫做这个样品的密度。计算所有样品点的密度后,首先选择密度最大的样品作为第一凝聚点,并且人为地确定一个正数D(一般D d,常取D2d)。然后选出次大密度的样品点,若它与第一个凝 聚点的距离 D,则将其作为第二个凝聚点;否则舍去这点,再 选密度次于它的样品。这样,按密度大小依次考查,直至全部样品考查完毕为止,5.人为地选择一正数d,首先以所有样品的均值作为第一凝聚点。然后依次考察每个样品,若某样品与已选定的凝聚点的距 离均大于d,该样品作为新的凝聚点,否则考察下一个样品。,例:对1,4,5,7,11选凝聚点(d=4)。,初始分类,1、人为地分类2、选择凝聚点后,将与其最近的凝聚点归并3、选择凝聚点后,每个凝聚点自成一类,将样本依次归入其距离最近的凝聚点那一类,并立即计算该类的重心,以代替原来的凝聚点,再计算下一个样本的归类。4、先对样本数据标准化,然后计算统计量,这个数接近几,就归入第几类,逐步批修改法,1、选凝聚点2、按距离最近原则分类3、计算每类的中心作为新的凝聚点,若新旧凝聚点重合,则过程结束,否则重复2、3直至达到终止的条件或达到指定的迭代次数。,例:对1,4,5,7,11用按批修改法聚类。1.用密度法选凝聚点(d=2,D=4)。2.凝聚点:1,53.凝聚点:1,11,逐个修改法,1、选凝聚点2、按距离最近原则分类,对每一样品归类后立即计算该类的重心,以代替原来的凝聚点3、将样品从头至尾再逐个按步骤2进行归类,若新的分类与上一次均相同,则结束,否则重复2、3直至达到终止的条件或达到指定的迭代次数。,例:对1,4,5,7,11用逐个修改法和逐步批修改法聚类聚类。分三类:1,5,11 分两类:1,11,逐个修改法(K-均值法),1、人为定出三个数:K(分类数)、C(类间距离的最小值),R(类内距离的最大值),取K个凝聚点;2、计算这K各凝聚点两两间的距离,若小于C,则将这两个点的中心作为新凝聚点,重复步骤2,直至所有凝聚点间的距离均不小于C为止。3、将剩余样本逐个归类,对每一样品,计算改样品与所有凝聚点的距离,若最小距离R,则该样品作为新凝聚点,否则样本归入与它距离最近的凝聚点所在类,并立即计算该类的重心,作为新的凝聚点,同步骤2分析凝聚点。再考虑下一个样本的归类。4、将样品从头至尾再逐个按步骤3进行归类,若新的分类与上一次均相同,则结束,否则重复4。,例:对1,4,5,7,11用逐个修改法聚类。,动态聚类的优缺点,样品较多时,用动态聚类容易实现主观性与半径的大小有关(类别数)与样品的顺序有关,4.6 有序样品聚类法,n个样品分成k类的一切可能分法有多少种?,在n不太大的情况下,讨论所有可能的分类结果,在某种损失函数意义下,求得最优解。,定义类的直径,对一维数据,也可定义直径为:,定义分类的损失函数,用b(n,k)表示将n个有序样品分为k类的某一种分法,损失函数:,最优分割法的递推公式,设P(n,k)是一切分类中损失函数L达到最小的分类法,其损失函数有以下两个递推公式:,例1:对1,4,5,7,11聚类,最优解的求法,若若分类数k已知,则先由LP(n,k)确定最优分类法P(n,k)的第k个分位点jk,然后由LP(jk-1,k-1)确定第k-1个分位点jk-1,例2;分析儿童的生长期。有如下的资料是1-11岁的男孩平均每年的增重,问男孩的发育可分为几个阶段。,最小损失函数Lp(n,k),第五章主成分分析,Factor analysis,总体的主成分样本的主成分主成分的应用,国际旅游外汇收入是国民收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素。中国统计年鉴把第三次产业划分为12个组成部分,分别为:,一、提出问题,x1:农林牧渔服务业 x2:地质勘查水利管理业x3:交通运输仓储和邮电通讯业 x4:批发零售贸易和餐食业x5:金融保险业 x6:房地产业 x7:社会服务业 x8:卫生体育和社会福利业 x9:教育文艺和广播 x10:科学研究和综合艺术x11:党政机关 x12:其他行业 选自1998年我国31个省、市、自治区的数据。以旅游外汇收入(百万美圆)为因变量。自变量的单位为亿元人民币。数据略。,主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。,假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标Z1,Z2,Zk(kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。,5.1总体的主成分,主成分定义,考虑线性变换,主成分分析的几何解释,主成分分析即在p维空间中寻找椭球的主轴问题,与前面的主成分相互独立,即无重叠的信息,即,在满足前面两个条件的情况下使Zi包含尽可能多的信息,即方差达到最大,长度为1,即,主成分的求法,拉格朗日乘子法,定理,主成分的性质,第一主成分所包含的信息量最大,第二主成分其次,其他主成分依次递减,各主成分之间互不相关,这就保证了各主分所含的信息互不重复。,特征值很小的主成分揭示出原始变量间的共线性关系,因子负荷量,主成分和原始变量的相关系数,我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F2,Fk(kp)代替原来的P个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。,例1:设 的协方差矩阵为,解得特征根为,,第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽管第一个主成分的贡献率并不小,但在本题中第一主成分不含第三个原始变量的信息,所以应该取两个主成分。,例2:,设 的协方差矩阵为,标准化变量的主成分及性质,标准化,相关阵,协方差阵,例2:,设 的协方差矩阵为,7.2 样本的主成分,样本协方差S为总体协方差的无偏估计,样本数据阵,从样本协方差阵或相关阵出发获得样本的主成分,样本相关矩阵R为总体相关矩阵的估计,原始数据阵(假设已标准化),主成分得分阵,例3:中学生身体四项指标(身高、体重、胸围和坐高)的主成分分析。,0.079409 0.066110 0.313383 3.541098特征向量按列存放,与特征值对应-0.449660 0.505720 0.543210 0.496966-0.462287-0.690873-0.210246 0.514570 0.175151 0.461498-0.724622 0.480901 0.743921-0.232297 0.368297 0.506929,形状成分,大小成分,例4:统计各国家八项男子径赛运动记录:x1:100米(秒)x2:200米(秒)x3:400米(秒)x4:800米(秒)x5:1500米(分)x6:5000米(分)x7:10000米(分)x8:马拉松(分),特征根:,6.618427 0.880544 0.159658,0.317476 0.566479 0.334788 0.336882 0.461894 0.358328 0.355656 0.249019-0.557501 0.368870 0.012963-0.530373 0.372896-0.140271-0.163454 0.364555-0.3106570.191925 0.366276-0.310423 0.183849 0.342131-0.437070 0.264695,特征向量:,强弱成分,速度与耐力对比,中跑与短长跑对比,7.3主成分分析的应用,1.变量分类,例5:,由主成分分析得因子负荷矩阵,1=6.376963;2=2.494683,0.655607-0.308740 0.625806-0.387245 0.657852 0.575620 0.637195 0.403911 0.682281 0.159514 0.611561 0.352402 0.613917 0.411884 0.714799-0.070704 0.706168-0.143798 0.786155-0.544255 0.803635-0.522879 0.701498-0.517191 0.497058 0.649120 0.698332 0.389235,例6:对八项男子径赛聚类x1:100米(秒)x2:200米(秒)x3:400米(秒)x4:800米(秒)x5:1500米(分)x6:5000米(分)x7:10000米(分)x8:马拉松(分),2.样品分类,例7:对八项男子径赛数据中的国家聚类x1:100米(秒)x2:200米(秒)x3:400米(秒)x4:800米(秒)x5:1500米(分)x6:5000米(分)x7:10000米(分)x8:马拉松(分),例8:针对消费性支出对31各省和地区聚类。,4.主成分回归,3.样品排序、系统评估,例:外贸数据分析 y:进口总额 x1:国内总产值 x2:存储量 x3:总消费额,最小二乘:Y=-10.127988-0.051396 X1+0.586949 X2+0.286849 X3 岭估计(k=0.04):Y=-8.558317+0.063545 X1+0.585907 X2+0.115578 X3主成分估计:Y=-9.130108+0.072780 X1+0.609220 X2+0.106259 X3,

    注意事项

    本文(《应用多元统计》PPT课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开