2015数模提高班专题3-多元统计分析.ppt
《2015数模提高班专题3-多元统计分析.ppt》由会员分享,可在线阅读,更多相关《2015数模提高班专题3-多元统计分析.ppt(91页珍藏版)》请在三一办公上搜索。
1、2015数学建模提高班-多元统计分析之主成分分析专题,梦想点燃激情,激情成就未来,李有梅 2015/4/12,大数据分析无处不在!Data mining美剧纸牌屋是美国视频网站Netflix基于大数据投资拍摄的电视剧。随着这个经典案例被越来越频繁地提及,人们开始意识到数据分析对于影视创作的价值,无论从剧本选择、导演演员选择,还是拍摄、后期制作乃至营销,都会产生深刻的影响,近期谷歌也发布了基于搜索大数据的票房预测报告。海量数据的新时代正在改变电影业原有的游戏规则,如何应用大数据提升行业运营效率,开始成为关键。当然也有反方的声音,比如梦工厂CEO卡森伯格就表示,电影创作要靠创造力,不能仅靠数据分析
2、。再比如金融产品的精确营销,对潜在客户的定位分析。数据分析的目的:分类或聚类、图形图像的恢复与识别、综合评价等,从2014美赛题谈起:,体育画报,一个体育爱好者杂志,正在寻找上个世纪的最优秀的大学男女教练。建立数学模型来选择以下体育项目:校园曲棍球,曲棍球,橄榄球,棒球或垒球,篮球,足球中最好的大学男女教练(以前或者现在)。在你的模型中时间因素是否对挑选产生影响?比如1913年和2013年的指教是否会有不一样的评价?请清楚的表述你的评选标准。讨论你的模型应用的广泛性,比如在性别上和运动项目上。给出用你的模型得到的3个不同运动项目中最好的5个教练。如何选择评价体系?客观性、准确性、指标的重要性,
3、加权的依据?,统计分析是数据分析的主要工具完整的数据分析过程包括数据的采集(数据可靠性、完备性、相关性,各种数据类型如极大型指标、极小型指标、居中型指标,时变的或静态的等等)数据的整理数据的分析(模型的适用性)统计学为数据分析过程提供了一套完整的科学的方法论。统计软件为数据分析提供了手段。,数据分析整理,研究对象的复杂性,需要通过各种方式来收集数据,希望能从大量的数据中发现研究对象的本质特征。调查收集到的原始统计资料常常是大量的。它必须经过加工整理,如分类归并汇总,按时间前后或按数值大小重新排列等,才容易发现数据的规律性,并便于做进一步的统计分析。格式标准化、异常数据清除、错误纠正、缺损值处理
4、,整理好的数据具有如下结构:,对象的观察值样本,指 标(属性),x11x21x31xn1,数据是信息载体,需要分析数据的主要特征。一些简单的统计指标可以对研究对象的做一些定量刻画。,大数据、云计算,希望从数据中验证某种推断或提炼某种特征。一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标;另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律;,主成分分析概述,在地区或企业经济效益的评价中,涉及的指标往往很多。如给定30个地区的经济发展8项指标:GDP,居民消费水平、固定资产投资、职
5、工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。如何研究经济发展状况和地区差异?变量太多增加问题的复杂性,也给合理分析问题和解决问题带来困难;虽然每个变量都提供了一定的信息,但其重要性有所不同,在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息有一定的重叠。,大的化学和药品公司生产过程要测量100多个过程变量,包括不同场合下的温度、压力及重量等。如何形象化显示重要变量又能够灵敏检测变异的发生?所有这些应用背景归结为:研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复杂,变量间难以取舍,而且可能因多元共线性而无法得出正确结论。问题
6、实质均为数据化简、信息浓缩或者说降维,即将分散在多个变量中的同类信息集中、提纯,从而便于分析、解释和利用。,高维数据如何降维且尽可能少损失信息?,降维最简单的方法就是保留一个变量,舍弃其余的变量;对所有变量平均加权;-除非所有变量具有同样方程,否则不合理基于某种标准做加权平均;-何种标准?主成分分析是解决这些问题一种有效途径-主成分分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标,便于进一步分析尽可能保留原始变量的信息,且彼此不相关。,主成分分析(Principal Component Analysis,PCA)用于辨识数据中模式的一种方法(模式识别
7、),目的是突出数据间的相似和差异,而这些特征在高维数据中难以得到(无法给出图形表示);PCA的主要优势是能够处理高维数据,通过减少数据维数实现数据压缩,同时不损失过多的信息;能有效处理“维数灾难”(Curse of Dimensionality)问题;在图像处理、经济学、统计学等各个领域得到了广泛应用。,专题 主成分分析,1 预备知识:基本概念复习2 主成分分析数学原理3 用Matlab SPSS做主成分分析(实例)4 用SPSS做主成分分析(实例)5 作业,基于样本的统计指标,(1)单变量的均值(mean)均值作为一组数据的代表,反映该组数据平均水平,计算公式如下:性质1:,Matlab命令
8、:mean(x),(2)方差(variance)方差用于衡量数据的集中或分散程度,公式为:Matlab命令:var(x)标准差(standard deviation)是观测值与均值间的平均距离,公式为:Matlab命令:std(x),图1.不同方差数据示意图:变异性越大,说明指标对各种场景的遍历性越强,提供的信息越充分,信息量越大。,(3)两个变量的协方差(covariance)协方差用于衡量数据的协变趋势,公式为:记为 若若X和Y的均值为零,协方差如果X与Y是不相关的,二者之间的协方差就是0 matlab命令:cov(x,y),P个变量时的协方差矩阵,C=,(4)相关系数(correlati
9、on coefficient)相关系数是对于变量而言,第j个和第k个变量之间的相关系数公式为:相关系数大小在区间-1,1之间,也可写为:(标准化变换不改变相关系数),数据预处理:标准化假定有n组样本,m个变量,其原始数据矩阵X为:对矩阵进行标准化,其公式为:从而使得矩阵的每一列均值为0,方差为1标准化2,标准化的优点:消除数据量纲的影响;例如:杭州市的温度:-1045大气压力:105Pa湿度:0%100%怎么分析温度、大气压力和湿度对心情的影响?,矩阵代数1.特征向量向量(3,2)T表示二维平面中从原点(0,0)指向点(3,2)的一个箭头,而矩阵可以认为是转移矩阵;经转移矩阵变换后还是自身(倍
10、数)的向量称为矩阵的特征向量;一般对单位特征向量进行处理。,2.特征值与特征向量成对出现协方差矩阵是非负定,存在正交矩阵(由单位正交化特征向量组成),使其与对角矩阵相似。,PCA的数学原理,假定我们有 p 个相关变量X1,X2,Xp的n 次观察值;PCA的主要目标是寻找m个变量Xi的线性组合Fi(m p),,来解释Xi的方差-协方差结构,并且Fi 之间不相关。即用少量的p个变量说明原变量组的大部分变异性。正像前面所讲,一般目的是数据压缩、数据解释或其他研究的中间步骤。先从二维情形讲起。,二维时如何提取主成分?,以最简单的二元正态变量来说明主成分的几何意义.,其 n 个样本点,的散布大致为一个椭
11、圆.,n 个点的,在平面上作一个坐标变换,即按,坐标 X1 和 X2 呈现某种线性相关性.,逆时针方向旋转角度.,在坐标系 X1 OX2 中,,取新坐标轴,在椭圆长轴方向取F1,短轴方向取F2.,根据旋轴变换公式新老坐标之间有关系,n 个点的坐标 F1 和 F2 几乎不相关.,在坐标系 F1 OF2 中,,在 F1 轴上的方差达到最大,在此方向上所含的有关 n 个,样品间差异的信息是最多的,故,称 F1 为 第一主成分.,在和 F1 正交的轴 F2 上方差较,小,称 F2 为 第二主成分.,因此,用一维空间代替二维空,间时,选用 F1 可使信息的损失降到最小.,这种系统简化方法体现了抓事物主要
12、矛盾的哲学思维.,=?,Good,Better,F=T X=1 X1+2 X2+.+p Xp其中=(1,2,.,p)T 是一组权重向量单位向量 1+2+.+p=1 标准:极大化观测值在F变量上投影的方差,即即寻找 使得F的方差最大,给定原始数据矩阵:,最大目标值恰好是1,即此时F方差是1,因此PCA的目标就是寻找,可以证明,就是矩阵的具有最大特征值1的特征向量方向a1。新变量称为“第一主成分(Principal Component)”.由于一个主成分不足以代表原来的p个变量的信息。因此需要寻找第二个乃至第三、四个主成分,原则上,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两
13、个主成分的协方差为零,几何上就是这两个主成分的方向正交。可证第二个向量就是具有第二大特征值2的特征向量方向a2;以此类推。新变量按其重要性的降序排列;,设原始 样本点变量 型数据资料阵,其中,求线性组合(主成分),Fi表示第i个主成分,也即,PCA的数学模型,满足条件,主成分分析和因子分析的关系,主成分的几个性质,矩阵为,的特征值为,单位特征向量为,令,相应的,说明,主成分就是以协方差矩阵的单位特征向量,之间互不相关,主成分的名次是按特征根取值大小的顺,为系数的线性组合,主成分方差为的特征值,主成分,序排列的.主成分分析将原始p个变量的方差和表示为p个相互独立的变量的方差和。,.,推论1,推论
14、2,主成分的总方差,若是相关系数矩阵,对角元都为1,推论4,推论5,推论3,原始变量与主成分之间的相关系数(因子载荷)载荷矩阵的列向量是特征向量的若干倍。,主成分系数大未必相关系数大。解释主成分时可同时考虑二者。,按照行来看载荷矩阵,第i个变量的方差能够被所有主成分载荷的平方和解释。若取部分主成分,该平方和被称为变量共同度,指变量方差被主成分解释的比例。,特征根:它可以被看成是主成分影响力度的指标,代表引入该主成分后,可以解释多大程度的原始变量的信息。主成分FK的方差贡献率,表明主成分的方差在总方差中的比重。这个值越大,表明这个主成分携带的原始变量的信息越多。方差贡献率,在进行综合评价时,解决
15、了各变量的权重问题,具备客观性。,主成份的选取与使用条件,方差贡献率,第 k 个主成分的方差贡献率,前 k 个主成分的累积方差贡献率,在解决实际问题时,一般不是取 p个主成分,而是根据累计贡献率的大小取前 k个,累计贡献率达到85%;这样就基本包含了全部测量指标所具有的信息,这样即减少了变量的个数有便于对实际问题的分析和研究.,使用条件,主成分分析适宜用于大样本的场合.,主成分分析要求变量之间有一定的相关关系:,特征向量可正可负,具体情况具体分析,还要注意是否存在反向因子,比如奔跑得分,取值越小得分越高。若存在,在综合评价中要取倒数。,方法用途主成分评价:当进行多指标的综合评价时,应用主成分方
16、法将多指标中的信息集中为若干个主成分,然后加权求和,得到综合评价指数。主成分回归:通过对存在共线性的自变量进行主成分分析,从而在提取多数信息的同时解决共线性问题。降维,作为复杂研究的中间步骤。,2023年7月4日,文彤老师,37,在建立多元线性回归方程时,由于自变量间存在多重共线性,常常会发现某些自变量的系数极不稳定,当增减变量时,其值会出现很大变化,甚至出现与实际情况相悖的符号,以致难以对所建回归方程给予符合实际的解释。主成分回归分析 Principal Component Regression(PCR)是一种多元回归分析方法,旨在解决自变量间存在多重共线性问题。它通过主成分变换,将高度相关
17、的变量的信息综合成相关性低的主成分,然后以主成分代替原变量参与回归.,主成分分析的算法,设有n个样品,每个样品观测p项指标,将原始数据写成矩阵,将原始数据标准化(这里为了书写方便,不妨设上边矩阵已标准化了)。,建立变量的相关系数阵,求得特征根 及相应的单位特征向量,写出主成分,包括对主成分的解释,5.Matlab和SPSS实例分析,例1.在企业经济效益的评价中,涉及的指标往往很多。为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分。在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,原始数据见表3-1,即样品数n=28,变量数p=9。,续
18、表,clear load czsr2003.txt n,p=size(czsr2003);MEAN=mean(czsr2003);%求各变量的均值STD=std(czsr2003);%求各变量的标准差MEAN=ones(n,p)*diag(MEAN);STD=ones(n,p)*diag(STD);x=(czsr2003-MEAN)./STD;%原始数据标准化,原始数据标准化,R=cov(x);注释:由于数据已经过标准化处理,故x的协方差矩阵等于其相关系数矩阵,即R=corrcoef(x).,2.建立变量的协方差矩阵,V,D=eig(R);注释:函数eig的功能是对矩阵R进行正交对角化变换,矩
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2015 数模 提高班 专题 多元 统计分析
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5406622.html