《应用多元统计》PPT课件.ppt
《《应用多元统计》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《应用多元统计》PPT课件.ppt(245页珍藏版)》请在三一办公上搜索。
1、应用多元统计分析,第一章 绪 论,1.1 多元统计分析的应用,降维问题主成分分析因子分析归类问题判别分析聚类分析变量间的相互联系回归分析 典型相关分析多元数据的统计推断理论基础,判别实例,疾病的鉴别,据经验,今天与昨天的湿度差和今天的压温差是预报明天是否下雨的两个重要因素。现根据收集到的一批样本数据预报明天是否会下雨。,红楼梦后40回是否为高鹗所写?,根据人均年消费性支出,将全国所有省、市和自治区进行分类。,对欧洲11种语言进行分类服装定型分类,聚类实例,1.2 多元统计数据的图表示法,散布图矩阵轮廓图雷达图(蜘蛛图、星座图)调和曲线图切尔诺夫脸(脸谱图),姓名 性别 数学 语文 英语 物理T
2、om 男 80 76 81 90Jack 男 55 67 79 63Rose 女 27 52 53 43Andy 女 62 57 66 69Cici 女 94 80 76 71,教材:应用多元统计分析高惠璇 北京大学出版社主要参考书目:1.应用多元分析王学民 上海财经大学出版社2.线性统计模型 王松桂 高等教育出版社3.统计建模与R软件 薛毅 陈立萍 编著 清华大学出版社4.多元统计分析及R语言建模 王斌会编著 暨南大学出版社,第二章 随机向量与多元正态分布,随机向量样本的统计量多元正态分布的定义与基本性质随机向量的二次型,2.1 随机向量,随机向量的联合分布、边缘分布和条件分布,均值向量协方
3、差阵相关阵,随机向量的数字特征,均值向量和协方差阵的性质,设X,Y是随机向量,A,B是常数矩阵,则,随机向量X的协方差阵是对称非负定矩阵。,,其中L为非负定矩阵。,2.2 样本的统计量,样本数据阵,样本均值向量样本离差阵A,样本协方差阵样本相关阵R,例1:统计各国家八项男子径赛运动记录:x1:100米(秒)x2:200米(秒)x3:400米(秒)x4:800米(秒)x5:1500米(分)x6:5000米(分)x7:10000米(分)x8:马拉松(分)计算相关阵。,设 为随机向量,相互独立且均服从N(0,1)分布;设为p维常数向量,A为pq常数矩阵,则称 X=AU+服从p元正态分布,记为。,2.
4、3 正态随机向量,p维正态分布,正态分布的性质,2.4 随机向量X的二次型,第三章 回归分析,例:为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,8岁,每个层抽10个男孩,共抽60个男孩。资料如下:,一元线性回归模型,在许多经济问题中,一元线性回归只不过是回归分析中的一种特例,它通常是对影响某种经济现象的许多因素进行了简化考虑的结果。若某公司管理人员要预测来年该公司的销售额y时,研究认为影响销售额的因素不只是广告宣传费x1,还有可支配收入x2,价格x3,研究与发展费用x4,各种投资x5,销售费用x6.研究我国民航客运量y的变化趋势及其
5、成因,发现国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。,3.1 多元线性回归模型,3.2 最小二乘法估计,定义,经验回归方程:,例1:一元线性回归,例2:某气象站收集了15年关于年初的最高温度X(从1月11日算起)与秋季第一次强冷空气出现日期Y(从9月11日算起)的数据,,回归拟合值和残差,回归拟合值拟合向量残差值残差向量,作业:p171:4-1(1),2.证明:,中心化和标准化,中心化,标准化,经验回归方程:,3.2 最小二乘法估计的性质,例1:一元线性回归及性质,x取值越分散,系数波动越小,例2:假设我们要求出四个物体的重量一种方法是将每个物体称
6、k次,譬如称4次,然后求平均。假定称量的误差的方差都为用yij表示第i个物体第j次称重时得到的重量,i=1,2,3,4;j=1,2,3,4.(1)写出相应的线性模型(2)求出(3)计算,例3(组合称重法)在天平的两个秤盘上分别放上这四个物体中的几个,并在其中的一个秤盘上加上砝码使之达到平衡。则有线性回归模型,其中y为使天平达到平衡所需的砝码重量。约定,如果砝码在左边秤盘上则y为负值。xi的值为0,1或-1,0表示第i个物体没有被称,1和-1分别表示该物体放在左边和右边秤盘上。回归系数就是相应物体的重量,我们总共称了4次,如下:,线性回归模型的检验,3.3 回归方程的显著性检验,复相关系数,决定
7、系数R2,即修正的R2,复相关系数,回归系数的检验,点预测,3.4 因变量的预测,区间预测,例:一元预测,x0离平均值越近,预测区间长度越短,3.5 自变量的选择与逐步回归,自变量选择的准则,最小均方残差,评价所有可能的方程,Cp最小,自变量选择的方法,向前选择法向后剔除法逐步法,3.6 复共线性与岭估计,完全复共线性与复共线性,复共线性对回归系数的影响,对方差的影响;对符号的影响,假设x1,x2,y满足模型y=10+2x1+x2+,方差扩大因子,特征根判定复共线性,若VIFj10,严重复共线性,XX至少有一个特征根很小,条件数,若ki100,严重复共线性,能否通过自变量间的相关系数来检查复共
8、线性?,已知x1,x2数据如下,另外由x3=x1+x2构造数据x3,自变量个数大于2时,不能简单分析相关系数判别复相关性。,消除复共线性的方法,剔除一些自变量增大样本容量有偏估计,岭估计,性质2,性质1,性质3,岭参数k的选择,1.Hoerl-Kennard公式,2.岭迹法,各回归系数的岭估计基本稳定;其岭估计的符号变得合理;残差平方和增大不太多。,例1:假设x1,x2,y满足模型y=10+2x1+x2+,最小二乘回归方程Y=11.292+11.307*x1-6.591*x2,复习作业,假设我们要求出四个物体的重量一种方法是将每个物体称k次,譬如称5次,然后求平均。假定称量的误差的方差都为用y
9、ij表示第i个物体第j次称重时得到的重量,i=1,2,3,4;j=1,2,3,4,5.(1)写出相应的线性模型(2)求出(3)计算,5.如何判断是否存在复共线性,若复共线性严重,有什么处理方法?,第三章 判别分析,判别问题,判别(discriminate)已知k个总体G1,G2,Gk。根据训练样品建立判别函数根据判别函数对待判样品进行归类,判别方法,距离判别贝叶斯(Bayes)判别费希尔(Fisher)判别逐步判别,3.1 距离判别,判别准则(discriminate criterion)可写成:判X G1,当d(X,G1)d(X,G2)X 待判,当d(X,G1)=d(X,G2),按就近原则归
10、类!,欧氏距离,马氏距离,马氏距离的性质,马氏距离不受变量单位的影响,是一个无单位的数值。,一般情况下,马氏距离也是x,y经“标准化”后的欧氏距离。,一般情况时的距离判别,判别函数,一元情况?(不妨设(1)(2),时的距离判别,判别函数,一元情况?,实例,错判率,训练样本作为检验集当训练样本足够大时,留出一些样品不参加建立判别准则而作为检验集舍一法(交叉确认法),即每次留出一个样品用来检验,用其余n-1个样品建立判别准则,胃癌的鉴别,228134201124513410402001671227170150781001672014225125714130100612150117761201331
11、026160100510185115519170125641651425313510821210011772,距离判别函数,各类协方差矩阵相等时 各类协方差矩阵不等时,相应的判别准则为:,3.2贝叶斯(Bayes)判别,距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。,设肺癌发病为0.1%,患肺癌的人质中吸烟的占90%,不患肺癌的人中吸烟者占20%,问某吸烟者
12、患肺癌吗?,先验概率与后验概率,最大后验概率准则,特别,总体服从正态分布的情形,判别函数,广义平方距离,寻找m维空间的一个划分:D1,D2,Dk,使得使用这个划分来判别归类时所带来的平均损失达到最小。,贝叶斯判别准则,错判概率与错判损失,平均损失,贝叶斯判别准则,定理,错判损失都相等时贝叶斯判别准则,两个总体时的Bayes判别,例p1=0.6,p2=0.4,L(1|2)=12,L(2|1)=4,f1(x)=0.36,fx(x)=0.24.,两个正态总体时的Bayes判别,协方差不等,协方差相等,距离判别,广义距离判别,最大后验概率判别,贝叶斯判别,判别方法比较,例2:据经验,今天与昨天的湿度差
13、和今天的压温差是预报明天是否下雨的两个重要因素。现根据收集到的一批样本数据预报明天(x1=0.6,x2=3)是否会下雨.假定(x1,x2)服从二维正态分布,且两组协方差矩阵相等)。,1.用距离判别;2.若已知先验概率p1=0.3,p2=0.7,用Bayes判别;3.先考虑为明天安排一项活动,若L(2|1)=3L(1|2),如何预测?,3.3费希尔(Fisher)判别,基本思想投影即把K类的m维数据投影(变换)到某一个方向,使得变换后的数据,同类别的点“尽可能聚在一起”,不同类别的点“尽可能分离”,以此达到分类的目的。,两类Fisher判别示意图,Y,X,L=b1X+b2Y,G1,G2,组间离差
14、阵,组内离差阵之和,总离差阵,T=A+B,Fisher 判别基本思想,原则是使两组间的组间离差尽量大,而每个组的组内离差尽量小。,组间离差平方和,合并组内离差平方和,向量a的求法,实例,多总体的Fisher判别,先由第一个判别函数判别,若不能判别样品X的归属,则由第二个判别函数判别,,先由s个判别函数将m元数据降为s元,然后使用距离判别,胃癌的鉴别,2281342011245134104020016712271701507810016720142251257141301006121501177612013310261601005101851155191701256416514253135108
15、21210011772,12.751.1312.051.2612.88-.853.43-1.7912.89.012.16-.262-2.041.193-1.16-.032.32.932-1.97.792-.84.433-.87-.833-.45-1.963-2.37.093-1.78-.09,两总体的Fisher判别,投影后两方差相等,投影后两方差不相等,3.4 判别效果的检验*,两总体判别效果的检验,推广到m元情况,k个总体判别效果的检验,接受原假设;否则拒绝原假设,m个指标对k个总体有强的区别能力。,3.5 逐步判别*,向前法向后法逐步选择,逐步判别法采用有进有出的算法,即每一步都进行检验
16、。首先,将判别能力最强的变量引进判别函数,而对较早进入判别函数的变量,随着其他变量的进入,其显著性可能发生变化,如果其判别能力不强了,则删除。,变量判别能力的度量,设判别函数中已经有r个变量(X1,Xr),增加变量Xr+1时,变量判别能力的检验,设判别函数中已经有r个变量,要检验某个变量xr+1对判别效果的贡献,或者说变量对判别是否有附加的信息。H0:xr+1判别分析没有附加的信息H1:xr+1对判别分析有附加的信息,逐步判别的基本步骤,1.数据准备,2.计算单变量的统计量,考虑可否引入变量进入判别式,3.考虑可否引入新变量进入判别式,设判别函数中已经有r个变量,考虑能否从其余m-r个变量中选
17、出在给定r个变量的条件下其判别效果显著的变量。,4.考虑可否剔除变量,设已经有r(r2)个变量进入了判别式,考虑较早选入模型的变量得重要性是否有较大得变化,应及时将其从模型中剔除。,实例,胃癌的鉴别,228134201124513410402001671227170150781001672014225125714130100612150117761201331026160100510185115519170125641651425313510821210011772,12.082.261.45.0412.22-1.311.66-1.5013.53.473-.43-.142-1.69.992-.
18、78.292.41.092-1.85.773-1.20-.053-.60-.363-.01-1.513-1.99-.332-.78.29,威沙特分布,定义,性质,霍特林分布,定义,威尔克斯分布,定义,复习,3.马氏距离的定义;马氏距离判别方法,重点是 各组内协方差阵相等时的情况;,2.组内离差阵、组间离差阵、总离差阵,各组内协方差阵、合并样本协方差阵、总协方差阵的定义;,4.最大后验概率判别和广义平方距离判别,5.贝叶斯判别,重点是两个正态总体的情况,6.费希尔判别的思想和投影向量的求法,1.判别问题和判别方法,误判概率的估计;,7.各种判别方法的比较,第四章 聚类分析,Cluster ana
19、lysis,4.1 聚类分析的方法,聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类。聚类原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。,Q型聚类分析R型聚类分析,聚类分析的分类,聚类的方法,系统聚类法动态聚类法有序样品聚类法,4.2 距离与相似系数,变量分类,定量变量(连续变量)定性变量(没有真正数量的变化,只有性质上的差异)有序变量(如产品分为一等品、二等品、三等品)名义变量(如性别、职业),数据的变换方法,中心化变换标准化变换极差标准化变换极差正规化变换对数变换,Q型聚类以距离
20、作为统计量,它是将每一个样品看作m维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。,样品间的距离,明氏距离(Minkowski),欧式距离,切比雪夫距离,兰氏距离(Lance&Williams),这是无量纲的量,由于它对大的奇异值不敏感,这样使得它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。,马氏距离(PCMahalanobis),斜交空间距离,设项目个数为m,第k个项目的类目数为rk,则样品X(i)的取值为,定性变量样品间的距离,例X(1):男,20岁以下,有,游戏,上网X(2):女,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用多元统计 应用 多元 统计 PPT 课件
链接地址:https://www.31ppt.com/p-5505665.html