应用多元统计分析北大版第一章.ppt
《应用多元统计分析北大版第一章.ppt》由会员分享,可在线阅读,更多相关《应用多元统计分析北大版第一章.ppt(86页珍藏版)》请在三一办公上搜索。
1、1,应用多元统计分析,2,课 程 介 绍,多元统计分析(简称多元分析)是统计学的一个重要分支.它是应用数理统计学来研究多变量(多指标)问题的理论和方法;它是一元统计学的推广和发展.多元统计分析是一门具有很强应用性的课程;它在自然科学和社会科学等各个领域中得到广泛的应用;它包括了很多非常有用的数据处理方法.,3,第一章 绪论第二章 多元正态分布及参数的估计第三章 多元正态总体参数的假设检验第四章 回归分析-第五章 判别分析第六章 聚类分析第七章 主成分分析第八章 因子分析第九章 对应分析方法第十章 典型相关分析第十一章 偏最小二乘回归分析,本课程的内容,多变量分析(数据结构简化),分类方法,两组
2、变量的相关分析,基础理论,两组变量的相依分析,4,普通高等教育”十一五”国家级教材北京大学数学教学系列丛书本科生数学基础课教材 应用多元统计分析(北京大学出版社,高惠璇,2006.10),使用的教材,5,1.实用多元统计分析(方开泰,1989,见参考文献1)2.多元统计分析引论(张尧庭,方开泰,2003,见2)3.实用多元统计分析(王学仁,1990,见6)4.应用多元分析(王学民,1999,见8)5.实用统计方法与SAS系统(高惠璇,2001,见3)6.多元统计分析(于秀林,1999,见9)7.多元统计方法(周光亚,1988,见28)8.多元分析(英.M.肯德 尔,1983,见15)9.SAS
3、系统使用手册等资料(1994-1998,见17-21),参考书(一),6,(1)An Introduction to Multivariate Statistical Analysis(Anderson 1984,见22),参考书(二),(2)Applied Multivariate Statistical Analysis(Richard A.Johnson and Dean W.Wichern 4th ed 1998)中译本:实用多元统计分析(陆璇译 2001,见5),(3)Linear Statistical Inference and Its Applications(C.R.Rao
4、1973)中 译 本:线性统计推断及其应用(C.R.劳 1987,见25),7,教学方式:授课与实际例题相结合.,本课程的特点与教学方式,本课程的特点是将常用的多元分析方法的介绍与在计算机上实现这些方法的软件紧密地结合起来,不仅介绍每种多元分析方法 的实际背景、统计思想、统计模型、数学原理和解题的思路,并结合实例介绍应用统计软件(SAS系统)解决问题的步骤和计算结果的分析。,8,第一章 绪 论1.1 引 言,在实际问题中,很多随机现象涉及到的变量不止一个,而经常是多个变量,而且这些变量间又存在一定的联系。我们常常需要处理多个变量的观测数据。例如考察学生的学习情况时,就需了解学生在几个主要科目的
5、考试成绩。下表给出从中学某年级随机抽取的12名学生中5门主要课程期末考试成绩。,9,第一章 绪 论1.1 引 言,序号 政治 语文 外语 数学 物理 1 99 94 93 100 100 2 99 88 96 99 97 3 100 98 81 96 100 4 93 88 88 99 96 5 100 91 72 96 78 6 90 78 82 75 97 7 75 73 88 97 89 8 93 84 83 68 88 9 87 73 60 76 8410 95 82 90 62 3911 76 72 43 67 7812 85 75 50 34 37,10,第一章 绪 论1.1 引言
6、-多元分析的研究 对象和内容,上表提供的数据,如果用一元统计方法,势必要把多门课程分开分析,每次分析处理一门课的成绩。这样处理,由于忽视了课程之间可能存在的相关性,因此,一般说来,丢失信息太多。分析的结果不能客观全面地反映某年级学生的学习情况。,本课程要讨论的多元分析方法,它同时对多门课程成绩进行分析。这样的分析对这些课程之间的相互关系、相互依赖性等都能提供有用的信息。,11,第一章 绪 论1.1 引言-多元分析的研究 对象和内容,由于大量实际问题都涉及到多个变量,这些变量又是随机变化,如学生的学习成绩随着被抽取学生的不同成绩也有变化(我们往往需要依据它们来推断全年级的学习情况)。所以要讨论多
7、维随机向量的统计规律性。,多元统计分析就是讨论多维随机向量的理论和统计方法的总称。,多元统计分析研究 的对象就是多维随机向量.,12,第一章 绪 论1.1 引言-多元分析的研究 对象和内容,研究的内容既包括一元统计学中某些方法的直接推广,也包括多个随机变量特有的一些问题。多元统计分析是一类范围很广的理论和方法。企图用三言两语来下一个严格的定义是困难的.,13,第一章 绪 论1.1 引言-多元分析的研究 对象和内容,就以学生成绩为例,我们可以研究很多问题:用各科成绩的总和作为综合指标来比较学生学习成绩的好坏(如成绩好的与成绩差的,又如文科成绩好的与理科成绩好的);研究各科成绩之间的关系(如物理与
8、数学成绩的关系,文科成绩与理科成绩的关系);等等。所有这些都属于多元统计分析的研究内容。,14,第一章 绪 论1.1 引言-多元分析的研究 对象和内容,综上所述,多元分析以个变量的n次观测数据组成的数据矩阵,x11 x12 x1p x21 x22 x2p.xn1 xn2 xnp,X=,为依据。根据实际问题的需要,给出种种方法。英国著名统计学家.肯德尔(M.G.Kendall)在多元分析一书中把多元分析所研究的内容和方法概括为以下几个方面:,15,第一章 绪 论1.1 引言-多元分析的研究 对象和内容,1.简化数据结构(降维问题)例如通过变量变换等方法使相互依赖的变量变成互不相关的;或把高维空间
9、的数据投影到低维空间,使问题得到简化而损失的信息又不太多.主成分分析,因子分析,对应分析等多元统计方法就是这样的一类方法。,.分类与判别(归类问题)对所考查的对象(样品点或变量)按相似程度进行分类(或归类)。聚类分析和判别分析等方法是解决这类问题的统计方法。,16,第一章 绪 论1.1 引言-多元分析的研究 对象和内容,3.变量间的相互联系(1)相互依赖关系:分析一个或几个变量的变化是否依赖于另一些变量的变化?如果是,建立变量间的定量关系式,并用于预测或控制-回归分析.(2)变量间的相互关系:分析两组变量间的相互关系-典型相关分析等.(3)两组变量间的相互依赖关系-偏最小二乘回归分析.,17,
10、第一章 绪 论1.1 引言-多元分析的研究 对象和内容,5.多元统计分析的理论基础 包括多维随机向量及多维正态随机向量,及由此定义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论。这些不仅是统计估计和假设检验的基础,也是多元统计分析的理论基础。,.多元数据的统计推断 参数估计和假设检验问题.特别是多元正态分布的均值向量和协差阵的估计和假设检验等问题。,18,第一章 绪 论1.1 引言-多元分析的发展历史,多元统计分析起源于二十世纪初,1928年Wishart发表论文多元正态总体样本协方差阵的精确分布,可以说是多元分析的开端.之后R.A.Fisher、H.Hotelling、
11、S.N.Roy、许宝录等人作了一系列奠基的工作,使多元统计分析在理论上得到迅速的发展,在许多领域中也有了实际应用.由于用统计方法解决实际问题时需要的计算量很大,使其发展受到影响,甚至停滞了相当长的时间.,19,第一章 绪 论1.1 引言-多元分析的的发展历史,二十世纪50年代中期,随着电子计算机的出现和发展,使得多元统计分析在地质、气象、医学、社会学等方面得到广泛的应用.60年代通过应用和实践又完善和发展了理论,由于新理论、新方法的不断出现又促使它的应用范围更加扩大.多元统计的方法在我国至70年代初期才受到各个领域的极大关注,近30多年来我国在多元统计方法的理论研究和应用上也取得了很多显著成绩
12、,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上.,20,第一章 绪 论1.2 多元统计分析的应用领域-教育学,多元统计分析是解决实际问题有效的数据处理方法。随着电子计算机使用的日益普及,多元统计方法已广泛地应用于自然科学,社会科学的各个方面。以下我们列举多元分析的一些应用领域。从中可看到多元分析应用的广度和深度。,1.教育学 n个考生报考北大概率统计系.每个考生参加7门课(语文、数学、政治、外语、物理、化学、生物)的考试,各门课成绩记为Yj1,Yj2,Yj7。又每个考生在高中学习期间,m门主要课程成绩为Xj1,Xj2,Xjm(j=1,2,n)。经对这大量的资料作统计分析,
13、我们能够得出:,21,第一章 绪 论1.2 多元统计分析的应用领域-教育学,(1)高考成绩和高中学习期间成绩的关系,即给出两组变量线性组合间的关系,从而可由考生在高中期间的学习成绩来预报高考的综合成绩或某科目的成绩.(2)给出考生成绩次序排队的最佳方案(最佳组合).总分可以体现一个考生成绩好坏,但对报考概率统计系的学生,按总分从高到低的顺序录取并不是最合适的.应按适当的权数加权求和.如数学、物理、外语的权数相对高些.,22,第一章 绪 论1.2 多元统计分析的应用领域-教育学,(3)利用n个学生在高中学习期间m门主科的考试成绩,可对学生进行分类,如按文、理科成绩分类,按总成绩分类等。若准备给优
14、秀学生发奖,那么一等奖、二等奖的比例应该是多少?应用多元统计分析的方法可以给出公平合理地确定。,23,教育学-主成分分析在学生学习成绩排序中的应用,我在担任学生班主任期间,经常会遇到学校下达的评选三好生,评选学习奖等任务.另还有评选各种奖学金的工作;推荐研究生的工作都要求班主任提出意见.如何利用全班学生在校几年中主要课程的学习成绩及各方面的表现更科学,更合理地进行评选?应用多元统计分析中的主成分方法可以给出公平合理地确定.,24,教育学-主成分分析在学生学习成绩排序中的应用,比如全班有40名学生,本科生四年中主要课程包括基础课,专业基础课,本专业的限选课,设共有12门课.从教务可以得到全班40
15、名学生这12门课的成绩,组成的40行12列的数据阵X就是我们的原始数据.(1)全班学生综合成绩的排序 评选三好生,评选学习奖,推荐研究生的工作首先都要了解全班学生的学习情况.,25,教育学-主成分分析在学生学习成绩排序中的应用,12门课的成绩可看成12个变量,这是多指标(变量)系统的排序评估问题。这类问题在实际工作中经常会迂到,比如对某类企业的经济效益进行评估比较,影响企业经济效益的指标有很多,如何更科学、更客观地将一个多指标问题综合为单个综合变量的形式.主成分分析方法为样品排序或多指标系统评估提供可行的方法.,26,教育学-主成分分析在学生学习成绩排序中的应用,这里把12门课的成绩看成12个
16、变量,这些变量是相关的,有的相关性强些,有的相关性一般些。用主成分分析方法从12个相关的变量中可以综合得出几个互不相关的主成分它们是原始变量的线性组合。其中第一主成分综合原始变量的信息最多(一般在70以上),我们就用第一主成分(即单个综合指标)替代原来的12个变量;然后计算第一主成分的得分并进行排序。,27,教育学-主成分分析在学生学习成绩排序中的应用,最简单最直观地综合变量就是12门课的成绩总和。但这个最简单的综合变量并不是最科学地代表12门课综合成绩的指标,而用主成分分析得出的第一主成分(原始变量的线性组合)Z1是最科学地代表12门课综合成绩的指标。比如,Z1是12个变量的线性组合,且系数
17、都是正数,数值有大有小。显然数值大的变量对综合指标(主成分)的贡献大;数值小的变量对综合指标(主成分)的贡献小。,28,教育学-主成分分析在学生学习成绩排序中的应用,12个原始变量(课程)提供的信息各为多少?用什么量来表达?最经典的方法是用变量的方差Var(Xi)为多少来表达。如果某课程全班学生的成绩都差不多,比如都是80分左右,则这门课程在学生成绩的排序中不起什么作用。这反映在原始变量的线性组合Z1(第一主成分)上该变量对应的系数会很小(如0.1025).如果另一门课程全班学生的成绩相差很大,有的100分,有的只有30多分,则这门课程在学生成绩的排序中起的作用很大。这反映在原始变量的线性组合
18、Z1(第一主成分)上该变量对应的系数会很大(比如0.4525).,29,教育学-主成分分析在学生学习成绩排序中的应用,接着把每个学生12门课程的成绩代入第一主成分Z1中,计算出每个学生第一主成分Z1的得分值,然后按从大到小的次序对全班学生的第一主成分Z1的得分值进行排序。这个次序作为全班学生在大学本科4年中综合学习成绩的顺序是更合理更科学的。推荐研究生时可以根据这个次序来依次推荐;评选综合学习奖时也可以根据这个次序来评选;评选三好生时这个次序也是很有力的依据。,30,教育学-主成分分析在学生学习成绩排序中的应用,(2)全班学生加权综合成绩的排序 因12门课程(变量)所得的学分不同,学分的多少反
19、映该课程的重要性,在(1)中进行排序时没有考虑课程的重要性。由学分的多少对变量的重要程度分别赋于不同的权数.学分多权数大些,学分少权数小些。即设Xj为第 j个变量(课程)的40名学生的成绩(观测向量),令,31,教育学-主成分分析在学生学习成绩排序中的应用,其中Xj表示第j门课程的40名学生的加权成绩(观测向量),可取,其中N表示12门课程的总学分数(如N50),nj表示第j门课程的学分数(如n1 6).某课程若所得的学分多(即该课程重要),因乘上的权数大,则该门课程的加权成绩变大.由此得出的新综合指标(第一主成分)Z1*在该变量上的系数也会加大,该变量对第一主成分Z1*的得分贡献加大.,32
20、,教育学-主成分分析在学生学习成绩排序中的应用,把12门课程的成绩代入第一主成分Z1*中,计算出每个学生第一主成分Z1*的得分值,然后按从大到小的次序对全班学生的第一主成分Z1*的得分值进行排序。这个次序可作为全班学生在大学本科4年中加权综合学习成绩的顺序。加权综合学习成绩的顺序与(1)中没有加权的综合学习成绩的顺序可能会稍有些差别.加权综合学习成绩的顺序也许比没加权得出的顺序还更合理更科学的。,33,教育学-主成分分析在学生学习成绩排序中的应用,同样地,推荐研究生时可以根据这个更科学的次序来依次推荐;评选综合学习奖时也可以根据这个更科学的次序来评选;评选三好生时这个更科学的次序也是很有力的依
21、据。,34,第一章 绪 论 1.2 多元统计分析的应用领域,2.医学 3.气象学(请参阅教材应用多元统计分析P5),35,第一章 绪 论 1.2 多元统计分析的应用领域-医学,2.医学 随机抽取300名患有抑郁症的病人,按照测量到的指标,可以将他们分为几种类型-聚类问题.医生对病人的诊断是靠对病人观测若干症状来综合评定。如一个人发高烧,医生根据他的体温高低、白血球数目及其它症状来判断他是得感冒、肺炎还是其它。再如某人发现腹部有肿瘤,医生根据肿瘤的大小、生长的速度、边界是否清楚,质硬或软等症状来判断肿瘤是良性或恶性-判别问题.,36,第一章 绪 论 1.2 多元统计分析的应用领域-医学,为了判断
22、更为准确可靠,事先应有一批经专家确诊或手术后经病理化验确诊的病例资料,根据这批资料利用多元统计方法建立诊断的准则(即专家系统)。对来就诊的病人,按专家系统的要求,观测若干项指标后,根据诊断准则,即可作出诊断。,37,第一章 绪 论 1.2 多元统计分析的应用领域-气象学,3.气象学 全国各地建立了很多气象站,在不同时间各气象站都记录了降雨量、气温、气压、湿度、风速、风向等气象指标资料。对这些资料作统计分析,可以得出:(1)指标间的关系,如降雨与前一天的气温、气压、湿度等的关系,利用该关系可对降雨的可能性作预报。(2)不同地点、气象指标的关系。如某地有气象台站,长期记录各气象指标的资料。今计划在
23、台站附近建一大型化工厂;厂区气象条件是我们关心的,重建台站又不可能。采用的办法是先在厂区临时建个观测站,与台站同时测定气象指标。然后利用这些资料用多元统计分析方法建立二地气象指标的关系。以达到今后可由气象台站的气象资料来预报厂区的气象情况。,38,第一章 绪 论 1.2 多元统计分析的应用领域-环境科学,4.环境科学(1)大气环境污染的评估及与职工健康的关系,湖南岳阳化工总厂建厂前没有进行环境评估(因建在文化大革命期间).工厂投产几年后,发现污染严重,如很多职工有明显肝大的症状,到底“肝大”是大气污染造成的,还是其它(如水污染)?故决定进行环境评估。具体工作有:定时定点测量大气中多种污染气体的
24、浓度,同时测量气象条件;,39,环境科学大气环境污染的评估及与职工健康的关系,现场试验,如施放大量的海军烟雾弹作为示踪物,了解其扩散情况,记录其轨迹。调查并统计了大量的职工体检资料;风洞模拟试验。现场观测试验共用了二个多月的时间,调用了很多的人力和物力,收集了大量的资料。我们(多元分析组)参加其中的数据处理工作,使用了多元统计分析的多种方法进行数据分析处理。以下是其中的部分工作:,40,环境科学大气环境污染的评估及与职工健康的关系,(一)大气污染的地区分类 为了了解某大型化工厂对环境的污染程度,在厂区及邻近地区有代表性的选25个监测点(如厂区,生活区,医院,学校),每天定时(2点,8点,14点
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 北大 第一章

链接地址:https://www.31ppt.com/p-5961644.html