《多元统计分析知识点多元统计分析课件.doc》由会员分享,可在线阅读,更多相关《多元统计分析知识点多元统计分析课件.doc(70页珍藏版)》请在三一办公上搜索。
1、多 元 统 计 分 析(1)题 目: 多元统计分析知识点研 究 生 专 业 指导教师 完成日期 2013年 12月 目录第一章绪论11.1什么是多元统计分析11.2多元统计分析能解决哪些实际问题21.3主要内容安排2第二章多元正态分布22.1基本概念22.2多元正态分布的定义及基本性质81.(多元正态分布)定义92.多元正态变量的基本性质102.3多元正态分布的参数估计111.多元样本的概念及表示法122. 多元样本的数值特征123.和 的最大似然估计及基本性质154.Wishart分布17第五章 聚类分析185.1什么是聚类分析185.2距离和相似系数191Q型聚类分析常用的距离和相似系数2
2、02.R型聚类分析常用的距离和相似系数255.3八种系统聚类方法261.最短距离法272.最长距离法303.中间距离法324.重心法355.类平均法376.可变类平均法387.可变法388.离差平方和法(Word方法)38第六章判别分析396.1什么是判别分析396.2距离判别法401、两个总体的距离判别法402.多总体的距离判别法456.3费歇(Fisher)判别法461.不等协方差矩阵两总体Fisher判别法462.多总体费歇(Fisher)判别法516.4贝叶斯(Bayes)判别法581.基本思想582.多元正态总体的Bayes判别法596.5逐步判别法611.基本思想612.引入和剔除
3、变量所用的检验统计量623.Bartlett近似公式63 第一章绪论1.1什么是多元统计分析在自然科学、社会科学以及经济领域中,常常需要同时观察多个指标。例如,要衡量一个地区的经济发展,需要观测的指标有:总产值(X1)、利润(X2)、效益(X3)、劳动生产率(X4)、万元生产值能耗(X5)、固定资产(X6)、流动资金周转率(X7)、物价(X8)、信贷(X9)及税收(X10)也就是说一个地区的经济发展,受多种指标共同作用的影响,我们把每一个指标看成一个随机变量,可以单独研究每个随机变量,但这只能揭示该地区经济发展的一个方面,更多的时候需要把把这诸个随机变量一起研究揭示多个随机变量对该地区经济发展
4、的共同影响,以及揭示这些随机变量内在变化规律。例如,研究某公司的经营状况,需要观测公司的财务指标有:每股净资产(X1)、净资产收益率(X2)、每股收益(X3)、每股现金流(X4)、负债率(X5)、流动比率(X6)及速动比率(X7)。可以单独研究每个随机变量,更多的时候需要把这诸个随机变量一起研究,揭示这些随机变量内在变化规律。多元统计分析研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。多元统计分析包括的主要内容:多元(正态)总体的参数估计和假设检验、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析、多重多元回归分析等。介绍多元统计分析方法时,需要的时候增加一些
5、线性代数的知识。1.2多元统计分析能解决哪些实际问题经济学:对我国32个省市自治区的社会情况进行分析。工业:服装厂生产服装。为了适应大多数顾客的需要,如何确定服装的主要指标及分类的型号。指标:身长、袖长、胸围、腰围、肩宽、肩厚等十几个指标(主要指标:长度、胖瘦)投资组合:1.3主要内容安排多元(正态)总体的参数估计、聚类分析、判别分析、主成分分析、因子分析、典型相关分析等。上机操作。第二章多元正态分布2.1基本概念1.随机向量的概率分布定义1 将p个随机变量的整体称为p维随机向量,记为在多元统计分析中,仍然将所研究对象的全体称为总体。一元总体分布函数和分别密度定义:为随机变量X的概率分布,记为
6、。离散型: k=1,2,3,; 连续型: ; 定义2 设是p维随机向量,它的多元分别函数定义为记为,其中记为。定义3 设是p维随机向量,若存在有限个或可列个p维数向量,,记 (k=1,2,3,),且满足,则称X为离散型随机向量,称(k=1,2,3,)为的概率分布。设p维随机向量,若存在一个非负函数,使得对一切,有则称X为连续随机向量,称为分布密度函数,易见 , 例1试证函数为随机向量的密度函数。证:(1)易见(2)定义4 设是p维随机向量,称由q(0,则存在可逆矩阵T使与同时对角化。证明:B0,则存在可逆矩阵,使得 (B0,则B合同于单位矩阵I)易见是实对称矩阵,那么存在正交矩阵,使得是对角形
7、矩阵,记,则。(预备知识)矩阵的微商设为是向量,为的实函数。则关于的微商定义为, 若,则由上述定义,不难推出以下公式(1)若,则实际上,(2)若,则(3)若,为对称矩阵,则 设是第i个总体的第个样本,;。假定(所建立的)判别函数为记和分别是第i总体内的样本均值向量和样本协方差矩阵,则在上的样本均值和样本方差为, (此处)记为总的均值向量,则。1. Fisher准则就是要选取系数向量C,使得(注意:是总体第i个总体中个的代表值(j=1,2,k),所以分子乘以;分子是组间方差,分母是组内方差。)达到最大,其中是认为的正加权系数,可以取先验概率系数。若取,将,代入上式,则有,其中E组内方差阵,A总体
8、之间样本协方差矩阵。为求的最大值,根据极值存在的必要条件,令,即即满足此式的为矩阵A、E的广义特征根,非零向量C是属于的一个广义特征向量。有非零解的充要条件是,可以求得A、E矩阵个非零广义特征根且,对应的单位特征向量记为(驻点:)(2012.11.6)于是可以构造个判别函数:其判别能力指标定义为:个判别函数的判别能力定义为则认为个判别函数就够了。有了判别函数,如何对待判样本分类?Fisher判别法本身并没有给出最适合的分类方法,实际中常常用下面两类分类法。(1)当取时)不加权法若则判。 (画图说明)加权法将按大小次序排列,记为,相应的判别函数的标准差为,相应的总体记为,其中,令 (画图说明)则
9、可作为与之间的分界点,如果x使得,则判,从而判。(2)当取时)不加权法记对待判样本,计算若,则判,从而判。(此处给出的几何说明图)加权法(考虑每个判别函数的判别能力不同)记其中是由求出的广义特征根,若,则判,从而判。6.4贝叶斯(Bayes)判别法1.基本思想条件概率 全概率公式。设构成样本空间的一个划分,则贝叶斯(Bayes)公式此处为先验概率,为后验概率,为条件概率。(举例说明)设有k个总体,它们的先验概率分别为,各总体的密度函数为,观察到一个样本x,由Bayes公式计算x来自第g总体的后验概率为(分母是常数)并且当时,判x来自第h总体。2.多元正态总体的Bayes判别法(1)判别函数的导出使用Bayes判别法作判别分析,需要知道待判总体的先验概率和密度函数,若先验概率不好确定,可用样本频率代替,或者用代替,此时先验概率不起作用。P元正态分布密度函数为把代入的表达式中,因为我们只关心寻找使最大的g,而分时中的分母不论g为何值都是常数。当时,判x来自第h总体。取对数,并去掉中与g无关的项,记为当时,判x来自第h总体。(2)假设协方差矩阵相等中含有k个总体的协方差矩阵(逆矩阵及行列式),而且对于x还是二次函数,实际计算工作量大,进一步假定协方差矩阵相等,则中、与g无关,求最大值时可以
链接地址:https://www.31ppt.com/p-3008991.html