多元统计.ppt
课程提纲(Syllabus),教师 张青 公共邮箱:bjfu_stat,密码:123456 办公地点:理学院楼二层东侧203 ftp:/202.204.125.135 user:math;pass:math 成绩评定 平时:40%课外文献阅读 考试:60%教学安排 多元正态分布;聚类分析;判别分析;主成分分析;因子分析;典型相关;回归分析;假设检验,中文参考书 1 多元统计分析 何晓群 编 人民大学大出版社 2008 2 应用多元统计分析 高惠璇 编 北京大学出版社 2005 3 多元统计分析选讲 张饶庭 著 中国统计出版社 2002 4 多元统计分析(研究生)袁志发 科学出版社外文参考书 1 Applied Multivariate Statistical Analysis(5th Ed)2003 Richard A.Johnson Dean W.Wichern China Statistics Press(国外MBA优秀教材)2 Analyzing Multivariate Data 2003 Lattin Carroll Green China Machine Press(斯坦福大学,罗格斯大学,宾夕法尼亚)3 Applied Multivariate Methods for Data Analysts 2005 Dallase E.Johnson Higher Education Press(海外优秀数学类教材)参考文献 本专业研究生博士生论文,相关专业的文献,生命科学社会科学,统计分析方法,现象多样性重复性复杂性随机性,多元统计分析方法,多元回归分析方法多元判别分析方法聚类分析方法,目的从看起来杂乱无章的数据中发现提炼规律性的结论,必备的知识良好的专业训练必要的统计分析工具,Statistics is much too important to be left entirely to statisticians-George Box,传统方法与多变量分析方法区别:,Traditional statistical methods:State some hypothese Collect some data Substantiate or repudiate the hypothesesMultivariate techniques:Exploring data in order to find worthwhile and valuable informationMultivariate methods:“variable-directed”techniques“individual-directed”techniques,An Overview of multivariate methods“variable-directed”“individual-directed”,Principal components 主成分分析Factor analysis 因子分析Regression analysis 回归分析Canonical correlation analysis 典型相关分析,Cluster analysis 聚类分析Discriminant analysis 判别分析Multivariate analysis of variance 方差分析,2023/6/8,6,第一章 多元正态分布,目录 上页 下页 返回 结束,1.1 多元分布的基本概念,1.2 统计距离和马氏距离,1.3 多元正态分布,1.4 均值向量和协方差阵的估计,1.5 常用分布及抽样分布,2023/6/8,7,第一章 多元正态分布,一元正态分布在统计学的理论和实际应用中都有着重要的地位。同样,在多变量统计学中,多元正态分布也占有相当重要的位置。原因是:许多随机向量确实遵从正态分布,或近似遵从正态分布;对于多元正态分布,已有一整套统计推断方法,并且得到了许多完整的结果。,目录 上页 下页 返回 结束,2023/6/8,8,1.1多元分布的基本概念,目录 上页 下页 返回 结束,1.1.1 随机向量,1.1.2 分布函数与密度函数,(1.1.3 多元变量的独立性),1.1.4 随机向量的数字特征,2023/6/8,9,1.1.1 随机向量,表示对同一个体观测的 个变量。若观测了 个个体,则可得到如下表1-1的数据,称每一个个体的 个变量为一个样品,而全体 个样品形成一个样本。,假定所讨论的是多个变量的总体,所研究的数据是同时观测 个指标(即变量),又进行了 次观测得到的,把这 个指标表示为 常用向量,目录 上页 下页 返回 结束,2023/6/8,10,横看表1-1,记,它表示第 个样品的观测值。竖看表1-1,第 列的元素 表示对 第个变量 的n次观测数值。下面为表1-1,目录 上页 下页 返回 结束,1.1.1 随机向量,2023/6/8,11,因此,样本资料矩阵可用矩阵语言表示为:,目录 上页 下页 返回 结束,1.1.1 随机向量,若无特别说明,本书所称向量均指列向量,定义1.1 设 为 n 个随机变量,由它们组成的向量 称为随机向量。,2023/6/8,12,定义1.2 设 X 是一随机向量,它的多元分布函数是,1.1.2 分布函数与密度函数,描述随机变量的最基本工具是分布函数,类似地描述随机向量的最基本工具还是分布函数。,目录 上页 下页 返回 结束,2023/6/8,17,1.1.2 分布函数与密度函数,目录 上页 下页 返回 结束,定义1.3:设=,若存在一个非负的函数,使得,对一切 成立,则称(或)有分布密度 并称 为连续型随机向量。,一个 p 维变量的函数 能作为p维空间 中某个随机向量的分布密度,当且仅当,2023/6/8,19,1.1.3 多元变量的独立性,目录 上页 下页 返回 结束,注意:在上述定义中,和 的维数一般是不同的。,若 有密度,用 分别表示 和 的分布密度,则 和 独立当且仅当(1.5),2023/6/8,20,1.1.4 随机向量的数字特征,目录 上页 下页 返回 结束,当 为常数矩阵时,由定义可立即推出如下性质:,1、随机向量 X 的均值 设 有p 个分量。若 存在,定义随机向量X的均值为,Then,2023/6/8,22,1.1.4 随机向量的数字特征,目录 上页 下页 返回 结束,2、随机向量 自协方差阵,称它为 维随机向量 的协方差阵,简称为 的协方差阵。称 为 的广义方差,它是协差阵的行列式之值。,2023/6/8,23,目录 上页 下页 返回 结束,1.1.4 随机向量的数字特征,3、随机向量X 和Y 的协差阵,设 分别为 维和 维随机向量,它们之间的协方差阵定义为一个 矩阵,其元素是,即,当A、B为常数矩阵时,由定义可推出协差阵有如下性质:,2023/6/8,25,目录 上页 下页 返回 结束,1.1.4 随机向量的数字特征,4、随机向量X 的相关阵 若随机向量 的协差阵存在,且每个分量的方差大于零,则X的相关阵定义为:,也称为分量 与 之间的(线性)相关系数。,2023/6/8,26,在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用某种统计分析方法之前,常需将每个指标“标准化”,即做如下变换,目录 上页 下页 返回 结束,1.1.4 随机向量的数字特征,2023/6/8,28,1.2 统计距离和马氏距离,目录 上页 下页 返回 结束,欧氏距离,马氏距离,2023/6/8,29,1.2 统计距离和马氏距离,欧氏距离,在多指标统计分析中,距离的概念十分重要,样品间的不少特征都可用距离去描述。大部分多元方法是建立在简单的距离概念基础上的。即平时人们熟悉的欧氏距离,或称直线距离.如几何平面上的点p=(x1,x2)到原点O=(0,0)的欧氏距离,依勾股定理有,目录 上页 下页 返回 结束,2023/6/8,30,1.2 统计距离和马氏距离,但就大部分统计问题而言,欧氏距离是不能令人满意的。这里因为,每个坐标对欧氏距离的贡献是同等的。当坐标轴表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的办法是对坐标加权,使得变化较大的坐标比变化小的坐标有较小的权系数,这就产生了各种距离。欧氏距离还有一个缺点,这就是当各个分量为不同性质的量时,“距离”的大小竟然与指标的单位有关。,目录 上页 下页 返回 结束,D2(AB)=0.52(m)D(AB)=50(cm),D2(AC)=100(cm)D(AC)=10(cm),2023/6/8,32,1.2 统计距离和马氏距离,目录 上页 下页 返回 结束,因此,有必要建立一种距离,这种距离要能够体现各个变量在变差大小上的不同,以及有时存在着的相关性,还要求距离与各变量所用的单位无关。看来我们选择的距离要依赖于样本方差和协方差。因此,采用“统计距离”这个术语,以区别通常习惯用的欧氏距离。最常用的一种统计距离是印度统计学家马哈拉诺比斯(Mahalanobis)于1936年引入的距离,称为“马氏距离”。,2023/6/8,33,1.2 统计距离和马氏距离,目录 上页 下页 返回 结束,下面先用一个一维的例子说明欧氏距离与马氏距离在概率上的差异。,设有两个一维正态总体。若有一个样品,其值在A处,A点距离哪个总体近些呢?由图1-2,图1-2,2023/6/8,34,1.2 统计距离和马氏距离,马氏距离,设X、Y从均值向量为,协方差阵为的总体G中抽取的两个样品,定义X、Y两点之间的马氏距离为,目录 上页 下页 返回 结束,度量任意一点到原点的距离,任意两点的统计距离,2023/6/8,36,1.2 统计距离和马氏距离,设 表示一个点集,表示距离,它 是到 的函数,可以证明,马氏距离符合如下距离的四条基本公理:,(2)当且仅当;,(3),(4),目录 上页 下页 返回 结束,2023/6/8,37,1.3 多元正态分布,多元正态分布是一元正态分布的推广。迄今为止,多元分析的主要理论都是建立在多元正态总体基础上的,多元正态分布是多元分析的基础。另一方面,许多实际问题的分布常是多元正态分布或近似正态分布,或虽本身不是正态分布,但它的样本均值近似于多元正态分布。本节将介绍多元正态分布的定义,并简要给出它的基本性质。,目录 上页 下页 返回 结束,2023/6/8,38,1.3 多元正态分布,目录 上页 下页 返回 结束,2023/6/8,39,1.3.1 多元正态分布的定义,目录 上页 下页 返回 结束,定义1.5:若 元随机向量 的概率密度函数为:,2023/6/8,40,定理1.1将正态分布的参数和赋于了明确的统计意义。,多元正态分布不止定义1.5一种形式,更广泛地可采用特征函数来定义,也可用一切线性组合均为正态的性质来定义等,有关这些定义的方式参见文献3。,目录 上页 下页 返回 结束,1.3.1 多元正态分布的定义,定理1.1:设 则,2023/6/8,41,1.3.2 多元正态分布的性质,目录 上页 下页 返回 结束,1、如果正态随机向量 的协方差阵是对角阵,则X的各分量是相互独立的随机变量。,容易验证,但 显然不是正态分布。,2、多元正态分布随机向量X的任何一个分量子集的分布(称为X的边缘分布)仍然遵从正态分布。而反之,若一个随机向量的任何边缘分布均为正态,并不能导出它是多元正态分布。例如,设 有分布密度,2 多元正态分布的定义及基本性质,2 多元正态分布的定义及基本性质,练习:设3维随机向量,试求 的分布,练习:设3维随机向量,试求 的分布,2023/6/8,45,1.4均值向量和协方差阵的估计,上节已经给出了多元正态分布的定义和有关的性质,在实际问题中,通常可以假定被研究的对象是多元正态分布,但分布中的参数和是未知的,一般的做法是通过样本来估计。,目录 上页 下页 返回 结束,2023/6/8,46,1.4 均值向量和协方差阵的估计,均值向量的估计,在一般情况下,如果样本资料阵为:,目录 上页 下页 返回 结束,2023/6/8,47,1.4均值向量和协方差阵的估计,即均值向量的估计量,就是样本均值向量.这可由极大似然法推导出来。推导过程参见文献3。,目录 上页 下页 返回 结束,设样品 相互独立,同遵从于P元正态分布,而且,0,则总体参数均值的估计量是,2023/6/8,48,1.4均值向量和协方差阵的估计,协方差阵的估计,总体参数协差阵的极大似然估计是,目录 上页 下页 返回 结束,2023/6/8,49,1.4均值向量和协方差阵的估计,目录 上页 下页 返回 结束,2023/6/8,50,1.5常用分布及抽样分布,多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量,如前面介绍的样本均值向量、样本离差阵 等都是统计量.统计量的分布称为抽样分布.,在数理统计中常用的抽样分布有 分布、分布和 分布.在多元统计中,与之对应的分布非别为Wishart分布、分布和Wilks分布.,目录 上页 下页 返回 结束,2023/6/8,51,1.5常用分布及抽样分布,1.5.2 分布与 分布,1.5.1 分布与Wishart分布,1.5.3 中心分布与Wilks分布,目录 上页 下页 返回 结束,2023/6/8,52,分布有两个重要的性质:,1.5.1 分布与Wishart分布,在数理统计中,若(),且相互独立,则 所服从的分布为自由度为 的 分布(chi squared distribution),记为.,目录 上页 下页 返回 结束,2023/6/8,53,2.设(),且相互独立,为 个 阶对称阵,且(阶单位阵),记,则 为相互独立的 分布的充要条件为.此时,.,这个性质称为Cochran定理,在方差分析和回归分析中起着重要作用.,目录 上页 下页 返回 结束,1.5.1 分布与Wishart分布,2023/6/8,54,所服从的分布称为自由度为 的 维非中心Wishart分布,记为,目录 上页 下页 返回 结束,1.5.1 分布与Wishart分布,2023/6/8,55,由Wishart分布的定义知,当 时,退化为,此时中心Wishart分布就退化为,由此可以看出,Wishart分布实际上是 分布在多维正态情形下的推广.,下面不加证明的给出Wishart分布的5条重要性质:,相互独立.,和,(1),(2),目录 上页 下页 返回 结束,1.5.1 分布与Wishart分布,2023/6/8,56,目录 上页 下页 返回 结束,1.5.1 分布与Wishart分布,2.若,且相互独立,则,2023/6/8,57,特别的,设 和 分别为 和 的第 个对角元,则:,5.若,为任一 元非零常向量,比值,目录 上页 下页 返回 结束,1.5.1 分布与Wishart分布,2023/6/8,58,1.5.2 分布与 分布,在数理统计中,若,且 与 相互独立,则称 服从自由度为 的 分布,又称为学生分布(student distribution),记为.如果将 平方,即,则,即 分布的平方服从第一自由度为1第二自由度为 的中心分布.,目录 上页 下页 返回 结束,2023/6/8,59,所服从的分布称为第一自由度为 第二自由度为 的中心 分布,记为,目录 上页 下页 返回 结束,1.5.2 分布与 分布,2023/6/8,60,1.5.3 中心分布与Wilks分布,在数理统计中,若,且与相互独立,则称 所服从的分布为第一自由度为 第二自由度为 的中心 分布.记为.分布本质上是从正态总体 随机抽取的两个样本方差的比.,目录 上页 下页 返回 结束,2023/6/8,61,所服从的分布称为维数为,第一自由度为 第二自由度为 的Wilks 分布,记为,(1.34),定义1.9 设,且 与 相互独立,则称随机变量,目录 上页 下页 返回 结束,1.5.3 中心分布与Wilks分布,2023/6/8,62,目录 上页 下页 返回 结束,1.5.3 中心分布与Wilks分布,由于分布在多元统计中的重要性,关于它的近似分布和精确分布不断有学者进行研究,当和中的一个比较小时,分布可化为F分布,表1-2列举了常见的情况.,表1-2,2023/6/8,63,目录 上页 下页 返回 结束,1.5.3 中心分布与Wilks分布,当 不属于表1-2情况时,Bartlett指出用 分布来近似表示,即 近似服从.,Rao 后来又研究用F分布来近似,即,2023/6/8,64,目录 上页 下页 返回 结束,1.5.3 中心分布与Wilks分布,近似服从,其中,不一定是整数,用与它最近的整数来作为F分布的第二自由度.,2023/6/8,65,目录 上页 下页 返回 结束,1.5.3 中心分布与Wilks分布,若,有.该结论说明,在使用统计量时也可考虑 的情形,有关统计量的其他性质参见文献1.,