第三章多元正态分布ppt课件.ppt
第三章 多元正态分布,3.1 多元正态分布的定义3.2 多元正态分布的性质3.3 复相关系数和偏相关系数3.4 极大似然估计及估计量的性质3.5 和(n 1) S的抽样分布*3.6 二次型分布,3.1 多元正态分布的定义,一元正态分布N(,2)的概率密度函数为若随机向量 的概率密度函数为则称x服从p元正态分布,记作xNp (, ),其中,参数和分别为x的均值和协差阵。,例3.1.1(二元正态分布 ),设xN2(, ),这里易见,是x1和 x2的相关系数。当|1时,可得x的概率密度函数为,二元正态分布的密度曲面图,下图是当 时二元正态分布的钟形密度曲面图。,二元正态分布等高线,等高(椭圆)线:上述等高线上的密度值,二元正态分布的密度等高线族(使用SAS/INSIGHT,由10000个二维随机数生成),3.2 多元正态分布的性质,*(1)略。(2)设x是一个p维随机向量,则x服从多元正态分布,当且仅当它的任何线性函数 均服从一元正态分布。性质(2)常可用来证明随机向量服从多元正态分布。(3)设xN p (, ),y=Cx+b其中C为rp 常数矩阵,则该性质表明,(多元)正态变量的任何线性变换仍为(多元)正态变量。,例3.2.2 设xNp (, ),a为p维常数向量,则由上述性质(2)或(3)知,(4)设xNp (, ),则x的任何子向量也服从(多元)正态分布,其均值为的相应子向量,协方差矩阵为的相应子矩阵。该性质说明了多元正态分布的任何边缘分布仍为(多元)正态分布。需注意,随机向量的任何边缘分布皆为(多元)正态分布未必表明该随机向量就服从多元正态分布。例2.2.2就是这样的一个反例。,还需注意,正态变量的线性组合未必就是正态变量。这是因为:x1,x2, ,xn均为一元正态变量()x1,x2, ,xn的联合分布为多元正态分布x1,x2, ,xn的一切线性组合是一元正态变量例3.2.4 设xN4(, ),这里,则 (i) ; (ii) ; (iii) 。,3.2 多元正态分布的性质,(5)设x1,x2, ,xn相互独立,且xiN p (i, i) ,i=1,2,n,则对任意n个常数,有此性质表明,独立的多元正态变量(维数相同)的任意线性组合仍为多元正态变量。(6)设xN p (, ),对x, , (0)作如下的剖分:,则子向量x1和x2相互独立,当且仅当12=0。该性质指出,对于多元正态变量而言,其子向量之间互不相关和相互独立是等价的。(7)设xN p (, ), 0,则例3.2.5 设xN3(,),其中则x2和x3不独立,x1和(x2,x3)独立。*(8)略,*(9)略*(10)略(11)设xN p (, ), 0,作如下剖分则给定x2时x1的条件分布为 ,其中12和112分别是条件数学期望和条件协方差矩阵,112通常称为偏协方差矩阵。,这一性质表明,对于多元正态变量,其子向量的条件分布仍是(多元)正态的。例3.2.7 设xN3(, ),其中试求给定x1+2x3时 的条件分布。,3.3 复相关系数和偏相关系数,一、复相关系数二、偏相关系数,一、复相关系数,(简单)相关系数度量了一个随机变量x1与另一个随机变量x2之间线性关系的强弱。复相关系数度量了一个随机变量x1与一组随机变量x2, ,xp之间线性关系的强弱。将x, (0)剖分如下:,x1和x2的线性函数 间的最大相关系数称为 x1和x2间的复(或多重)相关系数(multiple correlation coefficient),记作12,p, 它度量了一个变量x1与一组变量x2, ,xp间的相关程度。可推导出例3.3.1 随机变量x1,xp的任一线性函数F=l1x1+ lp xp与x1,xp的复相关系数为1。证明,二、偏相关系数,将x, (0)剖分如下:称 为给定x2时x1的偏协方差矩阵。记 ,称 为偏协方差,它是剔除了 的(线性)影响之后,xi和xj之间的协方差。,给定x2时xi 和xj的偏相关系数(partial correlation coefficient)定义为其中 。ijk+1,p度量了剔除xk+1, ,xp的(线性)影响之后,xi和xj间相关关系的强弱。 对于多元正态变量x,由于112也是条件协方差矩阵,故此时偏相关系数与条件相关系数是同一个值,从而ijk+1,p同时也度量了在xk+1, ,xp值给定的条件下xi和xj间相关关系的强弱。,3.4 极大似然估计及估计量的性质,本课程第二章和第三章前三节的内容属概率论的范畴。从第三章3.4 开始的内容属数理统计的范畴,特点是推断和分析从样本出发。一、样本x1,x2, ,xn的联合概率密度二、 和的极大似然估计 三、相关系数的极大似然估计 四、估计量的性质,设xNp(, ) , 0,x1,x2, ,xn是从总体x中抽取的一个简单随机样本(今后简称为样本),即满足:x1,x2, ,xn独立,且与总体分布相同。令称之为(样本)数据矩阵或观测值矩阵。,一、样本x1,x2, ,xn的联合概率密度,极大似然估计是通过似然函数来求得的,似然函数可以是样本联合概率密度 f (x1,x2,xn)的任意正常数倍,我们不妨取成相等,记为L(, )。可具体表达为:,二、和的极大似然估计,一元正态情形:多元正态情形:其中 称为样本均值向量(简称为样本均值), 称为样本离差矩阵。,三、相关系数的极大似然估计,1.简单相关系数2.复相关系数3.偏相关系数,1.简单相关系数,相关系数ij的极大似然估计为其中 。称S为样本协方差矩阵、rij为样本相关系数、 为样本相关矩阵。,2.复相关系数,将x, (0),S剖分如下:则复相关系数12,p的极大似然估计为r12,p,称之为样本复相关系数。其中,3.偏相关系数,将x, (0),S剖分如下: 则偏相关系数ijk+1,p的极大似然估计为rijk+1,p ,称之为样本偏相关系数,其中,。,四、估计量的性质,1.无偏性2.有效性3.一致性4.充分性,1.无偏性,设 是未知参数 (可以是一个向量或矩阵)的一个估计量,如果 ,则称估计量 是被估参数的一个无偏估计,否则就称为有偏的。 样本均值 是总体均值的无偏估计,即有 由于 ,故 不是的无偏估计。若将该估计量稍加修正为则S将是的一个无偏估计,即有E(S)=。,3.5 和(n 1)S的抽样分布,一、 的抽样分布二、 (n 1)S的抽样分布,一、 的抽样分布,1.正态总体 设xNp (, ), 0 ,x1,x2, ,xn是从总体x中抽取的一个样本,则2.非正态总体(中心极限定理) 设x1,x2, ,xn是来自总体x的一个样本,和存在,则当n很大且n相对于p也很大时,上式近似地成立。,