概率论与数理统计第四章.ppt
概率论与数理统计,计算机科学学院 裘国永,第四章 随机变量的数字特征,数学期望方差协方差及相关系数矩、协方差矩阵,随机变量及其分布能够完整地描述随机变量的统计规律。但在一些实际问题中,这样的全面描述有时并不方便。比如要比较两个品种的母鸡的年产蛋量,通常只需比较它们的年产蛋量的平均值就可以。这时若不比较平均值,而只看它们的分布律,虽然全面却使人难以掌握又不能迅速地作出判断。再比如比较不同班级的学习成绩,比较不同地区的粮食收成。,因此,在对随机变量的研究中,确定某些数字特征是重要的。其中最常用的数字特征是,期望和方差,4.1 数学期望,概念的引入:,某车间对工人的生产情况进行考察。车工小张每天生产的废品数X是一个随机变量。如何定义X的平均值呢?,我们来看这个问题。,若统计100天,例4.1 某车间对工人的生产情况进行考察。车工小张每天生产的废品数X是一个随机变量。如何定义X的平均值呢?,32天没有出废品;30天每天出一件废品;17天每天出两件废品;21天每天出三件废品;,可以得到这100天中 每天的平均废品数为,这个数能否作为X的平均值呢?,可以想象,若另外统计100天,车工小张不出废品,出一件、二件、三件废品的天数与前面的100天一般不会完全相同,这另外100天每天的平均废品数也不一定是1.27。,n0天没有出废品;n1天每天出一件废品;n2天每天出两件废品;n3天每天出三件废品。,可以得到n天中每天的平均废品数为,(假定小张每天至多出三件废品),一般来说,若统计n天,这是以频率为权的加权平均,由频率和概率的关系,不难想到,在求废品数X的平均值时,用概率代替频率,得平均值为,这是以概率为权的加权平均,这样得到一个确定的数。我们就用这个数作为随机变量X的平均值。,定义 1 若XPX=xk=pk,k=1,2,且,绝对收敛,则称,为随机变量X的数学期望(Expectation)。,例4.2 掷一颗均匀的骰子,以X表示掷得的点数,求X的数学期望。,一、定义,例 4.3,此例说明了数学期望更完整地刻化了X 的均值状态。,设离散型随机变量 X 的分布律为:,设离散型随机变量X的分布律为:,则,则,例 4.4,按规定,火车站每天8:009:00,9:0010:00都恰有一辆客车到站,但到站的时刻是随机的,且两者到站的时间相互独立,其规律为:,(1)旅客8:00到站,求他候车时间的数学期望。,(2)旅客8:20到站,求他候车时间的数学期望。,解:,X 10 30 50,P 1/6 3/6 2/6,(1)旅客8:00到达,(2)旅客8:20到达,X 的分布率为,X 的分布率为,X 10 30 50 70 90,P 3/6 2/6(1/6)(1/6)(1/6)(3/6)(1/6)(2/6),设旅客的候车时间为X(以分记),定义 2 若Xf(x),-x,为X的数学期望。,则称,数学期望简称期望,又称为均值,是描述随机变量X取值的平均大小的一个量。E(X)完全由随机变量X的概率分布所确定。,二、几个重要随机变量的期望,1.0-1分布的数学期望,E(X)=p,2.二项分布b(n,p),3.泊松分布,4.均匀分布XU(a,b),5.指数分布,6.正态分布N(,2),例4.5 设随机变量X的分布律为,解:,求随机变量Y=X2的数学期望。,X,Pk,-1 0 1,Y,Pk,1 0,三、随机变量函数的期望,定理1 若 XPX=xk=pk,k=1,2,,若g(xk)pk绝对收敛,则Y=g(X)的期望E(g(X)为,推论 若(X,Y)PX=xi,Y=yj=pij,i,j=1,2,则Z=g(X,Y)的期望,例4.6 设随机变量(X,Y)的分布律如下,求E(XY)。,解:,解:y=ax+b关于x严单,反函数为,则Y的概率密度为,例4.7 设XN(0,1),求Y=aX+b的数学期望(其中a0)。,定理2 若Xf(x),-x,若,推论 若(X,Y)f(x,y),且,绝对收敛,则Y=g(X)的期望,绝对收敛,则 Z=g(X,Y)的期望,例4.8 设XN(0,1),求 E(X2),E(X3),E(X4)。,解:,则,1.E(c)=c,c为常数;2.E(cX)=cE(X),c为常数;,四、数学期望的性质,证明:设Xf(x),则,3.E(X+Y)=E(X)+E(Y);,证明:设(X,Y)f(x,y),4.若X与Y独立,则E(XY)=E(X)E(Y)。,证明:设(X,Y)f(x,y),例4.9 设某种疾病的发病率为1%,在1000个人中普查这种疾病,为此要化验每个人的血。方法:每100个人一组,把从100个人抽来的血混在一起化验,如果混合血样呈阴性,则通过;如果混合血样呈阳性,则再分别化验该组每个人的血样。求平均化验次数。,解:设Xj为第j组的化验次数,,Xj,Pj,1 101,X为1000人的化验次数,则,例4.10 若Xb(n,p),求E(X)。,解:设,第i次试验事件A发生,第i次试验事件A不发生,则,例4.11 设随机变量XN(0,1),YU(0,1),Zb(5,0.5),且X,Y,Z 独立,求随机变量U=(2X+3Y)(4Z-1)的数学期望。,例4.12 设随机变量,相互独立,且均服从,分布,求随机变量,的数学期望。,答:,答:,作业P113:2、5、8、11、14,4.3 方差,上一讲我们介绍了随机变量的数学期望,它体现了随机变量取值的平均水平,是随机变量的一个重要的数字特征。但是在一些场合,仅仅知道平均值是不够的。,例如,某零件的真实长度为a,现用甲、乙两台仪器各测量10次,将测量结果X用坐标上的点表示如图:,若让你就上述结果评价一下两台仪器的优劣,你认为哪台仪器好一些呢?,测量结果的均值都是 a,因为乙仪器的测量结果集中在均值附近,又如,甲、乙两门炮同时向一目标射击10发炮弹,其落点距目标的位置如图:,你认为哪门炮射击效果好一些呢?,甲炮射击结果,乙炮射击结果,乙较好,因为乙炮的弹着点较集中在中心附近。,在实际问题中常关心随机变量与均值的偏离程度,为此需要引进另一个数字特征,这个数字特征就,是我们这一讲要介绍的,方差(Variance),可用E|X-E(X)|,但不方便;所以通常用,来度量随机变量X与其均值E(X)的偏离程度。,若X的取值比较分散,则D(X)较大。,若X的取值比较集中,则D(X)较小;,定义 若EX-E(X)2 存在,则称 EX-E(X)2 为随机变量 X的方差,记为D(X)或Var(X)。,称 为随机变量X的标准差(Standard deviation)。,方差是刻画随机变量取值离散程度的一个量。,注:,一、基本定义和计算,2.计算,证明:D(X)=EX-E(X)2,(2)D(X)=E(X2)-E(X)2.,(1),X为离散型,PX=xk=pk,X为连续型,Xf(x),由此式还可得:,E(X2)=D(X)+E(X)2。,例4.13 设随机变量X的概率密度为,1)求D(X),2)求,3.方差的性质(1)D(c)=0.,(2)D(cX)=c2D(X),c为常数;,(2)证明:,D(X+c)=D(X),c为常数。,D(X+c)=EX+c-E(X+c)2,D(cX)=EcX-E(cX)2,=c2EX-E(X)2,=EX-E(X)2=D(X),若 X,Y 独立,则 D(XY)=D(X)+D(Y).,证明:,X与Y独立,(3)D(XY)=D(X)+D(Y)2E(XY)-E(X)E(Y);,推广:,(4)D(X)=0 的充要条件是 X以概率1取常数E(X),即PX=E(X)=1。,独立,则,设,第i次试验事件A发生,第i次试验事件A不发生,则,二、几个重要随机变量的方差,1.X b(n,p):,且X1,X2,Xn相互独立。,所以,因为,2.泊松分布,所以,3.均匀分布U(a,b),因为,所以,4.指数分布,则,5.正态分布N(,2),首先标准正态变量,的期望和方差为,则,思考:已知随机变量X1,X2,Xn相互独立,且每个Xi的期望都是0,方差都是1,令Y=X1+X2+Xn,求E(Y2)。,说明1:服从正态分布N(,2)的随机变量X,它的两个参数 和 分别是 X 的数学期望和均方差。因而正态分布完全可由它的数学期望和方差所确定。,说明2:已知XiN(i,i2),且它们相互独立,则 C1X1+C2X2+CnXn N(C11+C22+Cnn,C1212+C2222+Cn2n2),(C1,C2,Cn不全为零)。,例4.14 设,解:,且相互独立,则:,三、切比雪夫不等式,若随机变量X具有数学期望 E(X)=m,方差D(X)=s2,则对任意0,有,这就是著名的切比雪夫(Chebyshev)不等式。它有以下等价的形式:,注:,1.由不等式可以看出,若D(X)越小,X 取值集中在期望值附近的可能性越大。,2.可以利用此不等式在分布未知的情况下估计X落在,内的概率。,已知某种股票每股价格X的平均值为1元,标准差为0.1元,求a,使股价超过1+a元或低于1-a元的概率小于10%。,解:由切比雪夫不等式,令,作业P116:21、22、36,若X和Y相互独立,则 EX-E(X)Y-E(Y)=0。若此式不等于0,则X与Y不独立,而是存在着某种关系。,4.3 协方差及相关系数一、协方差定义与性质,1.协方差定义 若随机变量 X的期望E(X)和Y的期望E(Y)存在,则称Cov(X,Y)=EXE(X)YE(Y)为X与Y的协方差(Covariance)。,X与Y的协方差是描述X与Y之间相互关系的数字特征。,证明:由协方差的定义及期望的性质,可得,Cov(X,Y)=E X-E(X)Y-E(Y),=E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y),=E(XY)-E(X)E(Y),Cov(X,Y)=E(XY)-E(X)E(Y),2.计算协方差的一个简单公式,3.协方差性质(1)Cov(X,Y)=Cov(Y,X);(2)Cov(X,X)=D(X),Cov(X,c)=0;(3)Cov(aX,bY)=abCov(X,Y),其中a,b为 常数;(4)Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z);(5)若X,Y相互独立,则Cov(X,Y)=0;(6)D(XY)=D(X)+D(Y)2Cov(X,Y)。,协方差的大小在一定程度上反映了X 和Y相互间的关系,但它还受 X与Y 本身度量单位的影响。,为了克服这一缺点,对协方差进行标准化,这就引入了相关系数。,二、相关系数,1.定义 若随机变量 X,Y的方差和协方差均存在,且D(X)0,D(Y)0,则,称为X与Y的相关系数(Correlation Coefficient)。,注:XY 是一个无量纲的量。,当XY=0时,称X与Y不相关(Uncorrelated)。,2.相关系数的性质(1)|XY|1;(2)|XY|=1 存在常数a,b 使PY=a+bX=1。,证明:考虑以a+bX来近似Y,以均方误差 e=EY-(a+bX)2=E(Y2)+b2E(X2)+a2-2bE(XY)+2abE(X)-2aE(Y)。来衡量a+bX近似Y的好坏。e 越小则a+bX与Y近似程度越好。为此求a,b使e达到最小值,那么,(1)由 EY-(a0+b0X)2 及D(Y)的非负性,得知,亦即|XY|1。,(2)由上面知,若|XY|=1,此时,从而,所以,由方差的性质可知,反之,若存在 使,,这时,故,则,故,即|XY|=1。,说 明,X与Y之间没有线性关系并不表示它们之间没有关系。,相关系数 是表征X,Y 线性关系紧密程度的一个量。,例4.15 设(X,Y)服从区域D:0 x1,0yx上的均匀分布,求X与Y的相关系数。,解:,以上结果说明了什么?,解:1),2),例4.16,则,则,例4.17 设(X,Y)N(1,2,1 2,2 2,),则XY=。可见,若(X,Y)服从二维正态分布,则X与Y独立的充分必要条件是X与Y不相关。,证明:,例4.18 设(X,Y)服从单位圆域 x2+y21上的均匀分布,证明:XY=0。,同理得E(Y)=0,Cov(X,Y)=E(XY)-E(X)E(Y)=0,可易得 D(X)0,D(Y)0。,XY=0,故 X与Y不相关。,但可计算,X和Y不相互独立。,小结:,1)协方差的定义和性质;2)相关系数的定义性质;3)不相关的定义及等价条件;4)独立性与不相关性的关系;5)二维正态分布的不相关性与独立性等价。,1.k 阶原点矩 E(Xk),k=1,2,2.k 阶中心矩 EX-E(X)k,k=2,3,3.k+l 阶混合(原点)矩 E(Xk Yl),k,l=1,2,4.k+l 阶混合中心矩 EXE(X)kYE(Y)l,k,l=1,2,一、矩,4.4 矩、协方差矩阵,所以 E(X)是一阶原点矩(Moment),D(X)是二阶中心矩(Central moment),协方差Cov(X,Y)是二阶混合中心矩(Mixed central moment)。,二、协方差矩阵,将二维随机变量(X1,X2)的四个二阶中心矩,排成矩阵的形式:,称此矩阵为(X1,X2)的协方差矩阵。,1.定义 设X1,Xn 为n个随机变量,记 cij=Cov(Xi,Xj),i,j=1,2,n。则称由cij 组成的矩阵为随机变量 X1,,Xn的协方差矩阵C。即,由于cij=cji(ij,i,j=1,2,n),故上述矩阵是对称矩阵。,三、n维正态分布的概率密度,1.二维情形,令,则,(X1,X2)的协方差矩阵,2.n维情形,令,则n维正态随机变量(X1,X2,Xn)的概率密度定义为,其中C为X1,X2,Xn的协方差矩阵。,3.n维正态随机变量X1,X2,Xn的性质,1)(X1,X2,Xn)的每一个分量Xi,i=1,2,n 也是正态变量。反之若Xi,i=1,2,n是正态变量且相互独立,则(X1,X2,Xn)是n维正态变量。,2)(X1,X2,Xn)服从n 维正态分布的充要条件是X1,X2,Xn的任意线性组合k1X1+k2X2+knXn(k1,k2,kn不全为零)服从一维正态分布。,3)若(X1,X2,Xn)服从n 维正态分布,设Y1,Y2,Yk是Xj,j=1,2,n的线性函数,则(Y1,Y2,Yk)也服从多维正态分布。,4)设(X1,X2,Xn)服从n 维正态分布,则X1,X2,Xn相互独立与X1,X2,Xn两两不相关等价。,六种常用随机变量的期望与方差,小结,