【教学课件】第五章统计量及其分布.ppt
第五章 统计量及其分布,5.1 总体与样本5.2 样本数据的整理与显示5.3 统计量及其分布5.4 三大抽样分布,课程网站:http:/,5.1 总体与个体,总体的三层含义:,研究对象的全体;,数据;,分布.,例1 考察某厂的产品质量,以0记合格品,以1记不合格品,则 总体=该厂生产的全部产品=由0或1组成的一堆数若以 p 表示这堆数中1的比例(不合格品率),则该总体可由一个二点分布表示:,从本质上讲,总体就是所研究的随机变量或随机变量的分布。,抽样方式:,简单抽样、分层抽样、系统抽样、整群抽样等,一维总体、二维总体;有限总体、无限总体,样本,样品、样本、样本量:,样本具有两重性,一方面,由于样本是从总体中随机抽取的,抽 取前无法预知它们的数值,因此,样本是随机 变量,用大写字母 X1,X2,Xn 表示;,另一方面,样本在抽取以后经观测就有确定的 观测值,因此,样本又是一组数值。此时用小 写字母 x1,x2,xn 表示是恰当的。,总体、样本、样本值的关系是怎样的?,独立性:样本中每一样品的取值不影响其 它样品的取值-x1,x2,xn 相互独立。,随机性:总体中每一个个体都有同等机会 被选入样本-Xi 与总体X有相同的分布。,样本的要求:简单随机样本,如何得到简单随机样本?,实际中总体中的个体数大多是有限的。当个体数充分大时,将有限总体看作无限总体是一种合理的抽象。,对有限总体,只要总体所含个体数很大,特别是与样本量相比很大(n/N0.1)时,则进行无放回抽样也可认为得到的是简单随机样本。,分组讨论:P151例5.1.2 参数与非参数问题,表 100只元件的寿命数据,表中的样本观测值没有具体的数值,称为分组样本。什么情况下需要分组?,寿命范围 元件数 寿命范围 元件数 寿命范围 元件数(0 24 4(192 216 6(384 408 4(24 48 8(216 240 3(408 432 4(48 72 6(240 264 3(432 456 1(72 96 5(264 288 5(456 480 2(96 120 3(288 312 5(480 504 2(120 144 4(312 336 3(504 528 3(144 168 5(336 360 5(528 552 1(168 192 4(360 184 1 552 13,设总体X具有分布函数F(x),x1,x2,xn 为取自该总体的容量为n的样本,则样本联合分布函数为,样本 x1,x2,xn 可以看成是n个独立同分布(iid)的随机变量,其联合分布即为样本的分布。,样本的分布,1.若总体为连续型若总体X的密度函数为p(x),则其样本x1,x2,xn 的联合密度函数是,补充知识点,2.若总体为离散型若总体X的分布列为P(X=x)=p(x),则其样本x1,x2,xn 的联合密度函数是什么?,例2 设总体,求其样本 x1,x2,xn 的联合密度函数.,例3 设总体Xb(1,p),求样本x1,x2,x5的联合分布列.,练习 P152 第1、2题,作业 习题5.1第3、5题,5.2.1 经验分布函数,5.2 样本数据的整理与显示,设 x1,x2,xn 是取自总体分布函数为F(x)的样本,若将样本观测值由小到大进行排列,为 x(1),x(2),x(n),则称 x(1),x(2),x(n)为有序样本,用有序样本定义如下函数,则称Fn(x)为经验分布函数。,由伯努利大数定律:只要n 相当大,Fn(x)依概率收敛于F(x).,例1 设有10个观测值,分别为2.6,3,2.6,2.6,2,3,2.7,3.4,3.4,2.试由此构造经验分布函数.,定理(格里纹科定理)设x1,x2,xn是取自 总体分布函数为F(x)的样本,Fn(x)是其经验分 布函数,当n时,有,PsupFn(x)F(x)0=1,格里纹科定理表明:当n 相当大时,经验分布函数Fn(x)是总体分布函数F(x)的一个良好的近似。,5.2.2 频数-频率分布表,5.2.3 样本数据的图形显示,一、直方图,横坐标 表示所关心变量的取值区间,纵坐标 有三种表示方法:频数,频率,频率/组距.,1.正态概率纸(自主学习,分组讨论),二、总体的正态性检验方法,2.SPSS软件中的非参数检验(教师演示),作 业 题 习 题 5.2 第1、4题,统计量与抽样分布,5.3 统计量及其分布,定义 设 x1,x2,xn 为取自某总体的样本,若样本函数T=T(x1,x2,xn)中不含有任何未知参数。则称T为统计量。统计量的分布称为抽样分布。,例1 设总体 XN(,2),已知,2未知,x1,x2,x3是样本,下列哪些不是统计量?,几个常用的统计量:,3.样本k阶矩,注意方差的简化公式,例2 设抽样得到样本观测值为4.421,4.052,4.357,4.394,4.326,4.287,4.683,请计算样本均值,样本标准差,样本方差,样本二阶中心矩.,样本均值及其抽样分布,定义 设x1,x2,xn为取自某总体X的样本,其算术平均值称为样本均值,即,思考:在分组样本场合,样本均值如何计算?二者结果相同吗?,(x1+xn)/n,定理 数据观测值与均值的偏差平方和最小,即在形如(xic)2 的函数中,,样本均值的基本性质:,定理 若把样本中的数据与样本均值之差称为偏差,则样本所有偏差之和为0,即,最小,其中c为任意给定常数。,注意:偏差平方和的自由度为n-1,例3 证明:对任意常数c,d有,讨论:例5.3.2 样本均值形成的直方图,发现什么特点?,样本均值的抽样分布:,定理 设x1,x2,xn 是来自某个总体的样本,,为样本均值。,(1)若总体分布为N(,2),则,的精确分布为N(,2/n);,若总体分布未知或不是正态分布,但 E(x)=,Var(x)=2,则n 较大时 的 渐近分布为N(,2/n),常记为,作业:习题5.3第4题,例4 设总体X服从N(12,4),样本为x1,x2,x5,求样本均值与总体均值之差的绝对值大于1的概率.,5.3.3 样本方差与样本标准差,称为样本标准差。,定义,称为样本方差,,其算术平方根,样本偏差平方和有三个不同的表达式:,(xix)2=xi2(xi)2/n=xi2 nx2,定理 设总体 X 具有二阶矩,即 E(x)=,Var(x)=2,x1,x2,xn 为从该总体得到的样本,,x,和s2 分别是样本均值和样本方差,则,E(x)=,Var(x)=2/n,E(s2)=2,性质,例5 P174第6题,设x1,x2,xn 是来自总体U(-1,1)的样本,求,样本矩及其函数,定义 ak=(xik)/n 称为样本 k 阶原点矩,特别,样本一阶原点矩就是样本均值。,称为样本k阶中心矩。特别,样本二阶中心矩就是,bk=(xi x)k/n,思考:样本k阶矩与总体k阶矩,有什么关系?,样本偏度1反映了总体分布密度曲线的对称性信息。样本峰度2反映了总体分布密度曲线在其峰值附近的陡峭程度和尾部的粗细。若峰度明显大于0,说明其分布的密度曲线在其峰值附近比正态分布要陡,尾部更细,称为尖顶型;若峰度明显小于0,说明其分布的密度曲线在其峰值附近比正态分布要平坦,尾部更粗,称为平顶型。,定义:1=b3/b23/2 称为样本偏度,2=b4/b22 3 称为样本峰度。,反映总体分布形状的统计量,用EXCEL计算例中的偏度,5.3.5 次序统计量及其分布,定义 设 x1,x2,xn 是取自总体X的样本,x(i)称为该样本的第i 个次序统计量,它的取值 是将样本观测值由小到大排列后得到的第 i 个 观测值。x(1)=minx1,x2,xn称为该样本的最小次序统计量,x(n)=maxx1,x2,xn称为该样本的最大次序统计量。,分析书中例5.3.5 学习如何用列举法求次序统计量的分布列.,例5 P174第9题 设总体X以等概率取1,2,3,4,5,从中随机抽取容量为4的一个样本,试分别求x(1),x(4)的分布.,一、离 散 情 形,1、单个次序统计量的分布,定理 设总体X的密度函数为p(x),分布 函数为F(x),x1,x2,xn为样本,则第k个 次序统计量x(k)的密度函数为,二、连 续 情 形,例6 设总体X服从N(12,4),x1,x2,x5为样本,试求P(x(1)10),P(x(5)15).,作业:习题5.3 第7、10题,5.3.6 样本分位数与样本中位数(可略),样本中位数是次序统计量的函数,定义为,样本p分位数mp可如下定义,定理 设总体密度函数为p(x),xp为其p分 位数,p(x)在xp处连续且 p(xp)0,则,特别,对样本中位数,当n时近似地有,当n 时样本 p 分位数 mp 的渐近分布为,例7 设总体为柯西分布,密度函数为,p(x,)=1/(1+(x)2),x+,设 x1,x2,xn 是来自该总体的样本,当样本量n 较大时,求样本中位数m0.5 的渐近分布.,5.4.1 2 分布(卡方分布),定义 设 X1,X2,Xn,独立同分布于标准 正态分布N(0,1),则2=X12+Xn2的分布称 为自由度为n 的2分布,记为 2 2(n)。,5.4 三大抽样分布,该密度函数的图像是一只取非负值的偏态分布,性质:a.分布可加性 若X 2(n),Y 2(m),X,Y独立,则 X+Y 2(n+m)b.期望与方差 若X 2(n),则E(X)=n,D(X)=2n,当随机变量 2 2(n)时,对给定(01),称满足 P(2 12(n)=1 的 12(n)是自由度为n的卡方分布的1 分位数.,例1 设x1,x2,x10是来自正态总体XN(0,0.52)的样本,试求概率,例2 设x1,x2,x6是来自正态总体XN(0,1)的样本,求常数c,使服从 分布,并求自由度.,5.4.2 F 分布,定义 设X1 2(m),X2 2(n),X1与X2独立,则称 F=(X1/m)/(X2/n)的分布是自由度为 m 与 n的F分布,记为F F(m,n).,该密度函数的图象也是一只取非负值的偏态分布,当随机变量F F(m,n)时,对给定(01),称满足 P(F F1(m,n)=1 的F1(m,n)是自由度为m 与 n 的F 分布的1 分位数.,2.基本性质:(1)若FF(m,n),则1/FF(n,m)(2)若Xt(n),则X2F(1,n),X-2F(n,1)(3),例3 设x1,x2,x2n是来自正态总体XN(0,2)的样本,则下列随机变量服从何种分布?,5.4.3 t 分布,定义 设随机变量X1 与X2 独立,且X1 N(0,1),X2 2(n),则称,的分布为自由度为n 的t 分布,记为t t(n)。,t(n)的概率密度为,n1时,t 分布的数学期望存在且为0;n2时,t 分布的方差存在,且为n/(n2);当自由度较大(如n30)时,t 分布可以用 正态分布 N(0,1)近似。,自由度为1的 t 分布就是标准柯西分布,它的均值不存在;,注:,当随机变量t t(n)时,称满足P(t t1(n)=1的 t1(n)是自由度为 n 的 t 分布的1分位数.分位数 t1(n)可以从附表4中查到。,例4 设x1,x2,x5是来自正态总体XN(0,2)的样本,求常数c,使服从 t分布,并求自由度.,练习 设Tt(n),P|T|=,则PT=?,复习:标准正态分布的下侧分位点,设,对于给定的,若存在 使得,则称 为标准正态分布的下侧 分位点.,1.单正态总体,设x1,x2,xn是来自总体XN(,2)的样本,则,,且 相互独立,一些重要结论,例5 从总体XN(,25)中抽取容量为n的样本,要以95%的把握保证样本均值与总体均值之差的绝对值小于1,问n至少多大?,练习 习题5.4 第4题,2.双正态总体,两样本独立,则,例6 设总体XN(20,3),从中抽取容量为10,15的两个独立的样本,求这两个样本均值之差的绝对值大于0.3的概率.,作业:习题5.4 第1、3、9、11题,