统计学第4章概率分布样本统计量.ppt
第四章 抽样分布,你不必吃完整一头牛,才知道它的肉是咬不动的。Samel Johnson,2008年8月,参数与统计量,总体参数是对总体特征的概括性度量参数通常是想要知道的但又未知的 用希腊字母表示,2008年8月,参数与统计量,诸如二项分布中的 n 和 p,正态分布中的 m和 s 这样的参数,都是总体中未知的描述性度量研究一个总体所要关心的参数有总体平均数、总体标准差、总体比例等总体参数研究两个总体时,关心的参数有均值之差、两总体比例之差、两总体的方差比,2008年8月,参数与统计量,一般总体参数是未知的,可利用样本信息推断总体参数统计量 Eg.抽500样本的平均收入推断该地区人口平均收入,2008年8月,参数与统计量,统计量:根据样本算出来的用于推断总体的某些量,是对样本特征的某个概括性度量统计量是:样本的函数随机变量是根据样本数据算出来的用英文字母表示,2008年8月,总体参数是根据样本统计量来推断的 Eg.根据样本均值推断总体均值 根据样本方差来推断总体方差 根据样本比例来推断总体比例通过样本统计量来推断总体参数必然有某种不确定性 如何判断用样本统计量推断总体参数时是否可靠呢?,2008年8月,参数与统计量,实际上,我们发现样本统计量具有某种特定的性质,即样本统计量的概率分布有规律性,具有特定的性质一般来说,准确的分布是很难知道的,2008年8月,Eg.从样本是从总体中任意取出的时,样本均值的分布是什么样的?很多时候,当n足够大时,我们可以将样本均值的分布近似为正态分布样本统计量的概率分布提供了样本统计量稳定的信息,构成推断总体参数的基础,2008年8月,样本统计量的分布:就是抽样分布抽样分布的定义:它是由样本统计量的所有可能值行成的相对频数分布(由重复抽样产生)Eg.样本均值的分布,样本比例的分布,样本方差的分布,2008年8月,2008年8月,三种分布,总体分布样本分布抽样分布,2008年8月,总体分布,总体分布的定义:总体中各元素的观察值所行成的相对频数分布怎么得到总体分布?若所有观察值可得到,通过直方图观察其分布状况若不能得到所有观察值,这时可抽样推断,2008年8月,总体分布,总体分布的特点:未知的可根据经验了解其分布类型(假定其服从某分布)我们关心总体中的某参数,2008年8月,样本分布(或经验分布),样本分布是从总体中抽取一个容量为n的样本,由这n个观察值构成的相对频数分布样本中各观察值的分布,2008年8月,样本分布(或经验分布),样本分布的特点来自总体,蕴含总体的信息和特征当样本容量n小的时候,样本分布与总体分布会有偏差和不一致当样本容量n增大时,样本分布接近总体分布,2008年8月,样本分布与抽样分布,样本分布:样本中各观察值的分布抽样分布:多次抽样可计算出多个样本统计量,这些样本统计量所有值构成的分布,2008年8月,单个总体参数推断时的抽样分布,1.样本均值的抽样分布2.样本比例的抽样分布3.样本方差的抽样分布,2008年8月,样本均值的分布(例题分析),【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下,均值和方差,2008年8月,样本均值的分布(例题分析),现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,2008年8月,样本均值的分布(例题分析),计算出各样本的均值,如下表。并给出样本均值的抽样分布,2008年8月,样本均值的分布与总体分布的比较(例题分析),=2.5 2=1.25,总体分布,样本均值分布,2008年8月,2008年8月,样本均值的分布与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的期望值为,方差为2/n。即xN(,2/n),2008年8月,2008年8月,2008年8月,中心极限定理(central limit theorem),从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大(n=30)时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,中心极限定理(central limit theorem),x 的分布趋于正态分布的过程,2008年8月,抽样分布与总体分布的关系,总体分布,正态分布,非正态分布,大样本,小样本,样本均值正态分布,样本均值正态分布,样本均值非正态分布,2008年8月,样本均值的分布样本均值的期望值和方差,样本均值的分布(数学期望与方差),样本均值的分布(数学期望与方差),不重复抽样时,样本均值的方差需要用修正系数 去修正,2008年8月,样本均值的分布(数学期望与方差),注意:对无限总体进行不重复抽样时,可当做重复抽样处理对有限总体,当N很大,而抽样比n/N很小,其修正系数趋于1这时也可当做重复抽样处理,2008年8月,2008年8月,2008年8月,4.4.3 其他统计量的分布,4.4 样本统计量的概率分布,2008年8月,总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为,样本比例的分布(proportion),2008年8月,适合研究分类问题样本比例的抽样分布(定义):在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布,样本比例的抽样分布,2008年8月,4.当样本容量很大时(np=5或 n(1-p)=5)样本比例的抽样分布可用正态分布近似,样本比例的抽样分布,不重复抽样时,样本比例的方差需要用修正系数 去修正,2008年8月,2008年8月,样本方差的抽样分布,用样本方差去推断总体方差时必须知道样本方差的抽样分布样本方差的抽样分布,是在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布,2008年8月,样本方差的抽样分布,对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为(n-1)的2分布,即,c2分布(图示),两个总体参数推断时的抽样分布,1.两个样本均值之差的抽样分布2.两个样本比例之差的抽样分布3.两个样本方差比的抽样分布,两个总体都为正态分布,即,两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差 方差为各自的方差之和,两个样本均值之差的抽样分布,两个样本均值之差的抽样分布,两个总体都服从二项分布分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似分布的数学期望为 方差为各自的方差之和,两个样本比例之差的抽样分布,两个样本方差比的抽样分布,两个总体都为正态分布,即X1N(1,12),X2N(2,22)从两个总体中分别抽取容量为n1和n2的独立样本两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1)的F分布,即,2008年8月,2008年8月,统计量的标准误差(standard error),样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度样本均值和样本比例的标准误差分别为,2008年8月,估计的标准误差(standard error of estimation),当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误以样本均值为例:当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为,结 束,THANKS,