概率论与数理统计第六章样本与抽样分布.ppt
Probability Theory and Mathematical Statistics,概率论与数理统计,2023年11月3日星期五,2,第六章 样本与抽样分布,本章主要内容1 总体与个体2 直方图与经验分布函数3 统计量及其分布,2023年11月3日星期五,3,1.定义1:一个统计问题总有它明确的研究对象.,一.总体与个体,研究对象的全体称为总体(母体),,总体中每个成员称为个体.,总体,6.1 总体与个体,2023年11月3日星期五,4,2.有限总体和无限总体,定义2:样本中所包含的个体数目n称为样本容量。,注:当有限总体包含的个体的总数很大时,可近似地将它看成是无限总体.,总体容量有限的成为有限总体,总体容量无限的称为无限总体,6.1 总体与个体,2023年11月3日星期五,5,然而在统计研究中,人们关心总体仅仅是关心其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布情况.这时,每个个体具有的数量指标的全体就是总体.,6.1 总体与个体,2023年11月3日星期五,6,由于每个个体的出现是随机的,所以相应的数量指标的出现也带有随机性.从而可以把这种数量指标看作一个随机变量,因此随机变量的分布就是该数量指标在总体中的分布.,这样,总体就可以用一个随机变量及其分布来描述.统称总体X。,6.1 总体与个体,注意,2023年11月3日星期五,7,而概率分布正是刻划这种集体性质的适当工具.因此在理论上可以把总体与概率分布等同起来.,统计的任务,是根据从总体中抽取的样本,去推断总体的性质.,由于我们关心的是总体中的个体的某项指标(如人的身高、体重,灯泡的寿命,汽车的耗油量),所谓总体的性质,无非就是这些指标值的集体的性质.,6.1 总体与个体,2023年11月3日星期五,8,例如:研究某批灯泡的寿命时,关心的数量指标就是寿命,那么,此总体就可以用随机变量X表示,或用其分布函数F(x)表示.,某批灯泡的寿命,总体,寿命X可用一概率分布来刻划,鉴于此,常用随机变量的记号或用其分布函数表示总体.如说总体X或总体F(x).,6.1 总体与个体,2023年11月3日星期五,9,类似地,在研究某地区中学生的营养状况时,若关心的数量指标是身高和体重,我们用X和Y分别表示身高和体重,那么此总体就可用二维随机变量(X,Y)或其联合分布函数F(x,y)来表示.,统计中,总体这个概念 的要旨是:总体就是一个 概率分布.,6.1 总体与个体,2023年11月3日星期五,10,为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽取过程称为“抽样”,所抽取的部分个体称为样本.样本中所包含的个体数目称为样本容量.,二.样本,6.1 总体与个体,2023年11月3日星期五,11,但是,一旦取定一组样本,得到的是n个具体的数(x1,x2,xn),称为样本的一次观察值,简称样本值.,样本是随机变量.,抽到哪5辆是随机的,容量为n的样本可以看作n维随机变量.,6.1 总体与个体,2023年11月3日星期五,12,2.独立性:X1,X2,Xn是相互独立的随机变量.,由于抽样的目的是为了对总体进行统计推断,为了使抽取的样本能很好地反映总体的信息,必须考虑抽样方法.,最常用的一种抽样方法叫作“简单随机抽样”,它要求抽取的样本满足下面两点:,1.代表性:X1,X2,Xn中每一个与所考察的总体有相同的分布.,6.1 总体与个体,2023年11月3日星期五,13,由简单随机抽样得到的样本称为简单随机样本,它可以用与总体独立同分布的n个相互独立的随机变量X1,X2,Xn表示.,若总体的分布函数为F(x),则其简单随机样本的联合分布函数为,三.样本的概率分布,6.1 总体与个体,2023年11月3日星期五,14,今后,若不特别说明,就指简单随机样本.,若连续总体的概率密度函数为f(x),则其样本的联合概率密度函数为,6.1 总体与个体,离散时,概率函数是指分布率p(x),则其样本的联合分布率为,注意,2023年11月3日星期五,15,事实上我们抽样后得到的资料都是具体的、确定的值.如我们从某班大学生中抽取10人测量身高,得到10个数,它们是样本取到的值而不是样本.我们只能观察到随机变量取的值.,四.总体、样本、样本值的关系,6.1 总体与个体,2023年11月3日星期五,16,统计是从手中已有的资料-样本值,去推断总体的情况-总体分布F(x)的性质.,总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体.,样本是联系二者的桥梁,6.1 总体与个体,2023年11月3日星期五,17,例1-1:已知总体X服从参数为 的泊松分布,求样本的联合分布律,6.1 总体与个体,2023年11月3日星期五,18,6.1 总体与个体,2023年11月3日星期五,19,一、直方图(自学),当取得一组样本值后,一般先根据样本的取值作出频率直方图对总体的分布情况作一个几何直观上的粗略了解,然后再进行进一步的分析推断直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。,6.2 直方图与经验分布函数,2023年11月3日星期五,20,6.2 直方图与经验分布函数,2023年11月3日星期五,21,6.2 直方图与经验分布函数,2023年11月3日星期五,22,6.2 直方图与经验分布函数,2023年11月3日星期五,23,例2-1 某工厂用自动包装机包装产品,为了考察每袋产品重量的波动情况,选取100袋产品测得其重量如下:(单位:kg),根据测得的数据作出频率直方图97.894.698.9100.999.8102.797.9 98.7 97.195.599.0101.199.6102.997.795.7 99.3 102.199.5101.299.9103.198.295.899.1 100.3 98.8101.3100.0103.898.196.099.0101.4 99.9 98.9100.198.396.399.2101.5100.2104.5 99.8 100.998.596.699.3101.4100.397.898.4 102.2 99.896.799.4101.1100.496.999.5101.0 98.8 102.4100.198.597.099.1101.2100.298.0 100.7 99.797.299.2101.6100.298.197.499.0 98.6 100.1101.6100.498.197.599.4101.8100.5 102.3 100.6102.0100.298.999.7100.6102.1 100.8 99.6 98.8100.4,6.2 直方图与经验分布函数,2023年11月3日星期五,24,6.2 直方图与经验分布函数,2023年11月3日星期五,25,6.2 直方图与经验分布函数,2023年11月3日星期五,26,6.2 直方图与经验分布函数,2023年11月3日星期五,27,二、经验分布函数,6.2 直方图与经验分布函数,2023年11月3日星期五,28,为由x1,x2,xn确定的经验分布函数.,定义6,设x1,x2,xn是总体X的样本值,称函数,6.2 直方图与经验分布函数,2023年11月3日星期五,29,经验分布函数与理论分布函数的关系,6.2 直方图与经验分布函数,2023年11月3日星期五,30,这也是利用样本来估计和判断总体的基本理论和依据,6.2 直方图与经验分布函数,例2-2 从某总体中抽取容量为5的样本,其观测值依次为-1.2,2.6,1.8,-0.7,1.8求经验分布函数,并画出的图形,解 将数据由小到大排列得:-1.2,-0.7,1.8,1.8,2.6,2023年11月3日星期五,31,则经验分布函数为:,6.2 直方图与经验分布函数,2023年11月3日星期五,32,的图形见下图,6.2 直方图与经验分布函数,2023年11月3日星期五,33,由样本值去推断总体情况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来.,一、样本统计量,定义;设 x1,x2,xn 为取自某总体的样本,若样本函数T=g(x1,x2,xn)中不含有任何未知参数。则称T 为统计量。它是完全由样本决定的量.统计量的分布称为抽样分布。,6.3 统计量及其分布,2023年11月3日星期五,34,为什么要引进统计量?为什么统计量中不能含有未知参数?答:引进统计量的目的是为了将杂乱无序的样本值归结为一个便于进行统计推断和研究分析的形式,集中样本所含信息,使之更易揭示问题实质,从而解决问题。如果统计量中仍含有未知参数,就无法依靠样本观测值求出未知参数的估计值,因而失去利用统计量估计未知参数的意义,这是违背我们引进统计量的初衷的。,6.3 统计量及其分布,2023年11月3日星期五,35,6.3 统计量及其分布,2023年11月3日星期五,36,几个常见统计量,样本均值,样本方差,它反映了总体均值的信息,它反映了总体方差的信息,样本标准差,6.3 统计量及其分布,2023年11月3日星期五,37,样本k阶原点矩,样本k阶中心矩,k=1,2,它反映了总体k 阶矩的信息,它反映了总体k 阶中心矩的信息,6.3 统计量及其分布,2023年11月3日星期五,38,6.3 统计量及其分布,2023年11月3日星期五,39,上述五种统计量可统称为矩统计量,简称样本矩,他们都是样本的显函数,它们的观测值仍分别称为样本均值、样本方差、样本标准差、样本k阶(原点)矩、样本k阶中心矩,6.3 统计量及其分布,2023年11月3日星期五,40,顺序统计量将样本中的各分量按由小到大的次序排列成,6.3 统计量及其分布,2023年11月3日星期五,41,二、统计量的分布,统计量既然是依赖于样本的,而后者又是随机变量,故统计量也是随机变量,因而就有一定的分布,这个分布叫做统计量的“抽样分布”.,6.3 统计量及其分布,2023年11月3日星期五,42,抽样分布就是通常的随机变量函数的分布.只是强调这一分布是由一个统计量所产生的.研究统计量的性质和评价一个统计推断的优良性,完全取决于其抽样分布的性质.,抽样分布,精确抽样分布,渐近分布,(小样本问题中使用),(大样本问题中使用),6.3 统计量及其分布,2023年11月3日星期五,43,记为,定义:设 相互独立,都服从正态分布N(0,1),则称随机变量:所服从的分布为自由度为 n 的 分布.,分布是由正态分布派生出来的一种分布.,6.3 统计量及其分布,2023年11月3日星期五,44,卡方分布是由英国统计学家Karl Pearson(1857-1936)于1900年提出来的。,6.3 统计量及其分布,2023年11月3日星期五,45,自由度(degree of freedom,df)在数学中是指能够自由取值的随机变量的个数,如有3个变量x、y、z,但x+y+z=18,因此其自由度等于2。在统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。,6.3 统计量及其分布,2023年11月3日星期五,46,分布的密度函数为,来定义.,其中伽玛函数 通过积分,6.3 统计量及其分布,2023年11月3日星期五,47,该密度函数的图像是一只取非负值的偏态分布,6.3 统计量及其分布,2023年11月3日星期五,48,性质1,(此性质可以推广到多个随机变量的情形),6.3 统计量及其分布,2023年11月3日星期五,49,性质2,6.3 统计量及其分布,2023年11月3日星期五,50,6.3 统计量及其分布,2023年11月3日星期五,51,P304附表5,分布表,6.3 统计量及其分布,2023年11月3日星期五,52,?=3.816,P304附表5,分布表,6.3 统计量及其分布,2023年11月3日星期五,53,?=36.741,分布表,6.3 统计量及其分布,P304附表5,2023年11月3日星期五,54,应用中心极限定理可得,若,的分布近似标准正态分布.,则可以求得,E(X)=n,D(X)=2n,若,6.3 统计量及其分布,2023年11月3日星期五,55,t的密度函数为:,记为tt(n).,所服从的分布为自由度为 n的 t 分布.,2、t 分布,6.3 统计量及其分布,2023年11月3日星期五,56,6.3 统计量及其分布,学生t-分布可简称为t分布。其推导由威廉戈塞(William Sealy Gosset,1876.6.131937.10.16)于1908年首先发表,当时他还在都柏林的健力士酿酒厂工作。因为不能以他本人的名义发表,所以论文使用了Student这一笔名。之后t检验以及相关理论经由罗纳德费雪(Sir Ronald Aylmer Fisher,FRS,1890.2.171962.7.29)的工作发扬光大,而正是他将此分布称为学生分布。(http:/,2023年11月3日星期五,57,具有自由度为n的t分布的随机变量t的数学期望和方差为:E(t)=0;D(t)=n/(n-2),(当n 2时),当n充分大时,其图形类似于标准正态分布密度函数的图形.,t分布的密度函数关于x=0对称,且,6.3 统计量及其分布,2023年11月3日星期五,58,当n充分大时,其图形类似于标准正态变量概率密度的图形.,6.3 统计量及其分布,2023年11月3日星期五,59,性质1 设,则当n2 时有性质2 设,是t的分布密度,则此性质说明,当 时,t分布的极限分布是标准正态分布。,t 分布具有下列性质:,6.3 统计量及其分布,2023年11月3日星期五,60,由分布的对称性知,6.3 统计量及其分布,2023年11月3日星期五,61,分布表,6.3 统计量及其分布,P303附表4,2023年11月3日星期五,62,P303附表4,?=2.1315,分布表,6.3 统计量及其分布,2023年11月3日星期五,63,由定义可见,,3、F分布,6.3 统计量及其分布,2023年11月3日星期五,64,为了彰显英国统计学家費雪对统计的贡献,美国统计学家斯內德克(George Snedecor,1881-1974)提出以費雪名字开头的字母,当作 分布的名称。,6.3 统计量及其分布,2023年11月3日星期五,65,即它的数学期望并不依赖于第一自由度n1.,X的数学期望为:,若n22,若XF(n1,n2),X的概率密度为,6.3 统计量及其分布,2023年11月3日星期五,66,(1),(2),6.3 统计量及其分布,2023年11月3日星期五,67,6.3 统计量及其分布,2023年11月3日星期五,68,分布表,6.3 统计量及其分布,P305附表5,2023年11月3日星期五,69,分布表,6.3 统计量及其分布,P305附表5,2023年11月3日星期五,70,当总体为正态分布时,教材上给出了几个重要的抽样分布定理.这4个抽样分布定理很重要,要牢固掌握。,三、正态总体样本均值与方差的分布,6.3 统计量及其分布,2023年11月3日星期五,71,定理 1(样本均值的分布),6.3 统计量及其分布,2023年11月3日星期五,72,n取不同值时样本均值 的分布,6.3 统计量及其分布,2023年11月3日星期五,73,定理 2(样本方差的分布),6.3 统计量及其分布,2023年11月3日星期五,74,n取不同值时 的分布,6.3 统计量及其分布,2023年11月3日星期五,75,定理 3,6.3 统计量及其分布,2023年11月3日星期五,76,定理 3证明:,6.3 统计量及其分布,2023年11月3日星期五,77,定理 4.1(两总体样本方差比的分布),6.3 统计量及其分布,2023年11月3日星期五,78,定理 4.1 的证明:由定理2,由假设 相互独立,按照F分布的定义有,6.3 统计量及其分布,2023年11月3日星期五,79,定理 4.2(两总体样本均值差的分布),6.3 统计量及其分布,2023年11月3日星期五,80,定理 4.2 的证明:由第四章,,6.3 统计量及其分布,2023年11月3日星期五,81,上面的定理说明了当方差相等时抽样分布服从自由度为n1+n2-2的t分布。但是,当方差未知且不等时,抽样分布近似服从自由度为DF的t分布:,6.3 统计量及其分布,2023年11月3日星期五,82,例1 设随机变量 和 相互独立,且都服从,而 和 为分别来自总体X和总体Y的样本,试分析下面的统计量服从什么分布?,6.3 统计量及其分布,2023年11月3日星期五,83,解:由TH1,又Y的标准化变量根据t分布的定义有,6.3 统计量及其分布,2023年11月3日星期五,84,例2 设,试分析下面的随机变量服从什么分布?解:,6.3 统计量及其分布,2023年11月3日星期五,85,例3 设,现从两总体中分别抽样,有,。试求概率的值。解:根据题意,由定理4有,6.3 统计量及其分布,