随机样本和统计量.ppt
1,它们都以随机现象的统计规律为研究对象.,数理统计与概率论是两个有密切联系的学科,但在研究问题的方法上有很大区别:,概率论 已知随机变量服从某分布,寻求分布的性质、数字特征、及其应用;,数理统计 通过对实验数据的统计分析,寻找所服从的分布和数字特征,从而推断整体的规律性.,数理统计的核心问题由样本推断总体,第六章 样本及抽样分布,2,也就是说,我们获得的只是局部观察资料.,因而从理论上讲,只要对随机现象进行足够多次观察,,但客观上只允许我们对随机现象进行次数不多的观察试验,,被研究的随机现象的规律性一定能清楚地呈现出来.,数理统计就是在概率论的基础上研究怎样以有效的方式收集、整理和分析可获的有限的,带有随机性的数据资料,由于大量随机现象必然呈现出它的规律性.,对所考察问题的统计性规律尽可能地作出精确而可靠的推断或预测,,为采取一定的决策和行动提供依据和建议.,3,这部分内容的重点在于介绍数理统计的一些重要概念和典型的统计方法,它们是实际中最常用的知识.,学习统计无须把过多时间化在计算上,应更有效地把时间用在基本概念、方法原理的正确理解上.,在数理统计中,不是对所研究的对象全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断.,数理统计方法具有“部分推断整体”的特征.,总体中的每个元素,例如:某工厂生产的灯泡寿命是一个总体,每个灯泡的寿命是一个个体;某学校男生的身高的全体是一个总体,每个男生的身高是一个个体,一、总体、个体、随机样本,总体 研究对象全体元素组成的集合 所研究的对象的某个(或某些)数量指标 的全体,它是一个随机变量.记为X.X 的分布函数和数字特征称为总体的分布函数和数字特征.,个体:,6.1 随机样本和统计量,从总体中抽取一部分个体来进行观察或试验,称为抽样;被抽出的部分个体称为总体的一个样本,抽取样本的目的在于对总体的统计规律进行推断或估计,故要求所抽取的样本能很好的反映总体的特性.最常用的是简单随机样本。,总体容量有限的称为有限总体,称总体中所含个体的数目为总体容量,总体容量无限的称为无限总体.,定义:,设X1,X2,.,Xn为来自总体X的样本,如果X1,X2,.,Xn相互独立,且每一个都是与总体X有相同分布的随机变量,则称X1,X2,.,Xn为总体X的容量为n的简单随机样本,简称为随机样本或样本,其观察值x1,x2,.,xn称为样本值.,7,它要求抽取的样本X1,X2,Xn 满足下面两点:,2.代表性:Xi(i=1,2,n)与所考察的总体 X 同分布.,1.独立性:X1,X2,Xn 是相互独立的 随机变量;,今后,说到“X1,Xn 是取自某总体的样本”时,若不特别说明,就指简单随机样本.,简单随机样本是应用中最常见的情形,由定义知,若X1,X2,.,Xn为X的一个样本,X的分布函数为F(x),则X1,X2,.,Xn的联合分布函数为:,若X的概率密度为f(x),则X1,X2,.,Xn的联合概率密度为:,9,求样本(X1,X2,X3)的 概率分布.,例1 设总体 X B(1,p),即 P(X=x)=p x(1-p)1-x,X=0,1.,设 X1,X2,X3 为 X 的一个样本,解,x i=0,1;,i=1,2,3.,(X1,X2,X3)的分布列,P(X1=x1,X2=x2,X3=x3),又 x1+x2+x3=0,1,2,3,P(X1=x1,X2=x2,X3=x3),k=0,1,2,3.,10,例2,解,11,12,二、频率直方图,这是一种根据样本观察值来近似地求总体的概率密度的图解法.,设总体X是一个连续型随机变量,样本观察值x1,x2,xn,找个区间包括这些观察值,再把区间分成若干部分.,13,三、经验分布函数,14,例如,估计一个物体的重量,重复n次称重,其结果依次记为X1,X2,.,Xn,通常用样本的算术平均值,或其,它某个由样本计算出来的且看上去合理的量来估计重量,在获得了样本之后,下一步对样本进行统计分析,即对样本进行加工、整理,从中提取有用信息.一个有效的方法就是构造一些样本的函数,通过样本函数把样本中所含的(某一方面)的信息集中起来.,四、统计量,定义:,设X1,X2,.,Xn是总体X的一个样本,随机变量g(X1,X2,.,Xn)是X1,X2,.,Xn的一个连续函数,且g中不包含任何未知参数,则称g(X1,X2,.,Xn)为一个统计量,统计量是样本的函数,它是一个随机变量,统计量的分布称为抽样分布,设(x1,x2,.,xn)是样本(X1,X2,.,Xn)的样本值,则称g(x1,x2,.,xn)是g(X1,X2,.,Xn)的一个观察值.,这种不含任何未知参数、完全由样本决定的量称为统计量,17,例 是未知参数,若,已知,则为统计量,是一样本,是统计量,其中,则,C,例3 设总体XB(2,p),其中p为未知参数,(X1,X2,X3)是取自总体X的样本,则_不是统计量(A)X1+X2(B)maxX1,X2,X3(C)X3+2p(D)(X2X1)2,设X1,X2,.,Xn是总体X的一个样本,样本平均值:,样本方差:,样本标准差:,常用统计量:,样本k阶(原点)矩:,(k=1,2,),样本k阶中心矩:,(k=1,2,),例如,样本平均值:,样本方差:,样本k阶中心矩:,样本k阶(原点)矩:,(k=1,2,),它们的观察值分别为:,由样本平均值和样本方差的表达式可得:,23,注 样本方差 与样本二阶中心矩 的不同,故,推导,24,例4 从一批机器零件毛坯中随机地抽取10件,测得其重量为(单位:公斤):210,243,185,240,215,228,196,235,200,199求这组样本值的均值、方差、二阶原点矩与二阶中心矩.,解,令,25,则,26,例5 在总体 中,随机抽取一个容量为36的样本,求样本均值 落在50.8到53.8之间的概率.,解,故,27,1.标准正态分布2.2分布3.t分布4.F分布,6.2 数理统计中常用的分布,正态总体是最常见的总体,本节介绍的几个抽样分布均对正态总体而言.,28,设XN(0,1),对任给的,01,称满足条件,1.标准正态分布,的点z为标准正态分布的上分位点,z,定义:,29,例1 求z0.05,解:,PXz0.05,=1PXz0.05,=10.05,=0.95,PX1.64=0.9495 PX1.65=0.9505,z0.05(1.64+1.65)/2=1.645,公式:(z)=1,常用数字,30,设Xi N(0,1)(i=1,2,.,n),且它们相互独立,则称随机变量,2 2分布,定义:,服从自由度为n的2分布,记为22(n),2分布最常用的是拟合优度检验,31,一般,其中,,在x 0时收敛,称为函数,具有性质,32,10 设 Y1 2(m),Y2 2(n),且 Y1,Y2 相互独立,,2 分布的基本性质,则,2 分布的可加性,Y1+Y2=?,20 若 Y 2(n),则=n,=2n.,EY DY,=1,=3,30设 X1,Xn 相互独立,且都服从正态分布 N(,2),40 若Y 2 分布,近似服从 N(0,1).,应用中心极限定理可得,则,则当 n 充分大时,33,设22(n),其密度函数为f(x),对于给定的正数(01),称满足条件,的点2(n)为2(n)分布的上分位点,2分布的上分位点:,当n充分大时,34,例2(练习九.五)设XN(,2),(X1,X2,.,X16)是取自总体X的样本,求概率:,解:,X1,X2,.,X16相互独立,且,35,0.950.01,=0.94,36,例3 设总体,的样本,为总体 X,解,故,因此,37,设XN(0,1),Y2(n),且X与Y相互独立,则称随机变量,3 t分布,定义:,服从自由度为n的t分布,记为Tt(n),T 的密度函数为:,38,t分布的上分位点:,设Tt(n),其密度函数为f(t),对于给定的正数(01),称满足条件,的点t(n)为t分布的上分位点,t(n),39,t分布的性质:,(1)其密度函数f(t)是偶函数,(3)f(t)的极限为N(0,1)的密度函数,即,(2)t1(n)=t(n),当n45时,t(n)z,40,且 XN(2,1),Y i N(0,4),i=1,2,3,4,设 X,Y1,Y2,Y3,Y4 相互独立,例4,令,解 X-2 N(0,1),i=1,2,3,4.,t(4),即 Z 服从自由度为 4 的 t 分布.,求 Z 的分布.,由 t 分布的定义,Y i/2N(0,1),41,题 设随机变量 X 与Y 相互独立,X N(0,16),Y N(0,9),X1,X2,X9 与Y1,Y2,Y16 分别是取自 X 与 Y 的简单随机样本,求统计量,所服从的分布.,解,42,从而,43,t分布用于在小样本场合下的正态分布(大样本场合下可以用正态分布来近似),有时候在信息不足的情况下,只能用t分布,比如在整体方差不知的情况下,对总体均值的估计和检验通常要用t统计量,44,记作 F F(m,n).,由F 分布的定义可见,若 F F(m,n),,定义:设随机变量 X 与Y 独立,,所服从的分布为第一自由度为 m,第二自由度为 n 的 F 分布,,4、F 分布,则 F 的概率密度为,则称统计量,其图形参见172,F分布多用于比例的估计和检验,45,F分布的上分位点:,设FF(m,n),其密度函数为f(x),对于给定的正数(01),称满足条件,的点F(m,n)为F分布的上分位点,F(m,n),46,F分布的性质:,(1)若FF(m,n),则,(2),1=PFF1(m,n),(3)若 X t(n),则 X 2 F(1,n);,47,例5 设 F F(24,15),求 F1,F2,F3,使其分别满足,解(1)由 m=24,n=15,=0.025,查 P342 附表7 知,(2)无法直接查表获得,但,由 F 分布性质知,(3)F3=F0.95(24,15),查表可知,F 1=F0.025(24,15)=2.70;,F2=1/2.44=0.41;,由(*)式知,P(F F1)=0.025,P(F F3)=0.95.,1/F F(15,24),查附表7 知,统计三大分布的定义和基本性质在后面的学习中常用到,要牢记!,48,1.单个正态总体的抽样分布2.两个正态总体的抽样分布,6.3 抽样分布定理,49,设X1,X2,.,Xn是来自正态总体N(,2)的样本,则,1.单个正态总体的抽样分布,定理:,(1),(3),(4),50,(1),为n个相互独立的正态,服从正态分布,=,随机变量的线性组合,51,(4),且它们相互独立,由t分布的定义,即,2(n1),52,例1(练习九.二.(1)设(X1,X2,Xn)是取自总体X的样本,是样本均值,如果总体XN(,4),则样本容量n应取多大,才能使,解:,53,0.95,n1536.64,n1537,54,55,设总体XN(1,12),总体YN(2,22).X1,X2,.,是总体X的样本,Y1,Y2,.,是总体Y的样本,且这两个样本相互独立.则,2.两个正态总体的抽样分布,定理:,(1),(2),56,其中,称为混合样本方差,进一步,若12=22=2,有,57,2(n11),2(n21),且它们相互独立,2(n1+n22),58,由t分布的定义,t(n1+n22),59,小结,理解总体、个体、样本和统计量的概 念,掌握样本均值和样本方差的计算及 基本性质,2.掌握2分布、t分布、F分布的定义,会 查表计算,3.理解正态总体的某些统计量的分布,