《理论分布与抽样分布.ppt》由会员分享,可在线阅读,更多相关《理论分布与抽样分布.ppt(84页珍藏版)》请在三一办公上搜索。
1、,第四章 理论分布与抽样分布,&4.1 事件与概率,&4.2 正态分布,&4.3 二项分布和普阿松分布,&4.4 抽样分布,在一定条件下,可能发生,也可能不发生的现象称为随机事件。,&4.1 事件与概率,一、事件及其相互关系,(一)事件的意义,1.必然事件,2.不可能事件,3.随机事件,(二)、事件的相互关系1.和事件 事件A和事件B至少有一个发生,这一事件称为和事件,记为“A+B”,读作“或A发生,或B发生”。,2.积事件 事件A和事件B同时发生,这一事件称为积事件,记为“AB”。,3.互斥事件(不相容事件)事件A和事件B不能同时发生,这一事件称为互斥事件,记为“A.BV”,4.对立事件若事
2、件与是互不相容,且为必然事件,则称为的对立事件。,例如、“产品合格”A和“产品不合格”B,A+B=必然事件,AB=不可能事件。,5.完全事件系若事件A1、A2、A3、An两两互斥,且每次试验结果必发生其一,则称这n个事件为完全事件系。,6.事件的独立性若事件A发生与否不影响事件B发生的可能性,则称事件A和事件B相互独立。例如花色与产量无关的例。,二、概率的统计定义及估计方法,表3.1 在相同条件下水稻种子发芽试验结果试验粒数(n)5 10 50 100 200 500 1000发芽粒数(a)5 8 44 91 179 452 901发芽频率(a/n)1.0 0.8 0.88 0.91 0.89
3、5 0.904 0.901,(一)概率的统计定义 假定在相似条件下重复进行同一类试验,调查事件A发生的次数a与试验总次数n的比数称为频率(a/n),则在试验总次数n逐渐增大时,事件A的频率愈来愈稳定的接近一个定值P,则定义为事件A发生的概率.记为,P(A)=p=a/n,概率的基本性质:,3、不可能事件的概率等于0,即:P(V)=0,1、任何事件的概率都在0与1之间,即:0P(A)1,2、必然事件的概率等于1,即:P(U)=1,(二)概率的运算方法1.加法定理 两个互斥事件A和B的和事件的概率等于事件A和事件B各自的概率之和,既:P(A+B)=P(A)+P(B),例如 有一批种子,其中二级占5%
4、,一级占10%,其余为三级,问三级种子占多少?,2.乘法定理 两个独立事件A和B的积事件的概率等于事件A和事件B各自概率的乘积,即:P(AB)=P(A)P(B),若一批玉米种子发芽率为0.9,发芽后能出土的概率为0.8,求这批种子的出苗率?P(AB)=P(A)P(B)=0.90.8=0.72,3.对立事件的概率 若事件A的概率为P(A),那么对立事件的概率 为:P()=1-P(A),若一批种子发芽率为0.9,则不发芽率的概率为1-0.9=0.1,4.完全事件系的概率 若有几个事件A1,A2,.,An是试验的完全事件系,则这些事件的概率之和为1。即:P(A1+A2+An)=P(A1)+P(A2)
5、+(An)=1,一批棉花纤维长度30cm事件A3,概率为0.2;这三种情况构成一个完全事件系,其概率之和为:,P(A1+A2+A3)=P(A1)+P(A2)+P(A3)=0.2+0.6+0.2=1,三.小概率事件实际不可能性,随机事件概率的大小客观地反映事件在一次试验中发生的可能性的大小。概率大表示该事件发生的可能性大;概率小,说明该事件发生的可能性小;农业研究中多采用5%、1%这两个标准作为小概率事件。,&4.2 正态分布,一、正态分布的概念 正态分布或称高斯(Gauss)分布,是连续性随机变量的一种最重要的理论分布。,正态分布概率密度函数:,x:所研究的变数;:x的函数值,称为概率密度函数
6、;:总体平均数;:总体标准差,其中,是两个常数,正态分布记为N(,),表示具有平均数为,方差为 的正态分布。,2、正态分布的算术平均数、中数及众数三者 合一,都位于点。,3、正态分布的多数观察值集中于算术平均数 的附近,离平均数愈远,相应的次数愈少,在-3 以外,次数极少。,二、正态分布曲线的特征:,1、正态分布曲线围绕算术平均数向左右两侧 作对称分布,所以它是一条对称曲线。,4、正态分布曲线的形状完全取决于 和 两个参数。确定正态分布在X轴上的 中心位置,确定正态分布的变异度。5、正态分布概率密度函数曲线与X轴所围 成的全部面积必等于1;6、正态分布曲线在 和 处各有一 拐点。曲线两尾向左右
7、伸展,永不接触 横 轴,x 的取值范围-,+。,三、正态分布的概率计算,根据正态分布的性质,变量在两个定值间取值的概率等于曲线与其x轴在该区间围成的面积。因此概率的计算即正态分布概率密度函数的定积分计算。是一个曲线系统。为了一般化的应用,需将正态分布标准化。,正态分布的标准化,将随机变量x 标准化,令,u称标准正态离差,表示离开平均数有几个标准差单位。,标准化正态分布函数:,(u)称为标准化正态分布密度函数,即=0,=1时的正态分布记作N(0,1),从N(,2)到 N(0,1),从几何意义上说,仅仅是将变量x作了横坐标轴的平移和尺度单位的变化。,对标准正态分布方程计算从-到ui的累积概率计算公
8、式如下:,前人已计算出从-3到3之间各个u值的FN(ui)值,列入P357附表2。,【例如】有一随机变数X服从正态分布,平均数=30,标准差=5,试计算X小于26,大于40,介于26-40区间的概率。,x小于26:,=(26-30)/5=-0.8,查附表1,大于40:,=(40-30)/5=2,查表1,F(u=2)=0.9773 则,x介于26与40之间:,=0.7654,【例如】已知某正态分布=30,=5,试计算x偏离平均数达9.8和14.9 以上的概率?,计算,标准化,查附表2,得知它们对应的概率分别为0.05和0.01,即P(x-9.80)=P(x-1.96)=0.05=P(x-)1.9
9、6+P(x-)-1.96P(x-14.90)=P(x-2.58)=0.01=P(x-)2.58+P(x-)-2.58以上两式等号右侧的前一项为右尾概率,后一项为左尾概率,其和概率为两尾概率。附表2列出的就是两尾概率。,&4.3 二项分布和泊松分布,一、二项总体与二项分布 在独立重复试验中,总体的某个性状每一次试验只有非此即彼两个可能结果,这种非此即彼事件所构成的总体叫二项总体,也叫0,1总体。,当每次独立的从二项总体抽取n个个体,这n个个体:“此”事件出现的次数X可能有0、1、2、.n,共有n+1种,这n+1种可能性有它各自的概率,组成一个分布,此分布叫二项概率分布或简称二项分布。二项分布是一
10、种离散型分布。,例如,观察玉米播种后的出苗数,出苗记为“此”事件,概率为p;不出苗记为彼事件,概率为q。若每窝播种5粒种子,则对每窝出苗情况的观察结果会有如下几种可能:,X:0 1 2 3 4 5P:P(0)P(1)P(2)P(3)P(4)P(5),由这6种情况的相应概率组成的分布,就是n=5时出苗数的二项分布。,二、二项分布的概率计算,1、二项分布的概率密度函数,现以玉米种子播种后的出苗和不出苗为例,说明二项分布的概率密度函数。出苗看作“此”事件,p=0.7,不出苗看作“彼”事件,q=0.3,每窝中种子的出苗与不出苗为对立事件。,若每窝种1粒种子,相当于n=1,则出苗数有2种情况即:x=0;
11、x=1 相应的概率f(x=0)=q=0.3;相应的概率为 f(x=1)=p=0.7.,若每窝种2粒种子,相当于n=2,则出苗数有3种情况:x=0,1,2,相应的概率为:f(x=0)=qq=0.30.3=0.09 f(x=1)=pq+qp=2pq=20.30.7=0.42 f(x=2)=pp=0.70.7=0.49,若每窝种3粒种子,n=3,则出苗数有0,1,2,3四种情况,其相应的概率为:f(x=0)=qqq=0.027 f(x=1)=pqq+qpq+qqp=30.70.30.3=0.189 f(x=2)=ppq+pqp+qpp=30.70.70.3=0.441 f(x=3)=ppp=0.70
12、.70.7=0.343,由上面的分析可看出:(p+q)n=(p+q)1=0.3+0.7=1(p+q)n=(p+q)2=p2+2pq+q2=0.49+0.42+0.09=1(p+q)n=(p+q)3=p3+3p2q+3pq2+q3=0.343+0.441+0.189+0.027=1,二项式展开后的各项系数,正是从n个事物种抽得x个的组合数即由此得出二项分布中任何一项的概率通式:即为二项分布的概率函数,二项分布的概率累积函数:,由于变量x=0,1,2,n,为完全事件系,所以这个分布的概率之和必等于1。,【例如】有一批玉米种子,其发芽率为70%,如每窝播种4粒,问出苗数为2和3时的概率分别为多少?,
13、例:某小麦品种在田间出现自然变异的概率为0.0045,(1)调查100株,获得两株或两株以上变异植株的概率是多少?(2)期望有0.99的概率获得1株或1株以上的变异植株,至少应调查多少株?,n=100,p=0.0045,P(x2)=1-P(0)-P(1)=0.0751,P(0)=0.01,n=1021(株),三、二项分布的形状和参数,二项分布的形状决定于n和p的大小。如p=q,二项分布呈对称分布;如pq 为偏斜分布。,1、二项分布的形状B(n,p),(1)当p值较小且n不大时,分布是偏倚的。随n的增大,分布趋于对称;,(2)当p值趋于0.5时,分布趋于对称。,2、二项总体的参数,对于一个给定的
14、二项分布,n和p是常数。二项总体的平均数、方差和标准差的计算公式如下:,在n较大,np、nq较接近时,二项分布接近于正态分布;当n时,二项分布的极限分布是正态分布。,三、泊松分布,二项总体中稀有事件的概率分布不呈二项分布,而是遵从另一种理论分布泊松分布(poisson distribution),1、统计定义 若变量x服从二项分布,当P很小,n且np=m为一常数时,该二项分布的极限为普阿松分布。,2、概率函数,其中m=np,e=2.71828普阿松分布的平均数和方差都等于常数m,即:,3.泊松分布的概率计算【例3.9】田间分区调查“岱字棉”的纯度,每区一亩,调查了310个区,共发现杂株341株
15、,试求变量x的概率分布。首先求平均数=341/310=1.1株,即每区(亩)出现杂株为1.1株,这在种植密度上千株的一亩棉田里,是一个很小的数,因此可以认为不纯株出现的概率分布服从普阿松分布。,P(x=0)=e-1.1=0.3329 P(x=1)=1.1e-1.1=0.3662 P(x=2)=1.12/2e-1.1=0.2014 P(x=3)=1.13/6e-1.1=0.0738 P(x=4)=1.14/24e-1.1=0.0203 P(x=5)=1.15/120e-1.1=0.0045 P(x=6)=1.16/720e-1.1=0.0008 P(x7)=1-60f(x)=1-0.9999=0
16、.0001,泊松分布是一个偏斜分布,但随着m的增大,分布渐趋对称,接近正态分布。通常当m大于50时,可用正态分布来处理普阿松分布的问题。,第四节 抽样分布,统计学:1、总体 样本 抽样分布 2、样本 总体 统计推断,一、抽样分布试验,复置抽样不复置抽样,总 体,.,样本1,样本2,样本n,例如,设有一个N=4的有限总体,其变量值为2、3、3、4。,总体的平均数、方差和标准差,当以样本容量n=2进行独立抽样,抽取的所有可能样本数,其平均数、方差和标准差如下表。,样本观察值x,2222333333334444,2,3,4,3,2,3,3,4,2,3,3,4,x,4556566756676778,2
17、,3,3,4,2.02.52.53.02.53.03.03.52.53.03.03.53.03.53.54.0,0.00.50.52.00.50.00.00.50.50.00.00.52.00.50.50.0,0.000.250.251.000.250.000.000.250.250.000.000.251.000.250.250.00,s,0.0000.7070.7071.4140.7070.0000.0000.7070.7070.0000.0000.7071.4140.7070.7070.000,96 48 8.0 4.0 8.484,以自由度(n-1)作分母计算的样本方差 之均数:,以样
18、本容量n作分母计算的样本方差 之均数:,样本标准差S之均数:,各样本均数总和之均数:,如果所有可能样本的某一统计数的平均数等于该总体的相应参数,则称该统计数为总体参数的无偏估计值(unbiased estimate)。,是 的无偏估计值;,是 的无偏估计值;,以n为分母得到的样本方差 不是 的 无偏估计值;,S不是 的无偏估计值;,因此,为了得到 的无偏估计值,估算样本方差时,必须以自由度df=n-1而不用n做分母。,抽样结论,二、样本平均数的分布,按上述抽样方法,再以n=4,从上述有限总体2,3,3,4中抽出全部所有样本,同样可以计算出所有样本的平均数、方差和标准差。,各种不同样本容量的样本
19、平均数 的抽样分布,n=1,234,f,121,n=2,f,2.02.53.03.54.0,14641,n=4,f,2.002.252.502.753.003.253.503.754.00,18285670562881,各种不同样本容量 的分布图,f,2 3 4,210,f,f,2 3 4,6543210,2 3 4,70605040302010 0,n=1;2=1/2,n=2;2=1/4,n=4;2=1/8,从上述的表和图来看,从总体抽出的全部所有样本的平均数,当n增大时,其方柱形图逐渐趋向于正态分布曲线形状,说明样本平均数是做正态分布的。,样本平均数分布的平均数、标准差 与其原总体平均数、
20、标准差 的关系为:,根据次数表,n=2抽样的样本平均数为:,样本平均数的方差为:,当n=4时,同理可得:,称为样本平均数的标准差,简称标准误(standard error),度量平均数抽样误差的大小。,从正态总体抽出的样本,无论样本容量的大小,其样本平均数 的抽样分布必做成正态分布,具有平均数 和方差,而且方差随样本容量的增大而降低。平均数的分布一般记为:。,如果总体不是正态分布,但如具有一定量的 2和平均数,那么,当样本容量足够大时,从这一总体抽出的样本平均数的抽样分布也必趋于近正态分布,具有平均数 和方差,这称为中心极限定理。,随着样本容量的增加,分布的集中程度增加了,说明方差减少了。,-
21、3-2-1+1+2+3,n=9,n=4,n=1,f,(二)样本平均数差数的抽样分布,设有两个总体:,抽k个样本容量为n1,抽m个样本容量为n2,抽样试验表明:,表3.6 抽样平均数次数分布表 f1 f22.0 1 1.0 12.5 4 1.5 23.0 6 2.0 33.5 4 2.5 24.0 1 3.0 1 16 9,表3.7 样本平均数差数(d)的分布及其平均数与方差计算 f f-1.0 1-1.0 4.00 4.0-0.5 6-3.0 2.25 13.5 0.0 17 0.0 1.00 17.0 0.5 30 15 0.25 7.5 1.0 36 36 0.00 0.0 1.5 30
22、45 0.25 7.5 2.0 17 34 1.00 17.0 2.5 6 15 2.25 13.5 3.0 1 3.0 4.00 4.0 144 144 15.00 84.0,样本平均数差数的平均数必等于两个总体平均数的差数:,若 x1 和x2所在总体呈正态分布,其平均数分别为 1 和2,方差分别为12 和2 2,不论样本容量大小,则两样本平均数的差数呈正态分布,具有平均数d 和方差d2。,样本平均数差数的方差必等于两个总体平均数方差的总和:,三 二项总体的抽样分布,(一)二项总体的分布参数 为了说明二项(0,1)总体的抽样分布特征,以总体内包含5个个体为例,每一个体,y=0或y=1。若总体
23、的变量为:0,1,0,1,1,则总体平均数和方差为:=(0+1+0+1+1)/5=3/5=0.6 2=(0-0.6)2+(1-0.6)2+(0-0.6)2+(1-0.6)2+(1-0.6)2/5=0.24=0.241/2=0.49二项总体的平均数为=p方差为 2=p(1-p)=pq标准差为其中p为二项总体中要研究的属性事件发生的概率,q=1-p。,(二)样本平均数(成数)的抽样分布,从二项总体进行抽样得到样本,样本平均数(成数)的分布为二项式分布。样本平均数抽样分布的参数为:平均数 x=p 方 差 2x=p(1-p)/n=pq/n 标准误 x=(pq/n)1/2 样本观察值中有“0”和“1”两
24、种观察值,将样本观察值总加起来后除以样本容量(n)得到的平均数实际上就是“1”所占的比例数,即成数,或百分数。,(三)样本总和数(次数)的抽样分布,从二项总体进行抽样得到样本,样本总和数(次数)的分布为二项分布。样本总和数的抽样分布参数为:平均数 x=np 方 差 2x=npq=np(1-p)标准误 x=(npq)1/2=np(1-p)1/2,例 棉田盲椿象危害棉株分为受害株与未受害株。假定调查2000株作为一个总体,受害株为704株。计算出受害率p=35.2%,=47.76%。现从这一总体抽样,以株为单位,用简单随机抽样方法,调查200株棉株,获得74株受害。观察受害率(就是成数,或者说是样
25、本平均数)py=74/200=37.0%,试问样本平均数与总体真值的差数的概率为多少?,总体真值p=0.352,差数=px-p=0.370-0.352=0.018 成数的标准差x=(pq/n)1/2=0.034二项式分布中当n大时计算比较繁复,但由于二项分布在np及np大于5时,趋近于正态分布,本例样本较大可看为正态分布,采用正态离差u查出概率。u=(px-p)/x=0.018/0.034=0.53查附表3,当u=0.53,概率值为0.59,即获得这种|py-p|的概率(两尾概率)为0.59这就说明样本估计的受害率为37.0%有代表性(可以近似代表总体的受害率)。,如果以次数资料(或称为“样本总和数资料”)表示也可得到同样效果。总体调查2000株受害株有704株,调查200株的理论次数应为npx=2000.352=70.4株现观察受害株为74株(总和数),差数=(npx-np)=70.4-74=-3.6株u=(npx-np)/(npq)1/2=-3.6/6.754=0.53查附表3,获得这种差数的概率为0.59。,
链接地址:https://www.31ppt.com/p-5795143.html