《第四理论分布和抽样分布.ppt》由会员分享,可在线阅读,更多相关《第四理论分布和抽样分布.ppt(107页珍藏版)》请在三一办公上搜索。
1、,第四章 理论分布和抽样分布,第一节 事件、概率和随机变量第二节 二项式分布第三节 正态分布第四节 抽样分布,第一节 事件、概率和随机变量,一、事件和事件发生的概率二、事件间的关系三、计算事件概率的法则四、随机变量,一、事件和事件发生的概率,事件-在自然界中一种事物,常存在几种可能出现的情况,每一种可能出现的情况称为事件。随机事件(random event)-某特定事件只是可能发生的几种事件中的一种,这种事件称为随机事件。概率(probability)-每一个事件出现的可能性称为该事件的概率。必然事件-对于一类事件来说,在同一组条件的实现之下必然要发生的,称为必然事件;其概率为1。不可能事件-
2、对于一类事件来说,在同一组条件的实现之下必然不发生的,称为不可能事件,其概率为0。,事件发生的可能性(概率)是在大量的实验中观察得到的,例如棉田发生盲蝽象为害的情况,并不是所有的棉株都受害,随着观察的次数增多,我们对棉株受害可能性程度大小的把握越准确、越稳定。这里将一个调查结果列于表4.1。,表4.1 在相同条件下盲蝽象在某棉田危害程度的调查结果,由表4.1可以看到:调查5株时,有2株受害,受害株的频率为40%,调查25株时受害频率为48%,调查100株时受害频率为33%。可以看出三次调查结果有差异,说明受害频率有波动、不稳定。而当进一步扩大调查的单株数时,发现频率比较稳定了,调查500株到2
3、000株的结果是受害棉株稳定在35%左右。现以n代表调查株数,以a代表受害株数,那么可以计算出受害频率p=a/n。从棉株受害情况调查结果看,频率在n取不同的值时,尽管调查田块是相同的,频率p却不同,只有在n很大时频率才比较稳定一致。因而,调查株数n较多时的稳定频率才能较好地代表棉株受害的可能性。,统计学上用n较大时稳定的p近似代表概率。通过大量实验而估计的概率称为实验概率或统计概率,以表示。此处P代表概率,P(A)代表事件A的概率,P(A)变化的范围为01,即0P(A)1。,小概率原理-若事件A发生的概率较小,如小于0.05或0.01,则认为事件A在一次试验中不太可能发生,这称为小概率事件实际
4、不可能性原理,简称小概率原理。这里的0.05或0.01称为小概率标准,农业试验研究中通常使用这两个小概率标准。,二、事件间的关系,(一)和事件(二)积事件(三)互斥事件(四)对立事件(五)完全事件系(六)事件的独立性,(一)和事件,事件A和B至少有一个发生而构成的新事件称为事件A和B的和事件,记为A+B,读作“或A发生,或B发生”。例如,有一批种子,包含有能发芽的和不能发芽的。若A为“取到能发芽种子”,B为“取到不能发芽种子”,则A+B为“或者取到能发芽种子或者取到不能发芽种子”。事件间的和事件可以推广到多个事件:事件A1、A2、An至少有一发生而构成的新事件称为事件A1、A2、An的和事件,
5、记为A1+A2+An=,(二)积事件,事件A和B同时发生所构成的新事件称为事件A和B的积事件,记作AB,读作“A和B同时发生或相继发生”。事件间的积事件也可以推广到多个事件:事件A1、A2、An同时发生所构成的新事件称为这n个事件的积事件,记作A1A2An=,(三)互斥事件,事件A和B不可能同时发生,即AB为不可能事件,记作AB=V,称事件A和B互斥或互不相容。例如,有一袋种子,按种皮分黄色和白色。若记A为“取到黄色”,B为“取到白色”,显然A和B不可能同时发生,即一粒种子不可能既为黄色又为白色,说明事件A和B互斥。这一定义也可以推广到n个事件。事件A1、A2、An不可能同时发生所构成的新事件
6、称为这n个事件互斥或互不相容,记作A1A2An=V。,(四)对立事件,事件A和B不可能同时发生,但必发生其一,即A+B为必然事件(记为A+B=U),AB为不可能事件(记为AB=V),则称事件B为事件A的对立事件,并记B为。例如,上面例子中A为“取到黄色”,B为“取到白色”,A与B不可能同时发生,但是,任意抽取一粒种子,其皮色不是黄色就是白色,即A和B必发生其一,因此,A和B互为对立事件。,积事件AB,和事件A+B,A,B,A,B,互斥事件,对立事件,A,B,(五)完全事件系,若事件A1、A2、An两两互斥,且每次试验结果必发生其一,则称A1、A2、An为完全事件系。例如,仅有三类花色:黄色、白
7、色和红色,则取一朵花,“取到黄色”、“取到白色”和“取到红色”就构成完全事件系。,(六)事件的独立性,若事件A发生与否不影响事件B发生的可能性,则称事件A和事件B相互独立。例如,事件A为“花的颜色为黄色”,事件B为“产量高”,显然如果花的颜色与产量无关,则事件A与事件B相互独立。,三、计算事件概率的法则,(一)互斥事件的加法(二)独立事件的乘法(三)对立事件的概率(四)完全事件系的概率(五)非独立事件的乘法,(一)互斥事件的加法,假定两互斥事件A和B的概率分别为P(A)和P(B)。则事件A与B的和事件的概率等于事件A的概率与事件B的概率之和,即P(A+B)=P(A)+P(B)。加法定理对于多个
8、两两互斥的事件也成立:假定A1、A2、An n个事件彼此间均是两两互斥的事件,其概率依次为P(A1),P(A2),P(An),则A1,A2到An和事件的概率P(A1+A2+An)等于P(A1),P(A2),P(An)之和,即P(A1+A2+An)=P(A1)+P(A2)+P(An)。,例如,一捆花中红、黄、白花的概率分别为0.2、0.3、0.5,那么我们随机抽取一朵非白色花的概率为0.5(=0.2+0.3),这只是由加法定理得到的两个事件概率之和。,(二)独立事件的乘法,假定P(A)和P(B)是两个独立事件A与B各自出现的概率,则事件A与B同时出现的概率等于两独立事件出现概率P(A)与P(B)
9、的乘积,即P(AB)=P(A)P(B)乘法定理对于n个相互独立的事件也成立。假定P(A1),P(A2),P(An)是n个相互独立事件各自出现的概率,则该n个事件同时出现的概率P(A1A2An)等于各自出现概率之乘积,即P(A1A2An)=P(A1)P(A2)P(An)。,现有4粒种子,其中3粒为黄色、1粒为白色,采用复置抽样。试求下列两事件的概率:(A)第一次抽到黄色、第二次抽到白色;(B)两次都抽到黄色。由于采用复置抽样(即每一次抽出观察结果后又放回再进行下一次抽样),所以第一次和第二次的抽样结果间是相互独立的。,采用概率的古典定义,可以求出抽到黄色种子的概率为0.75,抽到白色种子的概率为
10、0.25。因此,有,P(A)=P(第一次抽到黄色种子)P(第二次抽到白色种子)=0.250.75=0.1875,P(B)=P(第一次黄色种子)P(第二次黄色种子)=0.750.75=0.5625。,(三)对立事件的概率,若事件A的概率为P(A),那么其对立事件的概率为:,(四)完全事件系的概率,完全事件系的概率为1。,例如“从10个数字中随机抽得任何一个数字都可以”这样一个事件是完全事件系,其概率为1。,(五)非独立事件的乘法,如果事件A和B是非独立的,那么事件A与B同时发生的概率为事件A的概率P(A)乘以事件A发生的情况下事件B发生的概率P(B|A),即:P(AB)=P(A)P(B|A),四
11、、随机变量,随机变量是指随机变数所取的某一个实数值。,例1:抛硬币试验,硬币落地后只有两种可能结果:币值面向上和国徽面向上,用数“1”表示“币值面向上”,用数“0”表示“国徽面向上”。把0,1作为变量y的取值。在讨论试验结果时,就可以简单地把抛硬币试验用取值为0,1的变量来表示。P(y=1)=0.5,P(y=0)=0.5,例2:用“1”表示“能发芽种子”,其概率为p;用“0”表示“不能发芽种子”,其概率为q。显然 p+q=1,则 P(y=1)=p,P(y=0)=q=1p。,例3:用变量y表示水稻产量,若y大于500kg的概率为0.25,大于300kg且等于小于500kg的概率为0.65,等于小
12、于300kg的概率为0.1。则用变量y的取值范围来表示的试验结果为 P(y300)=0.10,P(300y500)=0.65,P(y500)=0.25。,离散型随机变量-当试验只有几个确定的结果,并可一一列出,变量y的取值可用实数表示,且y取某一值时,其概率是确定的,这种类型的变量称为离散型随机变量。将这种变量的所有可能取值及其对应概率一一列出所形成的分布称为离散型随机变量的概率分布:,概率,也可用函数f(y)表述,称为概率函数。,前面例1、例2中的y就是离散型随机变量,将其可能取值与对应概率一一列出,即为:,连续型随机变量(continuous random variate)-对于随机变量,
13、若存在非负可积函数f(y)(y),对任意a和b(ab)都有P(ayb)=,则称y为连续型随机变量(continuous random variate),f(y)称为y的概率密度函数(probability density function)或分布密度(distribution density)。,上述例3中的y就是一个连续型随机变量。,第二节 二项式分布,一、二项总体及二项式分布二、二项式分布的概率计算方法三、二项式分布的形状和参数四、多项式分布,一、二项总体及二项式分布,所谓二项总体(binary population),就是非此即彼的两项构成的总体 例如:小麦种子发芽和不发芽,大豆子叶色为
14、黄色和青色,调查棉田盲蝽象为害分为受害株和不受害株等等。通常将二项总体中的“此”事件以变量“1”表示,具概率p;将“彼”事件以变量“0”表示,具概率q。因而二项总体又称为0、1总体,其概率则显然有:p+q=1或q=1p,如果从二项总体进行n次重复抽样,设出现“此”的次数为y,那么y的取值可能为0、1、2、n,共有n+1种可能取值,这n+1种取值各有其概率,因而由变量y及其概率就构成了一个分布,这个分布叫做二项式概率分布,简称二项式分布或二项分布(binomial distribution)。,二项总体的抽样试验具有重复性和独立性 重复性是指每次试验条件不变,即在每次试验中“此”事件出现的概率皆
15、为p 独立性是指任何一次试验中“此”事件的出现与其余各次试验中出现何种结果无关,二、二项式分布的概率计算方法,例:在由具有一对基因差异的亲本杂交形成的F2代群体中,出现黄色子叶的概率为0.75,出现青色子叶的概率为0.25,这是二项总体的概率分布。如果从这种总体抽取3(n)粒,那么得到1(y)粒是黄子叶的概率是多少呢?,抽取三粒种子(以Y代黄子叶,以G代青子叶),即n=3,有两粒黄子叶种子,即y=2,这时有3种不同组合:GGY,GYG,YGG。出现第一粒,第二粒和第三粒种子是互不影响的,因此这三个事件是独立事件,由乘法法则可得:,由于这三个事件都是相互互斥的,所以出现两粒黄子叶种子(y=2)的
16、概率为这三种概率之和:,上述结果也可以表示为:,即复合事件的概率必等于该事件出现的组合数目乘以单个事件的概率;而这一复合事件的可能组合数目则相当于从n(3)个物体中任取其y(2)个物体的组合数。数学上的组合公式为:,二项式中包含两项,这两项的概率为p、q,并且p+q=1,可推知变量y的概率函数为:,累积函数F(y):变量小于等于y的所有可能取值的概率之和,理论次数:对于任意y,理论次数=nP(y),这一分布律也称贝努里(Bernoulli)分布,并有,的泰勒展开式为:,可以看到,上式右边的每一项即为二项分布中变量y 取0、1、2、n时的概率,又p+q=1,从而(p+q)n=1,例4.1 棉田盲
17、蝽象为害的统计概率乃从调查2000株后获得近似值p=0.35。现受害株事件为A,其概率为p=0.35,未受害株事件为对立事件,其概率q=(10.35)=0.65。这一试验是可以重复的。假定做了n次试验,即抽出n株为一个抽样单位,那么,试问出现有y株是受害的,其概率应有多少?,假定以n=1,即抽出一株为一个抽样单位,这里已知P(A)=0.35和P()=0.65,总体的理论次数分布则以n乘上述概率分布,即np和n(1p),所以有20000.35=700株受害和20000.65=1300株未受害。,如调查5株为一个抽样单位,即n=5,则受害株数y=0,1,2,3,4和5的概率可以计算出来,如表4.2
18、。棉株受害数乃一随机变数(y),可以计算变量y相应的概率函数,如果每次抽5个单株,抽n=400次,则理论上我们能够得到y=2的次数应为:理论次数=400P(2)=4000.3364=134.56(次),图4.1和图4.2给出了概率函数图和累积概率函数图,和其累计函数,表4.2 调查单位为5株的概率分布表(p=0.35,q=0.65),受害株数(y)受害株数(y),图4.1 棉株受盲蝽象为害的概率分布图(p=0.35,n=5),图4.2 棉株受盲蝽象为害的累积概率函数F(y)图(p=0.35,n=5),例4.2 某种昆虫在某地区的死亡率为40%,即p=0.4,现对这种害虫用一种新药进行治疗试验,
19、每次抽样10头作为一组治疗。试问如新药无疗效,则在10头中死3头、2头、1头,以及全部愈好的概率为多少?,按上述二项分布概率函数式计算,7头愈好,3头死去概率:8头愈好,2头死去概率:9头愈好,1头死去概率:10头全部愈好的概率:,若问10头中不超过2头死去的概率为多少?则应该应用累积函数,即,三、二项式分布的形状和参数,图4.3为上述棉株受害概率如p=1/2时的概率分布图。从图4.1和4.3可看出,如p=q,二项式分布呈对称形状,如pq,则表现偏斜形状。,受害株数(y),受害株数(y),图4.1 棉株受盲蝽象为害的概率分布图(p=0.35,n=5),二项式分布的参数,仍以上述棉株受害为例,抽
20、取5株中受害株数的多少(y)作为统计指标的话,从总体中可以抽取的所有样本均有一个y,这样所有的y构成了一个新总体,该总体也属于二项式总体,其平均数、方差和标准差如下式,从而,上述棉田受害率调查结果,n=5,p=0.35,可求得总体参数为:=50.35=1.75株,株。,四、多项式分布,所谓多项总体,是指将变数资料分为3类或多类的总体。,例如在给某一人群使用一种新药,可能有的疗效好,有的没有疗效,而另有疗效为副作用的,就是三项分布。,多项总体的随机变量的概率分布即为多项式分布(multinomial distribution)。,设总体中共包含有k项事件,它们的概率分别为p1、p2、p3、pk,
21、显然p1+p2+p3+pk=1。若从这种总体随机抽取n个个体,那么可能得到这k项的个数分别为y1、y2、y3、yk,显然y1+y2+y3+yk=n。那么得到这样一个事件的概率为:,多项分布的概率计算,例4.3 某药对病人有效的概率为1/2,对病人无效的概率为1/3,有副作用的概率为1/6,若随机抽取2个使用该药的病人,那么我们的结果可能包括这样几种事件:2个病人有副作用;一个无效、一个有副作用;两个无效;一个有效、一个有副作用;一个有效、一个无效;两个均有效。这几种事件的概率分别为多少呢?可以使用上述的概率分布公式来计算,如表4.3。,表4.3 多项式分布的概率计算,五、泊松分布二项分布的一种
22、极限分布,二项分布中往往会遇到一个概率p或q是很小的值,例如小于0.1,另一方面n又相当大,这样的二项分布必将为另一种分布所接近,或者为一种极限分布。这一种分布称泊松概率分布,简称泊松分布(Poisson distribution)。,令np=m,则泊松分布如下式:,y=0,1,2,,e=2.71828为自然对数的底数。,凡在观察次数n相当大时,某一事件出现的平均次数m(m是一个定值)很小,那么,这一事件出现的次数将符合泊松分布。,泊松分布的平均数、方差 和标准差 如下式:,这一分布包括一个参数m,由m的大小决定其分布形状如图4.4。当m值小时分布呈很偏斜形状,m增大后则逐渐对称。,例4.4
23、1907年Student氏进行以血球计计数酵母细胞精确度试验。如这种计数技术是有效地合适,则在每一平方格的细胞数目理论上应作为一个泊松分布。,表4.4是从1mm2分为400个平方格的结果。总共计数的细胞数为1872个,因之平均数m=1782/400=4.68。理论次数须从泊松分布的概率计算,即从(p+q)n的极限为:,其中y=0,1,2,3,,是 的泰勒展开式,(48),表4.4 血球计所计数的每平方格内酵母细胞数,本例m=4.68,em=(2.71828)4.68=0.009275,0.009275400=3.71.3.71是理论次数第一项,其他各理论次数均可按(48)计算。概率值乘以400
24、得理论次数。本例标准差估计值为,第三节 正态分布,一、二项分布的极限正态分布二、正态分布曲线的特性三、计算正态分布曲线区间面积或概率的方法,一、二项分布的极限正态分布,以上述二项分布棉株受害率为例,假定受害概率p=1/2,那么,p=q=1/2。现假定每个抽样单位包括20株,这样将有21个组,其受害株的概率函数为,于是概率分布计算如下:,现将这概率分布绘于图4.5。从图4.5看出它是对称的,分布的平均数 和方差 为:,=npq=20(1/2)(1/2)=5(株)2。,=np=20(1/2)=10(株),,如p=q,不论n值大或小,二项分布的多边形图必形成对称;如pq,而n很大时,这多边形仍趋对称
25、。,倘n或组数增加到无穷多时(n),多边形的折线就表现为一个光滑曲线。这个光滑曲线在数学上的意义是一个二项分布的极限曲线,属于连续性变数分布曲线,一般称之为正态分布曲线或正态概率密度曲线。可以推导出正态分布的概率密度函数为:,(49),其中,y是所研究的变数;是概率密度函数;,和 为总体参数,表示所研究总体平均数,表示所研究总体标准差,不同正态分布可以有不同的 和,但某一定总体的 和 是常数。,参数 和 有如下的数学表述,(410),令 可将(49)式标准化为:,(411),上式称为标准化正态分布方程,它是参数 时的正态分布(图4.7)。记作N(0,1)。,正态分布的曲线图,-3-2-1 0
26、1 2 3,图4.6 正态分布曲线图(平均数为,标准差为),图4.7 标准正态分布曲线图(平均数 为0,标准差 为1),二、正态分布曲线的特性,1.正态分布曲线是以y=为对称轴,向左右两侧作对称分布,所以它是一个对称曲线。从所竖立的纵轴f(y=)是最大值,所以正态分布曲线的算术平均数、中数和众数是相等的,三者均合一位于点 上。2.正态分布曲线以参数 和 的不同而表现为一系列曲线,所以它是一个曲线簇而不仅是一个曲线。确定它在横轴上的位置,而 确定它的变异度,不同 和 的正态总体具有不同的曲线和变异度,所以任何一个特定正态曲线必须在其 和 确定后才能确定。图4.8 和4.9表示这个区别。,图4.8
27、 标准差相同(1)而平均数不同(=0、=1、=2)的三个正态分布曲线,图4.9 平均数相同(0)而标准差不同(=1、=1.5、=2)的三个正态分布曲线,3.正态分布资料的次数分布表现为多数次数集中于算术平均数 附近,离平均数越远,其相应的次数越少;且在 左右相等|范围内具有相等次数;在|3 以上其次数极少。4.正态曲线在|=1 处有“拐点”。曲线两尾向左右伸展,永不接触横轴,所以当y,分布曲线以y轴为渐近线,因之曲线全距从到+。5.正态曲线与横轴之间的总面积等于1,因此在曲线下横轴的任何定值,例如从y=y1到y=y2之间的面积,等于介于这两个定值间面积占总面积的成数,或者说等于y落于这个区间内
28、的概率。,正态曲线的任何两个y定值ya与yb之间的面积或概率乃完全以曲线的 和 而确定的。详细数值见附表2,下面为几对常见的区间与其相对应的面积或概率的数字:,区间 1 面积或概率=0.6827 2=0.9545 3=0.9973 1.960=0.9500 2.576=0.9900,例如,上章水稻140行产量资料的样本分布表现出接近正态分布,其平均数()、标准差(s)以及离均差为1、2和3个标准差的区间所包括的次数列于表4.5。实验的结果与正态分布的理论结果很相近。,表4.5 140行水稻产量在 1s,2s,3s范围内所包括的次数表,三、计算正态分布曲线区间面积或概率的方法,在正态分布曲线下,
29、y的定值从y=a到y=b间的概率可用曲线下区间的面积来表示,或者说,用其定积分的值表示,如图4.10所示的面积。,(413),同样可以计算曲线下从到y的面积,其公式如下:,(414),这里FN(y)称为正态分布的累积函数,具有平均数 和标准差。,A=P(ayb),fN(y),图4.10正态分布密度函数的积分说明图面积A=P(ayb),现如给予变数任何一定值,例如a,那么,可以计算ya的概率为FN(a),即,(415),如果a与b(ab)是y的两个定值,则其区间概率可从下式计算:,(416),当y=,当y=+,,正态分布的密度函数 fN(y)是按y值将累积函数FN(y)求其导数得之。,图4.11
30、 正态分布的累积函数FN(y)长度A=P(ayb),例4.4 假定y是一随机变数具有正态分布,平均数=30,标准差=5,试计算小于26,小于40的概率,介乎26和40区间的概率以及大于40的概率。,所有正态分布都可以转换为标准化正态分布方程式,首先计算:,先将y转换为u值,然后查表计算概率。,同理可得:FN(40)=0.9773,所以:P(26y40)=FN(40)FN(26)=0.97730.2119=0.7654,P(y40)=1P(y40)=10.9773=0.0227,查附表2,当u=0.8时,FN(26)=0.2119,说明这一分布从到26范围内的变量数占全部变量数的21.19%,或
31、者说,y26概率为0.2119.,例4.5 在应用正态分布时,经常要讨论随机变数y离其平均数的差数大于或小于若干个值的概率。例如计算离均差绝对值等于小于和等于大于1 的概率为:,也可以简写为,相应地,离均差绝对值等于小于2、等于大于2、等于小于3 和等于大于3 的概率值为:,以上结果解释了正态分布曲线的概率特性,可参考图4.13。,图4.13 离均差的绝对值1,2 和1.96 的概率值,例4.6 计算正态分布曲线的中间概率为0.99时,其y或u值应等于多少?,因为正态分布是对称的,故在曲线左边从到 u的概率和在曲线右边从u到的概率都应等于1/2(10.99)=0.005。查表,u=2.58时,
32、fN(y)=0.004940.005。于是知,当 2.58时,在其范围内包括99%的变量,仅有1%变量在此范围之外。上述结果写作:,同理可求得:,以上 乃正态曲线下左边一尾y从到 上的面积和右边一尾y从 到上的面积之和,亦可写成:,同理,亦可写成:,以上两式等号右侧的前一项为左尾概率,后一项为右尾概率,其和概率称为两尾概率值。在附表列出了两尾概率取某一值时的临界u值(正态离差u值),可供直接查用。例如,可查得P=0.01时u=2.5758,P=0.05时u=1.9599,即表示:P(|u|2.5758)=0.01,P(|u|1.9599)=0.05如果仅计算一尾,则为一尾概率值。例如计算 P(
33、u1.6448)=P(|u|1.6448)=(0.1)=0.05这个0.05称为y值大于 的一尾概率值。,当概率一定时,两尾概率的|u|总是大于一尾概率|u|。,第四节 抽样分布,统计学的一个主要任务是研究总体和样本之间的关系。,两个方向,从总体到样本的方向,即本节所要讨论的抽样分布。,从样本到总体的方向,即统计推断问题。,抽样分布(sampling distribution)是统计推断的基础。,一、统计数的抽样及其分布参数二、正态总体的抽样分布三、二项总体的抽样分布,一、统计数的抽样及其分布参数,从总体中随机抽样得到样本,获得样本观察值后可以计算一些统计数,统计数分布称为抽样分布。,抽样,复
34、置抽样,指将抽得的个体放回总体后再继续抽样,不复置抽样,指将抽得的个体不放回总体而继续进行抽样,(一)样本平均数的抽样及其分布参数,总体,随机样本1 2 3 无穷个样本,图4.14 总体和样本的关系,如图4.14从一个总体进行随机抽样可以得到许多样本,如果总体是无限总体,那么可以得到无限多个随机样本。,如果从容量为N的有限总体抽样,若每次抽取容量为n的样本,那么一共可以得到 个样本(所有可能的样本个数)。抽样所得到的每一个样本可以计算一个平均数,全部可能的样本都被抽取后可以得到许多平均数,如 等。如果将抽样所得到的所有可能的样本平均数集合起来便构成一个新的总体,平均数就成为这个新总体的变量。由
35、平均数构成的新总体的分布,称为平均数的抽样分布。随机样本的任何一种统计数都可以是一个变量,这种变量的分布称为统计数的抽样分布。,除平均数抽样分布外还有总和数、方差的抽样分布等。,新总体与母总体在特征参数上存在函数关系。以平均数抽样分布为例,这种关系可表示为以下两个方面。,(1)该抽样分布的平均数 与母总体的平均数相等。,(417),(2)该抽样分布的方差与母总体方差间存在如下关系:,(418),其中n为样本容量。抽样分布的标准差又称为标准误,它可以度量抽样分布的变异。,例4.7 设有一总体N=3(例2,4,6)。以样本容量n=1、n=2、n=4及n=8,从总体中进行复置抽样,抽出全部样本于表4
36、.6。表4.6中列出这些不同样本容量的 抽样分布,并在图4.15用方柱形图表示其分布形状。由表中第一列当N=3,n=1的总体平均数和方差为:,当样本容量依次为2、4、8时,其 相应为4、4、4;其 相应为4/3、2/3、1/3。即,。,表4.6 各种不同样本容量的样本平均数()的抽样分布,n=1,n=2,图4.15 各种不同样本容量的 分布方柱形图,图4.15 各种不同样本容量的 分布方柱形图,n=4,n=8,(二)样本总和数的抽样及其分布参数,样本总和数(用 代表)的抽样分布参数与母总体间存在如下关系:(1)该抽样分布的平均数 与母总体的平均数间的关系为:,(419),(2)该抽样分布的方差
37、 与母总体方差间存在如下关系:,(420),(三)两个独立随机样本平均数差数的抽样及其分布参数,如果从一个总体随机地抽取一个样本容量为n1的样本,同时随机独立地从另一个总体抽取一个样本容量为n2的样本,那么可以得到分别属于两个总体的样本,这两个独立随机抽取的样本平均数间差数()的抽样分布参数与两个母总体间存在如下关系:,(1)该抽样分布的平均数与母总体的平均数之差相等。,(2)该抽样分布的方差与母总体方差间的关系为:,(421),(422),例4.8 假定第一个总体包括3个观察值,2、4和6(N1=3,n1=2),所有样本数为Nn=32=9个,总体平均数和方差=4,=8/3。第二个总体包括2个
38、观察值,3和6(N2=2),抽出的样本容量为3(n2=3),所以所有样本数为23=8个,总体平均数和方差=4.5,=2.25。现将上述两个总体 的次数分布列于表4.7,并计算出其分布的参数。,将第一总体的9个样本平均数和第二总体的8个样本平均数作所有可能的相互比较,这样共有98=72个比较或72个差数,这72个差数次数分布列于表4.8和表4.9。,表4.7 从两个总体抽出的样本平均数的次数分布表,表4.8 样本平均数差数的次数分布表,表4.9 样本平均数差数分布的平均数和方差计算表,f,由表4.9可算得,而,这与(421)式计算结果、(422)式计算结果 均相同。,二、正态总体的抽样分布,(一
39、)样本平均数的分布 从正态总体抽取的样本平均数的分布一般为N(,)。,图4.16给出样本容量n=1,4与9时的分布,从图中可以看出随着样本容量的增加,分布的集中程度增加了,说明方差减少了。,由中心极限定理知,只要样本容量适当大,不论总体分布形状如何,其 的分布都可看作为正态分布,且具平均数 和方差。在实际应用上,如n30就可以应用这一定理。,平均数的标准化分布是将上述平均数 转换为u变数。,(423),例4.9 在江苏沛县调查336个m2小地老虎虫危害情况的结果,=4.73头,=2.63,试问样本容量n=30时,由于随机抽样得到样本平均数 等于或小于4.37的概率为多少?,查附表2,P(u0.
40、36)=0.2266,即概率为22.66%(属一尾概率)。因所得概率较大,说明差数0.36是随机误差,从而证明这样本平均数4.37是有代表性的,变异系数为:,(二)两个独立样本平均数差数的分布,假定有两个正态总体各具有平均数和标准差为,和,从第一个总体随机抽取n1个观察值,同时独立地从第二个总体随时机抽取n2个观察值。这样计算出样本平均数和标准差,s1和,s2。,从统计理论可以推导出其样本平均数的差数()的抽样分布,具有以下特性:,(1)如果两个总体各作正态分布,则其样本平均数差数()准确地遵循正态分布律,无论样本容量大或小,都有N(,)。,(2)两个样本平均数差数分布的平均数必等于两个总体平
41、均数的差数,即,(3)两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和,即 其差数标准差为:,(424),这个分布也可标准化,获得u值。,(425),小结:若两个样本抽自于同一正态总体,则其平均数差数的抽样分布不论容量大小亦作正态分布具:,若两个样本抽自于同一总体,但并非正态总体,则其平均数差数的抽样分布按中心极限定理在n1和n2相当大时(大于30)才逐渐接近于正态分布。若两个样本抽自于两个非正态总体,当n1和n2相当大、而 与 相差不太远时,也可近似地应用正态接近方法估计平均数差数出现的概率,当然这种估计的可靠性得依两总体偏离正态的程度和相差大小而转移。,三、二项总体的抽
42、样分布,(一)二项总体的分布参数,其中p为二项总体中要研究的属性事件发生的概率,q=1p。,标准差:,方差:,平均数:,(二)样本平均数(成数)的抽样分布,从二项总体进行抽样得到样本,样本平均数抽样分布的参数为:,平均数:,方差:,标准误:,同样n是样本容量。,(三)样本总和数(次数)的抽样分布,从二项总体进行抽样得到样本,样本总和数的抽样分布参数为:,平均数:,方差:,标准误:,例4.9 棉田盲蝽象为害棉株分为受害株与未受害株。假定调查2000株作为一个总体,受害株为704株。这是一个二项总体,于是计算出受害率p=35.2%,或0.352,=0.4776或47.76%。现从这一总体抽样,以株
43、为单位,用简单随机抽样方法,调查200株棉株,获得74株受害,那么,观察受害率(就是成数,或者说是样本平均数)=37.0%,试问样本平均数与总体真值的差数的概率为多少?,总体真值p=0.352,差数=()=(0.3700.352)=0.018。成数的标准差=0.034或3.4%。,由于二项分布在np及nq大于5时,趋近于正态分布,本例样本较大可看为正态分布,采用正态离差u查出概率。,于是=0.53。,如果以次数资料(或称为“样本总和数资料”)表示也可得到同样结果。总体调查2000株中受害株有704株,调查200株的理论次数应为np=2000.352=70.4株。现观察受害株为74株(总和数),差数=(np)=7470.4=3.6株,=3.6/6.754=0.53,与上相同,获得这种差数的概率为0.59。,查附表3,当u=0.53,概率值为0.59,即获得这种|0.018的概率(两尾概率)为0.59,这就说明样本估计的受害率为37.0有代表性(可以近似代表总体的受害率)。,
链接地址:https://www.31ppt.com/p-5293988.html