第三章 概率与概率分布.ppt
1,概 率,概率分布,与,第三章,2,一、概率的概念,二、概率的计算,三、概率的分布,四、大数定律,3,一、概率基本概念,(一)事件,定义:在一定条件下,某种事物出现与否就称为是事件。自然界和社会生活上发生的现象是各种各样的,常见的有两类。,4,在一定条件下必然出现某种结果或必然不出现某种结果。,确定性事件,必然事件(U)(certain event),不可能事件(V)(impossible event),一、概率基本概念,5,在一定条件下可能发生也可能不发生。,随机事件(random event)不确定事件(indefinite event),一、概率基本概念,为了研究随机现象,需要进行大量重复的调查、实验、测试等,这些统称为试验。,6,一、概率基本概念,随机事件,事 件,7,一、概率基本概念,(二)频率(frequency),若在相同的条件下,进行了n次试验,在这n次试验中,事件A出现的次数m称为事件A出现的频数,比值m/n称为事件A出现的频率(frequency),记为W(A)=m/n。,0W(A)1,8,一、概率基本概念,种子发芽与否是不能事先确定的,但从表中可以看出,试验随着n值的不同,种子发芽率也不相同,当n充分大时,发芽率在0.92附近摆动。,例:,9,一、概率基本概念,频率表明了事件频繁出现的程度,因而其稳定性说明了随机事件发生的可能性大小,是其本身固有的客观属性,提示了隐藏在随机现象中的规律性。,概 率,10,一、概率基本概念,(三)概率(probability,P),概率的统计定义:设在相同的条件下,进行大量重复试验,若事件A的频率稳定地在某一确定值p的附近摆动,则称p为事件A出现的概率。,P(A)=p,统计概率(statistics probability)后验概率(posterior probability),11,统计概率,一、概率基本概念,抛掷一枚硬币发生正面朝上的试验记录实验者 投掷次数 发生正面朝上的次数 频率(m/n)蒲丰 4040 2048 0.5069K 皮尔逊 12000 6019 0.5016K 皮尔逊 24000 12012 0.5005,随着实验次数的增多,正面朝上这个事件发生的频率稳定接近0.5,我们称0.5作为这个事件的概率。,12,一、概率基本概念,(三)概率(probability,P),P(A)=p=lim,在一般情况下,随机事件的概率P是不可能准确得到的。通常以试验次数n充分大时,随机事件A的频率作为该随机事件概率的近似值。,mn,mn,13,概率的古典定义,一、概率基本概念,对于某些随机事件,不用进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。,随机事件,(1)试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个;,(2)各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的;,(3)试验的所有可能结果两两互不相容。,14,概率的古典定义,一、概率基本概念,具有上述特征的随机试验,称为古典概型(classical model).,设样本空间有n个等可能的基本事件所构成,其中事件A包含有m个基本事件,则事件A的概率为m/n,即P(A)=m/n。,古典概率(classical probability)先验概率(prior probability),15,一、概率基本概念,1,2,3,4,5,6,7,8,9,10,随机抽取一个球,求下列事件的概率;(1)事件A抽得一个编号 4(2)事件B=抽得一个编号是2的倍数,该试验样本空间由10个等可能的基本事件构成,即n=10,而事件A所包含的基本事件有3个,即抽得编号为1、2、3中的任何一个,事件A便发生。,P(A)=3/10=0.3,P(B)=5/10=0.5,16,一、概率基本概念,1,2,3,4,5,6,7,8,9,10,A“一次取一个球,取得红球的概率”,10个球中取一个球,其可能结果有10个基本事件(即每个球被取到的可能性是相等的),即n=10,事件A:取得红球,则A事件包含3个基本事件,即m=3,P(A)=3/10=0.3,17,一、概率基本概念,1,2,3,4,5,6,7,8,9,10,B“一次取5个球,其中有2个红球的概率”,10个球中任意取5个,其可能结果有C105个基本事件,即n=C105,事件B=5个球中有2个红球,则B包含的基本事件数m=C32 C73,P(B)=C32 C73/C105=0.417,18,【例】在N头奶牛中,有M头曾有病史,从这群奶牛中任意抽出n头奶牛,试求:(1)其中恰有m头有病史奶牛的概率是多少?(2)若N=30,M=8,n=10,m=2,其概率是多少?,19,我们把从有M头奶牛曾有病史的N头奶牛中任意抽出n头奶牛,其中恰有m头有病史这一事件记为A,因为 从 N 头 奶 牛 中 任 意 抽 出 n 头 奶牛的基本事件总数为;事件A所包含的基本事件数为;因此所求事件A的概率为:,20,将N=30,M=8,n=10,m=2代入上式,得=0.0695 即在30头奶牛中有8头曾有病史,从这群奶牛随机抽出 10 头奶牛其中有2头曾有病史的概率为6.95%。,21,一、概率基本概念,0P(A)1,任何事件,P(U)=1,必然事件,P(V)0,不可能事件,0P(A)1,随机事件,概率的基本性质,22,概率的计算,第二部分,23,二、概率的计算,(一)事件的相互关系,和事件,积事件,互斥事件,对立事件,独立事件,完全事件系,24,二、概率的计算,1,和事件,事件A和事件B中至少有一个发生而构成的新事件称为事件A和事件B的和事件,记作A+B。,n个事件的和,可表示为A1+A2+An,25,二、概率的计算,2,积事件,事件A和事件B中同时发生而构成的新事件称为事件A和事件B的积事件,记作AB。,n个事件的积,可表示为A1 A2 An,26,二、概率的计算,3,互斥事件(互不相容事件),事件A和事件B不能同时发生,则称这两个事件A和B互不相容或互斥。,n个事件两两互不相容,则称这n个事件互斥。,27,二、概率的计算,4,对立事件,事件A和事件B必有一个发生,但二者不能同时发生,且A和B的和事件组成整个样本空间。即A+B=U,AB=V。我们称事件B为事件A的对立事件。,28,二、概率的计算,5,独立事件,事件A和事件B的发生无关,事件B的发生与事件A的发生无关,则事件A和事件B为独立事件。,如果多个事件A1、A2、A3、An 彼此独立,则称之为独立事件群。,29,二、概率的计算,6,完全事件系,如果多个事件A1、A2、A3、An两两互斥,且每次试验结果必然发生其一,则称事件A1、A2、A3、An为完全事件系。,完全事件系的和事件概率为,任何一个事件发生的概率为1/n。即:P(A1A2An),30,二、概率的计算,(二)概率的计算法则,定理:若事件A与B互斥,则 P(A+B)=P(A)+P(B),试验的全部结果包含n个基本事件,事件A包含其中m1个基本事件,事件B包含其中m2个基本事件。由于A和B互斥,因而它们各包含的基本事件应该完全不同。所以事件AB所包含的基本事件数为m1+m2。,P(A+B)=(m1+m2)/n=m1/n+m2/n=P(A)+P(B),31,二、概率的计算,推理1 P(A1+A2+An)=P(A1)+P(A2)+P(An),推理3 完全事件系的和事件的概率为1。,32,二、概率的计算,例:玉米田中,一穗株(A)占67.2%,双穗株(B)占30.7%,空 穗株(C)占2.1%,试计算一穗株和双穗株的概率。,P(A+B)=P(A)+P(B)=0.672+0.307=0.979,因为P(A)+P(B)+P(C)=1 P(A+B)=1-P(C)=1-0.021=0.979,或,33,二、概率的计算,定理:事件A和事件B为独立事件,则事件A与事件B同时发生的概率为各自概率的乘积。P(AB)=P(A)P(B),推理:A1、A2、An彼此独立,则 P(A1A2A3An)=P(A1)P(A2)P(A3)P(An),34,二、概率的计算,例:播种玉米,种子的发芽率为90%,每穴两粒,则:,C:两粒种子均发芽:,求:,C=AB,P(C)=P(A)P(B)=0.81,D=AB+AB,P(D)0.9*0.1+0.1*0.9=0.18,E=A B,P(E)P(A)P(B)=0.1*0.1=0.01,35,概 率 分 布,第三部分,36,事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布(probability distribution)。为了深入研究随机试验,先引入随机变量(random variable)的概念。,37,随机变量是指随机试验中被测定的量。作一次试验,其结果有多种可能。每一种可能结果都可用一个数来表示,把这些数作为随机变量x的取值范围,则试验结果可用随机变量x来表示。【例】对100头病畜用某种药物进行治疗,其可能结果是“0头治愈”、“1头治愈”、“2头治愈”、“”、“100头治愈”。若用x表示治愈头数,则随机变量x的取值为0、1、2、100。,38,【例】孵化一枚种蛋可能结果只有两种,即“孵出小鸡”与“未孵出小鸡”。若用随机变量x表示试验的两种结果,则可令x=0表示“未孵出小鸡”,x=1表示“孵出小鸡”。【例】测定某品种猪初生重,表示测定结果的变量 x 所取的值为一个特定范围(a,b),如0.51.5kg,x值可以是这个范围内的任何实数。,39,如果表示试验结果的变量x,其可能取值为有限个,且取这些不同的值各自都有其确定的概率,则称x为离散型随机变量。如果表示试验结果的变量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间中取值时,其概率是确定的,则称x为连续型随机变量。,40,三、概率分布,(一)离散型变量的概率分布,要了解离散型随机变量x的统计规律,必须知道它的一切可能值xi及取每种可能值的概率pi。,对离散型变量x的一切可能值xi(i=1,2,3),及其对应的概率pi,P(x=xi)=pi,i=1,2,3,41,三、概率分布,例:,此表给出了该鱼群年龄构成的全部,我们称之为该鱼群年龄的概率分布。,42,三、概率分布,此表列出了性别变量的取值及相应值的概率,揭示了观察婴儿性别试验的统计规律。,用随机变量的可能取值及取相应值的概率来表示随机试验的规律称为随机变量的分布律或概率函数。,例:,43,三、概率分布,P(x=xi)=pi,i=1,2,3,设离散型变量x的所有一切可能值xi(i=1,2,3),取相应值的概率为pi,则P(x=xi)称为离散型随机变量x的概率函数。,44,三、概率分布,离散型变量的概率分布的特点,特点,Pi 0(i=1,2,),=1,45,三、概率分布,(二)连续型变量的概率分布,当试验资料为连续型变量,一般通过分组整理成频率分布表。如果从总体中抽取样本的容量n相当大,则频率分布就趋于稳定,我们将它近似地看成总体概率分布。,46,直方图中同一组内的频率是相等的。,47,三、概率分布,直方图中每一矩形的面积就表示该组的频率。,48,三、概率分布,当n无限大时,频率转化为概率,频率密度也转化为概率密度,阶梯形曲线也就转化为一条光滑的连续曲线,这时频率分布也就转化为概率分布了,此曲线为总体的概率密度曲线,曲线函数f(x)称为概率密度函数。,49,三、概率分布,50,三、概率分布,对于一个连续型随机变量x,取值于区间a,b内的概率为函数f(x)从a到b的积分,即:,连续型随机变量的概率由概率分布密度函数所确定。,51,概率密度函数f(x)曲线与x轴所围成的面积为1。,52,连续型随机变量概率分布的性质:1、分布密度函数总是大于或等于0,即f(x)0;2、当随机变量x取某一特定值时,其概率等于0;即(c为任意实数)因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。,53,3、在 一次试验中 随机变量x之取值 必在-x+范围内,为一必然事件。所以(4-5)(45)式表示分布密度曲线下、横轴上的全部面积为1。,54,大 数 定 律,第四部分,55,四、大数定律,大数定律:是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称。,主要内容:样本容量越大,样本统计数与总体参数之差越小。,56,四、大数定律,贝努里大数定律,辛钦大数定律,57,四、大数定律,(1)贝努里大数定律,设m是n次独立试验中事件A出现的次数,而p是事件A在每次试验中出现的概率,则对于任意小的正数,有如下关系:,58,四、大数定律,(2)辛钦大数定律,设x1,x2,x3,xn是来自同一总体的变量,对于任意小的正数,有如下关系:,59,几种常见的理论分布,第二节,60,随机变量的概率分布(probability distribution),离散型变量(discrete random variable),连续型变量(continuous random variable),二项分布泊松分布,正态分布,变量,61,一、二 项 分 布,62,离散型随机变量的分布,哺乳动物,种子,穗子,生物个体,雄性,雌性,发芽,不发芽,有芒,无芒,成活,死亡,对立事件,一、二项分布的概率函数,非此即彼,63,一、二项分布,64,在种子发芽试验中,设事件A为“种子发芽”,则 A为“种子不发芽”。取4粒种子(n=4)来做试验,求有2粒种子发芽(x=2)的概率。,在贝努里试验中,独立将此试验重复n次,求在n次试验中,一种结果A出现x次的概率P(x)是多少。,在4次试验中,事件A发生2次的方式有以下 种:,65,由于试验是独立的,按概率的乘法法则,于是有:P()=P()=P()=P()P()P()P()=,其中Ax(x=1,2,3,4)表示第x粒种子发芽,p为种子发芽的概率;(x=1,2,3,4)表示第x粒种子不发芽,q为种子不发芽的概率,所以q=1-p。,66,又由于以上各种方式中,任何二种方式都是互不相容的,按概率的加法法则,在4 粒种子中正好有2粒种子发芽的概率为:,P4(2)=P()+P()+P()=,一般,在n重贝努利试验中,事件A恰好发生k(0kn)次的概率p(x)为 x=0,1,2,n,67,若把上式与二项展开式,Cn0qn+Cn1p1qn-1+Cn2p2qn-2+Cn3p3qn-3+Cnxpxqn-x+Cnnpn,=,n,x=0,Cnxpxqn-x,68,相比较就可以发现,在n重贝努里试验中,事件A发生x次的概率恰好等于展开式中的第x+1项,所以把P(x)称为随机变量x服从参数为n和p的二项分布(binomial distribution),也称为贝努里分布,记作B(n,p)。这种“非此即彼”的事件所构成的总体称为二项总体。,69,二项总体,试验只有两个对立结果,记为A和A,出现概率分别为p和q=1-p。,重复性:每次试验条件不变时,事件A出 现为恒定概率p;独立性:任何一次试验中事件A的出现与其余各次试验结果无关。,一、二项分布,二项分布的两个条件:,70,71,n=试验次数(或样本含量)n=4x=在n次试验中事件A出现的次数 x=2p=事件A发生的概率(每次试验是恒定的)p=0.91-p=事件A不发生的概率 1-p=0.1p(x)=X的概率函数=P(X=x)P(2),则4粒种子有两粒发芽的概率为:P(x)=p2 q4-2=60.920.12=0.0486,例:,72,由于二项式中p+q=1,,(p+q)n=1,p(0)+p(1)+p(2)+p(x)+p(n)=1,一、二项分布,或者n个事件构成一个完全事件系,所以有:,73,现已求出某事件发生的概率,若试验N次,则该事件发生的理论次数为:理论次数NP(x),二项分布的概率累积函数为:,74,3:1,若每次观察4株,共观察100次,问红花为0、1、2、3、4株的概率各为多少?,(二)二项分布的计算,例:豌豆红花纯合基因和白花纯合基因杂交,杂交后F2红花:白花3:1,F1,F2,75,概率函数 Cnxpxqn-x P(x)F(x)NP(x)P(0)C40p0q4 0.0039 0.0039 0.39 P(1)C41p1q3 0.0469 0.0508 4.69 P(2)C42p2q2 0.2109 0.2617 21.09 P(3)C43p3q1 0.4219 0.6836 42.19 P(4)C44p4q0 0.3164 1.000 31.64 合计 1.000 100,表 观察4株出现红花的概率分布表(p=0.75 q=1-p=0.25),76,例2:鸡蛋孵化率为0.90,从中每次选5个进行孵化,试求孵出小鸡的各种可能概率,若做1000次试验,其理论次数分别为多少?,77,二项分布概率函数,概率的计算,样本容量的确定,p(x)Cnxpx(1-p)n-x,78,例:某小麦品种在田间出现自然变异的概率为0.0045,(1)调查100株,获得两株或两株以上变异植株的概率是多少?(2)期望有0.99的概率获得1株或1株以上的变异植株,至少应调查多少株?,n=100,p=0.0045,P(x2)=1-P(0)-P(1)=0.0751,P(0)=0.01,n=1021(株),79,一、二项分布,(三)二项分布的形状和参数,(1)当p值较小且n不大时,分布是偏倚的。随n的增大,分布趋于对称;,二项分布的形状由n和p两个参数决定。B(n,p),80,一、二项分布,(三)二项分布的形状和参数,(2)当p值趋于0.5时,分布趋于对称。,81,统计学证明,服从二项分布B(n,p)的随机变量所构成的总体的平均数、标准差与n、p这两个参数有关。,一、二项分布,(三)二项分布的形状和参数,n p,82,在二项分布中,事件A发生的频率 x/n称为二项成数,即百分数或频率。则二项成数的平均数和标准差分别为:也称为二项总体百分数的标准误,当 p 未知时,常以样本百分数 来估计。此时上式改写为:=称为样本百分数标准误。,83,例:豌豆红花纯合基因型和白花纯合基因型杂交后,在F2代红花植株与白花植株出现的比例为3:1。每次观察4株,n=4,红花出现概率为p=340.75。,(1)红花出现的平均株数=n p=3.0(株),n1,0,1,2,3,4,总体,红花出现株数,84,一、二项分布,(三)二项分布的形状和参数,(1)红花出现的频率的平均数:p n p/n=3.0/4=0.75=p,二项分布的百分数,成数,85,二、泊 松 分 布,86,泊松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布,也是一种离散型随机变量的分布。要观察到这类事件,样本含量 n 必须很大。,87,在生物、医学研究中,服从泊松分布的随机变量是常见的。如,一定畜群中某种患病率很低的非传染性疾病患病数或死亡数,畜群中遗传的畸形怪胎数,每升饮水中大肠杆菌数,计数器小方格中血球数,单位空间中某些野生动物或昆虫数等,都是服从泊松分布的。,88,一、泊松分布的概率函数在二项分布中,当某事件出现的概率非常小(p 0),而样本含量又很大(n)且np时,二项分布就变成泊松分布。因此泊松分布概率函数由二项分布概率函数推倒出来。,89,若随机变量x只取零和正整数值0,1,2,且其概率分布为:,x=0,1,(4-23)其中=,0;e=2.7182 是自然对数的底数,则 称 x 服 从 参 数 为 的 泊 松分布(Poisson,s distribution),记 为 xP()。,90,二、泊松分布重要的特征 1、平均数和方差相等,即=2=。【例】调查某种猪场闭锁育种群仔猪畸形数,共记录200窝,畸形仔猪数的分布情况如表4-3所示。试判断畸形仔猪数是否服从泊松分布。,91,表4-3 畸形仔猪数统计分布,样本平均数和方差S2计算结果如下:=fk/n=(1200+621+152+23+14)/200=0.51 即平均每窝的畸形数为0.51头。,92,=0.51,S2=0.52,这两个数是相当接近的,因此可以认为畸形仔猪数服从泊松分布。,93,2、是泊松分布所依赖的唯一参数。值愈小分布愈偏倚,随着的增大,分 布趋于对称(如图4-11所示)。当=20时分布接近于正态分布;当=50时,可以认 为泊松分布呈正态分布。所以在实际工作中,当 20时就可以用正态分布来近似地处理泊松分布的问题。,94,图4-11,95,三、泊松分布的概率计算 由(4-23)式可知,泊松分布的概率计算,依赖于参数的确定,只要参数确定了,把x=0,1,2,代入(4-23)式即可求得各项的概率。但是在大多数服从泊松分布的实例中,分布参数往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为的 估计值,将其代替(4-23)式中的,计算出x=0,1,2,时的各项概率。,96,【例】麦田内平均每10m2有1株杂草,现问每100m2麦田中,有0株,1株,2株,.杂草的概率?解:先求出每100m2麦田中,平均杂草数。100/1010(株)那么每100m2麦田中,有x株杂草的概率将x0,1,2,代入上式即可得出相应的概率 结果如下表。,97,98,如例【4.14】中已判断畸形仔猪数服从泊松分布,并已算出样本平均数=0.51。将0.51代替公式(4-23)中的得:(x=0,1,2,)因为e-0.51=1.6653,所以畸形仔猪数各项的概率为:P(0)=(0.5100!)1.6653=0.6005P(1)=(0.5111!)1.6653=0.3063P(2)=(0.5122!)1.6653=0.0781,99,P(3)=(0.5133!)1.6653=0.0133P(4)=(0.5144!)1.6653=0.0017 把上面各项概率乘以总观察窝数(n=200)即得各项按泊松分布的理论窝数。泊松分布与相应的频率分布列于表4-4中。,100,表4-4 畸形仔猪数的泊松分布 将实际计算得的频率与根据=0.51的泊松分布计算的概率相比较,发现畸形仔猪的频率分布与=0.51 的泊松分布是吻合得很好的。这进一步说明了畸形仔猪数是服从泊松分布的。,101,【思考】为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得400个记录如下:试分析饮用水中细菌数的分布是否服从泊松分布。若服从,按泊松分布计算每毫升水中细菌数的概率及理论次数并将頻率分布与泊松分布作直观比较。,102,经计算得每毫升水中平均细菌数=0.500,方差S2=0.496。两者很接近,故可认为每毫升水中细菌数服从泊松分布。以=0.500代替(4-23)式中的,得(x=0,1,2)计算结果如表4-5所示。,103,表45 细菌数的泊松分布 可见细菌数的频率分布与=0.5的泊松分布是相当吻合的,进一步说明用泊松分布描述单位容积(或面积)中细菌数的分布是适宜的。,104,注意,二项分布的应用条件也是泊松分布的应用条件。比如二项分布要求n 次试验是相互独立的,这也是泊松分布的要求。,105,然而一些具有传染性的罕见疾病的发病数,因为首例发生之后可成为传染源,会影响到后续病例的发生,所以不符合泊松分布的应用条件。对于在单位时间、单位面积或单位容积内,所观察的事物由于某些原因分布不随机时,如细菌在牛奶中成集落存在时,亦不呈泊松分布。,106,三、正 态 分 布,107,围绕在平均值左右,由平均值到分布的两侧,变量数减少,即两头少,中间多,两侧对称。,特点,正态分布也称为高斯分布(Gauss distribution)。,三、正态分布,108,n大,p与1-p接近,大,二项分布,泊松分布,正态分布,正态分布是生物统计学的重要基础。,109,三、正态分布,(一)正态分布的概率函数,连续型随机变量的概率分布是用概率密度函数来描述的。,110,三、正态分布,(一)正态分布的概率函数,f(x)为正态分布的概率密度函数,表示某一定x值出现的概率密度函数值。,总体平均数,总体标准差,圆周率,3.14159,e为自然对数底,2.71828,111,N(,2),三、正态分布,(一)正态分布的概率函数,112,x=时,f(x)值最大,正态分布曲线以平均数为中心的分布。,(二)正态分布的特征,1,113,x-的绝对值相等时,f(x)也相等,正态分布密度曲线以为中心向左右两侧对称。,三、正态分布,(二)正态分布的特征,2,114,f(x)是非负函数,以x轴为渐近线,x的取值区间为(-,+)。,三、正态分布,(二)正态分布的特征,3,115,正态分布曲线由参数,决定,确定正态分布曲线在x轴上的中心位置,确定正态分布的变异度。,三、正态分布,(二)正态分布的特征,4,116,正态分布曲线在x=处各有一个拐点,曲线通过拐点时改变弯曲度。,三、正态分布,(二)正态分布的特征,5,117,分布曲线与x轴围成的全部面积为1,三、正态分布,(二)正态分布的特征,6,118,三、正态分布,若一个连续型随机变量x取值于区间a,b,其概率为,119,三、正态分布,(三)标准正态分布,N(,2),正态分布是依赖于参数(,2)的一个曲线系,正态曲线的位置及形态随(,2)的不同而不同,这就给研究具体的正态分布总体带来了困难,我们现将其标准化。,120,N(,2),N(0,1),三、正态分布,u表示标准正态离差(standard normal deviate),它表示离开平均数有几个标准差。,f(u)称为标准正态分布(standard normal distribution)或u分布方程。,121,标准正态分布的概率累积函数记作F(u),它是变量u小于某一定值的概率。,122,三、正态分布,为了计算方便,对于不同的u值,计算出不同的F(x),编成函数表,称为正态分布表,从中可以查到u任意一个区间内取值的概率。,123,三、正态分布,标准正态分布u落在区间a,b的概率,124,三、正态分布,(四)正态分布的概率计算,125,三、正态分布,若随机变量服从正态分布N(,2),则x的取值落在区间x1,x2 的概率,记作P(x1xx2)。,126,三、正态分布,(四)正态分布的概率计算,服从正态分布N(,2)的随机变量,x的取值落在区间x1,x2 的概率,记作P(x1xx2),等于服从标准正态分布的随机变量u在(x1-)/,(x2-)/内取值的概率。,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。,127,三、正态分布,128,三、正态分布,(四)正态分布的概率计算,P(-x+),P(-2x+2),P(-3x+3),=P(-1u1)=0.6826,=P(-2u2)=0.9545,=P(-3u3)=0.9973,129,三、正态分布,(四)正态分布的概率计算,P(-1.96u1.96)=0.95,=P(-2.58u2.58)=0.99,130,三、正态分布,(四)正态分布的概率计算,(two-tailed probability),(one-tailed probability),131,三、正态分布,P(-1u1)=0.6826,P(-2u2)=0.9545,P(-3u3)=0.9973,P(-1.96u1.96)=0.95,P(-2.58u2.58)=0.99,132,三、正态分布,(五)正态分布的应用,1,估计参考值范围,20株小麦株高(cm)为82,79,85,84,86,84,83,82,83,83,84,81,80,81,82,81,82,82,82,80其平均值为82.3cm,标准差为1.7502cm。问1:小麦株高95%的正常范围值。,小麦株高服从正态分布。总体平均数和标准差未知,可以用样本平均数 x 和标准差 s 来估计和。,78.57,85.73,95%,133,三、正态分布,(五)正态分布的应用,1,估计参考值范围,问2:x85(cm)的概率?,P(x85)P(u1.54)1-F(u=1.54)=1-0.9328=0.0618,134,三、正态分布,(五)正态分布的应用,2,质量控制,服从正态分布的变量落在2 及3的概率为95.45%和99.73%,在试验中,为了控制检测误差,常以x2s作为上下警戒线,以x3s作为上下控制线。,135,三、正态分布,(五)正态分布的应用,3,正态分布是很多统计方法的理论基础。,二项分布,泊松分布的极限均为正态分布,在一定条件下,均可按正态分布的原理来处理。后面的t检验,方差分析,相关回归分析等多种统计方法均要求分析的指标服从正态分布。对于非正态分布资料,实施统计处理的一个重要途径是先作变量的转换,使转换后的资料近似正态分布,然后按正态分布的方法作统计处理。,136,统计数的分布,第三节,137,一、抽样试验与无偏估计,138,根据样本对总体做出估计和推断,并不是直接用样本本身,而是用样本的统计量来对总体做出估计和判断。但由于从总体中抽取的样本提供的信息仅是总体的一部分,因此它不能提供完全准确的信息,必然存在着一定的误差。即,对于样本容量相同的多次随机抽样,得到样本函数的观察值也是不同的,且其取值有一定的概率,即统计量也是一个随机变量,因而也有它的分布,称为抽样分布(sampling distribution)。,抽取一部分样本进行研究,或对小的有限总体进行放回式的抽样,这种部分抽样比较接近实际。,139,现有一N=3的近似正态总体,具有变量3,4,5,可以求出=4,20.6667,0.8165。现以n=2作独立的有放回式抽样。,一、抽样试验与无偏估计,总共可得到Nn329个样本,140,=4 20.6667 0.8165,141,如果所有可能样本的某一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值。,样本平均数是总体平均数的无偏估计值。,样本方差是总体方差的无偏估计值。,样本标准差s不是总体标准差的无偏估计值。,一、抽样试验与无偏估计,142,二、样本平均数的分布,143,由于从总体中抽出的样本为每一个可能样本,且每个样本中的变量均为随机变量,所以其样本平均数也为随机变量,也形成一定的理论分布,这种理论分布称为样本平均数的概率分布,或称样本平均数的分布。,样本平均数的平均数:,样本平均数的方差:,144,对N=3(3,4,5),n=2抽样试验所得的9个样本平均数,整理成次数分布表。,n=2,145,n=2,3,4,542 0.6667,146,n=4,如果对这个N=3(3,4,5)所组成的总体,再进行n=4的抽样试验,则可得81个样本平均数,将其整理成次数分布表。,147,n=4,3,4,542 0.6667,148,(1)样本平均数分布的平均数总体平均数。,(2)样本平均数分布的方差总体方差除以样本容量。,样本平均数分布的基本性质,149,标准误大,各样本平均数间差异程度大,样本平均数的精确性低。,标准误小,各样本平均数间差异程度小,样本平均数的精确性高。,标准误的大小与原总体的标准差 成正比,与样本含量n的平方根成反比。,从某特定总体抽样,因为是一定值,所以只有增大样本容量,才能降低样本平均数的抽样误差。,样本平均数的标准误差(标准误)(standard error of mean),150,在实际工作中,总体标准差 往往是未知的,因而无法求得标准误。,此时,可用样本标准差s估计总体标准差。,样本标准误或均数标准误,是平均数抽样误差的估计值。,151,若样本中各观测值为x1,x2,x3,xn,则,152,均数的标准误与标准差成正比,而与样本容量n的平方根成反比。若标准差固定不变,可通过增加样本含量n来减少抽样误差。,153,(3)如果从正态分布总体N(,2)进行抽样,其样本平均数x是一具有平均数,方差2/n的正态分布,记作N(,2/n)。,样本平均数分布的基本性质,154,中心极限定理(central limit theorem),(4)如果被抽总体不是正态分布总体,但具有平均数和方差2,当随样本容量n的不断增大,样本平均数 x 的分布也越来越接近正态分布,且具有平均数,方差2/n,这称为中心极限定理。,样本平均数分布的基本性质,155,不论总体为何种分布,只要是大样本,就可运用中心极限定理,认为样本平均数的分布是正态分布,在计算样本平均数出现的概率时,样本平均数可按下式进行标准化。,156,三、样本平均数差数的分布,157,变量3,61=4.512=2.25,n1=3,变量2,4,62=422=2.6667,n2=2,158,1=4.5x12=0.75,2=4x22=1.333,159,(1)样本平均数差数的平均数=总体平均数的差数.,样本平均数差数分布的基本性质,160,(2)样本平均数差数的方差=两样本平均数方差之和.,样本平均数差数的标准误,样本平均数差数分布的基本性质,161,12=22=,n1=n2=n,12=22=n1=n2=n,162,(3)从两个独立正态分布总体中抽出的样本平均数差数的分布,也是正态分布。,样本平均数差数分布的基本性质,163,四、t 分布,164,t分布,当2已知,当2未知,且n30,当2未知,且n30,165,t分布是英国统计学家Gosset 1908年以笔名“student”所发表的论文提出的,因此又称为学生氏t分布。,t分布概率密度函数,166,t分布的平均数t和方差t2,167,()t分布曲线是左右对称的,围绕平均数t=0 向两侧递降。,特征,168,对于不同的自由度,t分布有不同的曲线。,(2)t分布受自由度df=n-1的制约,每个自由度都有一条t分布曲线。,特征,169,(3)和正态分布相比,t分布顶端偏低,尾部偏高,自由度df30时,其曲线接近正态分布曲线,df时则和正态分布曲线重合。,特征,170,t分布曲线与横轴所围成的面积为1。,同标准正态分布曲线一样,统计应用中最为关心的是t分布曲线下的面积(即概率)与横轴t值间关系。,为使用方便,统计学家编制不同自由度df下的t值表。,171,172,在相同的自由度df时,t值越大,概率P越小。,在相同t值时,双尾概率P为单尾概率P的两倍。,1,2,df增大,t分布接近正态分布,即t值接近u值。,3,173,174,175,t落于-t0.05,+t0.05 内的概率为0.95,t落于-t0.01,+t0.01 内的概率为0.99,置信度为和的t临界值。,t0.05(4)2.776 t0.01(4)4.604,-2.776+2.776,176,五、x2 分布,177,从方差为2的正态总体中,随机抽取k个独立样本,计算出样本方差S2,研究其样本方差的分布。,df=k-1,在研究样本方差的分布时,通常将其标准化,得到k个正态离差u,则,178,概率密度函数,概率累积函数,179,2分布于区间0,+),并且呈反J型的偏斜分布。,1,特征,180,2分布的偏斜度随自由度降低而增大,当自由度df=1时,曲线以纵轴为渐近线。,2,特征,181,随自由度df的增大,2分布曲线渐趋左右对称,当df30时,卡方分布已接近正态分布。,3,特征,182,对于给定的(0 x2(n)=的点 x2(n)为x2分布的上分位点(右尾概率)。,183,184,表中表头的概率是2大于表内所列2值的概率。,df=2,P(2 5.99)0.05,P(2 9.21)0.01,P(2 0.10)0.95,185,六、F 分布,186,设从一正态总体N(,2)中随机抽取样本容量为n1、n2的两个独立样本,其样本方差为s12、s22,则定义其比值:,此值具有s12的自由度df1=n1-1和s22的自由度df2=n2-1。,187,如果对一正态总体在特定的df1和df2进行一系列随机独立抽样,则所有可能的值就构成一个分布。,分布的概率密度函数是两个独立2变量的概率密度所构成的联合概率密度。,188,分布是随自由度df1和df2进行变化的一组曲线。,分布的概率累积函数,189,分布的平均数F=1,的取值区间为0,+),分布曲线的形状仅决定于df1和df2。在df11或2时,分布曲线呈严重倾斜的反向型,当df1 3时,转