理论分布和抽样分布.ppt
《理论分布和抽样分布.ppt》由会员分享,可在线阅读,更多相关《理论分布和抽样分布.ppt(125页珍藏版)》请在三一办公上搜索。
1、1,第二章 理论分布和抽样分布,教学基本要求:了解几种主要的理论分布和概率分布类型;理解小概率事件实际不可能性原理、样本平均数的抽样分布概念、t分布的概念;掌握正态分布标准化的方法以及正态分布概率的计算。教学重点难点:重点:小概率事件实际不可能性原理的概念,正态分布标准化的概念和方法及正态分布的概率计算方法。难点:正态分布标准化。教学建议:先复习概率论中有关内容,第二章 理论分布和抽样分布,2.1 概率的统计学意义2.2 小概率事件实际不可能性原理2.3 理论分布2.4 抽样分布2.5 t分布,3,第二章 理论分布和抽样分布,为了便于理解统计分析的基本原理,正确掌握和应用以后各章所介绍的统计分
2、析方法,在上章样本分布及其特征的基础上本章将讨论总体的分布及其特征。本章在介绍概率论中最基本的两个概念事件、概率的基础上,重点介绍生物科学研究中常用的几种随机变量的概率分布:间断性变数总体的理论分布:二项分布、泊松分布;连续性变数总体的理论分布,即正态分布;从这两类理论分布中抽出的样本统计数的分布,即抽样分布和t分布。,4,2.1 概率的统计学意义,一、事 件1.必然现象与随机现象在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,归纳起来大体上分为两大类:必然现象:在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生),可预言其结果。随机现象:在保持条件不变
3、的情况下,重复进行试验,其结果未必相同,不可预言其结果。这类现象在个别试验中其结果呈现偶然性、不确定性现象。,5,一、攻关目标,2.1 概率的统计学意义,随机现象有如下特点:在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性频率的稳定性,通常称之为随机现象的统计规律性。,6,2.1 概率的统计学意义,2.随机试验与随机事件随机试验 通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验。而一个试验如果满足下述三个特
4、性,则称其为一个 随机试验:随机现象有如下特点:(1)试验可以在相同条件下多次重复进行;(2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果;(3)每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前不能肯定这次试验会出现哪一个结果。例如在一定孵化条件下,孵化6枚种蛋,观察其出雏情况,具有随机试验的三个特征。,7,一、攻关目标,2.1 概率的统计学意义,2.随机试验与随机事件随机事件 随机试验的每一种可能结果,在一定条件下可能发 生,也可能不发生,称为随机事件,简称事件。(1)基本事件 把不能再分的事件称为基本事件。例如,在编号为1、2、3、10 的十头猪中随机抽取1头,有1
5、0种不同的可能结果:“取得一个编号是1”、,这10个事件都是不可能再分的事件。由若干个基本事件组合而成的事件称为 复合事件。如“取得一个编号是2的倍数”是一个复合事件,它由 5个基本事件组合而成。,8,2.1 概率的统计学意义,2.随机试验与随机事件随机事件(2)必然事件 把在一定条件下必然会发生的事件称为必然事件。例如,在严格按妊娠期母猪饲养管理的要求饲养的条件下,妊娠正常的母猪经114天左右产仔,就是一个必然事件。(3)不可能事件 把在一定条件下不可能发生的事件称为不可能事件。例如,在满足一定孵化条件下,从石头孵化出雏鸡,就是一个不可能事件。必然事件与不可能事件实际上是确定性现象,即它们不
6、是随机事件,但是为了方便起见,我们把它们看作为两个特殊的随机事件。,9,2.1 概率的统计学意义,二、概 率(一)概率的统计定义 研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率(probability)。事件A的概率记为P(A)。,10,2.1 概率的统计学意义,事件发生的可能性(概率)是在大量的实验中观察得到的,例如棉田发生盲椿象为害的情况,并不是所有的棉株都受害,随着观察的次数增多
7、,我们对棉株受害可能性程度大小的把握越准确、越稳定,棉株受害为随机事件。下表为一个调查结果:,11,2.1 概率的统计学意义,从棉株受害情况调查结果看,频率在n取不同的值时,尽管调查田块是相同的,频率p却不同,只有在n很大时频率才比较稳定一致。因而,调查株数n较多时的稳定频率才能较好地代表棉株受害的可能性。统计学上把通过大量实验而估计的概率称为实验概率或统计概率,用n较大时稳定的p近似代表概率,称为随机事件A的概率:P(A)=pm/n(n)此处P代表概率,P(A)代表事件A的概率。,12,2.1 概率的统计学意义,然而,正如此试验中出现的情况,尽管频率比较稳定,但仍有较小的数值波动,说明观察的
8、频率只是对棉株受害这个事件的概率的估计。,13,2.1 概率的统计学意义,(二)概率的古典定义 对于某些随机事件,用不着进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。有很多随机试验具有以下特征:1、试验的所有可能结果(基本事件数)只有有限个;2、各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的;3、试验的所有可能结果两两互不相容。具有上述特征的随机试验,称为古典概型。,14,2.1 概率的统计学意义,对于古典概型,概率的定义如下:设样本空间由 n 个等可能的基本事件所构成,其中事件A包含有m个基本事件,则事件A的概率为m/n,即 P(A)=m/n这样
9、定义的概率称为古典概率。,15,2.1 概率的统计学意义,例如,在有两个孩子的家庭中,孩子性别的组成有四种类型。即:男男、男女、女男、女女。它们是四个基本事件,而且是互不相容且等可能的,那么两个男孩的事件A1为四个基本事件(n)中的一个(m),A1的概率P(A1)=1/4=0.25第一个是男孩的事件A2,包括男男,男女两个基本事件。A2的概率P(A2)=2/4=0.50,16,2.1 概率的统计学意义,概率的古典定义是在概率论发展史上早期提出来的,它存在严重缺点。首先,它要求各基本事件是等可能的,即等概率的。在尚未给出概率的定义之前,利用概率的概念定义概率是不可取的。其次,它存在很大的局限性,
10、只适用于基本事件数是有限的一类试验,对于基本事件数是无限的一类就无能为力了。虽然如此,在实际应用中,它还是被广泛地使用。,17,2.1 概率的统计学意义,例 在N头奶牛中,有M头曾有流产史,从这群奶牛中任意抽出n头奶牛,试求:(1)其中恰有m头有流产史奶牛的概率是多少?(2)若N=30,M=8,n=10,m=2,其概率是多少?,18,2.1 概率的统计学意义,我们把从有M头奶牛曾有流产史的N头奶牛中任意抽出n头奶牛,其中恰有m头有流产史这一事件记为A,因为 从 N 头 奶 牛 中 任 意 抽 出 n 头 奶牛的基本事件总数为;事件A所包含的基本事件数为;因此所求事件A的概率为:,19,一、攻关
11、目标,2.1 概率的统计学意义,将N=30,M=8,n=10,m=2代入上式,得=0.0695 即在30头奶牛中有8头曾有流产史,从这群奶牛随机抽出 10 头奶牛其中有2头曾有流产史的概率为6.95%。,20,2.1 概率的统计学意义,(三)概率的性质 1、对于任何事件A,有0P(A)1;2、必然事件的概率为1,即P()=1;3、不可能事件的概率为0,即P()=0。,21,一、攻关目标,2.2 小概率事件实际不可能性原理,随机事件的概率表现了事件的客观统计规律性,它反映了事件在一次试验中发生可能性的大小,概率大表示事件发生的可能性大,概率小表示事件发生的可能性小。若随机事件的概率很小,例如小于
12、0.05、0.01、0.001,称之为小概率事件。,22,一、攻关目标,2.2 小概率事件实际不可能性原理,在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。这里的0.05或0.01称为小概率标准,生物试验研究中通常使用这两个小概率标准。,23,2.3 理论分布,事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布(probability distributio
13、n)。为了深入研究随机试验,我们先引入随机变量(random variable)的概念。,24,2.3 理论分布,第一节、随机变量随机变量就是在随机试验中被测定的量。例如,观察10只新生动物的性别是一随机试验,而其中雄性动物出现的只数Y,就是在随机试验中被测定的量,Y可取0,1,10中的任何值。但是它究竟取何值,在试验结束之前是不能确知的。一般来说,在随机试验中,被测定的量是可取不同值的变量,而且它究竟取何值具有随机性,我们称这样的量为随机变量。随机变量所取得的值称为观测值。,25,2.3 理论分布,有时随机试验结果本身就是数量,如测量我国男青年身高本身就是数量。有时,随机试验的结果本身不是数
14、量,但可以表示为数量。如观察每10只新生动物的性别,本身并不是数量,但可以记为10只动物中雄性动物的只数或雌性动物的只数,即试验结果可以表示为数量。这个数量的具体值,同样是由随机试验的结果而确定。,26,2.3 理论分布,根据随机变量可能取得的值,可将随机变量分为离散型随机变量和连续型随机变量:如果随机变量可能取得的数值为有限个,或可数无穷个孤立的数值,且以各种确定的概率取这些不同的值,则称为离散型随机变量。例如,每10只新生动物中,雄性动物的只数。如果随机变量可取某一(有限或无限)区间内的任何数值,且Y其取值范围内的任一区间中取值时,其概率是确定的,则称为连续型随机变量。例如我国男青年身高即
15、为一连续型随机变量。,27,2.3 理论分布,随机变量可能取值的全体称为总体,其n次独立观测值,称为样本。本书均以大写的拉丁字母,如X,Y,U等表示随机变量,而以小写字母如、等表示第i次观测值。有了随机变量的概念,事件就可以用随机变量的关系式表示。如在10只动物中,出现3只和3只以下雄性动物的事件即可写为Y3。,28,2.3 理论分布,离散型随机变量的概率分布 要了解离散型随机变量Y的统计规律,就必须知道它的一切可能值yi及取每种可能值的概率pi。如果将离散型随机变量Y的一切可能取值y的概率P(Y=y)写成y的函数称为随机变量Y的概率函数:p(y)=P(Y=y)(2.16)概率函数应满足p(y
16、)0,(2.17),29,第二章 理论分布和抽样分布,将Y的一切可能值,以及取得这些值的概率、,排列起来,就构成了离散型随机变量的概率分布(probabiit distribution)。表2-2 离散型随机变量的概率分布表。,30,2.3 理论分布,连续型随机变量的概率分布 连续型随机变量(如体长、体重、)的概率分布不能用上述分布表来表示,因为其可能取的值是不可数的。我们改用随机变量Y在某个区间内取值的概率P(aYb)来表示。下面通过频率分布密度曲线予以说明。,31,2.3 理论分布,如由140行水稻产量资料的频数分布方柱形图(图31),图中纵座标取频数与组距的比值。可以设想,如果样本取得越
17、来越大(n),组分得越来越细(i0),某一范围内的频率将趋近于一个稳定值 概率。这时,频率分布方柱形图各个方柱上端中点的联线 频率分布折线将逐渐趋向于一条曲线,换句话说,当n、i0时,频数分布折线的极限是一条稳定的函数曲线。,32,第二章 理论分布和抽样分布,33,第二章 理论分布和抽样分布,对于样本是取自连续型随机变量的情况,这条函数曲线将是光滑的。这条曲线排除了抽样和测量的误差,完全反映了水稻行产量的变动规律。这条曲线叫概率分布曲线,相应的函数f(y)叫 概率密度函数。,34,2.3 理论分布,若记产量概率分布密度函数为f(y),则y取值于区间(a,b)的概率为:上式为连续型随机变量Y在
18、区间(a,b)上取值概率的表达式。可见,连续型随机变量的概率由概率分布密度函数确定。,35,第二章 理论分布和抽样分布,连续型随机变量概率分布的性质:1、分布密度函数总是大于或等于0,即f(y)0;2、当随机变量Y取某一特定值时,其概率等于0;即(c为任意实数)因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。,36,第二章 理论分布和抽样分布,3、在 一次试验中 随机变量Y之取值 必在-Y+范围内,为一必然事件。所以 上式表示分布密度曲线下、横轴上的全部面积为1。,37,2.3 理论分布,第二节 二项分布一、二项分布的概念在生物学研究中,有这样一类常见的
19、变量,其总体中的全部个体可以根据某种性状的出现与否分为两类。例如,一粒种子可能发芽也可能不发芽、随机抽出一只动物可能是雌性也可能是雄性等,这类变量属于间断性随机变量,其总体包括非此即彼的两项对立事件,这样的总体称为二项总体。,38,2.3 理论分布,为便于研究,通常将二项总体中的“此”事件以变量“1”表示,具概率;将“彼”事件以变量“0”表示,具概率。因而二项总体又称为0、1总体。,39,2.3 理论分布,如果从二项总体抽取n个个体,可能得到y个个体属于“此”,而属于“彼”的个体为n-y。由于是随机独立地从总体中抽取个体的,每一次抽取的个体均有可能属于“此”,也可能属于“彼”,那么得到的y个“
20、此”个体的数目可能为0、1、2、n个,共有n+l种取值,这n+l种取值各有其对应的概率,因而由变量及其概率就构成了一个分布,这个分布叫做二项式概率分布,简称二项式分布或二项分布(binomial distribution)。,40,2.3 理论分布,动物的性别比一般为11,即。现从一动物群体中进行随机抽样,共抽取10次,则抽到3只雄性动物的概率可分析为:在10次抽样中,抽到3雄7雌的组合方式数为:而每种抽样方式中,10次抽样得到3只雄性的概率为:所以抽取10次,抽到3只雄性动物的概率为:,41,2.3 理论分布,对于任意n和y,则可写成通式:上式正是二项式 展开式的第y+1项,故称二项分布,上
21、式称作二项概率公式。因为,所以:,42,2.3 理论分布,二、二项分布的性质1、二项分布的概率之和等于12、二项分布由n和 两个参数决定:当 值较小且n不大时,分布是偏倚的。但随着n的增大,分布逐渐趋于对称;当 值趋于 0.5 时,分布趋于对称;在n较大,、较接近时,二项分布接近于正态分布;当n时,二项分布的极限分布是正态分布。,43,2.3 理论分布,44,2.3 理论分布,三、二项分布的概率计算例1 一批种子发芽率为70%,每穴播种6粒种子,计算每穴出6棵苗、5、4、3、2、1、0棵苗的概率各为多少?解:设y表示每穴出苗数,45,2.3 理论分布,例2 纯种白猪与纯种黑猪杂交,根据孟德尔遗
22、传理论,子二代中白猪与黑猪的比率为31。求窝产仔10头,有7头白猪的概率。根据题意,n=10,=0.75,。设10头仔猪中白色的为y头,则y为服从二项分布B(10,0.75)的随机变量。于是窝产10头仔猪中有7头是白色的概率为:,46,2.3 理论分布,例3 设在家畜中感染某种疾病的概率为20,现有两种疫苗,用疫苗A 注射了15头家畜后无一感染,用疫苗B 注射 15头家畜后有1头感染。设各头家畜没有相互传染疾病的可能,问:应该如何评价这两种疫苗?假设疫苗A完全无效,那么注射后的家畜感染的概率仍为20,则15 头家畜中染病头数y=0的概率为:,47,2.3 理论分布,同理,如果疫苗B完全无效,则
23、15头家畜中最多有1头感染的概率为:由计算可知,注射 A 疫苗无效的概率为0.0352,比B疫苗无效的概率0.1671小得多。因此,可以认为A疫苗是有效的,但不能认为B疫苗也是有效的。,48,2.3 理论分布,在辐射育种实验中,已知经过处理的单株至少发生一个有利突变的概率是,群体中至少出现一株有利突变单株的概率为,问为了至少得到一株有利突变的单株,群体n应多大?解:己知 为单株至少发生一个有利突变的概率 则 为单株不发生一个有利突变的概率,49,第二章 理论分布和抽样分布,四、二项分布的平均数与标准差 统计学证明,服从二项分布B(n,)的随机变量的平均数、标准差与参数n、有如下关系:当试验结果
24、以事件A发生次数k表示时,50,第二章 理论分布和抽样分布,例:求=0.2,n=5时的平均死亡猪数及死亡数的标准差。平均死亡猪数=50.20=1.0(头)标准差=0.894(头),51,第二章 理论分布和抽样分布,当试验结果以事件A发生的频率kn表示时 也称为总体百分数标准误。,52,2.3 理论分布,第三节 泊松分布泊松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布。要观察到这类事件,样本含量 n 必须很大。在生物学研究中,服从泊松分布的随机变量是常见的。如,一定群体中某种患病率很低的非传染性疾病患病数或死亡数,群体中遗传的畸形怪胎数,每升饮水中大肠杆菌数,计数
25、器小方格中血球数,单位空间中某些野生动物或昆虫数等,都是服从泊松分布的。,53,2.3 理论分布,一、泊松分布的意义 在二项分布中,当某事件出现的概率特别小(),而样本含量又很大()且 时,二项分布就变成泊松分布(Poisson distribution),具有概率密度函数:其中;e=2.7182 是自然对数的底数,称y服从参数为 的泊松分布,记为。,54,2.3 理论分布,二、泊松分布的特征数泊松分布的平均数:即泊松分布的平均数为概率密度函数中的。泊松分布的方差:即泊松分布的方差为概率密度函数中的。所以,泊松分布具有重要特征:平均数和方差相等,都等于常数。泊松分布的偏斜度:泊松分布的峭度:当
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 理论 分布 抽样
链接地址:https://www.31ppt.com/p-5795150.html