《常用概率分布》PPT课件.ppt
常用概率分布,内 容,二项分布Poisson分布正态分布,分布的概念分布的条件分布的特征 分布的应用,概率的意义及相关的一些概念,考虑:确定n之后,阳性数目的概率分布(随机变量X=阳性数目)掷一枚均匀钱币:P(正面朝上)0.5,P(正面朝下)0.5掷一枚均匀骰子:P(1朝上)P(2朝上)P(6朝上)1/6,第一节 二项分布,二项分布是一种重要的离散型随机变量的分布,又叫伯努利分布(Bernoulli)。二项分布的总体:由非此即彼事件构成的总体。,离散型随机变量的概率,掷一枚均匀钱币,其结局可视为一个变量,这个变量的“值”或为“正面朝上”,或为“正面朝下”,而且,不同的值各有一个出现的概率。P(正面朝上)0.50;一般地,一个随机变量含两个要素:1.它是一个变量;2.这个变量可能值的出现各具有一定的概率。,概 念与定理:,组合(combination):从几个元素中抽取x个元素组成一组(不考虑其顺序)的组合方式个数,记Cnx几个相互独立事件同时发生的概率等于各独立事件的概率之积。,1.摸球模型,一个袋子里有5个乒乓球,其中2个黄球,3个白球,我们进行摸球游戏,每次摸1球,然后放回再摸。先后摸100次,摸到零次黄球的概率?(1)第1次摸到白球的概率:0.6(2)第2次摸到白球的概率:0.6(100)第100次摸到白球的概率:0.6100次都摸到白球的概率:0.60.6 0.6=0.6100,摸到3次黄球的概率有多大?黄黄黄白白白白白 概率=0.430.697黄黄白黄白白白白 概率=0.430.697黄黄白白黄白白白 概率=0.430.697,三个特点:二分类:每次摸球只有二种可能的结果,或黄球或白球;独立:各次摸球是彼此独立的;重复:每次摸到黄球(或摸到白球)的概率是固定的。具备以上三点的概率分布就是二项分布。,例如:,口袋内黑球80%,白球20%,摸球放回,摸5次,黑球出现总次数X的概率函数。,例5-1 用针灸治疗头痛,假定结果不是有效就是无效,每一例有效的概率为。某医生用此方法治疗头痛患者3例,2例有效的概率是多少?,二项分布,一、概率函数(概率分布表)二项分布名词解释:观察结果二项;概率等于二项展开式。,例如:,以某种毒物注射于小白鼠作致死毒性实验,假如致死的概率为0.5,生存的概率也为0.5。现在用1只小白鼠作毒性实验,那可能出现两种情况:一种是小白鼠死亡,另一种为存活;如果用两只小白鼠同时做实验,预期出现四种不同的结果:2只都死亡,2只都存活,1只死亡,另一只存活;同理如果用3只小白鼠做实验,预期出现8种情况。,二项分布的三个条件,各事件相互独立:即任何一件事的出现与否不影响其他事件的发生概率。各事件相互排斥:即二项试验的两种对立的结果不可能同时发生,二者必居其一,而且只有其一。每次试验的条件不变,各事件发生的概率不变。,二项概率分布,二项概率分布:如果一个事件A,在n次独立试验中,每次试验都具有概率,那么这一事件A将在n次试验中出现k次的概率为:,(三)二项分布的特征,1、二项分布的图形特征,由此可见:,1、二项分布的图形取决于两个参数与n,高峰在=n 处。2、当接近0.5时,图形是对称的;离0.5愈远,对称性愈差。3、当n 时,只要不太靠近0或1,特别是nP和n(1-P)都大于5时,二项分布则近似于正态分布。,2、二项分布的均数与方差、标准差,(1)以阳性数计算:,已知二项分布的,n,则阳性事件的 均数 n 方差 2 n(1-)标准差,(2)以率计算,则平均阳性率(即样本率的均数为总体率)方差2(1-)/n 标准差为率的标准差,反映率的抽样误差大小,也称率的标准误,反应了样本率相对于总体率分布的离散程度。,四、二项分布的应用,一、概率估计,X为出现阳性的次数,例子见P51,二、单侧累计概率计算,第二节 Poisson 分布,一、概念Poisson 分布是一种离散型分布,用以描述罕见事件发生次数的概率分布。Poisson 分布可看作是发生的概率(或未发生的概率1-)很小,而观察例数很大时的二项分布。Poisson 分布一般记作(),医学领域中Poisson分布的实例,单位容积(水、牛奶)中细菌的分布;患病率很小的非传染病在人群中的分布野外旷野中单位面积上昆虫(钉螺)的分布计数器中单位格中的细胞数的分布。,Poisson 分布的特征,泊松分布的数学表达式为:在n个取样单位内,出现x0,1,2,n个阳性事件的理论概率分别为下列公式的展开式:式中P(x)为出现阳性事件例数为x的理论概率,e为自然对数的底,x是为观察单位内某稀有事件的发生次数,=n为总体平均数,在实际应用中可以用样本均数作为总体均数的估计。,Poisson 分布在20时,近似于正态分布。,Poisson分布的特点:,1、Poisson 分布的总体均数与总体方差相等,均为。2、Poisson 分布的观察结果有可加性。如水样的细菌培养。,Poisson 分布的应用,一、概率估计见例4-7二、单侧累计概率计算,见例4-9,正 态 分 布 及 其 运 用,1、概 念2、图 形3、特 征4、面 积5、正态分布的运用,1、正 态 分 布 的 概 念,正态分布(normal distribution):又称Gauss分布,正态分布曲线是一条高峰位于中央(均数所在处),两侧完全对称,两端永远不与横轴相交的钟型曲线。,表5-4(体模)骨密度测量值的频率分布表,2、图 形,联系:,正态分布的函数式为:,X+,为总体均数,为总体标准差。,3、正态分布的特点,1、关于 x=对称。2、在x=处,该概率密度函数为最大值,在 X=处有拐点,表现为钟型曲线。3、曲线下面积为1。4、决定曲线在横轴上的位置。5、决定曲线的形状。,正态分布:有两个参数,1、位置参数:描述正态分布的集中趋势位置。2、形态参数:描述正态分布的离散程度。越小,分布越集中,曲线越“瘦高”;越大,分布越离散,曲线越“肥胖”。记为N(,2),表示均数为,标准差为的正态分布 见图4-5。,1,3,3,1,4、正态分布曲线下面积的分布规律,面积的分布规律由两个参数决定;横轴上、曲线下的面积为1;曲线下的面积就是概率。曲线下,横轴上对称于0的面积相等。,正态曲线下面积分布可用公式求得:,但求该积分相当困难,可通过以下变换:,标准正态分布,则Z服从均数为0,标准差为1的标准正态分布。它将均数作为坐标原点,并使新坐标的横轴尺度以 为单位。,通过该变换,对于非标准正态分布,可求得曲线下任意(X1,X2)范围内的面积。,(-z):其大小相当于z值左侧标准正态曲线下面积。见书P431,统计用表。当z值一定时,曲线下:左侧面积:(-z)右侧面积:1(-z)中间面积:12(-z),常用:x取值在区间,当资料是样本资料,且样本含量较大时,总体均数 可用样本均数 代替;总体标准差 可用样本标准差s代替;正态分布曲线下的面积分布规律,可以写成 s;1.96s;2.58s。,正态分布和标准正态分布曲线下面积分布规律,正 态 分 布 标 准 正 态 分 布 面 积(或概率),-1+1,-1.96+1.96,-2.58+2.58,68.27%,95.00%,99.00%,正 态 分 布 的 面 积 分 布 规 律,标 准 正 态 分 布 的 面 积 分 布 规 律,许多医学指标服从正态分布或近似正态分布,如:同性别、同年龄儿童的身高;同性别健康成人的红细胞数、血红蛋白;实验中的随机误差等。因此,通过正态曲线下面积的分布规律:概括地估计变量值的频数分布;用于了解某个体值在其所属群体中占据何种位置。,例 如:,已知某地120名20岁男大学生身高均数172.90cm,标准差s=4.09cm。(1)身高在182cm以上者占该地20岁男大学生总数的百分数?(2)身高在165175cm者占该地20岁男大学生总数的百分数?(3)该地80%的男大学生身高集中在哪个范围?,(1)已知身高 172.9cm,B、查附表(标准正态曲线下的面积)左侧找到Z=-2.22,即2.22的面积为0.0132 故 2.22的面积也为1.32%,即身高在182cm以上者占该地20岁男大学生的1.32%,A、先做标准正态变换:,(2)已知x1165cm,x2=175cm A、计算u值 Z1=(165-172.90)/4.09=-1.93 Z2=(175-172.90)/4.09=0.51 B、查附表:(1.93)0.0268,即 1.93的面积为0.0268(0.51)0.3050,即 0.51的面积为0.3050 则0.51的面积为0.3050 区间(1.93,1.51)的面积:p10.02680.30500.6682身高在165175cm者占该地20岁男大学生的66.82%。,(3)求80%的男大学生身高集中在哪个范围?查附表:标准正态分布曲线下左侧面积为0.10所对应的u值是1.28,所以80%的男大学生身高集中在 1.28s 区间内。即在 167.66cm至 178.14cm之间。,练习题,张三期末考试物理为86分,数学为92分,已知其班级物理均分是78分,标准差是10,数学均分为84分,标准差是16。问张三哪门功课考得好?,5、正 态 分 布 的 应 用,(一)确定医学参考值范围,在医学上,一般常把95%的正常人某指标所在的范围作为参考值范围。正常人:不是指完全健康的人,而是指排除了影响所研 究指标的疾病和有关因素的同质人群。,95%医学参考值范围仅仅是指某特定人群中,95%的个体指标值在此范围内,并不能说明凡在此范围内都“正常”,凡不在此范内都不“正常”。该范围在临床上只能作为参考。,确定参考值范围必须抽取足够例数的样本如果测定值在性别间或年龄组间差别较大,则应分“层”确定参考值范围。根据资料的类型,选用正态分布法和百分位数法,对健康人的一些生理、生化指标的观察值,如果它们的分布是近似正态的,在求得均数和标准差后,即可应用概括估计变量值频数分布的方法,计算其参考值范围。,双测95%的界值为 1.96s,换言之,1.96s,包括其相对频数95,均数1个标准差范围内,包括其相对频数65,均数3个标准差范围内,包括其相对频数99.7,两种确定参考值范围的方法,如双侧95%医学参考值范围为:P2.5P97.5 单侧范围P5 以上或P95以下。如:肺活量用P5 以上来表示单侧95%医学参考值范围。血铅、发汞含量用P95以下来表示单侧95%医学参考值范围。,2.质量控制图,控制图的基本原理就是:如果某一波动仅仅由个体差异或随机测量误差所致,那么观察结果服从正态分布。,:作为上下警戒线,:作为上下控制线,图(a)图(b),判断异常的八种情况,(1)有一个点距中心线的距离超过3个标准差(位于控制限以外)。(2)在中心线的一侧连续有9个点。(3)连续6个点稳定地增加或减少。(4)连续14个点交替上下。(5)连续3个点中有两个点距中心线距离超过2个标准差(位于警戒限以外)。(6)连续5个点中有4个点距中心线距离超过1个标准差(7)中心线一侧或两侧连续15个点距中心线距离都在1个标准差以内。(8)中心线一侧或两侧连续8个点距中心线距离都超出1个标准差范围。,三、二项分布、泊松分布的正态分布近似,1、二项分布的正态近似,二项分布图取决于和n因二项分布在当n 时,只要不太靠近0或1,特别是n 和 n(1-)都大于5时,二项分布则近似于正态分布N(n,n(1-),二项分布累积概率正态近似计算公式为:,见例4-14,与例4-6比较,Poisson 分布的正态近似,当20时,Poisson分布资料可按正态分布处理,见例,(3)正态分布是许多统计方法的理论基础,t检验、方差分析、相关回归等均建在正态分布的基础上。t分布,泊松分布的极限分布是正态分布。,案例讨论,见P62已知:=7/10万,n=10万,求(17)=?可求得:=n=7,则:,因0.00060.01,故2000年与2001年艾滋病感染率持平的说法是不成立的。对否?,答案,该例不能用Poisson 分布来计算,因爱滋病是传染病,不是独立事件,练习题1:,经大量调查得知,某市正常3岁女童的体重近似服 从正态分布,平均体重 x=15.5公斤,标准差s=1.9公斤。今有一女孩生后随母亲接触铝尘,3岁时其体重为12公斤。按99%的正常值范围衡量,问此女孩体重是否正常?答案,答案:(正常)因99%正常值范围为:,练习题2,观察某第100名12岁男孩身高,均数为138.00cm,标准差为4.12cm,Z=(128.00-138.00)/4.12=-2.43。(z)是标准正态分布的分布函数,1(z)=1(-2.43)=0.9925,结论是:,A、理论上身高低于138.00cm的12岁男孩占99.25%。B、理论上身高高于138.00cm的12岁男孩占99.25%。C、理论上身高在128.00cm至138.00cm的12岁男孩占99.25%。D、理论上身高低于128.00cm的12岁男孩占99.25%。E、理论上身高高于128.00cm的12岁男孩占99.25%。答案,答案为E。,练习题3,为了解某城市7岁男童身高发育情况,随机抽查该市区110名7岁男童,平均身高为119.95cm,标准差为4.72cm。,(1)用算式119.951.284.72计算得到的区间,可以解释为:理论上有多少的7岁男童身高在此范围内?A、95%B、80%C、90%D、10%E、20%,答案为B:80%,(2)理论上90%的7岁男童身高集中在,A、119.951.28 4.72B、119.951.64 4.72C、119.950.13 4.72D、119.951.96 4.72E、119.952.58 4.72,答案,答案为B 119.951.64 4.72,练习题 4,已知x服从均数为,标准差为 的正态分布,试估计:(1)x取值在区间 1.96 上的概率;(2)x取值在区间 2.58 上的概率;,