5.第05章常用概率分布.ppt
第五章 常用概率分布,常用概率分布二项分布(binomial distribution)Poisson分布(Poisson distribution)正态分布(normal distribution),概率分布描述随机变量各种可能取值及其概率大小的表格、图形或公式,第一节 二项分布,一、二项分布的概念,实例:设小白鼠接受某种毒物一定剂量时,其死亡率80%。则对每只小白鼠来说,其死亡概率为0.8,生存概率为0.2。若每组各用甲乙丙三只小白鼠逐只做实验,观察每组小白鼠死亡情况。,1、二项分布的定义,在n次独立实验中,每次只有两个对立的结果(如阳性或阴性,生存或死亡),如果阳性结果发生的概率为,则阳性结果发生数X所服从的概率分布称为二项分布(binomial distribution)。记作:X B(n,),2、条件,(1)观察结果只能有两种可能的结果,且互相对立。(2)已知发生某一结果的概率为,则对立结果的概率为1-。(3)观察结果相互独立,即每个观察结果不会影响其他观察结果。,3、恰有X例阳性的概率为,例5-2 临床上用针灸治疗某型头痛,有效的概率为60%,现以该法治疗3例,其中两例有效的概率是多大?,二、二项分布的特征,1、二项分布的图形特征,图5-1=0.5时,不同n值对应的二项分布,图5-2=0.3时,不同n值对应的二项分布,(1)二项分布图形取决于与n,高峰=n处。(2)接近0.5时,图形是对称的;离0.5愈远,对称性愈差。(3)随着n的增大,分布趋于对称。(4)当n 和n(1)都大于5时,二项分布近似于正态分布。(5)二项分布是一种离散型分布。,特征总结:,2、二项分布的均数和标准差,总体均数:方差:标准差:,如果将出现阳性结果的频率记为则p的总体均数与标准差为:总体均数:标准差:,三、二项分布的应用,(一)概率估计 例5-5 如果某地钩虫感染率为13%,随机观察当地150人,其中有10人感染钩虫的概率有多大?,感染人数X服从n=150,=0.13的二项分布,可以得出150人中有10人感染钩虫的概率为,1、二项分布出现阳性的次数至多为k次的概率为,2、出现阳性的次数至少为k次的概率为,(二)单侧累积概率计算,例5-6 例4-5中某地钩虫感染率为13%,随机抽查当地150人,其中至多有2名感染钩虫的概率有多大?至少有2名感染钩虫的概率有多大?至少有20名感染钩虫的概率有多大?,至多有2名感染钩虫的概率为,至少有2名感染钩虫的概率为,至少有20名感染钩虫的概率为,第二节Poisson分布,一、Poisson分布的概念 Poisson分布也是一种离散型分布,用以描述罕见事件发生次数的概率分布。医学上人群中出生缺陷、多胞胎、染色体异常等事件等都是罕见的。,Poisson分布可以看作是发生的概率很小,而观察例数n很大时的二项分布。除二项分布的三个基本条以外,Poisson分布还要求或(1)接近于0或1。很多情况下,和n都难以确定,而是以观察单位时间(或单位空间、单位面积等)内稀有事件的发生数X来表示。,二、Poisson分布的特征,1、恰有X例稀有事件的发生的概率为:式中,为Poisson分布的总体均数,X为观察单位内稀有事件的发生次数;e为自然对数的底,为常数,约等于2.71828。,图5-3 取不同值时的Poisson分布图,2、图形特征当总体均数值小于5时为偏峰,愈小分布愈偏,随着增大,分布趋向对称。3、Poisson分布的特性:(1)Poisson分布的总体均数与总体方差相等,均为。(2)Poisson分布的观察结果有可加性。,三、Poisson分布的应用,(一)概率估计例5-7 如果某地新生儿先天性心脏病的发病概率为8,那么该地120名新生儿中有4人患先天性心脏病的概率有多大?=n=1200.008=0.96,(二)单侧累计概率计算,如果稀有事件发生次数的总体均数为,那么该稀有事件发生次数至多为k次的概率,发生次数至少为k次的概率,例5-8 例5-7中,至多有4人患先天性心脏病的概率有多大?至少有人患先天性心脏病的概率有多大?,至多有4人患先天性心脏病的概率,至少有人患先天性心脏病的概率为,第三节 正态分布(Normal distribution),一、正态分布的概念在医学卫生领域中有许多变量的频数分布是中间(靠近均数处)频数多,两边频数少,且左右对称。这种指标的频数分布规律往往可以用概率论中的一种重要随机变量的分布正态分布来描述。,图5-4 体模“骨密度”测量值的分布接近正态分布示意图,正态曲线(Normal cure):是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟形曲线。,二、正态分布密度函数及表达,通常用记号N(,2)表示:均数为,标准差为的正态分布。,其中,,为总体均数,为总体标准差,三、正态分布曲线的特点,(1)关于x=对称。(2)在x=处取得该概率密度函数的最大值,在 处有拐点,表现为钟形曲线。(3)位置参数决定曲线在横轴上的位置,增大,曲线沿横轴向右移;反之,减小,曲线沿横轴向左移。(4)形态参数决定曲线的形状,当恒定时,越大,数据越分散,曲线越矮胖;越小,数据越集中,曲线越瘦高。见图4-5。,不同均数,不同标准差,四、正态曲线下面积的分布规律,1、曲线下横轴上的面积为1;2、在 的范围内曲线下的面积等于0.6827;3、在 1.96范围内曲线下面积为0.9500;4、在 2.58范围内曲线下面积为0.9900。,五、标准正态分布,作如下的标准化变换,也称Z变换,则Z服从总体均数为0、总体标准差为1的正态分布。我们称此正态分布为标准正态分布(standard normal distribution),表示为:,统计学家编制了标准正态分布曲线下面积分布表(附表1)。表内所列数据表示Z取不同值时标准正态分布的分布函数值,此值大小相当于Z值左侧标准正态曲线下面积,记作。,例5-12 某地1986年120名8岁男孩身高均数为=123.02cm,标准差为S=4.79cm,试估计(1)该地8岁男孩身高在130cm以上者占该地8岁男孩总数的百分比;(2)身高在120cm128cm者占该地8岁男孩总数的百分比;(3)该地80%的男孩身高集中在哪个范围?,(1)求Z值:查表:理论上该地8岁男孩身高在130cm以上者占该地8岁男孩总数的7.21%。,(2)先计算120 和128所对应的Z值:正态曲线下区间(0.63,1.04)上的面积等于,(3)查附表1,标准正态分布曲线下左侧面积为0.10所对应的Z值为1.28,80%的8岁男孩身高集中在 区间内,即116.9cm与129.2cm之间。,六、正态分布的应用,(一)确定医学参考值范围医学参考值范围(reference ranges):是指特定的“正常”人群数据中大多数个体的取值所在的范围。人们习惯用该人群95%的个体某项医学指标的取值范围作为该指标的医学参考值范围。,(二)、医学参考值范围的制定方法,估计的方法:1、正态分布法2、百分位数法,应用条件:正态分布或近似正态分布资料 计算 95%正常值(医学参考值)范围公式:双侧:即 单下:单上:例如:某地正常成年男子红细胞数的95%的参考值范围。,1、正态分布法,2、百分位数法,应用条件:偏态分布资料 计算公式:双侧界值:P 2.5 P 97.5 单侧 上界:P 95 单侧 下界:P 5,例:调查某地120名健康女性血红蛋白,直方图显示,其分布近似于正态分布,(g/L),(g/L),试估计该地健康女性血红蛋白的95%参考值范围。因血红蛋白过高、过低均为异常,所以按双侧估计95%医学参考值范围,(二)质量控制,控制图:警戒限:均数2倍标准差控制限:均数3倍标准差,(三)二项分布、泊松分布的正态近似,2、泊松分布的正态近似,1、二项分布的正态近似,谢谢,