统计学三大分布-经典案例全集.ppt
23 常用的离散型分布:超几何分布二项分布泊松分布/正态分布,一、退化分布,二、两点分布,*四、二项分布,*六、超几何分布,*七、泊松(Poisson)分布,注解:凡是带有可以不讲,都是重点,*都是难点*本节重点难点:超几何分布的极限分布是二项分布,二项分布的极限分布是 Poisson 分布,三、离散均匀分布,课件分布规律与上课指南:,1.离散分布之一:超几何与二项2.离散分布之二:二项与泊松小结:超几何转二项,二项转泊松正态3.离散分布之三:四大分布数字特征4.附录注意1:附录三有各种分布的EXCEL求解公式注意2:上课可以先将几个不重要的分布,在附录1-退化/两点/0-1/均匀分布先简介30分钟,再用90分钟讲解四大分布及其关系,离散分布之一:超几何分布vs二项分布,1,超几何分布:基本意义/期望方差/与二项分布的关系2,二项分布:基本意义/期望方差/与超几何分布的关系有放回抽样模型=重复抽样模型=二项分布B(n,P),EXCEL:BINOMDIST(k,n,P,逻辑值)不放回抽样模型=不重复抽样=超几何分布H(n,N1,N),EXCEL:HYPGEOMDIST(k,n,N1,N),X=0 1 2 K.M,Cn0P0qn,Cn1P1qn-1,Cn2P2qn-2 CnkPkqn-k CnnPnq0,0e/0!,1e/1!,2e/2 ke/k!ne/n!,三大分布的概率计算对比,超几何分布二项分布泊松分布/正态分布,一、超几何分布二项分布:案例分析,案例:10产品,3-7+;100件,30-70+,任取3无放回:X=0 1 2 3 P(X=)=C73/C103 C31C72/C103 C32C71/C103 C33/C103 0.2917 0.525 0.175 0.0083 C703/C1003,C301C702/C1003,C302C701/C1003,C303/C1003 0.339 0.448 0.188 0.025有放回=C300.73 C310.310.72 C320.320.71 C330.33 0.343 0.441 0.189 0.027 显然:当N+,H(n,N1,N2,N)b(n,P)图形分析:1,产品总量N越大,n/N越小,则越接近!2,两者图形向两边延伸,得到正态模型!,结论:当nN(n=0.05N)超几何分布二项分布,10=3次+7正,任取3件,有放回无放回,100=30次+70正,任取3件,有放回无放回,理论基础,数据:N=总体个数,N1=总体中A的个数,n样本个数,k=样本中A的个数;逼近关系:,超几何分布,N件产品,其中N1件次品不放回抽n,其中次品k件,二项分布,N件产品,次品率N1/N放回抽n,其中次品k件,nN,n=0.05N,Ex.案例:已知一麻袋种子,(共有100万颗,其中90万颗)发育正常90%,今从其中任取10粒,求播种后(1)恰有8粒(2)至少有8粒发芽的概率?(3)取1万颗,8000发芽概率,案例:二项分布适用范围,1.所有卖场销售数据:每天进场人数n不详,每天购买概率P未知,但是每天销售数据nP已知,如何求解销售数据的概率分布?好又多家乐福沃尔马/苏宁国美/DELL/本田/万科2.电子商务销售数据:已知点击人数n,购买率P,购买人数np,求解分布-阿里巴巴/当当购物3.网络邮箱/网络硬盘使用率:点击使用藤讯人数n,邮箱或硬盘使用率P,使用人数nP,藤讯QQ/网易/163/Hotmail/MSN/yahoo.4.饭店/酒店食物定购:真功夫/麦当劳/肯德基5.自己开店:花店/电脑城/如何进货销售曲线注解:案例1+5属于n,p未知,案例2+3+4属于n,p已知,例220 某商店根据过去的销售记录知道某种商品每月的销售量可以用参数为10的泊松分布来描述 为了以95%以上的概率保证不脱销 问商店在月底应存多少件该种商品(设只在月底进货)?大卖场的顾客数n很大,买商品概率P很少/多,设该商店每月销售该商品的件数为X 月底存货为a 则当Xa时就不会脱销 据题意 要求a使得 PXa095 由于已知X服从参数为10的泊松分布 上式即为,X=0,1,2,14,15,16a,P0P1P3 P14 P15 P16Pa,于是 这家商店只要在月底保证存货不低于15件就能以95%以上的概率保证下个月该种商品不会脱销,图示:实际销售数据概率/不脱销率的变化规律,补充实践应用案例举例1:伦敦情报战,伦敦上空的鹰究竟是有目的的轰炸行为还是随机的行为?二次世界大战期间,德军飞机对英伦三岛进行了无数次的轰炸空袭行动,为了了解英军情报是否泄密,英国密码是否被破译,英国情报机构对英国各被轰炸地区进行一项统计调查,他们对伦敦划分成586区,统计每个地区实际被轰炸次数如下:X=0 1 2 3 4 5 6 7 频数 229 221 93 35 7 1 0 0EX=0.93次=nP但是德军空袭次数n未知,理论被炸区数P()=231.2 215 100 31 7.2 1.34 0.2 0.02 结论:德军的空袭对任何地区发生的概率均等,且每次空袭袭击任何地区的概率都是P,试验属于n重独立试验类似案例:公司销售数据概率分布的获得,如eg2.20X=0,1,2,.,10,11,12,k,mean=EX=频率f=f0 f1 f2 f10 f11 f12 Pk实际概率fP(X)=P0 P1 P2 P10 P11 P12 Pk理论概率PIf|fi-Pi|a(阈值)then概率分布为P(X),否则,非P(X),理论与实践的对比:伦敦空袭统计,结论:无论从单点概率分布和累计概率分布,都能看出:德国人对任何地区的轰炸都是一种随机行为,每一个地区被轰炸的概率近似相等,英军情报没有泄密!,X=0 1 2 K.M,Cn0P0qn,Cn1P1qn-1,Cn2P2qn-2 CnkPkqn-k CnnPnq0,0e/0!,1e/1!,2e/2 ke/k!ne/n!,三大分布的概率计算对比,*第一/二部分小结2:三大分布分布律的相互关系,理论上 实践中N+,n10(5)b(n,P)N(nP,nPq)=N(u,2)棣莫弗-拉普拉斯中心极限定理Page111 证明略实践计算中:超几何二项分布泊松分布/正态分布,问题案例:某生物高科技集团,新研制出一批转基因种子,发芽率为0.7,准备试种1000颗,问其中有500颗以上发芽的概率?二项b(1000,0.7)?P(700)?P(300),二项分布泊松分布/正态分布n=100,p=0.01,np=1,二项泊松重合正态分布远离,N=2000产品次品NA=20,二项分布泊松分布/正态分布n=100,p=0.02,np=2,二项泊松重合二项正态靠近,N=2000产品次品NA=40,二项分布泊松分布/正态分布n=100,p=0.06,np=6,二项泊松重合二项正态重合,N=2000产品次品NA=120,二项分布泊松分布/正态分布n=100,p=0.1,np=10,二项泊松分离二项正态重合,N=2000产品次品NA=200,二项分布泊松分布/正态分布n=100,p=0.2,np=20,二项泊松分离二项正态重合,N=2000产品次品NA=400,二项分布泊松分布/正态分布n=100,p=0.4,np=40,二项泊松远离二项正态重合,N=2000产品次品NA=800,超几何分布二项分布泊松分布/正态分布N=2000,NA=40,n=100,p=0.2,np=2,超几何分布二项分布泊松分布/正态分布N=2000,NA=120,n=100,K=01.,np=6,超几何分布二项分布泊松分布/正态分布N=2000,NA=200,n=100,K=01.,np=10,理论基础总结,数据:N=总体个数,N1=总体中A的个数,n样本个数,k=样本中A的个数;逼近关系:,超几何分布,N件产品,其中N1件次品不放回抽n,其中次品k件,二项分布,N件产品,次品率N1/N放回抽n,其中次品k件,nN,n=0.05N,POISSON分布,NORMAL分布Gauss正态分布,二项分布,np5 and nq5,np5 or nq5,Poisson分布,P(np),Normal分布,N(np,npq),P(),N(u,2),提示:possion分布期望为的理论证明,*三、3大分布的分布律与数字特征小结,如果一个随机变量X的概率分布为,XH(nN1,N2,N)Xb(n p)XP()XN N1,N2,N+N1/N=P,N2/N=q n+,nP,三大分布的期望和方差比较,EX=nN1/N=nP EX=nP EX u,DX=n(N1/N)(N2/N)(N-n)/(N-1)DXnp(1-P)DX=2,注:从图形分析,与正态分布相比,三大分布更像偏态分布,*四、众数/最大可能值/P(X=k)及其计算,0e/0!,1e/1!ke/k!ne/n!Cn0P0qn,Cn1P1qn-1 CnkPkqn-k CnnPnq0显然,最大可能值X=k处,点概率应该满足:P(X=k)P(X=k-1),且P(X=k)P(X=k+1)ke/k!k-1e/(k-1)!k kke/k!k+1e/(k+1)!k+1k-1-1kCnkPkqn-kCnk-1Pk-1qn-k+1knP+PCnkPkqn-kCnk+1Pk+1qn-k-1knP+P-1 nP+P-1 knP+P-1k注:都在平均数附近,二项 泊松 正态 nP+P-1 knP+P-1k u nP+P,*四大分布重点回顾 1:分布律的联系;2:数字特征,1:H(n,N1,N)b(n,P)P()/N(nP,nPq)理论上 N n,nP/n,P不0,1实践中P()=b(,P),N(nP,nPq)=b(,P)即泊松分布与正态分布都是二项分布的极限分布2:EX=nN1/N EX=nP EX EX=u DX=n(N1/N)(N2/N)(N-n)/(N-1)DXnp(1-P)DX=DX=2众数k?nP+P-1knP+P-1k u3:区别-前三者为离散型分布,有点概率区间概率后者正态为连续分布,只有区间概率前三者为偏态分布,后者为正态二项分布当EX=nP处于中间时可以近似为正态分布 EX=nP处于两边时可以近似为泊松分布,附录三:四大分布的概率表示,1.超几何分布:HYPGEOMDIST(k,n,N1,N)2.二项分布:每点概率;累计概率和BINOMDIST(k,n,P,0);BINOMDIST(k,n,P,1)3.泊松分布:每点概率;累计概率和POISSON(k,=np,0);POISSON(k,1)4.正态分布:每点概率;累计概率和NORMDIST(k,u,0);NORMDIST(k,u,1),