第4章大数定律和中心极限定理ppt课件.ppt
第4章 大数定理和中心极限定理,4.1 验证性实验4.2 设计性实验4.3 综合性实验,第4章 大数定理和中心极限定理,从17世纪概率论产生开始,随着18、19世纪科学的发展,人们注意到在某些生物、物理和社会现象与赌博游戏之间有某种相似性,从而由赌博起源的概率论被应用到这些领域中,这同时也大大推动了概率论本身的发展。,使概率论成为数学的一个分支的奠基人是瑞士数学家j伯努利,他建立了概率论中第一个极限定理,即伯努利大数定律,阐明了事件的频率稳定于它的概率。随后棣莫弗和拉普拉斯又导出了第二个基本极限定理(中心极限定理)的原始形式。,拉普拉斯在系统总结前人工作的基础上写出了分析的概率理论,明确给出了概率的古典定义,并在概率论中引入了更有力的分析工具,将概率论推向一个新的发展阶段。,19世纪末,俄国数学家切比雪夫、马尔可夫、李亚普诺夫等人用分析方法建立了大数定律及中心极限定理的一般形式,科学地解释了为什么实际中遇到的许多随机变量近似服从正态分布。,算术平均值,即若干个数X1、X2Xn之和除以n,是最常用的一种统计方法,人们经常使用并深信不疑。但其理论根据何在,并不易讲清楚,这是大数定律要回答的问题,在某种程度上可以说,大数定律是整个概率论最基本的规律之一,也是数理统计学的理论基石。,大数定律从理论上回答了通过试验来确定概率的方法:做n次独立的重复试验,以 表示n 次试验中事件A发生的次数,那么我们可以以很大的概率确信。,在客观实际中有许多随机变量,他们是由大量相互独立的随机因素的综合影响所形成的,其中每一个别因素在总的影响中所起的作用都很微小。如测量误差就可以看成是由很多微小的因素影响的结果叠加而成的。,这些因素相互独立地对测量结果发生影响,每个因素都只发生很微小的作用,把它们的影响叠加起来就造成了误差,类似这样的情况可以举出很多,而在某种具体条件下,这种随机变量往往近似的服从正态分布。,这种现象就是中心极限定理的客观背景。中心极限定理是概率论中论证随机变量和的极限分布为正态分布的定理的总称,也是大样本统计推断的理论基础。,4.1 验证性实验,实验一大数定律【实验目的】1.加深对大数定理的认识,对其背景和应用有直观的理解2.了解MATLAB软件在模拟仿真中的应用,【实验要求】大数定理的理论知识,Matlab软件【实验内容】1.设随机变量 相互独立且服从参数为3的泊松分布。验证当 时,随机变量 依概率收敛到12。,2已知每毫升正常成年男子的血液中,白细胞数的平均值是7300个,均方差是700,利用切比雪夫不等式估计成年男子每毫升血液中,白细胞数在52009400之间的概率。,【实验过程】1由随机变量的独立性关系,满足辛钦大数定律的条件,且各自的数学期望 所以,根据辛钦大数定律有:依概率收敛到。可由Matlab生成一串满足泊松分布的随机数,计算,求它的期望是否接近12给 n一系列逐渐增大的取值,观察接近的情况,在命令窗口输入:n=100 500 1000 3000 5000;k=1000;Ey=;for jj=1:size(n,2)X=;Y=;for ii=1:n(jj),X(:,ii)=poissrnd(3,k,1);end Y(:,jj)=sum(X(:,1:n(jj).2,2);Ey(jj)=mean(Y(:,jj)/n(jj);end Ey,依次给n赋值100 500 1000 3000 5000,输出结果为:Ey=12.0286 12.0125 12.0129 11.9974 12.0059可以通过画出Ey的图形来观察它的变化情况:,2设每毫升血液含有的白细胞数为,所求为。显然,不知道X 的分布情况不能直接求出此概率值。但是,已知,所以,由切比雪夫不等式,,所以,大约88.89%以上的成年男子每毫升血液中的白细胞数在52009400之间。,实验过程为,在Matlab命令窗口输入:Ex=7300;Dx=700;p=1-Dx2/(9400-Ex)2输出结果为:p=0.8889,实验二中心极限定理【实验目的】1加深对中心极限定理的认识,对其背景和应用有直观的理解2了解MATLAB软件在模拟仿真中的应用【实验要求】数学中心极限定理的理论知识,Matlab软件,【实验内容】1一个加法器同时收到20个噪声电压,.设他们是相互独立的随机变量,且都服从0,10上的均匀分布。记,求 的近似值。,2据说公共汽车车门的高度是按成年男子与车门碰头的机会在0.01以下的标准来设计的。根据统计资料,成年男子的身高X服从正态分布(厘米),那么车门的高度应该是多少厘米?,【实验过程】1根据理论计算,易知,,近似服从正态分布,所以可以通过Matlab验证,随机生成20个在0,10上的均匀分布的噪声数据,计算它们的和。重复多次,计算它们的和大于105的概率。,在Matlab命令窗口输入:times=1000;R=unifrnd(0,10,20,times);sigma=sum(R);pro=sum(sigma105)/times结果为:pro=0.3510,2根据理论,设车门高度为,那么应有:由,有:,有:所以 得(cm)有Matlab命令:h=norminv(0.99,168,7)得到:184.2844用Matlab模拟,随机生成正态分布的随机数,计算它们大于184.31的概率如果小于0.01,则说明184.31符合要求。,在Matlab命令窗口输入:times=1000;R=normrnd(168,7,times,1);pro=sum(R184.31)/times结果为:pro=0.0090 说明一个人大于184.31cm的为0.0090,符合小于0.01的要求。,4.2 设计性实验,实验一大数定律【实验目的】1.加深对大数定理的认识,对其背景和应用有直观的理解2.了解MATLAB软件在模拟仿真中的应用【实验要求】数学期望与方差的理论知识,Matlab软件,【实验内容】用蒙特卡罗方法计算定积分,如。【实验方案】通过概率论的想法实现数值计算的方法叫做蒙特卡罗方法,其理论根据之一就是大数定律。定积分的计算可以用如下方法实现。,任取一列相互独立的随机变量,它们都服从 上的均匀分布,则 也是一列相互独立的随机变量,且,所以而由大数定律,有因此只要能生成随机变量序列,就能求出 的近似值。,我们可以在计算机上先生成服从均匀分布的随机数,然后通过上面公式得出近似值,即:这里的 是计算机上生成的随机数。,【实验过程】假设生成1000个随机数进行近似计算,在命令窗口输入:times=1000;x=rand(1,times);y=x.2;I=sum(y)/timesI=0.3422,而直接根据积分公式计算,我们有结果:syms(x);I=int(x2,0,1)I=1/3可见,概率积分方法与实际结果非常近似,实验二中心极限定理【实验目的】1.加深对中心极限定理的认识,对其背景和应用有直观的理解2.了解MATLAB软件在模拟仿真中的应用【实验要求】数学中心极限定理的理论知识,Matlab软件,【实验内容】1根据蒙德尔遗传理论,红、黄两种番茄杂交第二代红果植株和黄果植株的比率为3:1。现在种植杂交种400株,试求黄果植株介于83和117只间的概率。2已知一本380页的书中每页的印制错误的个数服从泊松分布,求这本书的印刷错误总数不多于60个的概率。,3设有3000个同一年龄段和同一社会阶层的人参加了保险公司的保险。统计资料表明:在一年中这一年龄段的人死亡的概率为0.003。每个人在年初向保险公司缴纳保费280元,而在死亡时家属可从保险公司领到50000元。求:(1)保险公司亏本的概率;(2)保险公司获利不少于20万元的概率。,故所求概率为0.95。,在Matlab命令窗口输入:n=400;p=1/4;u1=117;Pu1=normcdf(u1-n*p)/sqrt(n*p*(1-p);,u2=83;Pu2=normcdf(u2-n*p)/sqrt(n*p*(1-p);Pu=Pu1-Pu2输出结果为:Pu=0.9504,2以 表示第 i页印刷错误的个数,则该书的印刷错误总数为由题意,,则,且 相互独立。所以,由独立同分布的中心极限定理,在Matlab命令窗口输入:lamda=0.15;n=380;x=60;Px=normcdf(x-n*lamda)/sqrt(n*lamda)输出结果为:Px=0.6544,3设 X表示一年里3000投保人中的死亡人数,则,年初保险公司的收入为280*3000=840000元,赔付金额为 50000X元。(1)保险公司亏本的情况为:,则由棣莫弗拉普拉斯中心极限定理,所以,保险公司亏本的概率为0.0047。,(2)保险公司获利20万元的概率为:即保险公司获利不少于20万元的概率为0.8977。,【实验过程】观察400株杂交种每株结什么果实,可以视为 次独立试验。结黄果的概率为 1/4,结红果的概率为 3/4。以 表示400株中结黄果的株数,根据棣莫弗拉普拉斯中心极限定理,则所求概率为,实验过程,在Matlab命令窗口输入:p=0.003;n=3000;premium=280;indemnity=50000;profit=200000;gain=premium*n;x1=gain/indemnity;,p1=1-normcdf(x1-n*p)/sqrt(n*p*(1-p)x2=(gain-profit)/indemnity;p2=normcdf(x2-n*p)/sqrt(n*p*(1-p)输出结果为:p1=0.0046p2=0.8977,4.3 综合性实验,实验一测量的精确性【实验目的】1.加深对数学期望和方差概念的理解,并了解其使用 2.了解MATLAB软件在模拟仿真中的应用【实验要求】数学期望与方差的理论知识,Matlab软件,【实验内容】中学物理给了大家一个结论:在进行测量时,为了减少随机误差,往往是重复测量多次后取其结果的平均值。特别是在做一些较精确的测量时,更是需要多次测量。现以测量一个线段的长度为例,请大家对这一结论做出解释。,【实验过程】设()为经过多次测量时得到的结果,则 相互独立,且服从相同分布。由影响测量的因素较多,所以 一般服从正态分布,假设有,根据独立同分布的中心极限定理,对于重复多次试验,这些独立同分布的随机变量的和 服从,由期望和方差的性质有经过多次测量求平均后,在期望不变的情况下,原本 的方差,变成了。,由于方差的变小,结果自然更加精确。当我们进行精密测量时,为了减少随机误差,往往就是这样重复测量多次后取其结果的平均值。在Matlab命令窗口随机生成一串随机数,服从,然后取其中一部分结果,观察其平均值的变化:,kesai=normrnd(50,2,100,1);kesai(1)ans=46.2663 mean(kesai(1:10)ans=49.9743 mean(kesai(1:100),ans=49.9900若不取平均值,就一次测量,误差为:5046.26633.7337;取10次测量的结果,误差为5049.97430.0257;而取100测量的结果,误差为:5049.99000.0100。可见,多次测量可以提高测量的精度。,实验二大数定律在保险中的应用【实验目的】1加深对数学期望和方差概念的理解,并了解其使用2了解MATLAB软件在模拟仿真中的应用【实验要求】数学期望与方差的理论知识,Matlab软件,【实验内容】在概率论中,一切论述“一系列(数目很大)相互独立的随机变量的平均值几乎恒等于一个常数”的定理都称为大数定律。大数定律是说,数目很多的一些相互独立的随机变量,尽管它们的取值都是随机的,但它们的平均值几乎恒等于一个常数。,大数定律应用在保险学上,就是保险的赔偿遵从大数定律。其含义是:参加某项保险的投保户成千上万,虽然每一户情况各不相同,但对保险公司来说,平均每户的赔偿金几乎恒等于一个常数。,假如某保险公司有10000个同阶层的人参加人寿保险,每人每年付12元保险费,在一年内一个人死亡的概率为0.006,死亡时,其家属可向保险公司领得1000元。试问:平均每户支付赔偿金5.9元至6.1元的概率是多少?保险公司亏本的概率有多大?保险公司每年利润大于4万的概率是多少?,【实验过程】设 表示保险公司支付给第 户的赔偿金,,各 相互独立。则表示保险公司平均对每户的赔偿金,,由中心极限定理,,虽然每一家的赔偿金差别很大(有的是0,有的是1000元),但保险公司平均对每户的支付几乎恒等于6元,在5.9元至6.1元内的概率接近于1,几乎是必然的。所以,对保险公司来说,只关心这个平均数。,在Matlab命令窗口输入:format long low=5.9;up=6.1;n=10000;fee=12;p=0.006;fp=1000;Ex=fp*p;Dx=fp*p*(1-p);,Exx=Ex;Dxx=Dx/n;P1=normcdf(up-Exx)/sqrt(Dxx)-normcdf(low-Exx)/sqrt(Dxx)输出结果为:P1=0.99995774410265可见,在5.9元至6.1元内的概率接近于1,几乎是必然的。,保险公司亏本,也就是赔偿金额大于,即死亡人数大于120人的概率。由每个人都死亡服从二项分布,在一年内一个人死亡的概率为0.006。设一年内死亡人数为 Y,则 由中心极限定理,Y近似服从正态分布 那么,在Matlab命令窗口输入:yn=n*fee/fp;m,v=binostat(n,0.006);P2=1-normcdf(yn,m,sqrt(v)输出结果为:P2=3.996802888650564e-015,这说明,保险公司亏本的概率几乎等于零甚至我们可以确定赢利低于3万元的概率几乎等于零(即赔偿人数大于90人的概率也几乎等于零)。P2=1-normcdf(90,m,sqrt(v)输出结果为:P2=5.123768265258288e-005,如果保险公司每年的利润大于4万元,即赔偿人数小于80人。则 P2=normcdf(80,m,sqrt(v)输出结果为:P2=0.99519799478624可见,保险公司每年利润大于4万元的概率接近100%。,在保险市场的竞争过程中,有两个可以采用的策略,一是降低保险费3元,另一个是提高赔偿金500元,哪种做法更有可能吸纳更多的投保者,哪一种效果更好?对保险公司来说,收益是一样的,而采用提高赔偿金比降低3元保险费更能吸引投保户。,点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数,通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。点估计常用的方法是:矩估计法,最大似然估计法,除此之外还有最小二乘法,贝叶斯估计法等。,可以用来估计未知参数的估计量很多,于是产生了怎样选择一个优良估计量的问题。首先必须对优良性定出准则,这种准则是不唯一的,可以根据实际问题和理论研究的方便进行选择。优良性准则有两大类:一类是小样本准则,即在样本大小固定时的优良性准则;另一类是大样本准则,即在样本大小趋于无穷时的优良性准则。,最重要的小样本优良性准则是无偏性及与此相关的一致最小方差无偏估计,其次有容许性准则,最小化最大准则,最优同变准则等。大样本优良性准则有相合性、最优渐近正态估计和渐近有效估计等。,区间估计是依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或未知参数的函数的真值所在范围的估计。1934年统计学家J.奈曼创立了一种严格的区间估计理论。求置信区间常用的三种方法:利用已知的抽样分布;利用区间估计与假设检验的联系;利用大样本理论。,参数估计是数理统计中重要的内容,也是计算量非常大的问题,以前都是使用计算器和查表,非常麻烦,现在可以用功能强大的数学软件Matlab来解决这个问题,本章主要介绍一些与参数估计有关的实验,并利用Matlab实现。,