分布函数的计算.ppt
《分布函数的计算.ppt》由会员分享,可在线阅读,更多相关《分布函数的计算.ppt(89页珍藏版)》请在三一办公上搜索。
1、1、密度函数和分布函数2、分布函数的一般计算方法3、标准正态分布的计算方法4、统计工具箱的各种分布计算5、统计推断原理6、非参数统计分析7、习题,第三章 分布函数的计算,分布函数的计算在整个信息统计分析应用中起着基础性的作用,当我们建立了某个统计模型后,会产生很多的统计量,用它们对某个假设进行检验。这时必须知道这些统计量的分布,某一点的概率、某概率的分位点。在学习概率论时我们已经知道用查表的方法进行计算。本章介绍分布函数的计算方法,以及如何用MATLAB的统计工具箱计算各种分布的概率与分位点的计算。,1、密度函数和分布函数,密度函数和分布函数是反映随机变量的总体规律的函数,当一个变量X在没有抽
2、样之前不知会有什么结果,但结果的范围是知道的,这样的变量称为随机变量。随机变量可以分为:(1)连续型随机变量(2)离散型随机变量,(1)连续型随机变量随机变量的结果空间是实数,例如服从(0,1)上的均匀分布随机数、人体身高随机数等。例3.1.1 续型随机变量的例子:大学生男性身高X、随机抽一个大学生量其身高得随机变量的一个实现,例如x=1.75米。则X是一个连续型的随机变量。这种随机变量服从正态分布。正态分布是统计分析中极其重要的分布。,(2)离散型随机变量 当一个随机变量X的结果空间有有限个元素或可列个元素时,称该随机变量为离散型随机变量。,例3.1.2 离散型随机变量的例 设某汽车站7点到
3、7点05分等车的人数为一变量X,显然X可取值0,1,2,3,。则X是一个离散型的随机变量。事实上这种随机变量称为服从泊松分布规律的随机变量。投一硬币,正面为1,反面为0。记该随机变量为X,则其结果空间为0,1。也是一个离散随机变量。,(一)密度函数和分布律,随机变量X在没有发生时我们不知到,也不能预测其结果,看似随机变量没有规律。但是我们进行大量抽样或实验时,却可以看见明显的规律。,例:对男性大学生随机抽检,共抽400名大学生测量其身高。将身高区间(1.50,2.1)分划分成若干段,计算每段学生身高的数量,并作直方图。,%第三章,例R=normrnd(1.7,0.1,400,1);%产生正态分
4、布的随机数histfit(R,12)%作直方图并建立拟合曲线,从例可以看出,大学生身高的一些特点。1)首先身高在平均值附近的人数特别多。2)从直方图中我们可以看出身高的趋势具有对称性。3)离平均值越远数量越少。这是典型的正态分布的特点。可以想象当我们抽样量增大应该有一个理论函数作为极限。密度函数(inv)称这个理论函数为连续型随机变量的密度函数,上图中的红线所显示的就是密度函数的图形。在MATLAB这密度函数用inv来表示。,正态分布的密度函数 p 表达式为:,其中参数:为平均值。是随机变量中心趋势的描述。,:为标准差。是随机变量离散程度的描述。,分布律(inv),对于离散型随机变量,分布律相
5、当于连续型随机变量的密度函数。例:作泊松分布随机变量的分布律图形。,这里 为参数,表示随机变量的平均值和方差。,设平均值为5,算出0到10的分布律,X=0:10;Y=poissinv(X,5);%计算泊松分布每点的概率stem(X,Y)%作分布律图形,(二)分布函数cdf,分布函数是对密度函数进行积分,其表达式为:,分布函数函数具有以下性质:,1)对任意x有,2)单调不降,,利用分布函数我们可以计算随机变量X落在某一范围的概率,或者说我们掌握了该随机变量的规律了。,连续型,离散型,例:分别作出连续型和离散型随机变量的inv和cdf(1)设男性大学生的身高X的平均值为1.7米,标准差为0.1米。
6、作密度函数和分布函数。利用MATLAB中的正态分布norminv和normcdf命令进行计算,X=linspace(1.4,2.1,100);P=normcdf(X,1.7,0.1);p=norminv(X,1.7,0.1);subplot(1,2,1),plot(X,p),title(身高密度函数)subplot(1,2,2),plot(X,P),title(身高分布函数),(2)设X服从均值为5的泊松分布,作分布律和分布函数图形。,X=0:10;Y=poissinv(X,5);Y1=poisscdf(X,5)subplot(1,2,1),stem(X,Y),title(泊松分布律)subp
7、lot(1,2,2),stairs(X,Y1),title(泊松分布函数),(三)下侧概率、上侧概率和分位点,下侧概率的定义:,上侧概率的定义:,利用分布函数我们可以计算随机变量X落在某一范围的概率,或者说我们掌握了该随机变量的规律了。例如随机变量X小于分位点的概率即下侧概率,大于分位点的概率即上侧概率。而随机变量落入x1和x2之间的概率可用以下公式计算。,例:男性大学生身高X的平均值为1.7米,标准差为0.1米。1)计算身高小于1.8米大于1.6米发生的概率,即随机变量X落入区间(1.6,1.8)的概率。2)求下侧概率为0.95的分位点。解:本题利用分布函数进行计算 P(1.6X1.8)=F
8、(1.8)-F(1.6),%例 3.1.6 计算身高小于1.8米大于1.6米发生的概率P=normcdf(1.8,1.7,0.1)-normcdf(1.6,1.7,0.1),计算结果为:P=0.6827,X=norminv(0.95,1.70,0.1)%计算下侧概率的分位点,计算结果为:X=1.8645,即有95%的人身高在1.86以下。,例:设某车站7:00到7:05分等车人数为服从泊松分布的随机变量X,均值为5。求1)人数小于等于12发生的概率。2)人数大于等于8发生的概率。3)计算上侧概率为0.05的分位点。解:本题利用分布函数进行计算,1)小于12的计算公式为:,P=poisscdf(
9、12,5)%小于12的概率计算结果为:P=0.998,2)大于8的计算公式为:1-F(8),P=poisscdf(12,5)%小于12的概率,按题义命令为:x=poissinv(0.95,5),计算结果为:x=9,(一)积分计算的一般方法 分布函数的一般形式为:,问题实际归为求积分,当密度函数非常复杂或用解析方法不能积分时,我们常常使用数值积分的方法来处理。,(3.2.1),2、分布函数的一般计算方法,其基本思想是,用简单函数来代替复杂的被积函数。例如在被积函数的定义域内选一系列的点。,然后求在该点处的函数值,定义插值多项式如下:,(3.1.2),其中,这里,称为拉格朗日插值多项式,其具有以下
10、性质:,1)。2)在上点与点之间为线性函数。,显然有以下关系式成立:,(3.1.3),其中,是误差函数。,可以证明,当,有n+1阶有界导数时,,(3.1.4),当,时,,,即当,是不高于 n 阶的多项式时,有,对(3.1.3)两边积分,我们有,(3.1.5),从而我们可以得到积分的一般近似公式:,(3.1.7),其中,,(3.1.7)称为NewtonCotes型积分公式,而Ai 为Cotes系数,其误差为,这样我们就将一个复杂的积分问题,近似地用代数和的形式来代替了。关于计算的精度我们可以通过 E 来估计。目前一些数学软件如Mathematica等,可以方便地获取Cotes系数,,x0,x1,
11、x2,x3,x4,f(x2),f(x4),红色折线为拉格朗日插值多项式,l 代数精度概念定义 3.1.1 若某个求积公式对于小于等于n 的多项式均能准确地成立,但对n+1次多项式则不能。则称该求积公式具有n次代数精度。,例3.1.1 梯形求积公式,当 时,左边=右边。准确地成立。,当,时,也准确成立。,当,时,,而,所以梯形求积公式具有一次代数精度。例 利用梯形、抛物线及NewtonCotes求积公式(n=7)计算解:(1)梯形求积公式Cotes系数为1/2,1/2,,(2)抛物线求积公式Cotes系数为1/6,4/6,1/6,(3)取7个点Cotes系数为41/840,9/35,9/280,
12、34/105,9/280,9/35,/41/840,复合求积公式对于一个求积公式,我们要求它们的算法稳定并收敛,但不幸的是 NewtonCotes 求积公式并不稳定,在某些情况下计算不收敛。例 讨论函数 在区间-1,1,用Cotes系数计算的收敛问题。,如用 Newton-Cotes 求积公式,则在该区间不收敛。请见以下结果 n=1时 NC=0.07692 n=2时 NC=1.35897n=10时 NC=0.93466 n=40时 NC=-4912.42,显然 NewtonCotes 求积公式有致命的弱点。为改善求积公式,我们使用复合求积公式。其基本思想是把积分区间分成若干小区间,每个小区间中
13、用次数不高的插值多项式近似逼近。1)复合梯形求积公式对区间a,bn等份,基点对每个小区间用梯形求积公式,则,Tn 称为复合梯形公式。为便于按迭代计算,在原有的分划基础上把区间分为 2n 等分,每个小区使用梯形公式,则有,这里,2)复合抛物线求积公式复合抛物线求积公式具有比复合梯形求积公式更快的收敛速度。抛物线公式用到了区间的中点,所以对区间a,b进行划分时应该分成偶数个小区间。,令n=2m,m为正整数,在每个小区间 上用抛物线公式,从而,3)步长的自动选择与停止准则 在实际计算中,往往是先给出误差精度,在保证精度的前提下,没有必要将区间无限的分下去。假设给出的误差精度为,若,则对区间划分到 2
14、n 等分即告停止。,例 对于误差为0.000001,我们来看用复合梯形积分公式和复合抛物线求积公式计算结果,复合梯形求积公式的结果结果为:n=12 t=0.5496878 eps=0.0004596结果为:n=24 t=0.54927516 eps=0.0004126结果为:n=48 t=0.54933891 eps=0.0000638结果为:n=96 t=0.54935496 eps=0.0001604结果为:n=192 t=0.54936892 eps=4.01210-6结果为:n=384 t=0.54935997 eps=1.003210-6结果为:n=768 t=0.54936022
15、eps=2.50810-7复合抛物线求积公式的结果结果为:n=12 t=0.54036028 eps=0.1036734结果为:n=24 t=0.54913762 eps=0.0087778结果为:n=48 t=0.549360162 eps=0.0002225结果为:n=96 t=0.54936031 eps=1.42910-7,l 高斯(Gauss)型求积公式我们已经知道用NowtonCotes系数来进行近似积分,其一般公式为:,其基点 是等距离的,且代数精度最多仅为n+1,并且对于某些积分步收敛。能否通过改变基点的距离来提高计算的精度和稳定性呢?回答是肯定的。定义3.1.2 如果区间a,
16、b的一组基点 能够使得插值求积公式具有2n+1次代数精度,则称其为高斯型插值求积公式,其基点称为高斯点,而系数Ai则称为高斯系数。,高斯点与正交多项式的关系定理 是区间 a,b 上的高斯点的充分必要条件为多项式 是区间 a,b 上的 n+1 次正交多项式。例3.1.6 我们仍然来看前面的例子,对积分,利用高斯插值公式进行近似计算。解:这里我们取35个高斯点进行计算,其结果为 I=0.549362,3、标准正态分布的数值计算,任何正态分布的随机变量 X 通过标准化即 U=(X)/S其中=E(X)S=V(X)从而得到一个标准正态分布随机变量U。因此我们仅考虑标准正态分布函数的计算,随机变量U以,为
17、 u 的概率密度函数,记为UN(0,1)。对于标准正态分布随机变量U有E(U)=0V(U)=1,(一)标准正态分布与误差函数标准正态分布的下侧概率(即分布函数)为,上侧概率为,上侧概率,分位点,标准正态分布的上侧概率与分位点:,用于计算上侧概率的误差函数,定义为:,(0 X x),通过变换有,则分布函数的计算公式为:,(二)标准正态分布函数的数值计算 计算标准正态分布函数的近似公式很多,在此仅举一例。,其中 a1=0.196854 a2=0.115194 a3=0.000344 a4=0.019527其最大绝对误差是2.5104,这是一个简单实用的近似公式,在精度要求不高时用起来很方便。,其中
18、的一种近似公式为,这里,其中c0=2.515517 d1=1.432788c1=0.802853 d2=0.189269c2=0.010328 d3=0.001308上述近似公式的最大绝对误差为0.00044。其它随机变量的分布函数也是按照某种近似公式计算的。,5、统计工具箱的各种分布计算,(一)各种分布的概率计算,MATLAB给出了各种分布的随机数的计算,部分列表如下:,部分随机变量的密度函数pdf,部分随机变量的分位点计算inv,(二)分布函数各种计算命令的命名规则,分布计算命令分为三部分,即分布名、计算名和参数。例如:,分布名,计算名,norm,inv,(a1,a2,ak),参数部分,例
19、如:计算正态分布的分位点命令语法为:,X=norminv(P,MU,SIGMA)这里:P:给定的正态分布下侧概率 MU:为均值 SIGMA:为方差,(三)卡方分布:如果随机变量X的密度函数为:,则称随机变量X服从自由度为v的卡方分布,卡方分布在统计推断中具有十分重要的作用,特别是在分布的拟合优度检验时。,例3.5.1 关于卡方分布和正态分布的关系(1)作出自由度为4的卡方分布的密度和分布图形x=linspace(0,20,100);p=chi2inv(x,4);P=chi2cdf(x,4);subplot(1,2,1),plot(x,p),title(chi2inv)subplot(1,2,2
20、),plot(x,P),title(chi2cdf),从密度图中可以看出卡方随机变量X的取值均大于0,自由度v就是该随机变量的均值,方差为2v。,(2)产生1000个自由度为4的卡方随机数,并估计均值和方差。,R=chi2rnd(4,1,1000);%产生自由度为4的卡方分布随机数ER=mean(R)%估计1000个样本的均值Var=var(R)%估计1000个样本的方差,结果为:ER=4.0362Var=8.2509,而理论值为:均值即为自由度v,方差为2v。,(3)设X为服从标准正态分布随机数。问统计量KA服从何分布?,解题思路:对统计量KA抽1000次样,每次计算是抽4个标准正态分布随机
21、数,并按上面的公式计算出一个统计量的值。对1000个样本作直方图,看其趋势。再调用分布检验命令来确定属于那一分布。,%对(3)进行实验for i=1:1000 R=normrnd(0,1,4,1);KA(i)=R*R;End%以上抽1000个按公式计算的样本hist(KA,20)%调用直方图命令作图kstest(KA,KA chi2cdf(KA,4)%检验数据是否来自卡方分布,ans=0接受原假设来自自由度为4的卡方分布。,(4)计算卡方下侧概率为0.05和0.95的分位点。,q1=chi2inv(0.05,4)q2=chi2inv(0.95,4),计算结果为:q1=0.7107q2=9.48
22、77,(四)F分布:如果随机变量X的密度函数为:,例3.5.2 作出第一自由度为7,第二自由度为4的F分布的密度和分布图形x=linspace(0,20,100);v1=7;v2=4P=fcdf(x,v1,v2);p=fpdf(x,v1,v2);subplot(1,2,1),plot(x,p),title(fpdf)subplot(1,2,2),plot(x,P),title(fcdf),(五)随机变量的数字特征计算 Descriptive Statistics,随机变量X的数字特征,也是随机变量性质的一种描述。它们反映了诸如随机变量的中心趋势(如均值、中位数、模等),和离差程度(如方差、标准
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分布 函数 计算

链接地址:https://www.31ppt.com/p-6094314.html