数学实验10数据的统计与分析课件.ppt
大学数学实验,Mathematical Experiments,实验10 数据的统计与分析,数据的统计与分析的两类方法,第一类:一般意义的统计(普查),对生产的全部1000件产品逐一检验,发现18件次品,对全区居民逐一调查,得到月平均支出为828元,次品率:1.8%;月平均支出为828元,优点:结果完全确定,可信,缺点:调查、收集的数据量可能很大,经费投入大;有些产品不允许全部检验,如灯泡、电器的寿命等,缺点:结果是随机的,是否可信?,第二类:数理统计(抽查),全部产品中随机抽取100件,发现2件次品,随机调查了200位居民,得到月平均支出为788元,次品率:2%;月平均支出788元,优点:调查、收集的数据量小,经费投入小,适合不允许全部检验的产品,如灯泡、电器的寿命等,任务:怎样用它来估计整体的状况(全部产品的次品率,全体居民的月平均支出),本实验基本内容,2.数据的整理和描述,3.随机变量的概率分布及数字特征,1.实例及其分析,4.用随机模拟计算数值积分,5.实例的建模和求解,1.实例及其分析,实例1:报童的利润,报童每天购进报纸零售,晚上将卖不掉的报纸退回;每份报纸购进价a,零售价 b,退回价c:bac;为获得最大利润,该报童每天应购进多少份报纸?,设a=0.8元,b=1元,c=0.75元,为报童提供最佳决策,159天报纸需求量的情况,分析:每天报纸需求量随机,报童每天利润也随机;以每天平均利润最大为目标,确定最佳决策。,数学模型近似:,决策变量:报童每天购进报纸的份数n,每天需求为r的天数所占的百分比,记做f(r);如200(-219)份所占的百分比为35/159=22%,平均利润:V(n),实例1:报童的利润(续),实例2:路灯更换策略,管理部门:不亮灯泡,折合计时进行罚款。,路政部门:路灯维护,条件:需要专用云梯车进行线路检测和更换灯泡;向相应管理部门提出电力使用和道路管制申请;向雇用的各类人员支付报酬等,更换策略:整批更换,路政部门的问题:多长时间进行一次灯泡的全部更换?换早了,很多灯泡还没有坏;换晚了,要承受太多的罚款。,2.数据的整理和描述,数据的收集和样本的概念 数据的整理、频数表和直方图 统计量 MATLAB命令,数据的收集,银行随机选了50名顾客进行调查 测量每个顾客感觉舒适时的柜台高度(单位:厘米),银行怎样依据它确定柜台高度呢?,样本:统计研究的主要对象,总体-研究对象的全体。如所有顾客感觉舒适的高度个体-总体中一个基本单位。如一位顾客的舒适高度样本-若干个体的集合。如50位顾客的舒适高度样本容量-样本中个体数。如50,顾客群体的舒适高度随机变量X,概率分布F(x)n位顾客的舒适高度 xi,i=1,n(样本)相互独立的、分布均为F(x)的一组随机变量。,样本:随机取值的一组数据;一组相互独立的、同分布的随机变量。,数据的整理,比较直观,比较清晰的结论2150岁的中青年患者大约占总发病人数的 3/4,提醒民众中青年是易感人群。,北京地区SARS患者的统计数据(截至2003年5月5日),频数表,将数据的取值范围划分为若干个区间,统计这组数据在每个区间中出现的次数,称为频数,得到一个频数表。,柜台高度频数表,作用:推测出总体的某些简单性质。如上表表明选择柜台高度在107.10至125.90的有31人,占总人数的62%,柜台高度设计在这个范围内,会得到大多数顾客的满意。,直方图(histogram):频数分布图,柜台高度直方图,平均值,平均值(mean,简称样本均值)定义为,频数表和直方图给出某个范围的状况,无法直接给出具体值,如确定柜台具体高度,可作为设计柜台高度的参考值,例:两个班的一次考试成绩,现象1:甲班平均值:82.75分,乙班平均值:81.75分结 论:大致表明甲班的平均成绩稍高于乙班现象2:甲班90分以上7人,但有2人不及格,分数分散 乙班全在73分到90分之间,分数相对集中,考试成绩直方图,甲,乙,描述数据的分散程度(统计上称为变异),样本x=(x1,x2,xn)的标准差(Standard deviation)为:,甲班的标准差为10.98分,乙班的标准差为3.98分,表明甲班成绩的分散程度远大于乙班。,统计量:由样本加工出来的、集中反映样本数量特征的函数。,三类统计量:位置,变异程度,分布形状,标准差,偏度(skewness):分布对称性,峰度(kurtosis):分布形状,表示位置的还有:,中位数(median):将数据由小到大排序后处于中间位置的那个数值。,n为奇数时,中位数唯一确定;n为偶数时,定义为中间两数的平均值,表示变异程度的还有:,极差(range):x1,x2,xn的最大值与最小值之差。方差(variance):标准差的平方s2。,表示分布形状的:,统计量,MATLAB数据描述的常用命令,求银行柜台高度的频数表、直方图及均值等统计量:,示例,输出图和下列结果:N=4 4 3 6 8 12 5 4 2 2Y=95.3500 100.0500 104.7500 109.4500 114.1500 118.8500 123.5500 128.2500 132.9500 137.6500 x1=115.2600,x2=116.5000 x3=47,x4=10.9690 x5=-0.0971,x6=2.6216,3.随机变量的概率分布及数字特征,频率与概率概率密度与分布函数 期望和方差 常用的概率分布MATLAB命令,频率与概率,保证抽取样本的随机性和独立性:样本容量无限增大时,频率会趋向一个确定值;这个值称为随机变量 X 落入区间(a,b的概率(Probability),记作,频率:样本数据在一个确定区间(a,b 的频数k与样本容量n的比值,概率密度与分布函数,概率密度函数(Probability density function,简称概率密度):,概率分布函数(Cumulative distribution function,简称分布函数),对于连续随机变量,示例,期望和方差,随机变量X的期望就是平均值的意思,记作EX或,方差,总体均值(方差)与样本均值(方差)的关系:,常用的概率分布,均匀分布(Uniform distribution):XU(a,b),指数分布(Exponential distribution):XExp(),相应的密度函数,正态分布(Norm distribution):,常用的概率分布,标准正态分布,分布(Chi square):,,,n称自由度,定义:,常用的概率分布,n为自由度,t分布(Student分布),常用的概率分布,F分布:,称自由度,常用的概率分布,记n次独立试验中成功的次数是随机变量X,二项分布(Binomial distribution),XB(n,p),背景问题:产品检验中的废品个数,常用的概率分布:离散分布,贝努利试验:一次试验只有两种结果(成功和失败)记成功的概率为p,q=1-p,当二项分布的n,np(常数)时,泊松分布(Poisson distribution),XPoiss(),背景问题:服务系统在一定时间内接到的呼唤数(到达率),常用的概率分布:离散分布,MATLAB命令,y=normpdf(1.5,1,2),正态分布(=1,=2)在x=1.5处的概率密度(标准正态分布的,可省略),y=normcdf(-1 0 1.5,0,2),在 x=-1,0,1.5处分布函数值,m,v=fstat(3,5),计算F(3,5)的期望和方差,x=tinv(0.3,10),计算t(10)的0.3-分位数,二维正态分布,二维随机变量,二维随机变量,联合分布密度函数,边际分布密度函数,协方差,相关系数,二维随机变量:MATLAB命令,cov(x,y)计算协方差(矩阵),corrcoef(x,y)计算相关系数(矩阵),二维随机数生成/二维密度函数(例),mu=1-1,Sigma=.9.4;.4.3,X=mvnrnd(mu,Sigma,10),p=mvnpdf(X,mu,Sigma),二维数据处理,4.用随机模拟计算数值积分,4.1 定积分的计算4.2 重积分的计算4.3 MATLAB实现,方法的直观解释随机投石,向单位正方形里随机投n块小石头,*,*,*,*,*,*,*,若有k块小石头落在1/4单位圆内,当n很大时,1/4单位圆的面积,(计算的一种方法),1)随机投点法,目的:计算1/4单位圆的面积,大数定律(贝努利定理),随机变量(X,Y)在单位正方形内均匀分布,点(xi,yi)落在1/4单位圆内概率,一般地,投点坐标(xi,yi),xi,yi是相互独立、(0,1)内均匀分布的随机变量((0,1)随机数),设k是n次独立重复试验中事件A发生的次数。p是事件A在每次试验中发生的概率,则对任意的正数,有,产生 n组(0,1)随机数(xi,yi),其中 k 组满足,随机投点法(续),大数定律(辛钦定理)设随机变量,相互独立,服从同一个分布,且具有数学期望,则对任意的正数有,随机变量 X 的概率密度为,的期望为,2)均值估计法,产生(0,1)随机数xi(i=1,2,n),n很大,用随机模拟方法计算任意区间上的积分,其中ui为(0,1)随机数,不要产生yi,不用比较,均值估计法的优点,均值估计法(续),随机模拟法计算重积分,产生相互独立(0,1)随机数 xi,yi,i=1,n;,落在内 m个点记作(xk,yk),k=1,m,可用于任意的 f,且可推广至高维,结果的精度和收敛速度与维数无关,计算量大,精度低,结果具有随机性,一般区间重积分的计算,分别为a,b和c,d 区间上的均匀分布随机数,判断每个点是否落在域内,将落在域内的m个点记作,则,MATLAB实现,随机数的产生:unifrnd(a,b,m,n),产生m行n列a,b区间上的均匀分布随机数。当a=0,b=1时,可用 rand(m,n),随机投点法计算 n=10000;x=rand(2,n);k=0;for i=1:n if x(1,i)2+x(2,i)2=1 k=k+1;endendp=4*k/n,积分域和被积函数的对称性,蒙特卡罗方法:x取(0,a)随机数,y取(0,b)随机数,例:炮弹命中概率,1是椭圆在第1象限的部分,5.实例的建模和求解,报童的利润 路灯更换策略,报童的利润,1)每份报纸的购进价a,零售价 b,退回价为c,假设:,2)需求为连续随机变量x,大致服从正态分布,3)将历史的统计表看作需求量的频率,由此可以计算需求量的均值和标准差,报童每天的平均利润V(n),其中,和由3)的假设计算得到,简化为,定性分析 在ba c的条件下讨论a、b、c的变化 对最佳决策n的影响。,当ba=c时;2)当b=ac时;3)当bac时,定量求解,报童应购进232份报纸,a=0.8元,b=1元,c=0.75元,路灯的更换问题,假设1)每个灯泡更换价格:a 灯泡的成本和安装时分摊到每个灯泡的费用2)不亮灯泡单位时间罚款:b3)假定灯泡寿命服从4)更换周期:T5)灯泡总数:K,模型:,计算:,可得:,定性结果分析,结论1:a/b越大,更换价格与惩罚费用之比越大,更换周期T应越长,结论2:若以灯泡的平均寿命为更换周期,惩罚费用为:,路灯的更换问题,考虑灯泡寿命服从,具体示例,某品牌灯泡服从平均寿命为4000小时,标准差为100小时的正态分布,每个灯泡的安装价格为80元,管理部门对每个不亮的灯泡制定的惩罚费用为0.02元小时,求最佳更换周期。,计算结果,最佳更换周期为4459(小时),不同惩罚费用对更换周期的影响,演示lamp.m,路灯的更换问题,布置实验,目的,1)掌握数理统计的基本概念;,内容,5;9;,2)掌握用随机的方法(蒙特卡罗法)计算积分;,3)对实际问题建立概率模型和进行计算.,