数模竞赛中的统计方法选讲.ppt
数模竞赛中的统计方法选讲,主讲人:勾明,一个原理两个特征三个分布,一个原理:,随机事件的频率稳定性原理随机事件的概率是频率的稳定值,考察频率分布可知,当试验次数越来越多时,频率也就会越来越稳定于某个数,这就是说,某一测量结果出现的次数与测量总次数之比会逐渐稳定于某个值,该值就是该试验结果的概率。从频率分布曲线图上也可看出,当n,组距0时,随机样本的频率密度分布就会成为一条连续的曲线。若该曲线以y=f(x)表示,则f(x)就称为x的概率密度函数。,测量数据的频率密度直方图。,图1 频率密度分布逐渐接近正态分布示意,其中 为实数,0,则称X服从参数为,2的正态分布,记为N(,2),可表为XN(,2).,若随机变量,(1)单峰对称 密度曲线关于直线x=对称;f()maxf(x).,正态分布有两个特性:,(2)的大小直接影响概率的分布越大,曲线越平坦,越小,曲线越陡峻,正态分布也称为高斯(Gauss)分布,4.标准正态分布 参数0,21的正态分布称为标准正态分布,记作XN(0,1)。,分布函数表示为,其密度函数表示为,一般的概率统计教科书均附有标准正态分布表供读者查阅(x)的值。如,若ZN(0,1),(0.5)=0.6915,P1.32Z2.43=(2.43)-(1.32),注:(1)(x)1(x);(2)若XN(,2),则,设 XN(,2),则P-3X+3=0.997,该结果称为3 原则.在工程应用中,通常认为P|X-|3 1,忽略|X-|3的值.如在质量控制中,常用标准指标值3作两条线,当生产过程的指标观察值落在两线之外时发出警报.表明生产出现异常.,99A:自动化车床管理,附:100次刀具故障记录(完成的零件数),MATLAB 统计工具箱,a,b=hist(x,9);a=a/length(x);bar(b,a);,MATLAB 统计工具箱,要对一组样本进行正态性检验,在MATLAB中,一种方法是用normplot画出样本,如果都分布在一条直线上,则表明样本来自正态分布,否则是非正态分布。,normplot(x),MATLAB中也提供了几种更正式的检验方法:1、函数 kstest:Kolmogorov-Smirnov 正态性检验,将样本与标准正态分布(均值为0,方差为1)进行对比,不符合正态分布返回1,否则返回0;该函数也可以用于其它分布类型的检验;2、函数 lillietest:Lilliefors test。与kstest不同,检验目标不是标准正态,而是具有与样本相同均值和方差的正态分布。lillietest(x)ans=03、函数 jbtest:Jarque-Bera test与 Lilliefors test 类似,但不适用于小样本的情况。jbtest(x)ans=0,泊松(Poisson)分布P()XPXk,k0,1,2,(0),泊松分布适合于描述单位时间内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等。,指数分布,则称X服从参数为0的指数分布。其分布函数为,随机变量两个重要的数字特征,数学期望是衡量随机变量取值平均大小 程度的一个数字特征。,方差是衡量随机变量取值波动 程度的一个数字特征。,定义 若XPX=xk=pk,k=1,2,n,则称,为的数学期望,简称期望或均值。,若Xf(x),-x,为X的数学期望。,则称,定义 若E(X2)存在,则称EX-E(X)2 为r.v.X的方差,记为D(X),或Var(X).,称 为的标准差,可见,协方差,相关系数,协方差 若r.v.X的期望E(X)和Y的期望E(Y)存在,则称Cov(X,Y)=EXE(X)YE(Y).为X与Y的协方差,易见 Cov(X,Y)=E(XY)-E(X)E(Y).,相关系数 若r.v.X,Y的方差和协方差均存在,且DX0,DY0,则,称为X与Y的相关系数.,2.相关系数的性质(1)|XY|1;(2)|XY|=1存在常数a,b 使PY=aX+b=1;(3)X与Y不相关 XY=0;,协方差矩阵,定义 设X1,,Xn为n个r.v.,记cij=Cov(Xi,Xj),i,j=1,2,n.则称由cij组成的矩阵为随机变量 X1,,Xn的协方差矩阵C。即,统计中常用的三种分布,一、2分布,数理统计中常用到如下三个分布:2分布、t 分布和F分布。,2.2分布的密度函数f(y)曲线,3.分位点 设X 2(n),若对于:01,存在,满足,则称,为,分布的上分位点。,1.构造 若XN(0,1),Y2(n),X与Y独立,则,t(n)称为自由度为n的t分布。,二、t分布,2.t(n)的概率密度为,3.分位点 设Tt(n),若对:00,满足PTt(n)=,则称t(n)为t(n)的上侧分位点,注:,三、F分布,1.构造 若U 2(n1),V2(n2),U,V独立,则,称为第一自由度为n1,第二自由度为n2的F分布,其概率密度为,2.F分布的分位点对于:00,满足PFF(n1,n2)=,则称F(n1,n2)为F(n1,n2)的上侧分位点;,注:,两个特征,一个原理:小概率事件的实际不可能性原理。它的重要应用是假设检验问题,(一)两类问题1、参数假设检验,总体分布已知,参数未知,由观测值x1,xn检验假设H0:=0;H1:0,2、非参数假设检验,总体分布未知,由观测值x1,xn检验假设H0:F(x)=F0(x;);H1:F(x)F0(x;),以样本(X1,Xn)出发制定一个法则,一旦观测值(x1,xn)确定后,我们由这个法则就可作出判断是拒绝H0还是接受H1,这种法则称为H0对H1的一个检验法则,简称检验法。样本观测值的全体组成样本空间S,把S分成两个互不相交的子集W和W*,即S=WW*,WW*=假设当(x1,xn)W时,我们就拒绝H0;当(x1,xn)W*时,我们就接受H0。子集W S就称为检验的拒绝域(或临界域)。,(二)检验法则与拒绝域,(三)检验的两类错误 称 H0真而被拒绝的错误为第一类错误或弃真错误;称 H0假而被接受的错误为第二类错误或取伪错误。记 p(I)=p拒绝H0|H0真;P(II)=p 接受H0|H0假,对于给定的一对H0和H1,总可找出许多拒绝域,人们自然希望找到这种拒绝域W,使得犯两类错误的概率都很小。奈曼皮尔逊(NeymanPearson)提出了一个原则:“在控制犯第一类错误的概率不超过指定值的条件下,尽量使犯第二类错误 小”按这种法则做出的检验称为“显著性检验”,称为显著性水平或检验水平。,显著性检验的思想和步骤:(1)根据实际问题作出假设H0与H1;(2)构造统计量,在H0真时其分布已知;(3)给定显著性水平的值,参考H1,令 P拒绝H0|H0真=,求出拒绝域W;(4)计算统计量的值,若统计量W,则拒绝 H0,否则接受H0,