概率与数理统计课件第6章数理统计.ppt
第六章 数理统计 第一节 引言,本章转入课程的第二部分,数理统计,数理统计的特点是应用面广,分支较多.社会的发展不断向统计提出新的问题.,计算机的诞生与发展,为数据处理提供了强有力的技术支持,数理统计与计算机的结合是必然的发展趋势.,学习统计无须把过多时间化在计算上,可以更有效地把时间用在基本概念、方法原理的正确理解上.国内外著名的统计软件包:SAS,SPSS,MATLAB,STAT等,都可以让你快速、简便地进行数据处理和分析.,从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人们很早就开始了统计的工作.但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范围之外的推断.,到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这门学科.,数理统计学,数理统计学是一门应用性很强的学科.它是研究怎样以有效的方式收集、整理和分析带有随机性的数据,以便对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议.,数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析.,由于大量随机现象必然呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来.,数理统计的任务就是研究怎样有效地收集、整理、分析所获得的有限的资料,对所研究的问题,尽可能地作出精确而可靠的结论.,现实世界中存在着形形色色的数据,分析这些数据需要多种多样的方法.因此,数理统计中的方法和支持这些方法的相应理论是相当丰富的.概括起来可以归纳成两大类:参数估计根据数据,用一些方法对分布的未知参数进行估计.假设检验根据数据,用一些方法对分布的未知参数进行检验.它们构成了统计推断的两种基本形式.这两种推断渗透到了数理统计的每个分支.,第六章第二节 总体与样本,在统计学中,将我们研究的问题所涉及的对象的全体称为总体,而把总体中的每个成员称为个体.例如:我们想要研究一家工厂的某种产品的废品率.这种产品的全体就是我们的总体,而每件产品则是个体.,一、总体,实际上,我们真正关心的并不是总体或个体的本身,而是其某项数量指标.比如某家工厂的一种产品的使用寿命这样一项数量指标.因此,我们应该把总体理解为那些研究对象上的某项数量指标的全体.为了评价一家工厂的某种产品的质量的好坏,通常的做法是从它的全部产品中随机地抽取一些样品,在统计学上称为样本.同上道理,我们实际是把样本理解为样品上的数量指标.因此,今后当我们说到总体和样本时,既指研究对象又指它们的某项数量指标.,说明,研究某地区N个农户的年收人.在这里,总体既指这N个农户,又指我们关心的数量指标他们的年收入的N个数字.如果我们从这N个农户中随机地抽出n个农户作为调查对象,那么,这n个农户以及我们关心的数量指标他们的年收入这n个数字就是样本.,在上面的例子中,总体是很直观的,是看得见摸得着的.但是客观情况并不总是这样.,例1,注意,用一把尺子去量一个物体的长度.假定n次测量值为X1,X2,Xn 显然,在这个问题中,我们把测量值 X1,X2,Xn看成了样本,但是,总体是什么呢?,例2,事实上,这里没有一个现实存在的个体的集合可以作为我们的总体.可是,我们可以这样考虑,既然n个测量值 X1,X2,Xn是样本,那么总体就应该理解为一切所有可能的测量值的全体.,分析:,这种类型的总体的例子不胜枚举.例如:为研究某种安眠药的药效,让n个病人同时服用此药,记录下他们各自服药后的睡眠时间比未服药时延长的小时数.X1,X2,Xn这些数字就是样本.什么是总体呢?设想让某个地区或某个国家,甚至全世界所有患失眠症的病人都服用此药,他们所增加的睡眠时间的小时数的全体,就是该问题中的总体.,对一个总体,如果我们用X表示它的数量指标,那么X的值对不同的个体取不同的值.因此,如果我们随机地抽取个体,则X的值也就随着抽取的个体的不同而不同.所以X是一个随机变量!既然总体是随机变量X,自然就有其概率分布.我们把X的分布称为总体的分布.总体的特性是由总体分布来刻画的.因此,我们常把总体和总体分布视为同义语.,二、总体的分布,例l中,若农户年收入以万元计,假定N户中收入X为以下几种取值:0.5,0.8,l,1.2和1.5.取这些值的农户个数分别为:n1,n2,n3,n4,n5,(这里n1+n2+n3+n4+n5=N).则总体X的分布为离散型分布,其分布律为:,例3(例l续),例2中,假定物体的真正长度为(未知).一般说来测量值X,也就是我们的总体,取附近值的概率要大一些,而离愈远的值被取到的概率就小一些.如果测量过程没有系统性误差,那么X取大于和小于的概率也会相等.在这样的情况下,人们往往认为X服从均值为的正态分布.假定其方差为2,则2反映了测量的精度.于是,总体X的分布为N(,2).记为XN(,2).,例4(例2续),这里有一个问题,即物体长度的测量值总是在它的真正长度的附近,它根本不可能取到负值.而正态变量取值在(-,+)上,那么怎么可以认为测量值X服从正态分布呢?理由是:,在前面讲过,对于XN(,2).P-3X+3=0.9974.即X落在区间(-3,+3)之外的概率不超过0.003,即这个概率是非常小的.显然X落在(-4,+4)之外的概率也就更小了.,说明,比如,假定物体长度=10厘米,测量误差约为0.01厘米,则2=0.012.这时(-3,+3)=(9.9997,10.0003).于是测量值落在这个区间之外的概率最多只有0.003,可以忽略不计.可见,用正态分布N(10,0.012)去描述测量值X是适当的.完全可以认为它根本不可能取到负值.,如果总体所包含的个体数量是有限的,则称该总体为有限总体.有限总体的分布显然是离散型的,如例3.如果总体所包含的个体数量是无限的,则称该总体为无限总体.无限总体的分布可以是连续型的,如例4,也可以是离散型的.,三、有限总体与无限总体,在数理统计中,当个体的数量比较小时,我们很难发现它的规律。,说明,所以,通常在总体所含个体数量比较大时,我们就把它近似地视为无限总体,并且用连续型分布去逼近总体的分布,这样便于做进一步的统计分析.,例,研究某大城市年龄在1岁到10岁之间儿童的身高.显然,不管这个城市规模有多大,在这个年龄段的儿童数量总是有限的.因此,这个总体X只能是有限总体.总体分布也只能是离散型分布.,然而,为了便于处理问题,我们可以把它近似地看成一个无限总体,并且通常用正态分布来逼近这个总体的分布.当城市比较大,儿童数量比较多时,这种逼近所带来的误差,从应用观点来看,可以忽略不计.,四、样本的二重性,(1)假设X1,X2,Xn是从总体X中抽取的样本,在一次具体的观测或试验中,它们是一批测量值,是一些已得到的数.这就是说,样本具有数的属性(样本值),(2)另一方面,由于在具体的试验或观测中,受到各种随机因素的影响,在不同的观测中样本取值可能不同.因此,当脱离开特定的具体试验或观测时,我们并不知道样本X1,X2,Xn的具体取值到底是多少,因此,可以把它们看成随机变量.样本就具有随机变量的属性.,样本X1,X2,Xn既可被看成数又可被看成随机变量,这就是所谓 样本的二重性.,需要特别强调的是,以后凡是我们离开具体的一次观测或试验来谈及样本X1,X2,Xn 时,它们总是被看成随机变量.,注意,在前面测量物体长度的例子中,如果我们是在完全相同的条件下,独立地测量了n次,把这n次测量结果,即样本记为 X1,X2,Xn.那么我们完全有理由认为,这些样本相互独立且有相同分布;其分布与总体分布N(,2)相同,例(例2续),五、随机样本,推广到一般情况,如果我们在相同条件下对总体X进行n次重复的独立观测,那么就可以认为所获得的样本X1,X2,Xn是n个独立的且与总体X同样分布的随机变量.,在统计文献中,通常称:这样的样本随机样本,简称为样本.n 样本大小或样本容量或样本数.X1,X2,Xn 一组样本或一个样本(此时把X1,X2,Xn看成一个整体),或样本量为n的样本.,名词,既然样本 X1,X2,Xn 被看作随机变量,自然就需要研究它们的分布,六、样本的分布,假设总体X具有概率密度f(x),则由于样本 X1,X2,Xn 是相互独立且与X同分布,于是它们的联合概率密度为,假设某大城市居民的收入服从正态分布 N(,2),其概率密度函数为:,例5,现从中随机抽取一组样本 X1,X2,Xn.因为它们相互独立,且都与总体同分布,即:Xi N(,2),i1,2,n.于是样本 X1,X2,Xn 的联合概率密度为,第六章第三节统计量,由样本去推断总体情况,需要对样本进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来.,一、统计量,这种不含任何未知参数的样本的函数称为统计量.它是完全由样本决定的量.,二、几个常见统计量,样本均值,样本方差,它反映了总体均值的信息,它反映了总体方差的信息,样本k阶原点矩,样本k阶中心矩,k=1,2,它反映了总体k 阶矩的信息,它反映了总体k 阶中心矩的信息,设 X1,X2,Xn是来自均值为,方差为2的总体的一组样本.则当n充分大时,近似地有,定理,X1,X2,Xn是来自均值为,方差为2的总体的一组样本.X1,X2,Xn是独立同分布的,且E(X)=,Var(X)=2,i=1,2,n.根据中心极限定理(定理5.2.1),我们有,对充分大的n,近似地有,证明:,样本均值的分布函数的近似地计算,定理 的应用,样本均值与的偏差的研究的近似地计算,我们看到,当2给定,那么对于固定的c,当样本大小 n增大时,上面的概率也随之增加.n趋近于无穷时则趋近于1.,公司用机器向瓶子里灌装液体洗净剂,规定每瓶装毫升.但实际灌装量总有一定的波动.假定灌装量的方差2=1,如果每箱装25瓶这样的洗净剂.求:这25瓶洗净剂的平均灌装量与标定值相差不超过0.3毫升的概率是多少?又:如果每箱装50瓶时呢?,记一箱中25瓶洗净剂灌装量为X1,X2,X25,它们是来自均值为,方差为1的总体中的样本.根据定理6.3.1,近似有,解:,例3,当n=50,同样算出,第六章第四节正态总体,统计三大分布,记为,定义:设 相互独立,都服从正态分布N(0,1),则称随机变量:所服从的分布为自由度为 n 的 分布.,分布是由正态分布派生出来的一种分布.,分布的密度函数为,请看演示,分布,注:(m)=(m-1)(m-1),(1)=1,(1/2)=,由 分布的定义,不难得到:,应用中心极限定理可得,若,的分布近似正态分布N(0,1).,则可以求得,E(X)=n,Var(X)=2n,若,n2分布的密度函数的图形如右图.,n2分布的上分位点可以查附表4(P244).,n2分布的上分位点图形如右图.,2分布的分位点,对于(0,1)给定,称满足条件:,的点n2()为n2分布的上分位点.,T的密度函数为:,所服从的分布为自由度为 n的 t 分布.,二、t 分布,记为T.,不难看到,当n充分大时,t 分布近似N(0,1)分布.但对于较小的n,t分布与N(0,1)分布相差很大.,请看演示,t 分布,具有自由度为n的t分布的随机变量T的数学期望和方差为:E(T)=0;Var(T)=n/(n-2),对n 2,t分布的密度函数关于x=0对称,Ttn,对于(0,1)给定,称满足条件:,t分布的分位点,的点tn()为t分布的上分位点.,t分布的上分位点图形如右图.,t分布的上分位点可以查附表3(P242).,三、F分布,若X,X的概率密度为,请看演示,F分布,注:设X,则,FFm,n,对于(0,1)给定,称满足条件:,F分布的分位点,的点Fm,n()为F分布的上分位点.,如右图.,F分布的上分位点可以查附表(P247).,Fm,n(1-)=,四基本定理,(1),等价地,假设某物体的实际重量为,但它是未知的.现在用一架天平去称它,共称了n次,得到X1,X2,Xn.假设每次称量过程彼此独立且没有系统误差,则可以认为这些测量值都服从正态分布 N(,2),方差2反映了天平及测量过程的总精度.通常我们用样本均值,根据基本定理,例1,例如=0.1时,若取n=10.则:,下面讨论估计值,即样本均值与真值的偏差.,于是根据第二章讲过:,随着称量次数n的增加,这个偏差界限,还是=0.1时,若取n=100.则:,越来越小.,在设计导弹发射装置时,重要事情之一是研究弹着点偏离目标中心的距离的方差.对于一类导弹发射装置,弹着点偏离目标中心的距离服从正态分布N(,2),这里2=100米2.现在进行了25次发射试验,用S2记这25次试验中弹着点偏离目标中心的距离的样本方差.求:S2超过50米2的概率.,例2,根据基本定理,查P244附表4,得到:,解:,本章小结,一、总体,样本,样本的分布,二、统计量及其分布,1.几个常见统计量,2.统计三大分布,样本均值,样本方差,样本k阶原点矩,样本k阶中心矩,3.样本均值样本方差相关分布,