数理统计基础知识.ppt
《数理统计基础知识.ppt》由会员分享,可在线阅读,更多相关《数理统计基础知识.ppt(92页珍藏版)》请在三一办公上搜索。
1、第4 章 数理统计的基础知识 从第4章开始,将研究数理统计的基本内容。数理统计与概率论的基本概念与方法有着密切的联系。概率论是数理统计的理论基础和工具,而数理统计则是概率论的应用。数理统计也是研究随机现象的学科。当我们用一个随机变量去描述一种随机现象时,通常我们对这个随机变量所服从的分布类型可能一无所知,或者根据该随机现象的某些特征、以及人们的经验而知道随机变量分布的类型,但不知道其分布中所含参数的值。,例如,某灯泡厂每年生产上万只灯泡,这些灯泡中的每一个都具有这样的特征:“不是合格品,就是次品”。因此,随机检查一个灯泡时,它或者是合格品,或者是次品。这是一个随机现象。当用随机变量 X 去描述
2、这个随机现象时,记 X 任取一件产品中的次品数,则,随机变量 X 服从参数为 p 的 0 1 分布 b(1,p),其概率分布列为,其中 p 是次品率,是随机变量 X 的分布中所含的未知参数。,要想了解当天所生产的灯泡的质量(即次品率),一个可行的方法就是,抽取一定量的灯泡(如 20 个)进行质量检查,并根据这一部分灯泡的质量情况对整批灯泡的质量进行估计或做出某种判断。数理统计学就是以概率论为理论基础,研究如何获取有用的观察资料,如何根据所得到的有限资料对整个随机现象所具有的统计规律性进行科学的分析,从而做出尽可能准确可靠的推断这类问题的数学分支。数理统计的中心任务是:从局部的观测资料的统计特性
3、出发,利用科学的方法,来推断事物整体的统计特性。,数理统计学通常由两个主要部分组成。一个是抽样理论和实验设计,研究如何更合理地获取观察资料,如何进行抽样、抽多少等问题。由于数理统计学所涉及研究的对象一般为数很大,而限于时间和经济上的考虑,人们只可能收集一部分数据。例如,在收集某批电器产品的使用寿命的实验数据时,往往需要对产品进行破坏性的检验,因此只能检验其中的一小部分产品,观察其使用寿命,并依此推断整批产品的使用寿命。这就要求人们研究有效地收集数据的方式,精心设计收集数据的方法,以保证所收集到的一小部分数据能够尽可能多地提供与所研究的整个问题有关的真实的信息。,另一个是统计推断,研究如何对所获
4、取的有限的资料进行科学地分析,用科学的方法提取和分析寓于所收集到的有限数据中的信息,并运用统计推断的方法,在更大的范围内对所研究的问题做出尽可能准确、可靠的推断,得出某种合理的结论。统计推断是数理统计学的基本问题之一,在此主要介绍统计推断的一些基本知识。,由于统计推断是由部分来推断整体,是借助在小范围内所提取的信息来推断整体的规律性,这就不可避免地会使这种推断带有某种不确定性,也就是说,人们不能保证所推断的结果是百分之百正确的。因此,在进行统计推断的同时,还必须寻求一些有意义的指标来衡量推断的正确程度,评价推断过程中所含有的不确定性。下面给出数理统计学的一些基本概念。,4.1 总体与样本 一、
5、总体与总体分布 总体是具有一定共同属性的研究对象的全体。一旦总体确定了,便称组成总体的每一个个别的成员为个体。总体与个体的关系,即集合论中集合与元素之间的关系。例如,为研究灯泡厂一天中所生产的灯泡的质量,该厂在一天中所生产的所有灯泡就是待研究的总体,每一个灯泡就是一个个体。,在统计学的研究过程中,人们关心的并不是所研究对象(总体)的所有特征,而仅仅是关心反映所研究对象某一特征的某一项或某几项数量指标。例如,反映学生“概率统计”课程的学习情况的数量指标,就是学生这门课程的考核成绩(并不需要考虑学生的身高、体重等指标)。对于所选定的数量指标 X(可以是向量)而言,由于每个个体的取值是不同的,且每个
6、个体的取值在测试结束之前是不能确定的,因此数量指标 X 是一个随机变量(或随机向量)。,为了研究方便,通常把总体(具有一定共同属性的研究对象的全体)与数量指标 X 等同起来,并把数量指标 X 的分布称为总体的分布。即 定义 4.1(P.124)统计学中,称随机变量(或随机向量)X 为总体,并把随机变量(或随机向量)X 的分布称为总体分布。注(P.124):总体 X 的分布一般是未知的。有时虽然已知总体分布的类型(如正态分布、伯努利分布等),但这些分布中所含的参数(如、2,p 等)也是未知的。统计学的主要任务,就是对总体的未知的分布或参数进行推断。,对于所研究对象的定性指标,也可以转化为定量指标
7、(即数量指标)来研究,进而可以设定一个随机变量来表示所研究的总体。例如,“考察学生的学习成绩是优秀、合格还是不合格”时,仍然可以用一个随机变量 X 来描述:令。,二、样本与样本分布 由于总体的分布一般是未知或部分未知的,为了获取对总体分布的知识,就需要对总体进行观察,收集有关总体的信息和资料。在实际研究过程中,由于受到人力、时间和财力方面的限制,人们往往不能收集到有关总体的全部信息;而且在有些情况下,根本就不允许人们去获取有关总体的全部数据(如在测试灯泡的使用寿命时,测试本身具有破坏性)。因此,通常总是从总体中抽取一部分个体来进行观察,这种做法称之为“抽样”。,假设从总体 X 中抽取了 n 个
8、个体 X1,X2,X n 来对总体 X 进行抽样观察,由于在观察测试结束之前,这 n 个个体的观测值是不确定的,而且反复抽样所得到 n 个个体的观测结果也是不相同的。因此,所抽取的 n 个个体 X1,X2,X n 实际上就是一个随机向量(X1,X2,X n),称之为一个“样本”,每一个个体 X i 称之为一个样品;对样本(X1,X2,X n)的一次观测值(x1,x2,x n),就是样本的一个“实现值(样本值)”。统计学的主要任务,就是提供科学的方法,借助样本值(x1,x2,x n),对未知的总体进行合理的推断。,为了更准确地对总体分布进行分析和推断,就要求所抽取的样本能够很好地反映总体的特性。
9、下面的定义给出了一个好的样本应该具备的条件。定义4.2(P.125)称(X1,X2,X n)为总体 X 的简单随机样本,如果 X1,X2,X n 是相互独立、同分布的随机变量,而且它们都与总体 X 同分布。样本中所含分量的个数 n,称为该样本的容量。1)人们要求样本中的每一个分量 X i(i=1,2,n)都与总体 X 同分布,表明抽样观察的每一个个体都是从总体中抽取的,因而它们对总体具有很好的代表性;2)人们要求样本中的各分量 X1,X2,X n 相互独立,则表明所得到的每一个观察结果既不影响其它观察结果,也不受其它观察结果的影响。,定义(P.125)获取简单随机样本的方法,称为简单随机抽样。
10、并称样本(X1,X2,X n)的一组具体的观察值(x1,x2,x n)为样本值,全体样本值组成的集合为样本空间。容量为 n 的样本空间是 n 维向量空间 Rn 的一个子集。这里假定所考虑的样本都是简单随机样本,简称为样本。约定:以大写的英文字母 X i 表示随机变量,而以相应的小写英文字母 xi 表示随机变量 X i 的观察值。,设总体 X 的分布函数为 F(x),则由定义 4.2(P.125知,样本(X1,X2,Xn)的分布函数为,并称之为样本分布。特别地,如果总体 X 为连续型随机变量,其密度函数为f(x),则样本(X1,X2,Xn)的密度函数为,并分别称 f(x)和 f(x1,x2,xn
11、)为总体密度和样本密度。如果总体 X 为离散型随机变量,.,如果总体 X 为离散型随机变量,其概率分布为 p(x)=P(X=x),x 取遍 X 所有可能的取值,则样本(X1,X2,Xn)的概率分布为,并分别称 p(x)和 p(x1,x2,x n)为总体概率分布和样本概率分布。,例 4.1(P.126)称总体 X 为正态总体,如果 X 服从正态分布。正态总体是统计应用中最常见的总体。现假设总体 X N(,2),总体密度 则其样本(X1,X2,Xn)的密度为,例 4.2(P.126)称总体 X 为伯努利总体,如果它服从以 p(0 p 1)为参数的伯努利分布,即 X b(1,p)。从而有 P(X=1
12、)=p,P(X=0)=1 p,即 p(i)=P(X=i)=pi(1p)1 i,i=0,1。于是,其样本(X1,X2,Xn)的概率分布为其中 xi(i=1,2,n)取值 1 或 0,它恰好等于样本中取值为 1 的分量之总和。,例 4.3 设总体 X 服从参数为 p 的几何分布,(X1,X2,Xn)为其样本,求样本的概率分布。解 p(k)=P(X=k)=p(1 p)k 1,k=1,2,;(X1,X2,Xn)是来自总体 X 的样本,样本的概率分布为 其中 xi(i=1,2,n)取值正整数。,例 4.4 设总体 X 服从参数为 的指数分布,(X1,X2,,Xn)为其样本,求样本密度。解 总体 X e(
13、),;(X1,X2,Xn)是来自总体 X 的样本,样本密度为,对样本概率分布和样本密度的理解:在例 4.3 和例 4.4 中,算得样本概率分布和样本密度分别为,xi 取值正整数,i=1,2,n;和,xi 0,i=1,2,n。在概率论的研究中,人们通常假定随机变量(即总体)的分布及其参数(如:p、等)都是已知的,因而把p(x1,x2,xn)和 f(x1,x2,xn)理解为关于未知量 x1,x2,xn 的 n 元函数。,例 设总体X服从参数为 的泊松分布,则样本的概率分布为,在统计学的实际应用中,根据知识与经验,人们往往可以确定总体分布所属的类型,例如,认为学生的考试成绩服从正态分布;描述一件产品
14、是否为废品的随机变量服从伯努利分布(0 1 分布);记录电话呼叫次数的随机变量服从泊松分布;电子元件的寿命服从指数分布等等。因此,在总体分布中,往往只是其中的参数是未知的。从这个意义上来讲,可以从另一个角度来理解例 4.3 和例 4.4 中的样本概率分布和样本密度:把式中的(x1,x2,x n)看作是一个样本值,通过试验观察就可以确定下来,因而它们是一组已知量(或可知量),而各总体的参数(如 p、等)是未知量,即分别把p(x1,x2,xn)和 f(x1,x2,xn)理解为关于未知参数 p 和 的一元函数:,,0 0。在统计学中,就是要由样本值(x1,x2,x n)出发,来推断总体中未知的参数。
15、因此,统计学中又把例 4.3 和例 4.4 中的样本概率分布和样本密度函数称为未知参数的似然函数。关于似然函数的概念,将在5.2 中做详细的介绍。,三、统计推断问题简述(P.122)统计学要解决的主要问题,就是借助总体 X 的一个样本(X1,X2,Xn),利用其样本值(x1,x2,xn),对总体 X 的未知分布或参数进行科学地、合理地推断。人们将这类问题统称为统计推断问题。在进行统计推断的过程中,为了保证推断的科学性与合理性,需要借助样本构造一些合适的统计量(即样本的函数,它是一个随机变量),然后再利用所构造的统计量的“良好”性质,对总体分布所属的类型以及总体分布中所含的未知参数进行统计推断。
16、,作业P127:4,6,4.2 统计量 一、统计量的定义 定义 4.3(P.127)设(X1,X2,Xn)为总体 X 的一个样本,称此样本的任一不含总体分布未知参数的函数为该样本的统计量。例 4.4(P.127)设总体 X 服从正态分布,EX=5,DX=2(2 未知),(X1,X2,Xn)为总体 X 的一个样本。,(1)令 Sn=X1+X2+Xn,则 Sn 与 X 都是样本(X1,X2,Xn)的统计量,且具有下面的性质:E Sn=E(X1+X2+Xn)=EX1+EX2+EXn=n EX=5 n,D Sn=D(X1+X2+Xn)=DX1+DX2+DXn=n DX=n 2;,。(2)令,则 U 不
17、是该样本的统计量。因为 U 的表达式中含有总体分布的未知参数。,对于一个给定的样本,根据统计量的定义,可以构造出很多统计量来,但常用的、具有“良好”性质的统计量并不多.下面介绍一些在统计学中常用的统计量。二、常用的统计量(P.128)设(X1,X2,Xn)为来自总体 X 的一个容量为 n 的样本。1、样本均值称样本中各分量的算术平均值为样本均值,记做X,即(随机变量)。注:其实现值为:。,注意区分符号 E X 与X!EX 是总体期望(总体均值),是一个常数;X 是样本均值,是随机向量(样本)(X 1,X 2,X n)的函数,是一个随机变量。因而,E X X!,2、样本方差 样本方差和样本标准差
18、都是用来描述样本中各分量与样本均值的均方差异的统计量。样本方差有两种定义方式:一种是,并称 S02 是样本的未修正的样本方差。3、样本标准差 更常用的是样本方差的另一种定义,并称 S2 是修正的样本方差。S2 比 S02 有更好的统计性质。今后使用的主要是修正的样本方差,简称为样本方差.前者的数学期望是正好是方差.同总体的方差与其标准差之间的关系一样,样本标准差 S 定义为样本方差 S2 的算术平方根,即。,例4.5 样本方差的简化计算问题。其中。,例 4.6 设(x1,x2,x6)是来自总体 X 的样本值,已知,。求(1)样本均值x;(2)样本方差 s2,以及样本标准差 s。解(1);(2)
19、。,例4.7 设(X1,X2,Xn)是来自总体 X 的样本,EX=,DX=2,求 EX,DX。解(X1,X2,Xn)是来自总体 X 的样本,EX=,DX=2,E Xi=,D Xi=2,i=1,2,n;且 X1,X2,Xn 相互独立,;。进而有,若总体 X N(,2)(即 X 是正态总体),则。,注:,样本方差的统计意义 就样本的某一组观察值(x1,x2,xn)而言,与总体方差类似,样本方差 刻画了样本值对其样本均值的平均偏离程度:样本方差越小,样本数据就围绕着其样本均值分布得越集中;样本方差越大,样本数据就围绕着其样本均值分布得越分散。4、样本原点矩(P.129)记,k 1。并称 Ak 为样本
20、的 k 阶原点矩。当 k=1 时,一阶样本原点矩 就是样本均值X。可见,样本原点矩是样本均值概念的推广。,5、样本中心矩(P.129)记,k 1。并称 Bk 为样本的 k 阶中心矩。当 k=2 时,二阶样本中心矩 就是未修正的样本方差。可见,样本中心矩是未修正的样本方差概念的推广。以上各统计量(样本均值、样本方差、样本标准差、样本原点矩、样本中心矩)统称为样本的矩统计量,或简称为样本矩。它们都可以表示成样本的显示函数。除样本矩以外,还可以定义不能表为样本的显示函数的统计量。,6、顺序统计量 设(X1,X2,Xn)为总体 X 的一个样本,将样本中的各分量按由小到大的顺序排列成 X(1)X(2)X
21、(n),则称(X(1),X(2),X(n))为样本的一组顺序统计量,称X(i)为样本的第 i 个顺序统计量。特别地,称 X(1)与 X(n)分别为样本的极小值与极大值,并称 X(n)X(1)为样本的极差。,三、枢轴量 在样本的统计量中不应该包含总体分布的任何未知参数。但是在统计推断问题中,又常常需要利用样本资料对总体分布中的某一个未知参数 进行推断。为此,需要构造一个样本的仅含有待推断的未知参数,而不含有其它未知参数的函数 U(X1,X2,Xn;),同时要求如此构造的样本函数 U(X1,X2,Xn;)的分布已知。将这种只含有一个未知参数、且分布已知的样本函数,称为枢轴量。人们利用枢轴量的已知分
22、布,就可以对总体分布中的未知参数 进行统计推断。由此可见,枢轴量应该满足三点要求:首先,它必须是一个样本的函数;其次,在这个样本的函数中仅含有一个未知参数;最后,此样本函数的分布是已知的。,例4.8(P.129 例 4.5)设总体 X,其中 已知,未知,(X1,X2,Xn)为总体 X 的一个样本,令,则 U N(0,1)。证(X1,X2,Xn)是来自正态总体 的一个样本,X1,X2,Xn 相互独立,且,i=1,2,n。,于是,。,另外,由于 U 是样本(X1,X2,Xn)的函数,且仅含有一个未知参数,同时 U 的分布已知,所以 U 是一个枢轴量。,4.3 常用的统计分布 统计推断的基本做法是:
23、在取得总体 X 的样本(X1,X2,Xn)之后,借助样本统计量(或枢轴量)来对未知的总体分布进行推断。为了实现统计推断的目的,一般需要确定相应的统计量(或枢轴量)所服从的分布。本节将介绍一些统计学中常用的统计分布。,一、分位数 分位数是统计分布的数字特征。定义 4.4(P.130)随机变量 X 的分布函数为 F(x),对给定的实数(0 F)=,或 F(F)=1。则称 F 为随机变量 X 的分布的水平 的上侧分位数。或直接称为分布函数 F(x)的水平 的上侧分位数。特别地,如果 F(x)是严格单调增的,则其在水平 的上侧分位数 F 为 F=F 1(1)。,当 X 是连续型随机变量时,设其密度函数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数理统计 基础知识

链接地址:https://www.31ppt.com/p-5270620.html