《样本及其分布》PPT课件.ppt
中南大学数学公共课程之数理统计,郭孔华中南大学数学科学与计算技术学院,变量函数的分布等。但是对一个实际问题,随机变量的概率分布往往是不知道的,如何确定随机变量的概率分布或数字特征就是数理统计要解决的问题。,在概率论中,我们所研究的随机变量,,它的分布,都是假设已知的,,在这一前提下去研究它的性质、,特点和规律性,,例如求出它的数字特征,,讨论随机,数理统计是一个内容十分丰富的数学分支。,它既有严格的理论,更有极其广泛的应用。而且,随着科技的发展其研究内容还在不断地充实提高。,数理统计的基本概念,从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人们很早就开始了统计的工作.但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范围之外的推断.,到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这门学科.,数理统计学,数理统计学是一门应用性很强的学科.它是研究怎样以有效的方式收集、整理和分析带有随机性的数据,以便对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议.,数理统计学研究的对象及任务,注:只允许我们对随机现象进行次数不多的观察试验,也就是说,我们获得的只是局部观察资料.,作出精确而可靠的结论.,从总体上来说,数理统计可以分为两大类:,一类是如何科学地安排试验,,此部分内容称为描述统计学如:试验设计、抽样方法。,另一类是研究如何分析所获得的随机数据,,对所研究,的问题进行科学的、合理的估计和推断,,尽可能地为,采取一定的决策提供依据,,这部分的内容称为推断统计学,,如:参数估计、假设,检验等。,我们主要讨论有关推断统计学中几个最基本的,问题。,以获取有效的随机数据。,对随机现象进行观测、试验,以取得有代表性的观测值,对已取得的观测值进行整理、分析,作出推断、决策,从而 找出所研究的对象的规律性,参数估计(第6章),假设检验(第7章),回归分析(第8章),方差分析(第8章),推断 统计学,100个样品进行强度测试,于是面临下列几个问题:,例如 某厂生产一型号的合金材料,,用随机的方法选取,1、估计这批合金材料的强度均值是多少?,(参数的点估计问题),2、强度均值在什么范围内?,(参数的区间估计问题),3、若规定强度均值不小于某个定值为合格,那么这,批材料是否合格?,(参数的假设检验问题),4、这批合金的强度是否服从正态分布?,5、若这批材料是由两种不同工艺生产的,那么不同,的工艺对合金强度有否影响?,若有影响,那一种工艺,生产的强度较好?,(分布检验问题),(方差分析问题),6、若这批合金,由几种原料用不同的比例合成,那么,如何表达这批合金的强度与原料比例之间的关系?,(回归分析问题),我们依次讨论参数的点估计、区间估计、假设检验等内容。,首先我们讨论数理统计中的一些基本概念。,第5章 样本及其分布,在数理统计中,我们所研究的随机变量的分布往往是未知的,通过对随机变量进行多次独立重复的试验和观测,获取数据,利用实际观测数据研究随机变量的分布,对其分布函数、数字特征等进行估计和推断 本章作为数理统计基础,学习总体、样本、统计量与抽样分布等有关概念,以及有关正态总体的重要的抽样分布定理,5.1 简单随机样本,总体容量有限的称为有限总体,总体,一个统计问题总有它明确的研究对象.,1.总体,研究对象的全体称为总体(母体),,总体中每个对象称为个体.,研究某批灯泡的质量,总体,考察国产 轿车的质量,1 总体和样本,不过在统计研究中,人们关心总体仅仅是关心其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布情况.,该批灯泡寿命的全体就是总体,灯泡的寿命,每公里的耗油量,所有国产轿车每公里耗油量的全体就是总体,这时,每个个体具有的数量指标的全体就是总体.,称总体中所含个体的数目为总体容量,总体容量无限的称为无限总体.,当个体个数很大时通常把有限总体看作无限总体。,那么,此总体就可用描述其寿命的随机变量 X 或用其分布函数 F(x)表示.,因此在理论上可以把总体与概率分布等同起来.,概率分布是刻划这种集体性质最适当的工具.,统计的任务,是根据从总体中抽取的样本,去推断总体的性质.,由于我们关心的是总体中的个体的某项指标(如人的身高、体重,灯泡的寿命,汽车的耗油量),,从另一方面看:,如研究某批灯泡的寿命时,关心的数量指标就是寿命,所谓总体的性质,无非就是这些指标值集体的性质.,我们用X和Y分别表示身高和体重,那么此总体就可用二维随机变量(X,Y)或其联合分布函数 F(x,y)来表示.,总体概念的要旨:总体就是一个概率分布,再如,若研究某地区中学生的营养状况时,关心的数量指标是身高和体重,当X为离散型时,,称X的概率函数(分布列)为,总体概率函数。,当X为连续型时,,称X的概率密度为总体密度函数。,当总体分布为指数分布时,,称为指数分布总体;,当总体分布为正态分布时,,称为正态分布总体或,简称正态总体等等.,例如本市家庭的月收入X是个随机变量,,X服从什么,在数理统计中总体X的分布永远是未知的,,有足够的理由可以认为总体X服从某种类型的分布,,但这个分布的参数还是未知的。,分布事先是不清楚的,,根据资料可确信,即使,但,究竟取什么值还是未知的,,由于总体X的分布是未知的,,因此X的数字特征如,均值、方差等往往也是一个未知的值。,对于这些未知,值可以根据有关数据来推测。,坏性的试验更是不允许对整个总体进行考察.,考察某工厂生产的灯泡寿命,考察某型号手机的质量,考察吸烟和患肺癌的关系,在实际问题中,,要考察整个总体往往是不可能的,,因为它需要耗费太多的资源和太多的时间.,有些破,2、样本与简单样本,样本中所包含的个体数目称为样本容量.,但是,一旦取定一组样本,得到的是 n 个具体的数 x1,x2,xn,按一定规则从总体中抽取若干个体进行观察试验以获得有关总体的信息.,为推断总体分布及各种特征,从国产轿车中抽5辆进行耗油量试验,样本容量为 5,样本是随机变量,抽到哪 5 辆是随机的!,容量为 n 的样本可以看作一 n 维随机变量(X1,X2,Xn).,所抽取的部分个体称为样本.,这一抽取过程称为抽样,称为样本(X1,X2,Xn)的一组观测值,简称样本值.,样本的值域称为样本空间。,它要求抽取的样本X1,X2,Xn 满足下面两点:,它可以用与总体同分布的 n 个相互独立的随机变量 X1,X2,Xn 表示.,2.代表性:Xi(i=1,2,n)与所考察的总体 X 同分布.,为了使抽取的样本能很好地反映总体的信息,必须考虑抽样方法.,最常用的一种抽样方法叫作简单随机抽样,1.独立性:X1,X2,Xn 是相互独立的随机变量;,抽样的目的是为了对总体进行统计推断,,由简单随机抽样得到的样本称为简单随机样本,,今后,说到“X1,Xn 是取自某总体的样本”时,若不特别说明,就指简单随机样本.,则其简单随机样本的联合分布函数为,F(x1,x2,xn)=F(x1)F(x2)F(xn),简单随机样本是应用中最常见的情形,若总体 X 的分布函数为F(x),若总体 X 的概率密度为 f(x),则其简单随机样本的联合概率密度为,求样本(X1,X2,X3)的概率分布.,ex1.设总体 X B(1,p),即 P(X=x)=p x(1-p)1-x,X=0,1.,设 X1,X2,X3 为 X 的一个样本,解,x i=0,1;,i=1,2,3.,(X1,X2,X3)的分布律,P(X1=x1,X2=x2,X3=x3),又 x1+x2+x3=0,1,2,3,P(X1=x1,X2=x2,X3=x3),k=0,1,2,3.,ex2.设总体X服从均值为1/2的指数分布,X1,X2,X3,X4为来自X的样本,求X1,X2,X3,X4的联合概率密度和联合分布函数,解:X的概率密度为,其分布函数为,则X1,X2,X3,X4的联合概率密度为:,比如我们从某班大学生中抽取 10 人测量身高,得到 10 个数.,我们只能观察到随机变量取的值而见不到随机变量.,它们是样本取到的值而不是样本.,3.总体、样本、样本值的关系,总体(理论分布)?,样本,样本值,统计是从手中已有的资料 样本值,去推断总体的情况 总体分布F(x)的性质.,总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,,事实上,我们抽样后得到的资料都是具体的、确定的值.,因而可以由样本值去推断总体.,?,是总体的代表,含有总体的信息,分散、复杂,样本是联系二者的桥梁,其中 已知,未知,则称 g(x1,xn)是一个统计量.,一个有效的方法就是构造一些样本的函数,若样本函数 g(x1,xn)中不含任何未知参数,由样本值去推断总体情况,需要对样本值进行“加工”,1.统计量,这种不含任何未知参数、完全由样本决定的量称为统计量,通过样本函数把样本中所含的(某一方面)的信息集中起来.,定义 设X1,X2,Xn 是来自总体 X 的容量为 n 的样本,样本的函数,ex1.设 X1,X 2,X3 是取自正态总体 X(,2)的一个样本,问下列样本函数中哪些是统计量,那些不是?,X1,X2+1,(X1+X2+Xn)/3,Max X1,X2,X3,我们主要研究两种基本的统计量:,样本矩 和 顺序统计量,2 统计量,几个常见的统计量,样本均值,样本方差,反映了总体均值的信息,它反映了总体方差的信息,样本 k 阶原点矩,样本 k 阶中心矩,k=1,2,它反映了总体 k 阶矩的信息,反映了总体 k 阶中心矩的信息,并称他们相应的观测值,样本标准差,它反映了总体标准差的信息,k=1,2,仍分别为:样本均值、样本方差、样本标准差、样本 k 阶原点矩、样本 k 阶中心矩.,10 样本矩,统称为 样 本 矩,统计量的重要性质,设 X1,X2,Xn 是来自总体 X 的容量为 n 的样本,若 X 有期望 EX=和方差 DX=2,则,ex3.,=,(1),E(S 2)?,=2,(2),=2/n;,2 顺序统计量与极差,设,为样本,为样本值,且,当,取值为,时,定义 r.v.,则称统计量,为顺序统计量.,其中,称,为极差,总 体,样 本,统 计 量,描述,作出推断,随机 抽样,我们介绍了数理统计的基本概念.,小结,5.2 抽样分布,统计量的分布称为抽样分布。在使用统计量进行统计推断时常需知道它的分布。当总体的分布函数已知时,抽样分布是确定的,然而要求出统计量的精确分布,一般来说是困难的。本节介绍来自正态总体的几个常用统计量的分布。今后,我们将看到这些分布在数理统计中有重要的应用。,(1)正态分布,则,特别地,则,若,若,(2)伽玛分布(分布),如果连续型随机变量X的密度函数为,为函数,则称X服从参数是,的伽玛分布,记为X(,).,定义,其中,,函数具有以下性质:,设X(,),可以证明:对于任意整数k,有,从而有:,一、统计学的三大分布,为了讨论正态总体下的抽样分布,先引入由正态分布导出的统计中的三个重要分布,即 分布,分布,分布。1、分布设 是来自总体 的样本,则称统计量(1)服从自由度为 的 分布,记为,此处,自由度是指(1)式右端包含独立变量个数,分布的概率密度为,的图形如图51所示。,(2),图51,此结论可推广:设 且相互独立,分布的可加性,(证明略),则,例 设 是总体 的简单随机样本,试确定c和d使得,解:容易求得,并求出n。,并且它们是相互独立的,由2分布的定义知,由此可知,c=1/3,d=1/2,n=2。,若,则有,分布的数学期望和方差,因,故,因此,又,于是,则称点 为 的上 分位点,分布的分位点,定义 设有分布函数 对给定的,若有,(6),当 有密度函数 时,式(6)可写成,(7),由上述定义得 分布的上 分位点为,(8),如图52所示,对于不同的 上 分位点的值已制成表格,可以查用(参见附表5)。,图52,例如 对于,查得但该表只详列到 费歇(R.A.Fisher)曾证明,当 充分大时,近似地有(9)其中 是标准正态分布的上 分位点。利用(8)式可以求得当 时,分布的上 分位点的近似值,例如由(9)式可得(由更详细的表得),2、分布,设,且 独立,服从自由度为 的 分布,记为,分布又称为学生氏(student)分布,分布的概率密度函数为,(11),图53,的点 为 分布的上 分位点。(见图6-6),分布的分位点,对于给定的,称满足条件,(13),图6-6,由 分布上 分位点的定义及 图形的对称性知,在 时,对于常用的 的值,就用正态近似,(14),分布的上 分位点可自附表4查得。,(15),3.分布,记为,(16),的概率密度为,(17),图54中画出了 的图形,由定义可知,若 则(18),图54,分布的分位点,对于给定的 称满足条件,(19),的点 为 分布的上 分位点(图5-5),图5-5,容易证明等式:,(20),利用这个等式,查附录表,可以计算当,时的 的值,例如,F分布的上 分位点有表格可查(见附表 6),二、几个常见的抽样分布,研究数理统计的问题时,往往需要知道所讨论的统计量 的分布。一般说来,要确定某个统计量的分布是困难,有的甚至是不可能的。然而,对于总体服从正态分布的情形已经有了详尽的研究。下面我们讨论服从正态分布的总体的统计量的分布。,假设 是来自正态总体 的样本,即它们是独立同分布的皆服从 分布,样本均值与样本方差分别是,定理1 设总体 服从正态分布,,(21),即,则,因为随机变量 相互独立且与总体 服从相同的正态分布,证,所以,由正态分布的性质可知,它们的线性组合服从,正态分布,即,这个定理的证明从略,我们仅对自由度作一些说明,虽然是 个随机变量的平方和,但是这些随机变量不是相互独立的。因为它们的和恒等于零:,由样本方差 的定义易知,所以统计量,由于受到一个条件的约束,所以自由度为,上述两定理是正态总体统计推断的基础,因而是十分重要的,下面列举其应用.,由定理1知,统计量,又由定理2知,统计量,因为 与 相互独立,证,于是,由 分布的定义可知,统计量,ex2.设 来自,是来自 的两个独立样本,记,由定理1可知,统计量,证,且 与 相互独立,由正态分布的性质知,即,又由定理2知:,因为 与 相互独立,与 相互独立,所以统计量 与 也相互独立,因为 与 相互独立,所以由 分布的可加性可知,统计量,于是,由 分布定义可知,统计量,由假设,、相互独立,则由 分布的定义,证,由定理2,知,注:若两个正态分布的方差 与 不相等,,则统计量,本节所介绍的几个分布以及几个重要结论,在下面各章中都起着重要的作用。应注意,它们都是在总体为正态这一基本假定下得到的。,ex4.在总体 中,随机地抽取一个容量为36的样本,求样本均值 落在50.8到53.8之间的概率.,解,故,ex5.设总体X 的概率密度函数为,为总体的样本,求,(2),(3),解(1),(近似),(3),由中心极限定理,(2),容量为10与15的两个独立样本,求它们的均值差大于0.3的概率。,ex6.设总体,分别从X中抽取,解 设 与 分别表示容量为10与15的两个样本的均值,则,又由于 与 相互独立,从而有,因此,Za,-Za,查标准正态分布表:,解,ex7.,三、直方图,直方图与经验分布函数,如前所述,数理统计所研究的实际问题(总体)的分布一般来说是未知的,需要通过样本来推断但如果对总体一无所知,那么,做出推断的可信度一般也极为有限在很多情况下,我们往往可以通过具体的应用背景或以往的经验,再通过观察样本观测值的分布情况,对总体的分布形式有个大致了解观察样本观测值的分布规律,了解总体X的概率密度和分布函数,常用直方图和经验分布函数.,1.直方图直方图是对一组数据x1,x2,.,xn的分布情况的图形描述将数据的取值范围分成若干区间(一般是等间隔的),在等间隔的情况,每个区间的长度称为组距考察这些数据落入每一个小区间的频数和频率,在每一个区间上画一个矩形,它的宽度是组距,高度可以是频数、频率或频率/组距,所得直方图分别称为频数直方图、频率直方图和密度直方图,图5-6 密度直方图,如果数据x1,x2,.,xn是来自连续总体X的样本观测值,其密度直方图中,每一个矩形的面积恰好是观测数据落入对应区间的频率,这种密度直方图可以用来估计总体的概率密度(用密度直方图的顶部折线估计X的概率密度曲线)组距对直方图的形态有很大的影响,组距太小或太大,直方图反映概率密度的形态就不够准确,作直方图的步骤如下:,1 找出样本观测值 中的最小值与最大值,分别记作 与,即,2 适当选取略小于 的数 与略大于 的数,并用分点 把区间 分成 个子区间 第 个子区间的长度为,此外,为了方便起见,分点 应比样本观测值 多取一位小数。,各子区间的长度可以相等,也可以不等;若使各子区间的长度相等,则有,子区间的个数一般取为8至15个,太多则由于频率的随机摆动而使分布显得杂乱,太少则难于显示分布的特征。,3 把所有样本观测值逐个分到各子区间内,并计算样本观测值落在各子区间内的频数 及频率,4 在 轴上截取各子区间,并以各子区间为底,,所有小矩形的面积的和,这样作出的所有小矩形就构成了直方图。,因为样本容量 充分大时,随机变量 落在各个子区间 内的频率近似等于其概率 即 所以直方图大致地描述了总体 的概率分布。,ex8.测量100个某种机械零件的质量,得到样本观测值如下(单位:g)246 251 259 254 246 253 237 252 250 251 249 244 249 244 243 246 256 247 252 252 250 247 255 249 247 252 252 242 245 240 260 263 254 240 255 250 256 246 249 253 246 255 244 245 257 252 250 249 255 248 258 242 252 259 249 244 251 250 241 253 250 265 247 249 253 247 248 251 251 249 246 250 252 256 245 254 258 248 255 251 249 252 254 246 250 251 247 253 252 255 254 247 252 257 258 247 252 264 248 244写出零件质量的频率分布表并作直方图。,解,因为样本观测中最小值为237,最大值为265,,所以我们把数据的分布区间确定为(236.5,266.5),并把这个区间等分为10个子区间,(236.5,239.5),(239.5,242.5),(263.5,266.5),由此得到零件质量的频率分布表:,零件质量/频数 频率 236.5239.5 1 0.01 239.5242.5 5 0.05 242.5245.5 9 0.09 245.5248.5 19 0.19 248.5251.5 24 0.24 251.5254.5 22 0.22 254.5257.5 11 0.11 257.5260.5 6 0.06 260.5263.5 1 0.01 263.5266.5 2 0.02 总计 100 1.00,直方图如图57所示,图57,一个合适的分组是希望密度直方图的形态接近总体的概率密度函数的形态手工计算常取组数等于 左右,一些统计软件会根据样本容量和样本的取值范围自动确定一个合适的分组方式,画出各种漂亮的直方图,ex9.从某高校一年学生的“高等数学”课程考试成绩中,随机抽取60名学生的成绩如下:试利用Excel的“数据分析”功能作学生成绩的密度直方图,并通过直方图了解学生成绩的分布情况,实验步骤:(1)确定分组个数:因为,取分组个数为8数据的最小值为51,最大值为95,为分组方便起见,考虑范围从50到100,分为8个组,组距取50/8=6.25,分点分别为:50,56.25,62.5,68.75,75,81.25,87.5,93.75,100。整理学生成绩数据,在“组上限”栏中填入各组的上限值,如图5-8左所示,图5-8 数据整理与“直方图”对话框,(2)在Excel主菜单中选择“工具”“数据分析”,打开“数据分析”对话框,在“分析工具”列表中选择“直方图”选项,单击“确定”按钮(3)在打开的“直方图”对话框中,依次输入(或用鼠标拖动选择)“输入区域”、“接收区域”和“输出区域”,如图5-8右所示,单击“确定”按钮 得到频率分布的结果如图5-9左所示,图5-9 计算各组频率与密度,(4)计算密度:在单元格区域J2:J9中依次输入组域名:50-56.25、56.25-62.5、62.5-68.75、68.75-75、75-81.25、81.25-87.5、87.5-93.75、93.75-100,然后在“密度”列的单元格K2中输入公式:=I2/60/6.25,并将公式复制到K3K9中,如图5-9右所示,(5)画密度直方图:选中单元格区域J1:K9,单击“图表向导”按钮,打开“图表向导”对话框在“图表类型”选择中,取默认的“柱形图”向导,直接单击“完成”按钮,即可得到密度柱形图,如图5-10所示,图5-10 密度柱形图,右键单击图中条形,在快捷菜单中选择“数据系列格式”,打开“数据系列格式”对话框,在其中的“选项”选项卡中,修改“分类间距”为0,如图5-11(左)所示,单击“确定”按钮,即可加宽条形,得到密度直方图,进一步修改图形,得到密度直方图,如图5-11(右)所示,图5-11 密度直方图,从学生成绩的密度直方图可以看到,学生成绩在平均分附近比较密集,较低或较高分数学生比较少,学生成绩的分布呈近似“钟形”对称,即成绩分布近似正态分布,类似的方法可以画出学生成绩的频数直方图和频率直方图,由于三种直方图只是高度相差一定的倍数,所以在研究总体分布的形态时,三种直方图具有同样的作用,2.经验分布函数为了解总体X的分布形式,根据样本观测值x1,x2,.,xn构造一个函数Fn(x)来近似总体X的分布函数,函数Fn(x)称为经验分布函数它的构造方法是这样的,将样本观测值x1,x2,.,xn按从小到大可排成,定义,Fn(x)只在x=x(k),(k=1,2,n)处有跃度为1/n的间断点,若有l个观测值相同,则Fn(x)在此观测值处的跃度为l/n对于固定的x,Fn(x)即表示事件X x在n次试验中出现的频率,即,其中k为落在(-,x)中xi的个数,样本分布函数 的图形如图512所示,图5-12,ex10.某食品厂生产听装饮料,现从生产线上 随机抽取5听饮料,称得其净重(单位:克)351 347 355 344 351,x(1)=344,x(2)=347,x(3)=351,x(4)=354,x(5)=355,这是一个容量为5的样本,经排序可得有序样本:,故其经验分布函数为,0,x 344 0.2,344 x 347Fn(x)=0.4,347 x 351 0.8,344 x 347 1,x 355,由伯努利大数定理知Fn(x)依概率收敛于F(x)实际上,Fn(x)还一致地收敛于F(x),所谓的格里文科定理指出了这一更深刻的结论,即 所以,当n充分大时经验分布函数Fn(x)是总体分 布函数F(x)的一个良好的近似,