概率论与数理统计课件第5章.ppt
数 理 统 计 部分,第五章,样本与统计量,引 言,随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。,概率论的许多问题中,随机变量的概率分布通常是已知的,或者假设是已知的,而一切计算与推理都是在这已知是基础上得出来的。,但实际中,情况往往并非如此,一个随机现象所服从的分布可能是完全不知道的,或者知道其分布概型,但是其中的某些参数是未知的。,引 言,例如:,某公路上行驶车辆的速度服从什么分布是未知的;,电视机的使用寿命服从什么分布是未知的;,产品是否合格服从两点分布,但参数合格率p是未知的;,数理统计的任务则是以概率论为基础,根据试验所得到的数据,对研究对象的客观统计规律性做出合理的推断。,从第五章开始,我们学习数理统计的基础知识。数理统计的任务是以概率论为基础,根据试验所得到的数据,对研究对象的客观统计规律性作出合理的推断.数理统计所包含的内容十分丰富,本书介绍其中的参数估计、假设检验、方差分析、回归分析等内容.第五章主要介绍数理统计的一些基本术语、基本概念、重要的统计量及其分布,它们是后面各章的基础。,学习的基本内容,样本与统计量,总体与样本,在数理统计中,把研究对象的全体称为总体(population)或母体,而把组成总体的每个单元称为个体。,抽样,要了解总体的分布规律,在统计分析工作中,往往是从总体中抽取一部分个体进行观测,这个过程称为抽样。,样本与统计量,子样,子样 是n个随机变量,抽取之后的观测数据 称为样本值或子样观察值。,在抽取过程中,每抽取一个个体,就是对总体X进行一次随机试验,每次抽取的n个个体,称为总体X的一个容量为n的样本(sample)或子样;其中样本中所包含的个体数量称为样本容量。,随机抽样方法的基本要求,独立性即每次抽样的结果既不影响其余各次抽样的 结果,也不受其它各次抽样结果的影响。,满足上述两点要求的子样称为简单随机子样.获得简单随机子样的抽样方法叫简单随机抽样.,代表性即子样()的每个分量 与总体 具有相同的概率分布。,从简单随机子样的含义可知,样本 是来自总体、与总体 具有相同分布的随机变量.,简单随机抽样,例如:要通过随机抽样了解一批产品的次品率,如果每次抽取一件产品观测后放回原来的总量中,则这是一个简单随机抽样。,但实际抽样中,往往是不再放回产品,则这不是一个简单随机抽样。但当总量N很大时,可近似看成是简单随机抽样。,统计量,定义 设()为总体X的一个样本,为不含任何未知参数的连续函数,则称 为样本()的一个统计量。,则,例如:设 是从正态总体 中抽取的一个样本,其中 为已知参数,为未知参数,,是统计量,不是统计量,几个常用的统计量,样本均值(sample mean),设 是总体 的一个样本,,样本方差(sample variance),样本均方差或标准差,它们的观测值用相应的小写字母表示.反映总体X取值的平均,或反映总体X取值的离散程度。,几个常用的统计量,设 是总体 的一个样本,,子样的K阶(原点)矩,几个常用的统计量,设 是总体 的一个样本,,子样的K阶中心矩,它包括两个方面数据整理 计算样本特征数,数据的简单处理,为了研究随机现象,首要的工作是收集原始数据.一般通过抽样调查或试验得到的数据往往是杂乱无章的,需要通过整理后才能显示出它们的分布状况。,数据的简单处理是以一种直观明了方式加工数据。,计算样本特征数:,数据的简单处理,(1)反映趋势的特征数,样本均值,中位数:数据按大小顺序排列后,位置居中的那个数 或居中的两个数的平均数。,众数:样本中出现最多的那个数。,数据的简单处理,(2)反映分散程度的特征数:极差、四分位差,极差样本数据中最大值与最小值之差,,四分位数将样本数据依概率分为四等份的3个数椐,依次称为第一、第二、第三四分位数。,第一四分位数Q1:,第二四分位数Q2:,第三四分位数Q3:,例1 为对某小麦杂交组合F2代的株高X进行研究,抽取容量为100的样本,测试的原始数据记录如下(单位:厘米),试根据以上数据,画出它的频率直方图,求随机变量X的分布状况。87 88111 91 73 70 92 98105 94 99 91 98110 98 97 90 83 92 88 86 94102 99 89104 94 94 92 96 87 94 92 86102 88 75 90 90 80 84 91 82 94 99102 91 96 94 94 85 88 80 83 81 69 95 80 97 92 96109 91 80 80 94102 80 86 91 90 83 84 91 87 95 76 90 91 77103 89 88 85 95 92104 92 95 83 86 81 86 91 89 83 96 86 75 92,第一整理原始数据,加工为分组资料,作出频率分布表,画直方图,提取样本分布特征的信息.步骤如下:,1.找出数据中最小值m=69,最大值M=111,极差为 Mm=42,2.数据分组,根据样本容量n的大小,决定分组数k。,一般规律 30n40 5k6 40n60 6k8 60n100 8k10 100n500 10k20,数据分组数参考表,一般采取等距分组(也可以不等距分组),组距等于比极差除以组数略大的测量单位的整数倍。,本例取k=9.,本例测量单位为1厘米,组距为,3确定组限和组中点值。,注意:组的上限与下限应比数据多一位小数。,当取a=67.5,b=112.49(a略小于m,b略大于M,且a和b都比数据多一位小数),分组如下:,一般根据算式:各组中点值 组距=组的上限或下限,67.5,72.5)72.5,77.5)77.5,82.5)82.5,87.5)87.5,92.5)92.5,97.5)97.5,102.5)102.5,107.5)107.5,112.5),组中值分别为:70 75 80 85 90 95 100 105 110,4将数据分组,计算出各组频数,作频数、频率分布表,作频率直方图,5.作出频率直方图,以样本值为横坐标,频率/组距为纵坐标;,以分组区间为底,以 为高,从频率直方图可看到:靠近两个极端的数据出现比较少,而中间附近的数据比较多,即中间大两头小的分布趋势,随机变量分布状况的最粗略的信息。,在频率直方图中,每个矩形面积恰好等于样本值落在该矩形对应的分组区间内的频率,即,频率直方图中的小矩形的面积近似地反映了样本数据落在某个区间内的可能性大小,故它可近似描述X的分布状况。,样本方差 样本标准差 Q1 Q3 极差 四分位差 68.6909 8.288 85.25 95 42 4.875,第二计算样本特征数,1.反映集中趋势的特征数:样本均值、中位数、众数等,样本均值MEAN 中位数MEDIAN 众数,2.反映分散程度的特征数:样本方差、样本标准差、极差、四分位差等,上述差异特征统计量的值越小,表示离散程度越小.,MTB set c1DATA 87 88 111 91 73 70 92 98 105 94 99 91 98 DATA 110 98 97 83 90 83 92 88 86 94 102 99 89 104 DATA 94 94 92 96 87 94 92 86 102 88 75 90 90 80 DATA 84 91 82 94 99 102 91 96 94 94 85 88 80 83 DATA 81 69 95 80 97 92 96 109 91 80 80 94 102 DATA 80 86 91 90 83 84 91 87 95 76 90 91 77 103DATA 89 88 85 95 92 104 92 95 83 86 81 86 91 89 83 DATA 96 86 75 92MTB endMTB describe c1,例1 DOS状态下的MINITAB操作,显示:N MEAN MEDIAN TRMEAN STDEV C1 100 90.300 91.000 90.322 8.288 SEMEAN MIN MAX Q1 Q3 C1 0.829 69.000 111.000 85.250 95.000,中位数,第一四分位数,第三四分位数,MTBCODE(67.5:72.49)70(72.5:77.49)75(77.5:82.49)80(82.5:87.49)85(87.5:92.49)90(92.5:97.49)95(97.5:102.49)100(102.5:107.49)105(107.5:112.49)110 C1 C2MTBTALLY C2;SUBCALL.,将C1数据列重新编码,并保存到C2数据列,显示各列数据的频数、累计频数、频率、累计频率,C2 COUNTS CUMCNTS PERCENTS CUMPCENTS(频数)(累计频数)(频率)(累计频率)1 2 0.02 0.02 5 7 0.05 0.07 10 17 0.10 0.17 18 35 0.18 0.35 30 65 0.30 0.65 18 83 0.18 0.83 10 93 0.10 0.93 4 97 0.04 0.97 3 100 0.03 1.00,显示结果,作业 习题五 P111 2;3;4预习 第三节 统计量的分布,统计量的分布,统计量 是样本 的不含任何未知数的函数,它是一个随机变量,统计量的分布称为抽样分布。,由于正态总体是最常见的总体,因此这里主要讨论正态总体下的抽样分布.,由于这些抽样分布的论证要用到较多的数学知识,故在本节中,我们主要给出有关结论,以供应用.,正态总体样本均值的分布,设总体,是 的一个样本,则样本均值服从正态分布,U分布,概率分布的分位数(分位点),如图.,PXx=,双侧 分位数或双侧临界值的特例,当X的分布关于y轴对称时,,则称 为X分布的双侧分位数或双侧临界值.,如图.,若存在 使,U分布的上侧分位数,对标准正态分布变量UN(0,1)和给定的,上侧分位数是由:,PUu=,即,PUu=1-,(u)=1-,确定的点u.,如图.,例如,=0.05,而,PU1.645=0.05,所以,u0.05=1.645.,U分布的双侧分位数,的点u/2为标准正态分布的双侧分位数或双侧临界值.,如图.,u/2可由PUu/2=/2,即(u/2)=1-/2,反查标准正态分布表得到,,PU1.96=0.05/2,例如,求u0.05/2,,得u0.05/2=1.96,标准正态分布的分位数,在实际问题中,常取0.1、0.05、0.01.,常用到下面几个临界值:,u0.05=1.645,u0.01=2.326 u0.05/2=1.96,u0.01/2=2.575,数理统计中常用的分布除正态分布外,还有三个非常有用的连续型分布,即,数理统计的三大分布(都是连续型).,它们都与正态分布有密切的联系.,!,在本章中特别要求掌握对正态分布、2分布、t分布、F分布的一些结论的熟练运用.它们是后面各章的基础.,分布,定义 设总体,是 的一个样本,则称统计量 服从自由度为n的 分布,记作,自由度是指独立随机变量的个数,,分布的密度函数为,其图形随自由度的不同而有所改变.,2分布表(附表3(P254).,分布密度函数的图形,满足,的数 为 2分布的上分位数或上侧临界值,,其几何意义见图5-5所示.,其中f(y)是 2-分布的概率密度.,显然,在自由度n取定以后,的值只与有关.,例如,当n=21,=0.05时,由附表3(P254)可查得,,32.67,即,2分布的上分位数,2分布的双侧分位数,把满足,的数,称为 2分布的双侧分位数,或双侧临界值.,见图.,显然,,为 2分布的上 分位数.,为 2分布的上 分位数.,如当n=8,=0.05时,,2.18,17.53,2分布的数学期望与方差(补充),设 2 2(n),则E(2)=n,D(2)=2n.,2分布的可加性,设,则,性质 设(X1,X2,Xn)为取自正态总体XN(,2)的样本,则,证明,由已知,有,XiN(,2)且X1,X2,Xn相互独立,,则,由定义5.3得,(P111第五题要用到此结论.),定理5.1 设(X1,X2,Xn)为来自正态总体 XN(,2)的样本,则,(1)样本均值 与样本方差S 2相互独立;,(5.8)式的自由度为什么是n-1?,从表面上看,,但实际上它们不是独立的,,它们之间有一种线性约束关系:,=0,这表明,当这个n个正态随机变量中有n-1个取值给定时,剩下的一个的取值就跟着唯一确定了,故在这n项平方和中只有n-1项是独立的.所以(5.8)式的自由度是n-1.,定理5.1 设(X1,X2,Xn)为来自正态总体 XN(,2)的样本,则,(1)样本均值 与样本方差S 2相互独立;,与以下补充性质的结论比较:,性质 设(X1,X2,Xn)为取自正态总体XN(,2)的样本,则,三、t分布,定义5.4,设随机变量XN(0,1),Y 2(n),且X与Y相互独立,则称统计量,服从自由度为n的t分布或学生氏分布,,记作,t分布的概率密度函数为,T t(n).,其图形如图5-6所示(P106),,其形状类似标准正态分布的概率密度的图形.,当n较大时,t分布近似于标准正态分布.,当n较大时,t分布近似于标准正态分布.,一般说来,当n30时,t分布与标准正态分布N(0,1)就非常接近.,但对较小的n值,t分布与标准正态分布之间有较大差异.且P|T|t0P|X|t0,其中X N(0,1),即在t分布的尾部比在标准正态分布的尾部有着更大的概率.,t 分布的数学期望与方差(补充),设Tt(n),则E(T)=0,D(T)=,定理5.2,设(X1,X2,Xn)为来自正态总体 XN(,2)的样本,则统计量,证,由定义5.4得,定理5.3,设(X1,X2,Xn1)和(Y1,Y2,Yn2)分别是来自正态总体N(1,2)和N(2,2)的样本,且它们相互独立,则统计量,其中,、,分别为两总体的样本方差.,(证略).,t 分布的上分位数,对于给定的(0 1),称满足条件,的数t(n)为t分布的上分位数或上侧临界值,,其几何意义见图5-7.,t 分布的双侧分位数,由于t分布的对称性,称满足条件,的数t/2(n)为t分布的双侧分位数或双侧临界值,,其几何意义如图5-8所示.,在附表4(P256)中给出了t分布的临界值表.,例如,当n=15,=0.05时,查t分布表得,,t0.05(15)=t0.05/2(15)=,1.753,2.131,其中t0.05/2(15)由Pt(15)t0.025(15)=0.025查得.,但当n45时,如无详细表格可查,可以用标准正态分布代替t分布查t(n)的值.,即,t(n)u,n45.,一般的t分布临界值表中,详列至n=30,当n30就用标准正态分布N(0,1)来近似.,四、F分布,服从第一自由度为n1,第二自由度为n2的F分布,,概率密度函数,其中,其图形见图5-9.(P108),F 分布的上分位数,对于给定的(0 1),称满足条件,的数F(n1,n2)为F分布的上分位数或上侧临界值,,其几何意义如图5-7所示.,其中f(y)是F分布的概率密度.,F 分布的上分位数,F(n1,n2)的值可由F 分布表查得.,附表5、6、7(P258P266)分=0.1、=0.05、=0.01给出了F分布的上分位数.,当时n1=2,n2=18时,有,F0.01(2,18)=,6.01,在附表5、6、7中所列的值都比较小,当 较大时,可用下面公式,查表时应先找到相应的值的表.,例如,,0.166,F 分布的双侧分位数,称满足条件,见图.,显然,,为F分布的上 分位数;,为F分布的上 分位数;,定理5.4,为正态总体 的样本容量和样本方差;,设 为正态总体 的样本容量和样本方差;,且两个样本相互独立,则统计量,证明,由已知条件知,且相互独立,,由F分布的定义有,小 结几种常用分布的定义,正态总体样本均值的分布,设总体,是 的一个样本,则样本均值服从正态分布,U分布,分布,定义 设总体,是 的一个样本,则称统计量 服从自由度为n的 分布,记作,自由度是指独立随机变量的个数,,n个相互独立的标准正态分布之平方和服从自由度为n的 分布,t分布,定义5.4,设随机变量XN(0,1),Y 2(n),且X与Y相互独立,则称统计量,服从自由度为n的t分布或学生氏分布,,记作,T t(n).,t-分布的密度函数的图形相似于标准正态分布的密度函数.当n较大时,t分布近似于标准正态分布.,F分布,服从第一自由度为n1,第二自由度为n2的F分布,,例1 设总体XN(0,1),X1,X2,Xn为简单随机样本,试问下列统计量各服从什么分布?,解,(1),因为XiN(0,1),i=1,2,n.,所以,X1-X2 N(0,2),,故,t(2).,例1 设总体XN(0,1),X1,X2,Xn为简单随机样本,试问下列统计量各服从什么分布?,续解,(2),因为X1N(0,1),,故,t(n-1).,例1 设总体XN(0,1),X1,X2,Xn为简单随机样本,试问下列统计量各服从什么分布?,续解,(3),因为,所以,F(3,n-3).,例2 若Tt(n),问T2服从什么分布?,解,因为Tt(n),,可以认为,其中UN(0,1),V2(n),,U22(1),,F(1,n).,例3 设总体XN(,42),X1,X2,X10是n=10简单随机样本,S2为样本方差,已知PS2=0.1,求.,解,因为n=10,n-1=9,2=42,,所以,2(9).,又,PS2=,=0.1,,所以,14.684.,故,14.684x,26.105,作 业,1.习题五:第5、7、8题.2.复习;3.预习:参数的点估计(样本数字特征法、矩法估计、估计量的评选标准),