《量及其抽样分布.ppt》由会员分享,可在线阅读,更多相关《量及其抽样分布.ppt(60页珍藏版)》请在三一办公上搜索。
1、第 6 章 统计量及其抽样分布,第 6 章 统计量及其抽样分布,6.1 统计量6.2 关于分布的几个概念 6.3 由正态分布导出的几个重要分布 6.4 样本均值的分布与中心极限定理6.5 样本比例的抽样分布6.6 两个样本平均值之差的分布6.7 关于样本方差的分布,了解统计量及其分布的几个概念了解由正态分布导出的几个重要分布 理解样本均值的分布与中心极限定理掌握单样本比例和样本方差的抽样分布,学习目标,6.1 统计量,6.1.1 统计量的概念6.1.2 常用统计量6.1.3 次序统计量 6.1.4 充分统计量,设X1,X2,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(
2、X1,X2,Xn),不依赖于任何未知参数,则称函数T(X1,X2,Xn)是一个统计量样本均值、样本比例、样本方差等都是统计量统计量是样本的一个函数统计量是统计推断的基础,统计量(statistic),一组样本观测值X1,X2,Xn由小到大的排序 X(1)X(2)X(i)X(n)后,称X(1),X(2),X(n)为次序统计量 中位数、分位数、四分位数等都是次序统计量,次序统计量,6.2 关于分布的几个概念,6.2.1 抽样分布6.2.2 渐进分布6.2.3 随机模拟获得的近似分布,样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量
3、是 样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布(sampling distribution),6.3 由正态分布导出的几个重要分布,6.3.1 2分布6.3.2 t 分布6.3.3 F 分布,2 分布,2 分布的使用,如果一个变量的诸数值可视为几个独立变量值的平方和,则该变量服从2 分布方差就可视为若干随机变量值的平方和样本中各随机数值与均值之离差的平方和(即样本方差的n-1倍)与总体方差之比,服从自由度为n-1的2 分布,由阿贝(Abbe)于1863年首先给出,后来由海尔
4、墨特(Hermert)和卡皮尔逊(KPearson)分别于1875年和1900年推导出来设,则令,则 Y 服从自由度为1的2分布,即 当总体,从中抽取容量为n的样本,则,2分布(2 distribution),分布的变量值始终为正 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 期望为:E(2)=n,方差为:D(2)=2n(n为自由度)可加性:若U和V为两个独立的2分布随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,2分布(性质和特点),c2分布(图示),t 分布,t 分布,高塞特(W.S.Gosset)于19
5、08年在一篇以“Student”(学生)为笔名的论文中首次提出 t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,t 分布图示,T分布的图形,T分布的使用,F 分布,F分布,两个都服从2 分布的变量之比的分布规律。可以设想为两个方差之比方差之比会接近1(因为前面已经假设各变量都服从标准正态分布),似乎存在一个“两端少,中间多”的特征,但不对称(除非其中存在一个无限总体,使样本数量为无穷大,则样本方差有无穷多个),由统计学家费希尔()提出的,以其姓氏的第一个字母来命名设若U为服从自由度为n1的2分布
6、,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为,F分布(F distribution),F分布,两个都服从2 分布的变量之比的分布规律。可以设想为两个方差之比方差之比会接近1(因为前面已经假设各变量都服从标准正态分布),似乎存在一个“两端少,中间多”的特征,但不对称(除非其中存在一个无限总体,使样本数量为无穷大,则样本方差有无穷多个),F分布(图示),不同自由度的F分布,F分布的图形,此处的n和m分别相当于n1、n2,F分布的使用,应用很广泛,可用来检验两状态总体方差是否相等,检验回归方差是否有代表性,在方差分析和多
7、元统计中都是重要的检验手段。,三种抽样分布的对比,2 分布可视为关于方差的分布规律。t 分布中的两个变量,一个服从正态分布,另一个服从2 分布。可视为均值与方差之比的分布规律。F分布的变量都服从2 分布,可以设想为两个方差之比的分布规律。这些“分布”都说明变量的规律,某些具有相同特征的变量具有什么样的共同规律。现实中,按图索骥,依样画葫芦。,三种抽样分布综述,为什么要使用统计方法?因为要了解事物的数量特征,几乎惟一的方法是抽样,随机抽样,抽样可以有很多结果,众结果的随机性规律是正态分布,为什么要导出三大抽样分布?因为要了解的数量特征的性质不同,比如,可能要了解样本方差的规律,若干个变量都服从正
8、态分布,每变量有不同取值,计算每组取值中各值的平方,再加起来,该总和服从2 分布,每次抽样的误差与平均误差之比服从t分布,两个样本的方差之比服从F分布,什么是分布?骰子点数服从均匀分布,身高服从正态分布。分布就是各种情况发生概率的全体组合。,6.4 样本均值的分布与中心极限定理,抽样分布,抽样分布从总体种抽出容量相同的样本,计算统计量的值,然后按统计量的值所编制的频数分布。抽样分布的作用:根据抽样分布研究统计量的性质对统计推断方法进行评价,抽样分布:样本统计量所有可能值的概率分布。,样本统计量,总体未知参数,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样
9、本统计量,样本统计量,样本统计量,样本统计量,样本统计量,分布的形状及接近总体参数的程度,STAT,知道这些“分布”有什么用?从现象上看,事物非常复杂,但其中某些内容具有某种意义上的相同性质(比如7条鱼与7天之间都有7这个数量)从逻辑上看,可以在某些限定条件下构造许多模型,即数量关系(此处都用“等于”关系),这些关系的总和都符合逻辑,现实中事物如果符合那些限定条件,则其本角度的其他特征(可视为进一步的发展结果)都会服从逻辑模型所表述的变化规律统计分布类型就是:在某些限定条件下,考察不同类型的个别数量现象在总体上具有什么样的分布特征,熟知的如正态分布。这些模型的结果告诉我们各种情况出现的可能性。
10、,抽样分布,分布的特征值:均值和标准差,样本主要统计量:平均数比率(成数)方差,STAT,统计学第四章 抽样估计,在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础,样本均值的抽样分布,样本均值的抽样分布与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n),中心极限定理(central limit theorem),从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分
11、布,学生成绩 30 40 50 60 70 80 90,按随机原则抽选出名学生,并计算平均分数。,平均数的抽样分布,二者均值相等,样本均值的平均数,总体的平均数,平均数的抽样分布,全部可能样本平均数的均值等于总体均值,即:从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。样本均值的标准差为总体标准差的。,STAT,An exampleA die is thrown infinitely many times.Let X represent the number of spots showing on any throw.一
12、个骰子被投掷了无数次,用X表示每一次出现的点数.The probability distribution of X is,E(X)=1(1/6)+2(1/6)+3(1/6)+=3.5V(X)=(1-3.5)2+(2-3.5)2+.=2.92,Suppose we want to estimate m from the mean of a sample of size n=2.What is the distribution that can follow样本平均的分布是什么样?,1 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0,6/365/364/363/36
13、2/361/36,E()=1.0(1/36)+1.5(2/36)+.=3.5V(X)=(1.0-3.5)2(1/36)+(1.5-3.5)2(2/36).=1.46,1,1,1,6,6,6,Notice that is smaller than sx.The larger the samplesize the smaller.Therefore,tends to fall closer to m,as the sample size increases.,Simulation of dice tossing,n=2,n=5,n=10,Mean=3.494Stand.Dev.=0.544,Mea
14、n=3.486Stand.Dev.=1.215,Mean=3.495Stand.Dev.=0.749,The variance of the sample mean is smaller than the variance of the population.样本平均数方差小于总体方差,1,2,3,Also,Expected value of the population=(1+2+3)/3=2,Mean=1.5,Mean=2.5,Mean=2.,Population,1.5,1.5,1.5,1.5,1.5,1.5,1.5,1.5,1.5,1.5,1.5,1.5,1.5,2.5,2.5,2.5
15、,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2.5,2,2,2,2,2,2,2,2,2,2,2,Expected value of the sample mean=(1.5+2+2.5)/3=2,Compare the variability of the populationto the variability of the sample mean.,Let us take samplesof two observations,The Sampling Distribution of the Sample Mean样本平均数分布,抽样推断的理论基础,大数定律大数
16、定律是阐明大量随机现象平均结果的稳定性的一系列定理的总称。其一般意义是:在随机试验过程中,每次试验的结果不同,但大量重复试验后,所出现结果的平均值总是接近某一确定的值。中心极限定理 第一,如果总体很大,而且服从正态分布,样本平均数(或成数)的分布也同样服从正态分布。第二,如果总体很大,但不服从正态分布,只要样本容量足够大(n30),样本平均数(或成数)的分布趋近于正态分布。第三,样本平均数(或成数)的平均数,等于总体平均数(或成数)。,STAT,统计学第四章 抽样估计,学生成绩 30 40 50 60 70 80 90,离差-30-20-10 0 10 20 30,中心极限定理(central
17、 limit theorem),x 的分布趋于正态分布的过程,6.5 样本比例的抽样分布,总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为,比例(proportion),在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似 推断总体比例的理论基础,样本比例的抽样分布,样本比例的数学期望样本比例的方差重复抽样不重复抽样,样本比例的抽样分布(数学期望与方差),6.6 两个样本均值之差的抽样分布,比率的抽样分布,教师是否博士 是 是 否 否 否 是,具有博士学位的比率:0.5比率的标准差:0.5,从总体中按不重复抽样方法随机抽取人,计算其比率和标准,STAT,统计学第四章 抽样估计,STAT,统计学第四章 抽样估计,比率的抽样分布,全部可能样本比率的均值等于总体比率,即:当n足够大时样本比率分布接近正态分布。样本比率的标准差为总体标准差的,比率的抽样分布,STAT,统计学第四章 抽样估计,统计量及其分布由正态分布导出的几个重要分布样本均值的分布与中心极限定理样本比例的抽样分布两个样本平均值之差的分布关于样本方差的分布,本章小结,结 束,THANKS,
链接地址:https://www.31ppt.com/p-5871137.html