抽样与抽样分布(课堂用).ppt
你可以从很少中了解很多,统计方法,描述统计,推断统计,抽样推断,假设检验,抽样推断过程,总体,样本,样本统计量,估计、检验,抽样推断的含义,抽样推断是按随机原则从全部研究对象中抽取部分单位进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断。抽样推断的特点:它是由部分推断整体的一种认识方法抽样推断建立在随机取样的基础上抽样推断运用概率估计的方法。抽样推断的误差可以事先计算并加以控制,第七章 抽样与抽样分布,学习目标 Learning Objectives理解抽样的各种方式方法了解总体分布、样本分布、抽样分布及其关系掌握样本均值、样本比例的抽样分布,讨论内容,抽样方法,抽样方案的设计,抽样技术的比较,抽样理由,随机抽样组织形式,随机 抽样,非随机抽样,重复抽样,不重复抽样,纯随机抽样,类型抽样,机械抽样,整群抽样,关于分布的几个概念回顾,方便抽样,判断抽样,定额抽样,滚雪球抽样,多阶段抽样,抽样分布的理论基础,样本均值与比例的抽样分布,抽样概述,抽样分布,Excel在抽样与抽样分布中的应用,为什么选择样本,1.破坏受试对象质量控制与检验2.违反自然规律3.精确可靠的结果4.实际的理由时间成本,没有必要,不可能,抽样组织方式p188,抽样方式,概率抽样,非概率抽样,简单随机抽样,等距抽样,类型抽样,整群抽样,多阶段抽样,任意抽样,判断抽样,配额抽样,滚雪球抽样,简单随机抽样(纯随机抽样),1.总体中的每个单位被选中的机会均等。最符合随机原则。2.方法:直接抽取法、抽签(最简单)法、随机数表等(利用Excel抽取)3.适用条件:总体各单位标志表现差异不大,因素抽到的单位比较分散时也不影响调查及推断工作 抽样误差的计算样本单位数的确定估计,下一章讨论,p189,类型抽样p189,1.把总体按分组原理分为若干组互斥性完备性至少有某种共同特点2.在组中随机选取样本3.方法等比例分配,即样本单位在各类之间的分配与总体单位在各类之间的分配比例相同。此法简便易行,一般情况下分配比较合理,计算也较方便,用得较多。,类型抽样,不等比例分配,在各类型组标志变异程度差异大或各类型组分布的总体单位数相差悬殊等情况下使用。,4.优点:可提高样本的代表性;降低抽样误差。5.抽样误差的计算6.样本单位数目的确定7.估计,以后讨论,等距抽样p190,从中抽10%的人,从中随机抽取一人,总体各单位排队,样本,等距抽样,1.总体各单位按一定的顺序排列,然后每隔一定的间隔抽取一个单位。2.在前个单位中随机选定初始值,之后每向后数个选定一个单位3.跳过区间的长度等于 总体单位总量 样本容量4.方法:无关标志排队法;有关标志排队法。5.优点:能提高样本的代表性,减少抽样误差。故许多抽样调查工作中喜欢使用。,等距抽样,6.抽样误差的计算无关标志排队法同简单随机抽样有关标志排队法同类型抽样7.样本单位数目的确定无关标志排队法同简单随机抽样有关标志排队法同类型抽样8.估计,整群抽样p191,1.将总体分为若干群比如可以将每个寝室的所有学生作为一群(组)2.随机或等距选群3.对选定的群进行全面调查4.特点可节省人力物力财力;若群内差异大群间差异小,则代表性提高抽样误差减少,反之,如果群内差异小群间差异大,则代表性降低抽样误差增大。,5.抽样误差的计算6.样本群数目的确定7.估计,以后讨论,抽样技术优劣比较,抽样技术优劣比较,抽样方案设计,设计的内容,明确调查目的,明确调查对象及调查单位,确定或构建抽样框,提出指标精度要求,选择抽样组织形式,确定样本容量,制定具体操作步骤,抽样方案设计,设计的原则保证实现抽样的随机性原则保证实现最大的抽样效果原则抽样方案的检查准确性检查代表性检查抽样框的编制抽样框:简言之是供抽样调查使用的所有调查单位的名单。常见形式:名单抽样框(以名单一览表形式列出总体的所有单位);地区域抽样框(按地理区域划分并排列出的总体的所有单位);时间表抽样框(按时间顺序排列总体单位)。其他应注意问题P192,概率分布回顾1P195,二项分布P195概率公式在n重贝努利试验中,事件A发生k次的概率恰好等于(q+p)n二项展开式中的第k+1项,因此也将 称作二项概率公式应用条件各观察单位只具有互相对立两种结果中的一种已知发生某一结果的概率为p,其对立结果的概率则为1-P=q,实际中要求p 是从大量观察中获得的比较稳定的数值n个观察单位的观察结果互相独立,即每个观察单位的观察结果不影响其它观察单位的结果数学期望和方差数学期望:E(X)np方差:D(X)npq,概率分布回顾2P195,正态分布,=50,标准差很小,标准差稍大,标准差很大,平均数相同标准差不同的正态分布,正态分布回顾1,平均数不同标准差相同的正态分布,平均数和标准差都不同的正态分布,正态分布回顾2,正态曲线下的面积不管正态分布的值和值是怎样的,在正态曲线下的全部面积代表这个分布的总体。如果以全部面积为1,以曲线下任何一部分面积做为概率,那么:正态总体中大约68.27%的数值在平均数加减一个标准差的范围内;正态总体中大约95.45%的数值在平均数加减两个标准差的范围内;正态总体中大约99.73%的数值在平均数加减三个标准差的范围内。,全面积的68.27%,1,1,正态分布回顾3,标准正态概率分布表的应用教材后附表 1 中的数字表示,平均数与正态分布的任何随机变量之间,位于曲线下的面积占部面积的比例。表中z值由下式计算:,式中:x为所研究的随机变量的值;为随机变量分布的平均数;为这个分布的标准差;z为从x值到该分布平均数的距离,相当于标准差的倍数。,正态分布回顾4,标准正态分布表使用方法举例。假定为了提高中等水平管理人员的管理技能,制定了一个培训大纲,由于大纲是由每个人自行掌握的,所以每个管理人员完成大纲所需要的时间不同。通过对过去学员情况的研究知道,完成这个大纲花费的平均时间是500小时,这个随机变量的标准差是100小时。问题:随便找出一名学员,他完成大纲需要的时间a)不超过500小时的概率是多少?b)少于580小时的概率是多少?c)在500-650小时内的概率是多少?550-650呢?420-570呢?d)超过700小时的概率是多少?,500,从上例可以理解P196倒数第4-3行的重要公式,与正态分布相关的另外几种分布1,2分布P196特点P197应用:可用于方差估计与检验,以及非参数统计中拟合优度检验和独立性检验等。t分布P197特点:曲线类似于标准正态分布,但中心部分较低,尾部较高,随着自由度不断增大,t分布越来越趋近标准正态分布并以其为极限t分布t(n)的数学期望和方差分别为:=0和2=n/(n-2)(n2)应用:可用于总体方差未知时正态总体均值的估计与检验,以及线性回归模型中回归系数的显著性检验等。,与正态分布相关的另外几种分布2,F分布设随机变量X2(n),Y2(m)且X与Y相互独立,则随机变量F=(X/n)/(Y/m)的分布称为自由度为(n,m)的F分布,并记为FF(n,m)。特点:曲线图形见(P290),一般为右(正)偏分布数学期望和方差分别为:,应用:可用于两个正态总体方差的比较检验、方差分析和线性回归模型的检验等方面。,注:通常的F分布表只给出右尾向左累加的概率。是个较小的正数,给定,可查得临界值 F(n,m)。而F1-(n,m)不能直接查出,由F分布的重要性质,即 F1-(n,m)为F(n,m)的倒数求得。,关于分布的几个概念,总体分布、样本分布和抽样分布,假定总体是某厂一年内所生产的全部产品,该分布是全部产品从启用到报废的运转时数的分布。这个分布的平均数以表示,标准差以表示,总体分布,假定从这个总体分布中抽取全部可能的容量为10的样本,那么它们可以用下面的图形来表示。这里以三个为代表。每个样本分布都是离散型的,各自的平均数是,各自的标准差是si,假定计算出每一个样本分布的平均数,而且画出这些平均数的分布那么其分布形状一定与下图一样。,样本分布,平均数的抽样分布,这个分布是全部样本平均数的分布。平均数抽样分布的平均数为,平均数抽样分布的标准差为,例P194,抽样分布1,抽样分布:即全部可能样本统计量的概率分布。同其他任何分布的描述方法一样,使用平均数和标准差来描述抽样分布。如果把全部可能抽取到的样本平均数描绘成一个分布图,这分布就叫平均数的抽样分布,这个抽样分布一定有它本身的平均数,同样它也拥有本身的标准差x。从正态总体中抽样假定一个正态总体的平均数是100,标准差是25,从中抽取由5个单位构成的样本,其抽样分布与总体分布的关系如何?如果样本容量增加到20呢?,=100,总体各单位的分布=25,正态总体的总体分布与平均数抽样分布的关系,抽样分布2,从上两图可以概括出抽样分布的基本性质:从正态总体中抽样,抽样分布也是正态分布;从正态总体中抽样,抽样分布的平均数等于总体平均数;从正态总体中抽样,抽样分布的标准差比总体标准差要小,且随着样本容量的增加而愈来愈小。统计学家已经证明它们的关系为:,正态总体的总体分布与增加容量的样本平均数抽样分布的关系,抽样分布的理论基础,大数定律:用来阐明大量随机现象平均结果的稳定性的一系列定理。独立同分布大数定律(切比谢夫大数定理)P198贝努利(里)大数定理P198中心极限定理P199 要点如果总体服从正态分布,则样本均值同样服从正态分布如果总体不服从正态分布,则只要样本容量足够大,样本均值同样趋近于正态分布样本均值的数学期望等于总体均值样本均值的方差为总体方差的n分之一(重复抽样时,n为样本容量)即:,不重复抽样时,则为:,样本均值的抽样分布,总体方差2已知时,样本均值的抽样分布P200,总体服从正态分布,不论样本容量大小,总体分布形式未知,而样本容量充分大,抽样分布服从(趋于)正态分布,依据中心极限定理对样本均值进行统计推断,总体方差2未知时,样本均值的抽样分布P201,总体服从正态分布,不论样本容量大小,总体分布形式未知,而样本容量充分大,可利用t分布对样本均值进行统计推断;当自由度很大时,则可利用标准正态分布,样本比例的抽样分布,是非标志平均数及其方差P203是非标志当总体各单位某标志的具体表现本身仅有两种形态或仅划分为两种形态时,这类标志就称为是非标志。比例(成数)具有某种表现的总体单位数占总体单位总数的比重。,是非标志的平均数,是非标志的方差,样本比例的抽样分布,样本比例的抽样分布(二项分布)P204方差已知正态分布可作为其近似值,因为当n很大时,二项分布非常接近正态概率分布。一般来说,n不小于30,n和n(1-)都不小于5时,就把正态分布作为二项分布的合理近似值。方差未知用t分布举例P204-5,