《第7章抽样与抽样分布.ppt》由会员分享,可在线阅读,更多相关《第7章抽样与抽样分布.ppt(82页珍藏版)》请在三一办公上搜索。
1、2023/11/18,1,第7章 抽样与抽样分布,PowerPoint,2023/11/18,2,第7章 抽样与抽样分布,一、抽样概述二、抽样分布三、Excel在抽样与抽样分布中的应用,2023/11/18,3,本章学习目标,1.理解随机抽样、非随机抽样两类不同抽样方法的本质区别2.了解重复抽样、不重复抽样下的样本可能数目3.区别简单随机抽样、类型抽样、等距抽样、整群抽样、多阶段抽样等不同的随机抽样组织形式4.了解总体分布、样本分布、抽样分布的关系,明确二项分布、正态分布、t分布、2分布等重要分布的特征5.理解抽样分布的理论基础6.重点掌握样本均值、样本比例在不同条件下的抽样分布,2023/1
2、1/18,4,一、抽样概述,(一)抽样的方法(二)随机抽样的组织形式(三)抽样方案的设计,2023/11/18,5,(一)抽样的方法,随机抽样,方便抽样,判断抽样,自愿样本,滚雪球抽样,定额抽样,非随机抽样,常用的抽样方法,2023/11/18,6,根据随机原则从总体中直接抽选部分单位构成样本的方法。也称概率抽样特点按随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的 某一总体单位能否被抽中,与其它单位是否被抽中没有关联。,随机抽样,2023/11/18,7,重复抽样,从总体N个单位中随机抽取一个样本容量为n的样本,每次从总体中抽取一个,并
3、把结果登记下来,又放回总体中重新参加下一次的抽选。又称放回抽样,不重复抽样,每次从总体中抽选一个单位后就不再将其放回参加下一次的抽选。又称不放回抽样.,总体单位数N不变,同一单位可能多次被抽中。,总体单位数减少n,同一单位只可能被抽中一次。,随机抽选样本的方式,2023/11/18,8,考虑顺序的重复抽样,可能的样本数目,不考虑顺序的重复抽样,不考虑顺序的不重复抽样,考虑顺序的不重复抽样,考虑各单位的中选顺序ABBA,不考虑各单位的中选顺序。ABBA,2023/11/18,9,【例1】某一总体含有A、B、C、D、E共5个总体单位,从中随机抽取2个单位构成样本,可能的样本数目有多少?,采用考虑顺
4、序的重复抽样,样本可能数目为55=25个,采用不考虑顺序的重复抽样,样本可能数目为(52+5)/2=15个,采用不考虑顺序的不重复抽样,样本可能数目为 5!/(2!(5-2)!=10个,采用考虑顺序的不重复抽样,样本可能数目为54=20个,2023/11/18,10,相对于概率抽样而言抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查有方便抽样、判断抽样、自愿样本、定额抽样等方式,非随机抽样,2023/11/18,11,方便抽样,调查过程中由调查员依据方便的原则,自行确定入抽样本的单位调查员在街头、公园、商店等公共场所进行拦截调查厂家在出售产
5、品柜台前对路过顾客进行的调查优点:容易实施,调查的成本低缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体,2023/11/18,12,判断抽样,研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本有重点抽样,典型抽样,代表抽样等方式判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性抽样成本比较低,容易操作样本是人为确定的,没有依据随机的原则,调查结果不能用于对推断总体,2023/11/18,13,自愿样本,被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目
6、拨打热线电话等,都属于自愿样本自愿样本与抽样的随机性无关样本是有偏的不能依据样本的信息推断总体,2023/11/18,14,定额抽样,先将体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似抽取具体样本单位时,不是依据随机原则,属于非概率抽样,2023/11/18,15,随机抽样与非随机抽样的比较,随机抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体非随机抽样不是依据随机原则抽选样本样本统计量的分布是不确定的使用样本结果推断总体的
7、效果要差一些,2023/11/18,16,仅适用于规模不大、分布比较均匀的总体,(二)随机抽样的组织方式,每个容量为n的样本都有同等机会(概率)被抽中,简单、直观,是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式,一般有抽签、抓阄、随机数码表、抽样函数等,2023/11/18,17,63271 59986 71744 51102 15141 80714 58683 93108 13554 7994588547 09896 95436 79115 08303 01041 20030 63754 08459 28364 55957 57243 83865 09911 1976
8、1 66355 40102 26646 60147 1570246276 87453 44790 67122 45573 84358 21625 16999 13385 2278255363 07449 34835 15290 76616 67191 12777 21861 68689 0326369393 92785 49902 58447 42048 30378 87618 26933 40640 1628113186 29431 88190 04588 38733 81290 89541 70290 40113 0824317726 28652 56836 78351 47327 185
9、18 92222 55201 27340 1049336520 64465 05550 30157 82242 29520 69753 72602 23756 5493581628 36100 39254 56835 37636 02421 98063 89641 64953 99337 在随机数码表中,可以从任何一个位置、任何方向开始挑选随机数字。一旦选择一个任意起点,就采用事先确定的程序抽取样本。,随机数字表(摘录),2023/11/18,18,2 类型抽样(分类抽样或分层抽样),将总体全部单位分类,形成若干个类型组,然后从各类型中分别随机抽取若干单位组成样本的抽样形式。,总体N,样本n,
10、等比例抽取,不等比例抽取,能使样本结构更接近于总体结构,提高样本的代表性,适宜于单位标志值差异程度较大的总体,能同时推断总体指标和各组的指标,2023/11/18,19,随机起点,半距起点,对称起点,(总体单位按某一标志排序),按无关标志排队,其抽样效果相当于简单随机抽样;按有关标志排队,其抽样效果相当于类型抽样。,2023/11/18,20,例:总体群数R=16 样本群数r=4,样本容量,简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差,产生的抽样误差较大。,2023/11/18,21,例:在某省有100多万农户,需要抽取1000户调查农户生产性投资情况。,既可以相对节约人力
11、和物力,又可以利用现成的行政区划、组织系统作为划分各阶段的依据,但抽样误差的计算要复杂得多。,2023/11/18,22,调查对象的性质特点对调查对象的了解程度(抽样框的特点)抽样误差的大小人力、财力和物力等条件的限制,在实际工作中,选择适当的抽样组织方式主要应考虑:,如何确定抽样组织方式,2023/11/18,23,明确调查目 的,明确总体及抽样单位,确定或构建抽样框,提出指标精度要求,选择抽样组织形式,(三)抽样方案的设计,确定样本容量,制定具体办法步骤,1.抽样方案的设计内容,2023/11/18,24,2.抽样方案设计的基本原则,(1)保证实现抽样随机性的原则(2)保证实现最大的抽样效
12、果原则,3.抽样方案设计中的重要问题,(1)保证随机原则的实现(2)要考虑样本容量和结构问题(3)关于抽样的组织形式问题(4)关于调查费用的问题,2023/11/18,25,(一)关于分布的几个概念(二)抽样分布的理论基础(三)样本均值的抽样分布(四)样本比例的抽样分布,二、抽样分布,2023/11/18,26,总体变量x的概率分布,它由变量x的所有取值和与之相应的概率组成。反映总体分布特征的常用指标有总体均值和总体标准差总体分布通常是未知的,(一)关于分布的几个概念,总体分布,N=F,P=F/F,2023/11/18,27,样本中各观察值的概率分布,它由一个样本的所有观察值x和与之相应的概率
13、p组成。样本分布的特征值主要有样本均值 与样本标准差s 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布,2023/11/18,28,样本统计量(样本均值,样本比例,样本方差等)的概率分布,由各样本统计量的值和与之相应的概率组成。样本统计量是随机变量,其结果来自容量相同的所有可能样本是一种理论概率分布。提供了样本统计量稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布,2023/11/18,29,抽样分布的形成过程,计算样本统计量如:样本均值,2023/11/18,30,【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为X1=1、X2
14、=2、X3=3、X4=4。总体的均值、方差及分布如下:,总体分布,1,4,2,3,0,0.1,0.2,0.3,均值和方差,2023/11/18,31,现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,2023/11/18,32,计算出各样本的均值,如下表。并给出样本均值的抽样分布,X,样本均值的抽样分布,1.0,0.1,0.2,0.3,P(X),1.5,3.0,4.0,3.5,2.0,2.5,0,2023/11/18,33,比较及结论:1.样本均值的均值(数学期望)等于总体均值 2.样本均值的方差等于总体方差的1/n,2023/11/18,34,=2.
15、5 2=1.25,总体分布,1,4,2,3,0,0.1,0.2,0.3,抽样分布,P(X),1.0,0,0.1,0.2,0.3,1.5,3.0,4.0,3.5,2.0,2.5,X,P(X),2023/11/18,35,进行 n 次重复试验,出现“成功”的次数X的概率分布称为二项分布,记为:设X为 n 次重复试验中事件A出现的次数,X 取 x 的概率为P,二项分布,重复试验的条件:一次试验只有两个可能结果;试验可以重复进行;每一次试验成功的概率都是p。,2023/11/18,36,二项分布的数学期望为 E(X)np方差为 D(X)npq,二项分布的数学期望和方差:,2023/11/18,37,1
16、.描述连续型随机变量的最重要的分布2.经典统计推断的基础3.若随机变量的概率密度函数为:,正态分布,则称X服从均值为、方差为2的正态分布,记为,2023/11/18,38,概率密度函数在x 的上方,即f(x)0正态曲线的最高点在均值,它也是分布的中位数和众数,即对称分布正态分布是一个分布族,每一特定正态分布通过均值和标准差来区分。决定了图形的中心位置,决定曲线的平缓程度,即宽度曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交随机变量的概率由曲线下的面积给出正态曲线下的总面积等于1,正态分布的特点,2023/11/18,39,和 对正态曲线的影响,2023/11/1
17、8,40,正态分布的概率,概率是曲线下的面积!,2023/11/18,41,正态分布函数,随机变量的概率也可以用分布函数F(x)来表示分布函数定义为,根据分布函数,P(aXb)可以写为,2023/11/18,42,标准正态分布,一般的正态分布取决于均值和标准差 计算概率时,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表,2023/11/18,43,标准正态分布函数,标准正态分布的概率密度函数,任何一个一般的正态分布,均可通过下面的线性变换转化为标准正态分布,标准正态分布的分布函数,2023/11/18,44,标准正
18、态分布表的使用,将一个一般的正态分布转换为标准正态分布计算概率时,只要查标准正态概率分布表即可对于负的x,可由(-x)x得到对于标准正态分布,即XN(0,1),有P(a X b)b aP(|X|a)2 a 1对于一般正态分布,即XN(,),则有,2023/11/18,45,=1,Z,标准正态分布,0,0.12,2023/11/18,46,【例3】设XN(0,1)分布,求以下概率:(1)P(X 2);(3)P(-12)=1-P(X 2)=1-0.9973=0.0227(3)P(-1X 3)=P(X 3)-P(X-1)=(3)-(-1)=(3)1-(1)=0.9987-(1-0.8413)=0.8
19、4(4)P(|X|2)=P(-2 X 2)=(2)-(-2)=(2)-1-(2)=2(2)-1=0.9545,2023/11/18,47,【例4】设XN(5,32),求以下概率(1)P(X 10);(2)P(2X 10)解:(1),(2),2023/11/18,48,对于来自正态总体的简单随机样本,其比值 的抽样分布服从自由度为(n-1)2分布,即,n个相互独立的标准正态随机变量z的平方和的分布称为具有n个自由度的2分布,记为2(n)。,2分布,2023/11/18,49,2分布的图示,2023/11/18,50,密度曲线位于第一象限。分布的形状取决于其自由度n的大小,通常为不对称的右偏分布,
20、但随着自由度的增大逐渐趋于对称 数学期望为:E(2)=n,方差为:D(2)=2n(n为自由度)可加性:若U和V为两个独立的2分布随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,2分布的特点,2023/11/18,51,设XN(0,1),Y 2(n),并且X、Y独立,则称随机变量 服从自由度为n的t分布,记为,t分布,x,t 分布与标准正态分布的比较,t 分布,标准正态分布,t分布是类似正态分布的一种对称分布,通常比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,2023/11/18,52,独立同分布
21、大数定律:设x1,x2,是独立同分布的随机变量序列,且存在有限的数学期望E(xi)和方差D(xi)2(i=1,2,),则对任意小的正数,有:,该定律表明:当n足够大时,独立同分布的一系列随机变量的均值接近数学期望,即平均数具有稳定性。,(二)抽样分布的理论基础,大数定律,阐述大量同类随机现象的平均结果稳定性的一系列定理的总称。,2023/11/18,53,贝努里大数定律:设m是n次独立重复试验中事件A发生的次数,是每次试验中事件A发生的概率,则对任意的 0,有:,该定律表明:当重复试验次数n充分大时,事件A发生的频率m/n依概率收敛于事件A发生的概率,即频率具有稳定性。,大数定律的实践意义:一
22、是抽样必须遵循随机原则;二是抽样必须遵循大量原则。,2023/11/18,54,阐述大量随机变量之和的极限分布是正态分布的一系列定理的总称。,中心极限定理,独立同分布中心极限定理(也称为列维-林德伯格定理):设x1,x2,x3是独立同分布的随机变量序列,且存在有限的数学期望和方差,那么当n时:,该定理表明:不论总体服从什么分布,只要其数学期望和方差存在,对这一总体进行重复抽样,当样本容量充分大时,或 就趋近于正态分布。,中心极限定理,2023/11/18,55,设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,20
23、23/11/18,56,2023/11/18,57,中心极限定理的意义在于:当我们的认识对象分布未知时,只要坚持随机抽取足够多的样本单位,就可以使样本统计量服从或近似服从正态分布,继而便可运用正态分布理论,根据样本信息来推断认识对象总体的数量特征。,2023/11/18,58,在随机选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础,(三)样本均值的抽样分布,2023/11/18,59,样本均值的数学期望样本均值的方差重复抽样不重复抽样,样本均值的抽样分布特征,2023/11/18,60,3.样本均值的标准误差,所有可能的样本均值的标准差,测
24、度所有样本均值的离散程度计算公式为,2023/11/18,61,2已知时,样本均值的抽样分布,总体是否正态分布,否,是,大,小,样本容量n,正态分布,正态分布,非正态分布,2023/11/18,62,表明:当总体服从正态分布时,不论样本容量多大,样本均值都服从正态分布,且样本均值的数学期望等于总体均值,样本均值的方差等于总体方差的1/n 当总体分布为非正态总体或分布形式未知时,样本容量充分大时(一般要求n30),样本均值的抽样分布可以近似地用正态分布 来描述。总体为非正态总体或分布形式未知,如果样本容量太小,我们无法从理论上探讨样本均值的抽样分布,2023/11/18,63,【例】设从一个均值
25、=10,标准差=0.6的总体中,随机抽取容量n=36的样本。要求:,2023/11/18,64,解:根据中心极限定理,不论总体分布是什么形状,只要样本足够大(n30时),样本均值,2023/11/18,65,2023/11/18,66,【例】某厂生产的某种节能灯管的使用寿命服从正态分布,对某批产品测试的结果,平均使用寿命为1050小时,标准差为200小时。试求:(a)使用寿命在500小时以下的灯管占多大比例?(b)使用寿命在8501450小时的灯管占多大比例?(c)以均值为中心,95的灯管的使用寿命在什么范围内?,2023/11/18,67,解:设 X使用寿命,则XN(1050,2002),(
26、2)(-1)0.977250.158650.8186,95的灯管寿命在均值392左右(即6581442)小时,1(2.75)10.997020.00298,2023/11/18,68,2未知时,样本均值的抽样分布,总体是否正态分布,否,是,大,小,样本容量n,t分布,t分布,非正态分布,2023/11/18,69,表明:当总体方差未知时,对于正态总体(无论样本容量的大小),或者总体非正态或分布形式未知但样本容量充分大时,样本均值的标准化值服从 分布,值得注意的是,当样本容量逐渐增大时,t分布逐渐逼近标准正态分布。所以,当样本容量很大时,除了可以利用 进行相关计算外,也可以利用 近似服从标准正态
27、分布来计算,2023/11/18,70,【例】已知湖南省2009年的全省粮食总平均亩产为600公斤,其分布形式及方差均未知。现从全省随机抽取4900亩进行调查了解,测得该样本的标准差为400公斤,求这4900亩的平均亩产不低于620公斤的概率。,分析:,解:粮食单产x的分布形式及方差均未知,故以样本方差代替总体方差,从理论上讲,,2023/11/18,71,一般情况下,根据t值与自由度在t分布表中可以查找相应的概率。由于这里的t分布的自由度很大,为4900-1=4899,这时的t分布与标准正态分布几乎一样,故可以查标准正态分布表,得,结果表明:这4900亩的平均亩产不低于620公斤的概率只有0
28、.0233%。,2023/11/18,72,(四)样本比例的抽样分布,1.是非标志均值与比例的关系,对于是非标志总体X而言,X的取值只有两个:0和1。设总体的单位数为N,具有某一特征(如产品合格)的比例为,则:,2023/11/18,73,对于是非标志的样本来说,其取值也是两个:0和1。设样本容量为n,具有某一特征(如产品合格)的比例为p,则:,结论:是非标志的均值等于其比例。,2023/11/18,74,样本比例的数学期望样本比例的方差重复抽样不重复抽样,样本比例的抽样分布特征,样本比例的抽样分布是容量相同的所有可能样本的样本比例的概率分布。其分布特征如下:,2023/11/18,75,容量
29、相同的所有可能样本的样本比例的概率分布是非标志的总体方差已知,且 样本比例的抽样分布可用正态分布近似,一种理论概率分布推断总体比例的理论基础,2.样本比例的抽样分布正态分布,2023/11/18,76,【例】假设有一批种子的发芽率为0.7。现有这种种子100颗,试求:(1)其中有72颗以上发芽的概率。(2)发芽率在0.60.8之间的概率;,解:(1)设X发芽种子颗数,因B(100,0.7),则p N(0.7,0.21/100),X近似地服从N(70,21)。P(X 72)P(Z 0.44)1P(Z0.44)10.670.33,2023/11/18,77,2023/11/18,78,3.样本比例
30、的抽样分布t分布,容量相同的所有可能样本的样本比例的概率分布是非标志的总体方差未知,且 样本比例p服从t分布,也是推断总体比例的理论基础,2023/11/18,79,三、Excel在抽样与抽样分布中的应用,(一)EXCEL在抽样中的应用(二)EXCEL在抽样分布中的应用,2023/11/18,80,(一)EXCEL在抽样中的应用,1.利用函数抽取样本单位,利用函数RAND()进行不重复随机抽样利用函数RANDBETWEEN(bottom,top)进行重复随机抽样,2.利用数据分析工具中的“抽样”选项抽取样本单位,第一步:单击工具菜单,选择数据分析选项打开数 据分析对话框,从中选择抽样。第二步:
31、单击抽样选项,弹出抽样对话框。第三步:在输入区域框中输入总体单位编号或数字 所在的单元格区域,并单击确定。,2023/11/18,81,(二)EXCEL在抽样分布中的应用,【案例】估计样本优等品率的概率范围 某公司宣称其某批产品的优等品率为80%,现从中抽取80件组成简单随机样本,问样本优等品率达到90%以上的概率约为多少?,第一步,在A1中输入“样本优等品率p”,在B1中输入“0.9”第二步,在A2中输入“总体优等品率”,在B2中输入“0.8”。第三步,在A3中输入“p的标准差p”,在B3中输入“=SQRT(B2*(1-B2)/80)”,回车。第四步,在A4中输入“z值”,在B4中输入“=(B1-B2)/B3”,回车。第五步,在A5中输入“(z)”,在B5中输入“=NORMSDIST(B4)”,回车。第六步,在A6中输入“1-(z)”,在B6中输入“=1-B5”,回车。,2023/11/18,82,本章小结,了解抽样的方法及可能样本数目、随机抽样的组织形式、抽样方案的设计理解抽样分布、正态分布、t分布的意义了解抽样分布的形成过程理解抽样分布的大数定律与中心极限定理掌握样本均值与样本比例的抽样分布熟悉Excel在抽样与抽样分布中的应用,
链接地址:https://www.31ppt.com/p-6618880.html