抽样调查与参数估计.ppt
《抽样调查与参数估计.ppt》由会员分享,可在线阅读,更多相关《抽样调查与参数估计.ppt(139页珍藏版)》请在三一办公上搜索。
1、4-1,第四章 抽样调查与参数估计(6课时),第一节 有关基本概念 第二节 概率抽样方法第三节 总体参数估计第四节 调查问卷的设计,4-2,抽样与参数估计,有关基本概念,概率抽样方法,调查问卷设计,总体参数估计,总体与样本,总体参数与样本统计量,样本容量与样本个数,重复抽样与不重复抽样,抽样框与抽样单位,概率抽样和非概率抽样,多相抽样,分层抽样,简单随机抽样,总体方差的参数估计,总体比率的参数估计,总体均值的参数估计,问卷的措辞,调查问卷的作用和结构,抽样误差和非抽样误差,整群抽样,系统抽样,多阶段抽样,样本容量的参数确定,调查问卷的类型,询问方法,问题的顺序,4-3,抽样涉及的基本概念有:总
2、体与样本(见第一章)样本容量与样本个数总体参数与样本统计量重复抽样与不重复抽样抽样框与抽样单位概率抽样和非概率抽样抽样的组织方式抽样误差好非抽样误差这些概念是统计学特有的,体现了统计学的基本思想与方法。,第一节 有关基本概念,4-4,一、总体和样本:总体是指研究对象的全体,它是由研究对象中的单元组成的。总体中包含单元的数目称作总体容量(或大小);样本是指抽样时按照抽样的规则所抽中的那部分单元所组成的集合。,总体,样本,抽取样本,推断总体,4-5,1.总体:又称全及总体、母体,指所要研究对象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用 N 表示。2.样本:又称子样,来自总体,
3、是从总体中按随机原则抽选出来的部分,由抽选的单位构成。样本单位数用 n 表示。3.总体是唯一的、确定的,而样本是不确定的、可变的、随机的。,4-6,二、样本容量与样本个数,样本容量:一个样本中所包含的单位数,用n表示。必要样本量是能够满足估计精度要求的最少样本量。样本个数:又称样本可能数目,指从一个总体中所可能抽取的样本的个数。用A表示。对于有限总体,样本个数可以计算出来。样本个数的多少与抽样方法有关。(这个概念只是对有限总体有意义,对无限总体没有意义!)当N和n一定时,A的多少与抽样方法有关,其计算方法列表如下:,4-7,三、总体参数和样本统计量,总体参数:反映总体数量特征的指标。其数值是唯
4、一的、确定的。样本统计量:根据样本分布计算的指标。是随机变量。,四、重复抽样和不重复抽样,1、重复抽样又称放回抽样或重置抽样,它是指抽中一个单位并登记有关信息后重新放回到总体中继续参加下一次的抽选,这样逐次反复,直到抽够足够的单位为止。在重复抽样的条件下,每个单位中选的机会在各次抽样中都完全相等。2、不重复抽样又称不放回抽样或不重置抽样,它是指抽中一个单位并登记有关信息后不再放回到总体中,而是继续从总体中余下的单位抽选样本单位,直到抽够足够的单位为止。在不重复抽样的条件下,每个单位中选的机会在各次抽样中是不相等的,每个单位只能被抽中一次。,4-8,4-9,五、抽样框和样本单位抽样框是在抽样前,
5、为便于抽样工作的组织,在可能条件下编制的用来进行抽样的、记录或表明总体所有抽样单元的框架,在抽样框中,每个抽样单元都被编上号码。抽样框可以是一份清单(名单抽样框)、一张地图(区域抽样框)。编制抽样框是一个实际的、重要的问题,因此必须要认真对待。常见的抽样框问题可以概括为四种基本类型:(1)缺失一些元素,即抽样框涵盖不完全;(2)多个元素对应一个号码;(3)空白或存在异类元素;(4)重复号码,即一个元素对应多个号码。对抽样框存在的缺陷要认真对待,有效处理。,从抽样框中直接抽取的单位称为抽样单位。但它不一定是构成抽样框的最小单位。根据不同的抽样设计,抽样单位有较大的变动余地。例如在电视收视率的抽样
6、调查中,抽样单位可以是拥有电视机的家庭,也可以是每个电视观众。可以将较小的抽样单位的集合视为较大的抽样单位。在复杂抽样时,例如在多阶段抽样中,先抽取较大的抽样单位(称为初级单位),再从选出的初级单位中抽取次级单位(或二级单位),往下还可以分为更小的三级单位、四级单位,等等。可以把抽样框中所包含抽样单位信息的丰富程度作为评价抽样框质量的一个标准。在好的抽样框中,抽样单位的信息比较丰富,这就为采用复杂的抽样设计(如分层抽样)和不同的估计方法(如比率估计)提供了条件。,4-10,4-11,六、概率抽样和非概率抽样,4-12,(一)非概率抽样,1.非概率抽样及其优缺点非概率抽样是用非随机的方法抽选样本
7、。优点:快速简便;费用相对比较低;不需要任何抽样框;对探索性研究和调查设计的开发很有用。缺点:不能对总体进行推断;由于不知总体单元的入样概率,故不能计算估计值的抽样误差。,4-13,2.各种非概率抽样方法方便抽样,又称任意抽样。样本单元的选取有调查员决定,又被调查者主动提供信息。如街道拦截访问。志愿者抽样。被调查者都是自愿参与调查。如网上问卷,自愿回答。判断抽样。由专家有目的地挑选“有代表性”的样本进行调查。如典型调查。配额抽样。从总体的各个子总体中选取特定数量的样本单元组成样本。如市场调查中,规定男女消费者的样本各多少。滚雪球抽样。适合于总体中某种较为稀少的特殊子总体而又缺少完整的抽样框。抽
8、样时通过已知的少数个体获得信息逐渐扩大。,4-14,(二)概率抽样,概率抽样是从总体中随机抽选样本单元,被抽中的单元既不取决于调查人员的愿望,也不取决于被被调查者的态度。其次每一个单元都有一定的概率被抽中。优点:可以对总体进行推断,并能计算估计值的抽样误差。缺点:相对于非概率抽样,设计比较复杂,而且费用也比较高。常见的概率抽样方法主要有:简单随机抽样、系统抽样、与大小(或规模)成比例的概率(PPS)抽样、整群抽样、分层抽样(STR)、多阶抽样、以及多相抽样等。,七、抽样误差和非抽样误差,抽样误差是指由于抽选样本的随机性,用样本数据对总体参数进行估计是所引起的误差。只有采取概率抽样方式才能产生样
9、误差,得到估计量的精度,因此我们说抽样误差仅仅表现于概率抽样方式之中。与非概率抽样方式相比,能够计算抽样误差是概率抽样最突出的优点。非抽样误差是指除抽样误差以外的,由于各种原因而引起的误差,例如抽样框有缺陷,目标总体单位和抽样单位没有能够一一对应;调查中一些被调查者拒绝回答问题,调查人员没得到全部样本数据;由于各种原因(测量、遗忘或有意隐瞒等),调查中获得的原始数据不正确,以及在对调查数据进行编码、录入、汇总过程中可能出现差错,都会产生非抽样误差。,4-15,八、样本量、费用与精度,样本量是样本中包含抽样单位的数目,样本量的确定是抽样中的一个重要问题,样本量越大,抽样误差就越小,估计量的精度就
10、越高。但样本量有直接与费用有关,样本量越大调查的费用也就越高。样本量与调查费用之间是一种线性关系,最简单的函数形式为式中,C0是与样本量n无关的固定费用,如抽样方案的设计,抽样框的准备,调查的组织、宣传等项开支,c是与n有关的费用,包括调查本身的费用、旅费、礼品费及数据处理费等。,4-16,然而样本量与调查精度之间是一种非线性关系。在样本量较小时,每增加一个样本单位对提高精度的影响比较大,随着样本量的增大,每增加一个样本单位的影响就逐渐减少。因此,一个好的抽样设计必须考虑精度与费用两个方面。这里想要说明的一层含义是:对于不同的调查项目,精度的要求是不同的,调查时应以满足需要的精度为原则,想要说
11、明的另一唱层含义是,由于不同的抽样设计会有不同的费用和精度,因此对于一个具体的抽样设计,应尽量做到在一定费用下使精度最高,或在达到精度条件下使总费用最省,即使设计的效率最高,这样的抽样设计称为最优抽样设计。,4-17,4-18,第二节 主要的概率抽样方法(一)简单随机抽样 1、定义:简单随机抽样是从总体的N个抽样单元中,每次抽取一个单元时,使每一个单元都有相等的概率被抽中,连续抽n次,以抽中的n个单元组成简单随机样本。2、优点:(1)比较容易理解和掌握;(2)抽样框不需要其他辅助信息;(3)理论上比较成熟,有现成的方差估计公式。3、缺点:(1)没有利用辅助信息;(2)样本分散,面访费用较高;(
12、3)有可能抽到较差的样本;(4)抽选大样本比较费时。,4-19,(二)系统抽样 1、定义:又称等距抽样,对研究的总体按一定的顺序排列,每隔一定的间隔抽取一个单元的抽样方法。2、抽选方法:设总体单元数为N,要抽n个单元为样本,先计算抽样间隔k=N/n,在1到k之间抽取一个随机起点r,则被抽中单元的顺序位置是:r,r+k,r+2k,。,起点r,r+k,r+2k,r+3k,4-20,圆形系统抽样方法:当N不能被n整除时,用圆形系统抽样法可以避免出现样本量可能不一致的情况。把总体单元假想排列在一个圆上,取 k=N/n 最接近的整数,作为间隔,然后在1到N之间,抽取随机起点 r,则被抽中的单元顺序号为:
13、r,r+k,r+2k,r+(n-1)k。如:N=55,n=9,就取k=6,在1到55之间取一个随机起点。例如r=42,则被抽中的单元是42,48,54,5,11,17,23,29和35。,4-21,3、系统抽样的优点(1)没有抽样框时可代替简单随机抽样方法简单;(2)不需要辅助的抽样框信息;(3)样本的分布比较好;估计值容易计算。4、系统抽样的缺点(1)若抽样间隔与总体的某种周期性变化一致,会得一个差的样本;(2)不使用辅助信息使抽样效率不高;(3)使用概念框时,不能预先知道样本量;(4)没有一个无偏的方差估计量;(5)当N不能被n整除时会得到样本量不同的样本。,4-22,(三)整群抽样 1、
14、定义:由若干个有联系的基本单元组成的集合称为群,抽样时以群为抽样单元的抽样方法就称为整群抽样。整群抽样示意图:,黄色为总体红色为群白点为基本单元,4-23,2、整群抽样的优点:(1)能大大减低收集数据的费用;(2)当总体单元自然形成的群时,容易取得抽样框,抽样也更容易;(3)当群内单元差异大,而不同群之间的差异小时,可以提高效率。3、缺点:(1)若群内个单元有趋同性,效率将会降低;(2)通常无法预先知道总样本量,因为不知道群内有多少单元;(3)方差估计比简单随机抽样更为复杂。,4-24,(四)分层抽样 1、定义:在抽样之前将总体分为同质的、互不重叠的若干子总体,也称为层。然后在每一个层独立地随
15、机抽取样本。分层抽样示意图:,4-25,2、优点:(1)由于性质相同的单元分在同一层,层内差异缩小,可以提高抽样效率;(2)可以得到各层子总体的估计;(3)操作与管理方便;(4)能避免得到一个“差”的样本。3、缺点:(1)对抽样框的要求比较高,必须有分层的辅助信息;(2)收集或编制抽样框的费用比较高;(3)若调查变量与分层的变量不相关,效率可能降低;(4)估计值的计算比简单随机抽样复杂。,4-26,(五)多阶抽样 1、定义:它是由两个或更多个连续的阶段抽取样本的方法。多阶抽样示意图:,总体,第一阶样本,最终样本,4-27,2、优点:(1)当群具有同质性时,多阶抽样的效率高于整群抽样;(2)样本
16、的分布比简单随机抽样集中,采用面访可以节约时间和费用;(3)不需要整个总体单元的名录框,只要群的名录框和抽中群的单元名录框。3、缺点:(1)效率不如简单随机抽样;(2)通常不能提前知道最终的样本量;(3)调查的组织较整群抽样复杂;(4)估计值与抽样方差的计算较为复杂。,4-28,(六)多相抽样 1、定义:在同一个抽样框内,先抽一个大样本,收集基本的信息,然后在这个大样本中再抽一个子样本,收集调查的详细信息。多相抽样示意图:,。,。,。,第一相样本,第二相样本,4-29,2、优点:能显著提高估计值精度(与简单随机抽样相比);能用来获得抽样框中所没有的辅助信息(特别是分层信息);适用于某些调查指标
17、的数据收集费用特别高,或会给被调查者带来较重的回答负担的情况。3、缺点:如果需要根据第一相的结果来进行第二相调查,得到整个调查结果的时间比单相调查长;由于对某些样本单元访问次数超过一次,故所需费用比一相调查要多;调查的组织会很复杂;估计值和抽样误差的计算会相当复杂。,4-30,抽样分布,抽样分布的概念:由样本统计量的全部可能取值和与之相应的概率(频率)组成的分配数列。(主要求出样本平均数的期望与方差)包括以下内容重置抽样分布样本平均数的分布样本成数的分布样本方差的分布不重置抽样分布样本平均数的分布样本成数的分布样本方差的分布,4-31,总体中各元素的观察值所形成的分布 分布通常是未知的可以假定
18、它服从某种分布,总体分布(population distribution),4-32,一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布(sample distribution),4-33,样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布(sampling distribution),4-34,抽样分布的形成过程
19、(sampling distribution),样本均值的抽样分布,4-36,1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值的理论基础,一、样本均值的抽样分布,4-37,样本均值的抽样分布(例题分析),【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下,均值和方差,4-38,样本均值的抽样分布(例题分析),现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,4-39,样本均值的抽样分布(例题分析),计
20、算出各样本的均值,如下表。并给出样本均值的抽样分布,4-40,样本均值的分布与总体分布的比较(例题分析),=2.5 2=1.25,总体分布,4-41,样本均值的抽样分布与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n),4-42,中心极限定理(central limit theorem),从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为,方差为2/n的正态分布,4-43,中心极限定理(central limit theorem),x 的分布
21、趋于正态分布的过程,4-44,抽样分布与总体分布的关系,总体分布,正态分布,非正态分布,大样本,小样本,样本均值正态分布,样本均值正态分布,样本均值非正态分布,4-45,样本均值的数学期望样本均值的方差重复抽样不重复抽样,样本均值的抽样分布(数学期望与方差),4-46,样本均值的抽样分布(数学期望与方差),比较及结论:1.样本均值的均值(数学期望)等于总体均值 2.样本均值的方差等于总体方差的1/n,4-47,统计量的标准误(standard error),样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差标准误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的精确程度
22、以样本均值的抽样分布为例,在重复抽样条件下,样本均值的标准误为,4-48,估计的标准误(standard error of estimation),当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误以样本均值的抽样分布为例,当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为,样本比例的抽样分布,4-50,总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为,比例(proportion),4-51,在重复选取容量为n的样本时,由样本比例
23、的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似 推断总体比例的理论基础,样本比例的抽样分布,4-52,样本比例的数学期望样本比例的方差重复抽样不重复抽样,样本比例的抽样分布(数学期望与方差),样本方差的抽样分布,4-54,样本方差的分布,在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为(n-1)的2分布,即,4-55,1.由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson)分别于1875年和1900年推导出来
24、2.设,则3.令,则 Y 服从自由度为1的2分布,即4.当总体,从中抽取容量为n的样本,则,2分布(2 distribution),4-56,1.分布的变量值始终为正 2.分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 3.期望为E(2)=n,方差为D(2)=2n(n为自由度)4.可加性:若U和V为两个独立的服从2分布的随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,2分布(性质和特点),4-57,c2分布(图示),4-58,c2分布(例题的图示),4-59,c2分布(用Excel计算c2分布的概率),利用Ex
25、cel提供的CHIDIST统计函数,计算c2分布右单尾的概率值语法为CHIDIST(x,df),其中df为自由度,x是随机变量的取值给定自由度和统计量取值的右尾概率,也可以利用“插入函数”命令来实现计算自由度为8,统计量的取值大于10的概率,4-60,c2分布(用Excel计算c2分布的临界值),利用Excel提供的CHIINV统计函数,计算分布右单尾的概率值为的临界值语法为CHIINV(,df),其中df为自由度给定自由度和分布右尾概率为的临界值也可以利用“插入函数”命令来实现计算自由度为10,右尾概率为0.1的临界值,4-61,c2分布(用Excel生成c2分布的临界值表),第一步:将c2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样调查 参数估计
链接地址:https://www.31ppt.com/p-5979861.html