抽样调查-第6章整群抽样.ppt
《抽样调查-第6章整群抽样.ppt》由会员分享,可在线阅读,更多相关《抽样调查-第6章整群抽样.ppt(83页珍藏版)》请在三一办公上搜索。
1、4.1 整群抽样,一、整群抽样的定义与特点,1.整群抽样的定义整群抽样是将整体划分为若干群,然后 以群为抽样单元,从总体中随机抽取一部分群,对抽中的群中的所有基本单元进行调查的一种抽样技术。2.整群抽样的优点(1)抽样框编制得以简化(2)实施调查便利,节约费用 3.整群抽样的缺点:抽样误差较大。,二、群的划分,整群抽样中的群大致可分为两类:一类是根据行政或地域形成的群体,如学校企业和街道,对此采用整群调查是为了方便调查,节约费用。另一类群则是调查人员人为确定的,如将一大块面积划分若干块较小面积的群,这时就需要考虑如何划分群,以使在相同调查费用下调查误差最小。,群划分的一般原则 为了提高精度,划
2、分群时应力争使同一群内各单元之间的差异尽可能大,以避免同一群内各单元提供重复信息.这个原则与分层抽样中划分层的原则恰好相反.由此看来,整群抽样和分层抽样是针对不同总体结构而提出的两种不同抽样方法.,三、群的规模,群的规模是指组成群的单元的数量。群的规模大,估计的精度差,但费用省;群的规模小,估计的精度可以提高但费用增大。实践中,确定群的规模涉及多种因数,如群的具体 结构、精度、费用、调查实施的组织管理等。群的规模又有两种情况:一种是总体中的各个群规模相等;另一种是总体中各个群的规模不相等。,四、附号说明,总体第 i 群中第 j个单元的指标值:,样本第 i 群中第 j个单元的观测值:,总体群(P
3、SU)数:N 样本群数:n第i个群中的单元(SSU)数量:,总体中单元总数:,总体中第i群的群总值:,样本中第i群的群总值:,总体中第i群的个体均值:,样本中第i群的群均值:,总体中的群均值:,样本中的群均值:,总体中的个体均值:,总体方差:,样本方差:,总体群间方差:,样本群间方差:,总体中第i个群群内方差:,样本第i个群群内方差:,群规模相等时整群抽样样本群内方差:,群规模相等时整群抽样总体群内方差:,4.2 等概率整群抽样,在N个初级抽样单元中,第i个初级单元含个二级抽样单元。对于整群抽样而言,被抽中的群中所有二级单元全部入样。我们先考虑最简单的情形:每个群所包含的单元数M相等,称为群规
4、模相等。(实际问题中只要群规模接近,也可视为群规模相等)。在群规模相等的情况下,整群抽样一般采用简单随机抽样方法抽取群,这时对总体均值的估计十分简单。,一、群规模相等时的估计,1、均值估计量 及其方差 若按简单随机抽样,且群的大小相等,都等于 M,则对总体 均值的估计为:,定理4.1 是 的无偏估计,即,这样的结果是显然的,因为是按简单随机方法抽取群,所以样本群均值 是总体群均值 的无偏估计,因而,证明:因为,所以,定理4.2 的方差为:,下面我们看一个整群抽样的例题,【例4.11】在一次对某中学在校生零花钱的调查中,以宿舍作为群进行整群抽样,每个宿舍都有M=6名学生。用简单随机抽样在全部N=
5、315间宿舍中抽取n=8间宿舍。全部48个学生上周每人的零花钱 及相关计算数据如下表。试估计该学校学生平均每周的零花钱,并给出其95%置信区间。,8个宿舍48名学生每周零花钱支出额,解:已知故,下面计算估计量方差的估计值:,于是置信度为95%的置信区间为98.171.964.34,也即89.66元,106.68元】,2、整群抽样效率分析,在整群抽样中,由于 估计量的方差主要依赖群间的变异性。因此整群抽样中 较大,则整群抽样就会损失精度。下面我们用方差分析表来讨论这一问题。,群规模相等时的整群抽样 总体方差分析表,我们将整群抽样与简单随机抽样的效率进行比较,假设直接从总体中抽取一个样本容量为nM
6、的简单随机样本,则样本均值的方差为:,但如果该整体被等分为N个规模为M的群,定义 为群内相关系数,描述同一群内成对个体单元之间的相关程度,其表达式为:,根据组合及平均值的计算,又可表示为:,事实上,前面提到的 可以用群内相关系数近似表示:,由此,可以计算等群抽样的设计效应:,这表明,整群抽样的方差约为简单随机抽样方差的 倍,整群抽样估计效应与群内相关系数 关系密切,,若群内各单元的值都相等,则群内方差,量方差是简单随机抽样估计量方差的倍。,因此,要提高整群抽样的效率,就要通过分群,间的差异实现的。,对于自然形成的群而言,无法通过调整群内单元而控制的 取值。这时,要想减少抽样误差,就只能增大样本
7、容量。,另外,群内相关系数 也可以用群内方差 和群间方差 表示,并由样本统计量 估计:,【例 4.2】估计例4.1中以宿舍为群的群内相关系数与设计效应.,解:由例4.1已计算出样本群间方差而样本群内方差为:,由相关系数的估计式有,设计效应2.741表明,在这项调查中,为达到同样的估计精度,整群随机抽样的样本量大约为简单随机抽样样本量的2.74倍而此时简单随机抽样的样本量为:,1、等概抽样,简单估计,此时,不考虑群规模不等的影响,抽样方法与,前节群规模相等时相同,估计方法也相同,即采用简单,随机抽样。对总体均值 的估计为:,二、群规模不等时的估计,的方差估计为:,2、等概抽样,加权估计,基本思路
8、:以群规模 为权数,乘以各群,将样本中n个群的群总和平均。,估计公式为:,如果总体群平均规模 未知,可以用样本群,个体单元总数.,总体总值估计量 的方差:,它的无偏估计为:,对均值估计 而言:,与简单估计相比,加权估计的方法考虑了群规模,所以估计量 分别是 的无偏估计.,3、等概抽样,比率估计,总体均值采用比率估计的形式为:,与第三章比率估计的区别在于,这里的辅助变量,可知,它是一个有偏的.当样本群数 n 很大时,其,不是,而是群的规模.从比率估计量的性质可,偏倚很小,可以忽略。,总体总值 Y 的比率估计为:,的样本估计为:,的样本估计为:,4、例题和方法比较,【例4.3】某县有33个乡,共7
9、26个村,某一年度某作物总种植面积为30 525亩。现采用等概抽样随机抽取十个乡进行该种作物的产量调查(调查数据如下表)。要求利用无偏估计量和比率估计量分别估计全县总产量,并计算估计量的标准差。,10个乡调查数据,(1)无偏估计(等概抽样,简单估计),计算平均每个村的产量为:,因此,,=966.19,评价:此种方法的估计过程虽不复杂,但却是有偏估计.,(2)无偏估计(等概抽样,加权估计),评价:此种方法虽可获得无偏估计,但与前种方法相比,估计量的估计方差没有改观,反而有所增大.这种方法适合于 之间差异不大的整群抽样.,(3)以群规模为辅助变量的比率估计,评价:比率估计将群规模作为辅助变量引入估
10、计,其估计方差取决于群均值 的差异.的差异比 的差异要稳定,所以比率估计比前两种方法获得更好的估计效果.,(4)种植面积为辅助变量的比率估计,已知全县该作物的种植面积总共有X=30525亩,采用种植面积为辅助变量的估计结果为:,评价:与前面几种方法相比,估计量的估计误差最小,估计效果最好.究其原因,作物的乡产量 不仅与该乡规模 有关,更与该乡的种植面积 有关.,【补充】总体比例的估计,一、群规模相等的估计,与群规模相等时均值估计的方法相同,因为比例也是均值。即,由 P118 的(6.1)式,用,表示第群中具有某种特征的单元数。,是总体比例P的无偏估计。,为样本中第 i群具有某特征单元数的比例;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样调查 章整群 抽样
链接地址:https://www.31ppt.com/p-6472516.html