抽样调查教案-6系统抽样.docx
《抽样调查教案-6系统抽样.docx》由会员分享,可在线阅读,更多相关《抽样调查教案-6系统抽样.docx(16页珍藏版)》请在三一办公上搜索。
1、第6章 系统抽样6.1 引言6.1.1定义定义6.1 /6.2系统抽样(systematic sampling)又称为等距抽样、机械抽样。按照这种抽样方法,从总体中抽取第一个样本点(随机起点),然后按某种固定的顺序和规律依次抽取其余的样本点,最终构成样本。这种抽样被称为系统抽样是因为这种抽样的第一个样本点虽然随机,但其余样本点的抽取看起来好像不再随机,因而是系统的。“牵一发而动全身”。比如要对居民用户抽样,可按户口册每隔多少户抽一户;工厂为检查产品质量,在连续的生产线上每隔20分钟抽选一个或若干个样品进行检查;农业上为估计农作物产量或病虫危害,对一大片农田每隔一定距离抽取一块进行实际测量或调查
2、,等等。 本章只作简单方法介绍。更多内容参见文献2、文献3。 6.1.2系统抽样的一般方法定义6.3 直线等距抽样 假设总体单元数为,样本容量为,为的整数倍。把总体单元排列成一直线。先计算出系统抽样间隔,(当不是的整数倍时,可令k等于最接近的整数)。然后在第一阶段1k个单元中随机抽取一个单元,假设为r,然后每隔k个单元抽取一个单元,即分别为:r+k,r+2k,.,直至抽取了n个单元。抽取的样本编号为:r+(j-1)k (j=1,2,n)。 1 2 r k k+1 k+2 k+r 2k 2k+1 2k+2 2k+r 3k k k k k+r 2k+r (n-1)k+rrk(k为抽取间隔)例如某学
3、院有200个学生,要抽取10个学生作为样本。首先计算20,然后在120中随机抽取一个数字,假设抽中排列中第3位的学生,则其它入样单元依次为23,43,63,83,103,123,143,163,183。定义6.4 圆形等距抽样(Lahiri) 这种方法主要适用于不为整数时。因为当k 不为整数,取其最接近的整数时,实际样本容量可能与n相差1,而且每个单元入样的概率不等,这时用直线等距抽样可能产生偏倚。例:设总体N10,其标志值分别为,总体均值为。若要求样本容量为n3,采用直线等距抽样,验证样本均值是否为总体均值的无偏估计?解:先计算间距10/33.33.,取k3,在13中取一个随机起点,然后每隔
4、3个单元抽取1个单元可得下列的可能样本:三个可能的系统抽样样本均值分别为: ,所有,因此样本均值不是总体均值的无偏估计。在这种情况下,样本均值将不等于总体均值,因而估计不是无偏的。为了使得样本均值是总体均值无偏估计,将个总体单元排成首尾相接的一个圆。抽样间距k 取最接近的整数,从1中随机抽取一个随机起点作为起始单元,然后每隔k 个抽取一个,直到抽取n 个为止。如果序号大于时,将其减去得到的在1中的号码入选。正是因为排列为圆形而非直线且随机起点在1N中而非在1k(或k+1)中,导致了该抽样下的每个样本严格等概率地被抽中,因而估计是无偏的。 若是圆形等距抽样,则在110中抽取一个随机起点,假设为7
5、,然后每隔3个单元取一个,它们的序号是7、10、13。事实上是、入样。 考虑到实际问题中,n通常比较大(大于等与50),多一个少一个并无关宏旨,因此可以不必考虑N/n不是整数的影响,故通常我们都假定N是n的整数倍。3 不等概率抽样法 不等概率抽样中每个单元入样的概率不相等。最简单也是最常用的是系统抽样,即入样的概率与单元规模大小成比例的系统抽样。令表示所有单元规模大小总和,则(包含概率,见不放回不等概率抽样)。 在实际中,不等概率的实施常采用代码法。如下所示: 先将单元规模(不失一般性,设其为整数)值累加,欲从总体中抽取容量为n的样本,取最接近的整数k为抽样间距,从1,k中随机抽取一个整数r作
6、为起点,则代码r,r+k,r+(n-1)k 所对应的单元入样。例7.1 设总体由10个行政村组成,N10,每个行政村人数为,见表7.1。利用系统抽样抽取n3个行政村样本。表7.1 用系统抽样抽取行政村行政村编号人数累计人数抽中号码12345678910合计103432962468473205168146317187010353563187796110341239140715531870100 *723 *1346 *,从1623中抽取一整数,例如是,则,所对应的行政村入样,其序号分别为1、4、8。这种方法,当所有单元规模时,每个单元不可能重复,是一种不重复抽样;当时(超过抽样间隔),第i个单元
7、为必然被抽中单元,且有可能重复抽中;当,第i个单元为必然被重复抽中。实际中应尽量避免这种重复抽中现象。一种简单的方法就是把这种大规模单元作为必然调查单元,不再列入抽样总体,另一种方法是将大规模单元划分为几个小规模单元。6.1.3总体单元排序 1 按无关标志排序,如调查学生视力,按学号排列,显然视力与学号没有关系 2 按有关标志排序 调查身高时,按入校体检的身高顺序排列 3 介于以上两者之间 6.1.4系统抽样的优缺点 优点:系统抽样是实际中常用的一种抽样方法,1其简单易行,只要确定起点和间距,便于推广2便于利用已知信息,系统抽样的误差大小与总体单元的排列顺序有关,因此当对总体的结构有一定的认识
8、了解,并有相关的标志可以利用时,可以运用已知的信息先对总体单元进行排列,再采用系统抽样,就能提高系统抽样的效率。但缺点也很明显: 1 方差复杂,难以估计 2 如果单元排列存在周期性,而抽样者缺乏对此了解,则很容易抽取出的样本代表性很差。例如,要调查70路每天的客流量,采用系统抽样,每周取一天,即每隔7天抽取一次。不管取了星期一到星期五,还是星期六到星期日中的哪天作为起点,样本代表性都很差。6.1.5系统抽样与整群抽样和分层抽样的关系 系统抽样可以看作特殊的整群抽样和分层抽样表6-1 系统抽样的总体单元1 2 3 j n行平均123rk列平均 见下表6-1,如果将每一行单元视为一个群,则总体由k
9、个群组成,每个群规模大小都为n。系统抽样从,中任选一个,被选中的单元所在行的所有单元就构成系统抽样的样本。显然每个群都是可能的样本。因此系统抽样可以看成从k个群中随机抽取1个群的整群抽样。 同样将每一列视为一层,则总体由n个层组成,每个层大小都为k。系统抽样可以看作从每个层中抽取一个单元的分层抽样,但由于样本单元在各层位置相同,因此系统抽样不同与分层抽样。表6-2系统抽样总体单元重新编号1 2 j n群平均12rk层平均 6.2 等概率系统抽样估计量为讨论方便,今后总是设。6.2.1符号说明 第r行第j列单元指标,对照表6-2换个排序方式有 总体单元数N;样本单元数n 总体方差 总体(群)均值
10、,(每行均值) 样本(群)均值, 系统样本均值, 总体层均值,或,(每列均值)6.2.2 估计量 假设起始点为r,则相应的系统样本的平均值为, (6.1)(群内普查)取系统样本平均值作为总体均值的估计量,即: (6.2) (由于群内普查)定理6.1 当,有k个可能样本 ,因此是无偏估计。 (6.9)(方差定义)定理6.2 用系统样本(群)内方差 表示为系统样本(群)内方差 (类似整群抽样中的定义)因为系统抽样相当于抽取一个群的整群抽样,因此群内的单元差异大小,也即系统样本内的差异大小会直接影响系统抽样的效果,故定义了系统样本(群)内方差,它反映了所有k个可能系统样本内的方差大小。因此可以想象,
11、和整群抽样一样,系统样本内方差愈大,抽样效率愈高。注意此习惯叙述,(大写)本该表示总体,由于群内普查,这里的特殊性在于所谓的“系统样本”实际是表6-2中行表示的总体群。 (6.10)证明: (交叉项为0) 两边同除以,根据方差定义和定义,得到 如果直接用简单随机抽样,则 ,作差: ,于是 对于固定总体,总体方差是唯一固定的,因此系统样本内方差越大,系统抽样精度越高。故为了提高系统抽样的精度,总体单元的排列应尽可能增大样本(群)内方差,使得群内基本单元样本差异比较大。定理6.3系统抽样可以看作特殊整群抽样,其方差可用样本(群)内相关系数表示 其中系统样本(群)内相关系数(系统样本内各单位两两之间
12、的相关系数)为 (类似4.9)证明:总体单元数群内单元数总体群数样本群数总体均值估计量群内相关系数系统抽样整群抽样NNMnMkN1n、由整群抽样,(P141,4.11)。由定理6.3看出,系统样本(群)内正相关性越大,即样本(群)内单元越相似,则估计量方差越大,系统抽样精度越差,这与定理6.2结论一致。定理6.4 系统抽样可看成特殊的分层抽样,其方差可以用层内方差和表示定义:总体层内方差总体(层)内相关系数:同一系统样本内对层均值离差的相关系数,系统样本内各单元两两之间分别与各自层的平均数相比较而计算的相关系数。对于固定的群,两个不同单元离差乘积共有个组合,所以总体这样的离差乘积有个,因此上式
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样调查 教案 系统抽样
链接地址:https://www.31ppt.com/p-1688872.html