[管理学]抽样技术概念.doc

上传人：sccc

文档编号：4559606

上传时间：2023-04-27

格式：DOC

页数：33

大小：729KB

《[管理学]抽样技术概念.doc》由会员分享，可在线阅读，更多相关《[管理学]抽样技术概念.doc（33页珍藏版）》请在三一办公上搜索。

1、抽样技术目录第一章预备知识第二章基本概念第三章简单随机抽样第四章分层随机抽样第五章不等概率抽样第六章多阶段抽样第七章整群抽样第八章系统抽样第九章非概率抽样第一章预备知识作为抽样技术的基础知识或预备知识，本章简要地介绍调查原理、排列组合、概率统计等方面的有关知识。一、调查概论调查的重要性：有利于制定政策、投资决策、科学研究、机构管理以及司法实践等；与此同时，许多学科的进步和发展也同样离不开调查。（一）（一）调查本质上是一种测量活动测量活动具有6个要素：测量主体、测量客体、测量对象、测量法则、测量工具、测量结果（数字/符号）。测量得到的数据大体分为三种类型：分类型数据、顺序

2、型数据以及数值型数据。测量的方法分为：直接测量和间接测量。（二）（二）真值、测量值与误差误差公理：任何调查结果都可能具有误差，而且误差始终存在于一切科学试验和调查过程中。根据误差的来源分类：调查主体误差、调查客体误差、调查工具误差、调查法则误差、调查环境误差。误差公理：任何调查结果都可能具有误差，而且误差始终存在于一切科学试验和调查过程中。根据误差的来源分类：调查主体误差、调查客体误差、调查工具误差、调查法则误差、调查环境误差。根据误差的性质分类：系统误差、随机误差和粗大误差。根据误差的计量尺度分类：绝对误差和相对误差。绝对误差、（调查）估计值x以及真实值之间的关系：x-。相对误差r、绝对

3、误差以及真实值之间的关系：r=/。实际常用的真值分类：理论真值、约定真值以及相对真值。实际常用的测量值分类：单次测量值、算术平均值、加权平均值、中位数和众数。（三）（三）信度、效度与精度信度表示测量结果中的随机误差大小的程度。信度的表示方法：测量值的方差（或标准差）或者样本平均数的方差（或标准差）。衡量信度的三种方法：再测信度、复本信度和折半信度。衡量信度的三种方法；再测信度、复本信度和折半信度。效度表示测量结果中的系统误差大小的程度，是测量结果的“有效性” 的反映。效度分类：内容效度、准则效度和结构效度。效度含义：（1）测量的特征即为研究的目标特征；（2）该特征被准确地测量。效度的表示方

4、法：B()=-或者B(E)=E-。精度是信度与效度的综合，但它还与信度与效度之外的因素有关。精度的表示方法：均方误差MSE()=V()+效度的表示方法：或者。精度表示信度与效度的综合，但它还与信度与效度之外的因素有关。精度的表示方法：均方误差信度、效度与精度之间的关系：对于测量或调查来说，信度高的效度未必高，反过来效度高的信度未必高，但精度高的信度和效度肯定高。二、排列组合（一）（一）两条基本原理加法原理和乘法原理。（二）（二）排列排列的分类：选排列与全排列、允许重复的排列。选排列与全排列之间的关系：全排列是选排列的一种特殊情形（）。选排列与全排列中的元素是互不相同的。允许重复的排列中

5、的元素可能重复出现多次。（三）（三）组合组合与排列的差异：组合只与元素有关，而与元素的顺序无关；排列不仅与元素有关，而且与元素的顺序有关。组合的性质：（1）；（2），三、概率统计中的一些基本问题（一）（一）大数定律大数定律的重要作用：奠定了用样本来估计总体的理论基础。几种大数定律：契比雪夫大数定律、贝努里大数定律以及辛钦大数定律。契比雪夫大数定律证明了当无限增加时，个随机变量的算术平均将会几乎变成一个常数。贝努里大数定律证明了随着试验次数无限增大，事件发生的频率可以无限接近它发生的概率。贝努里大数定律是辛钦大数定律的特殊情况。辛钦大数定律证明了在无限增大时，样本均值会无限接近总体的数学

6、期望。（二）（二）中心极限定理中心极限定理的重要作用：奠定了用样本估计量对总体参数进行区间估计的理论基础。中心极限定理的思想：不论总体服从何种分布，只要方差有限，在观察值足够多时，许多估计量的抽样分布，就趋向正态分布。根据限制条件的不同可以分成：列维林德伯格中心极限定理和李雅普诺夫定理。列维林德伯格中心极限定理要求随机变量独立且同分布；李雅普诺夫定理仅要求随机变量相互独立，但无需服从同一分布。（三）（三）参数估计原理参数估计分为：点估计和区间估计。点估计思想：构造一个适当的统计量，用它的观察值来估计未知参数。构造点估计量的方法：矩估计法和极大似然估计法。衡量估计量优劣的标准：无偏性、有

7、效性和一致性。区间估计的思想：对于未知参数，除了求出它的点估计外，同时还估计出一个范围，并给出此区间包含参数真值的可信程度。第二章基本概念基本内容在学习各种抽样方法之前，先了解一下抽样调查中所涉及到的基本概念。一、抽样调查与非抽样调查调查分类：（1）（1）根据“调查是否针对总体的所有单元”进行分类：全面调查和非全面调查。（2）（2）根据“单元是否按照一定的概率入样”进行分类：概率抽样调查和非概率抽样调查。非全面调查相对于全面调查的优点：（1）时间短速度快；（2）费用少成本低；（3）调查结果比较准确；（4）应用范围广泛。概率抽样的分类：（1）（1）根据“单元的入样概率是否相等”进行

8、分类：等概率抽样和不等概率抽样。（2）根据“具体的抽样方式”进行分类：简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样等等。概率抽样的优点：（1）（1）能够保证样本的代表性，避免人为因素的干扰；（2）（2）用概率抽样取得的样本去估计总体特征时，可以对由抽样产生的抽样误差进行估计。非概率抽样的分类：（1）按照“具体的抽样方式”进行分类：判断抽样、便利抽样、自愿样本、滚雪球抽样、配额抽样等。（2）判断抽样包括典型调查和重点调查这两种取样方式。非概率抽样的缺点：（1）（1）难以评价样本的代表性。（2）（2）无法估计抽样误差。（3）（3）偏倚往往较大。二、总体与样本（一）

9、（一）总体总体分为：目标总体和实际总体。目标总体是研究目标所针对的总体；实际总体是实际调查时所针对的有限的、具体的总体。总体与个体：总体是个体的集合，个体是构成对应总体的单元。一切构成总体的个体或子总体泛称为总体单元，其中个体称为基本单元。基本单元是总体里最小的、不可再分的单元。（二）（二）抽样框与抽样单元包含所有抽样单元的总体称为抽样框，构成抽样框的单元称为抽样单元。抽样框的形式：名单、手册、地图、数据包等等。抽样框的要求：（1）抽样框必须是有序的，即抽样单元必须编号，且根据某种顺序进行了排列。（2）抽样框中包含的抽样单元务必要“不重不漏”，否则将出现抽样框误差。抽样单元分级：初级单

10、元次级单元三级单元四级单元基本抽样单元。（三）（三）抽样与样本样本是抽样的结果从总体全部单元中选出的部分单元，其全体称为样本总体，简称样本。样本由样本点（抽样单元）构成。根据样本抽取方法的不同，可以将抽样分为全样本抽取和逐个抽取。全样本抽取和逐个无放回抽取是等价的。三、总体特征与估计量（一）（一）总体特征总体特征与总体的关系：总体是调查的客体，而总体特征是总体某个特征或属性的数量表现通常的总体特征有4种：（1）总体总值；（2）总体均值；（3）总体比例；（4）总体比率。总体总值、总体均值、总体比例三者是统一的，它们都可以用总体均值来表示。（二）（二）估计量和估计方法估计量是从样本的个

11、单元计算出的对总体特征的估计。估计量是随机变量。估计方法：最常见的估计方法是简单线性估计，除此之外，还可以借助于辅助变量。辅助变量必须满足的两个条件：（1）与要估计的变量高度相关；（2）其总体信息已知。（三）（三）抽样分布抽样分布：对一个固定的总体，在确定的样本设计和样本量的条件下，估计量的所有可能取值及其出现概率的序列就是该估计量的抽样分布。抽取的样本越多，所得到的频率分布图就越接近于估计量的真实分布抽样分布。抽样分布的渐进正态性：当从一个比较大的总体N中抽取一个中等容量（30以上）的样本时，无论总体是何种分布，其样本均值的抽样分布都近似于正态分布。样本量愈大，其愈接近正态。四、误差

12、与精度抽样调查中的误差有两类：抽样误差和非抽样误差。抽样误差可以进行数量上的估计，是本节研究重点。控制非抽样误差的方法：严格调查程序、规范调查步骤、加强人员的培训和管理、合理地设计问题和答卷、改进测量方法和工具。（一）（一）均方误差和偏倚均方误差是估计量误差平方的期望=。偏倚是估计量的期望与参数真值之间的差异：。均方误差、方差及偏倚之间的关系：=。（二）（二）置信区间与误差限置信区间：设为标准正态分布的双侧分位数，则置信水平为的近似置信区间可以写成：，其中为的标准差，需要利用样本数据进行估计。误差限可以分为：绝对误差限和相对误差限。绝对误差限和相对误差限之间的转换关系：。（三）（三）

13、费用与效率调查的费用是一个与样本量有关的函数，最简单的是线性费用函数。增大样本量可以提高估计量的精度，但与此同时调查的费用也加大了。效率是指以最小的费用达到要求的精度或者在给定费用的情况下达到最大的精度。五、几种基本的抽样方法简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样分别适用于不同的场合以及不同的精度要求。在本书后面会有详细介绍。六、抽样调查的具体实施步骤实施步骤：（1）调查目标确定；（2）抽样框选择；（3）抽样设计；（4）问卷设计；（5）数据收集；（6）数据编码和录入；（7）审核与插补；（8）参数估计；（9）数据分析和调查结果的表述；（10）数据发布；（11）文档。第三章简单

14、随机抽样基本内容随机抽样分为四种情形：放回有序、放回无序、不放回有序、不放回无序。简单随机抽样分为：不放回简单随机抽样（SRSWOR）和放回简单随机抽样（SRSWR）。一、简单随机抽样理论简单随机抽样有三个表述不同但却等价的定义（定义3.1至定义3.3）。简单随机抽样的抽取原则：（1）按随机原则取样；（2）每个抽样单元被抽中的概率都是已知的或事先确定的；（3）每个抽样单元被抽中的概率都是相等的。主要相关符号：记号代表的含义总体中的单位总数样本量抽样比第个总体单元取值第个样本单元取值总体均值样本均值总体总量样本总量二、参数估计量及其性质常见的四个总体特征：（1）总体均值；（2）总体总值；（3）

15、总体比例；（4）总体比率。（一）（一）简单估计量简单随机样本的方差是总体方差的无偏估计；简单随机样本的协方差是总体协方差的无偏估计。（1）总体均值简单估计量：，且（无偏性）。估计量方差：的无偏估计量：。（2）总体总量简单估计量：，且（无偏性）。估计量方差：的无偏估计量：。（3）总体比例 1 若总体中第个单元具有所研究的特征；令 = 0 若总体中第个单元不具有所研究的特征简单估计量：，且有（无偏性）。估计量的方差：的无偏估计量：。（4）总体比率简单估计量：，且较大时，（渐进无偏性）。估计量的方差：当较大时，的估计量：当较大时，（二）（二）比率估计量辅助变量特点：（a）必须与主要变量高

16、度相关；（b）与主要变量之间的相关关系整体上相当稳定；（c）辅助变量的信息质量更好，帮忙而不添乱；（d）辅助变量的总体总值必须是已知的，或更容易获得的。（1）总体均值比率估计量：，且较大时，（渐进无偏性）。估计量的方差：较大时，的估计量：。（2）总体总量比率估计量：，且较大时，（渐进无偏性）。估计量的方差：较大时，的估计量：。（三）（三）回归估计量辅助变量的特点与比率估计完全相同。简单估计量与比率估计量都是回归估计量的特例：当时，；当时，。回归估计量：若为常数（记为），则，的方差。的估计量为。使达到最小的，。对于简单随机抽样，足够大时，。倘若待估参数为总体总量、总体比例或总体比率，可以根

17、据上面总体均值估计量的结论推导出相关性质。三、不同估计量的精度比较当足够大时，由于非负，所以回归估计的结果一般好于简单估计。当不够大时，比率估计和回归估计先天不足，此时不能认为它们一定好于简单估计。四、样本量的确定影响样本容量的因素：总体规模，（目标）抽样误差以及总体方差等等。抽样误差通常用置信度和绝对误差限度替代：。样本容量的确定公式：样本容量的确定步骤：第一步：确定估计的精度水平；第二步：按照保守（即让样本容量宁大勿小）原则，对总体方差进行预估；第三步：计算简单随机抽样在回答率为100的条件下所需的初始样本量；第四步：确定抽样方式，并根据不同抽样方式的设计效应对样本容量进行调整；第五步

18、：判定有效回答率，并根据有效回答率对样本容量进行再调整；第六步：在需要得到分组数据并对这些分组数据的精度有事先约定或要求时，应分别计算各组所需样本量，然后经各组累计加总得到总体所需样本量；第七步：仔细权衡费用、时间、调查机构拥有或可动用的各种资源方面的限制，进而确定最终的样本量。预估的方法：（1）利用先前的调查结果和经验；（2）利用预调查或试调查的结果；（3）利用同类或相似或有关的二手数据的结果；（4）利用某些理论上的结论；（5）利用富有经验的专家之判断。五、简单随机抽样的实施简单随机抽样的实施办法：抽签法、使用统计软件直接抽取法以及随机数法。产生随机数的几种方式：（1）使用计算器；（2）使用

19、计算机；（3）使用随机数表；（4）使用随机数骰子；（5）使用电子随机数抽样器。第四章分层随机抽样基本内容引入分层随机抽样的原因：简单随机抽样不太适合总体单元数比较大或者总体单元之间差异较大的情形。一、分层随机抽样理论相关概念：层、分层抽样以及分层随机抽样。分层随机抽样的适用场合：“层内差异小，层间差异大”。分层随机抽样相对于简单随机抽样的优点：（1）（1）可同时对子总体（层）进行参数估计；（2）（2）便于依托行政管理机构进行组织和实施，同时还可以根据各层的不同特点采用不同的抽样方式；（3）（3）样本在总体中分布更加均匀；（4）（4）可以提高参数估计的精度。主要相关符号：记号

20、代表的含义第层的层权第层的抽样比第层第个总体单元的取值第层第个样本单元取值第层的总体均值第层的样本均值第层的总体总量第层的样本总量二、参数估计量及其性质常见的总体特征：（1）总体均值；（2）总体总值；（3）总体比例。注：下面凡是标注“*”号的公式不需记忆，但要求能够识别出来。（一）（一）简单估计量各层的样本方差是该层总体方差的无偏估计；各层的样本协方差是该层总体协方差的无偏估计。（1）总体均值简单估计量：，且（无偏性）。估计量的方差：的无偏估计量：。（2）总体总量简单估计量：，且（无偏性）。估计量的方差：的无偏估计量：。（3）总体比例简单估计量：，且（无偏性）。估计量的方差：（*）的无

21、偏估计量：（二）（二）比率估计量（1）总体均值分别比估计：分别比估计量：，各层的都较大时，（渐进无偏性）。估计量的方差：（*）的估计量：（*）联合比估计：联合比估计量：，总样本量较大时，（渐进无偏性）。估计量的方差：（*）的估计量：（*）（2）总体总量分别比估计：分别比估计量：，各层的都较大时，（渐进无偏性）。估计量的方差：（*）的估计量：（*）联合比估计：联合比估计量：，总样本量较大时，（渐进无偏性）。估计量的方差：（*）的估计量：（*）分别比估计与联合比估计比较：当每层的与是经过原点的线性关系时，。通常情况下，当比率估计有效时，除非，否则有。】选择分别比估计还是联合比估计的原则

22、：如果各层都较大，同时各层的比率之间差异较大，则分别比估计优于联合比估计；如果各层不够大，或者各层的比率之间差异较小，则联合比估计优于分别比估计。（三）（三）回归估计量（1）总体均值分别回归估计：分别回归估计量：各层的回归系数事先给定时：（无偏性）。估计量的方差：（*）的估计量：（*）当时，。各层的回归系数不能事先设定时：的估计值：当各层的都较大时，（渐进无偏性）。当各层的都较大时，的方差近似为：。的估计量：（*）联合回归估计：联合回归估计量：事先给定时：（无偏性）。估计量的方差：（*）的估计量：（*）当时，。不能事先设定时：的估计值：（*）当样本量较大时，（渐进

23、无偏性）。当样本量较大时，的方差近似为：。的估计量：（*）（2）总体总量分别回归估计：分别回归估计量：各层的回归系数事先给定时：（无偏性）。估计量的方差：（*）的估计量：（*）各层的回归系数不能事先设定时：的估计值：当各层的都较大时，（渐进无偏性）。当各层的都较大时，的方差近似为：。的估计量：（*）联合回归估计：联合回归估计量：事先给定时：（无偏性）。估计量的方差：（*）的估计量：（*）不能事先设定时：的估计值：（*）当样本量较大时，（渐进无偏性）。当样本量较大时，的方差近似为：。的估计量：（*）分别回归估计与联合回归估计比较：最小方差之间的关系：，即当和

24、均取最优值时，分别回归估计优于联合回归估计。选择分别回归估计还是联合回归估计的原则：如果各层的样本量不太小，而且各层的回归系数之间的差异较大，采用分别回归估计较为适宜；如果各层的样本量不大，而且各层的回归系数大致相同，采用联合回归估计较为适宜；如果各层的回归系数差别不是太大，而且并不是每层的样本量都相当大，联合回归估计可能更保险一些。三、各层样本量的分配各层样本量的分配方式：比例分配、最优分配和奈曼分配。（一）（一）比例分配各层样本量的计算公式：估计量：（自加权）估计量方差：（二）（二）最优分配（费用函数为：）各层样本量的计算公式：估计量：估计量方差：（三）（三）奈曼分配各层样本量

25、的计算公式：估计量：估计量方差：四、总样本量的确定根据不同的精度要求以及不同的样本量分配方式（）来确定总样本量。精度要求为方差上限时：对于不同的样本量分配方式，只需对做相应的改变即可。不同精度要求之间的转换关系：。五、分层随机抽样精度研究最优分配、比例分配的分层随机抽样与相同样本量的简单随机抽样的精度之间的关系：下标srs代表简单随机抽样；下标prop代表比例分配的分层随机抽样；下标opt代表奈曼最优分配的分层随机抽样。结论：当各层均值之间的差异愈大，则一般的分层（以比例分配为代表）的效益就愈高；当各层的标准差相差较大时，最优分配又会比比例分配有更高的效益；当各层的标准差之间的差别不大时，最优

26、分配的效果不会比比例分配的效果好很多。六、分层随机抽样的实施由于分层随机抽样在各层内采取的是简单随机抽样，因此各层内样本的抽取方法可以参见简单随机抽样的相关内容。进一步的问题是层的划分及层数的确定。层的划分：在实际项目当中，层的划分通常是按照单元的某个特征或标识进行的。关于分层界限的确定方法，读者可以参考有关抽样技术的教材。层数的确定：一些理论和实际研究表明，层数以不超过6为宜。第五章不等概率抽样基本内容等概率抽样的特点：将总体（或层）中的每个单元都看作是平等的，不“偏向”也不“疏远”某些特定的单元。等概率抽样的适用场合：总体单元之间的差异不是很大。不等概率抽样的特点：将总体中每个单元的入样

27、概率与其“规模”大小联系起来，使得“大单元”被抽到的概率大，“小单元”被抽到的概率小。不等概率抽样的适用场合：总体单元之间的差异较大。不等概率抽样的优点：能够大大提高抽样精度，减少抽样误差。不等概率抽样的局限性：必须具有能够说明单元规模大小的辅助变量来确定各个单元的入样概率或包含概率。不等概率抽样分类：放回的不等概率抽样（抽样）和不放回的不等概率抽样（抽样）。一、放回的不等概率抽样（抽样）抽样是放回的与规模大小成比例的概率抽样（）。放回的不等概率抽样的缺点：个样本里可能会有某个单元被多次抽中。基本符号：符号含义第个单元的规模总体中所有单元的“大小”之和每次抽到第个单元的概率总体总量的汉森赫维茨

28、估计量（一）（一）样本抽取方法多项抽样是最简单的不等概率抽样，其实施方法有两种：代码法和拉希里（Lahili）法。（1）（1）代码法实施程序（适合于不太大的情形）：对总体的第个单元赋予个代码；在之间产生一个随机整数，如果落在第个单元所包含的代码数里，则第个单元入样；如此进行次抽取，就构成了抽样的样本。（2）（2）拉希里（Lahili）法实施程序（适合于比较大的情形）：令；分别产生两个随机数，一个随机数产生于中，另一个随机数产生于中；如果，则第个单元被抽中；如果，则重新抽取；反复进行和两项操作，直至抽满个样本为止。（二）（二）汉森赫维茨（HansenHurwitz）估计量及其性质总体

29、总量的汉森赫维茨（HansenHurwitz）估计量：抽样的汉森赫维茨（HansenHurwitz）估计量：的性质：（1）无偏性：；（2）方差：；（3）方差的无偏估计量：二、不放回的不等概率抽样（抽样）不放回不等概率抽样的样本不独立，加大了抽样实施、参数估计以及精度计算的难度。抽样是不放回的与规模大小成比例的概率抽样（）。严格的抽样只有当时才有一些简单的方法适用；当时，实施起来相当复杂。基本符号：符号含义第个单元被包含到样本的概率任意两个单元同时包含到样本的概率总体总量的霍维茨汤普森估计量（一）（一）样本抽取方法（1）逐个抽取法；（2）重抽法；（3）系统抽取法；（4）全样本抽取法。（二）

30、（二）包含概率和的性质（1）（2）（3）（三）（三）霍维茨汤普森（Horvitz-Thompson）估计量及其性质总体总量的霍维茨汤普森估计量：的性质：（1）（1）若，则;（2）（2）若，则若固定，则进一步有：（3）（3）若，则的无偏估计为：若固定，则有另外一个无偏估计量，即耶茨(Yates)-格伦迪(Grundy)-森(Sen)估计量：（四）（四） n2时的严格抽样样本抽取方法：布鲁尔（Brewer）方法和德宾（Durbin）方法。（五）（五） n 2时的严格抽样样本抽取方法：水野( Midzuno )方法、布鲁尔( Brewer )方法和拉奥( Rao

31、)桑福特( Sampford )方法。第六章多阶段抽样基本内容多阶段抽样在抽样调查中的应用很广泛，它使得抽样在较大总体中进行得以实现。本章重点讲述二阶段抽样的概念、实施方法和估计，目的是使我们基本掌握二阶段抽样的概念和估算方法，进而推广到更多阶段的抽样。本章主要讨论的问题有：1.二阶段抽样的定义和特点；2.参数估计量及其性质；3.样本量的确定；4.三阶段及多阶段抽样。一、多阶段抽样的定义和特点二阶段抽样的定义：假设总体由个初级单元组成，每个初级单元又由若干个二级（次级）单元组成，若在总体中按一定的方法抽取个初级单元，对每个被抽中的初级单元再抽取若干二级单元进行调查，这种抽样被称为二阶段抽样（

32、two-stage sampling）。特殊情况：整群抽样可以看作为多阶段抽样的特殊情形，即最后一阶抽样是100抽样。特点：（1）（1）保持了一阶整群抽样样本单元相对集中的特点；（2）（2）能够充分发挥抽样的效率，节省了人力和物力；（3）（3）抽样框可以分级准备；（4）（4）各个阶段可以采用不同的抽样方法。预备知识：两阶（段）抽样中,对于一个估计量的均值可表示为；方差可表示为。二、参数估计量及其性质常见的总体特征：（1）总体均值；（2）总体总值；（3）总体比例。（一）初级单元大小相等时的估计（1）总体均值的估计总体均值的无偏估计为；估计量的方差：；的无偏估计量为：。（2）总体总

33、值的估计总体总值的估计量：；方差的无偏估计量：。（3）总体比例的估计总体比例的无偏估计为：；的方差：；的一个无偏估计为：。（二）分层二阶段抽样时的估计（1）总体均值的估计总体均值的分层二阶估计量为：总体均值方差为：方差的无偏估计为：（2）总体总值的估计总体总值的估计：总体总值方差为：方差的无偏估计：（三）初级单元大小不等时的估计（1）不等概率（放回的）抽取初级单元时的估计总体总和的无偏估计：总体总和方差：方差的无偏估计为：1）、自加权条件：（第二阶段是简单随机抽样）估计量可简化为：；方差估计为2）、对初级单元进行抽样估计量可简化为：若，则样本是自加权的：，方差的无偏估计为：（2）按简单

34、随机抽样（不放回）抽取初级单元1）简单估计量总体总和的简单估计量：，且为无偏的；总体总和的方差：；方差的无偏估计为：其中。自加权条件：第二阶（段）抽样比为一个常数时即，则估计量可简化为：2）比率估计量为了减小方差，可以考虑采用比率估计量对总体总和估计，辅助变量即采用初级单元的规模。总体总值的估计量为：近似均方误差为：均方误差的估计：（3）按不等概率(不放回)抽样初级单元采用不放回不等概抽样时，包含概率为、，则此时总体总和的二阶估计可采用霍维茨汤普森（HorvitzThompson）估计量。总体总和的无偏估计：方差：若是的一个无偏估计，则方差的一个无偏估计为：如果固定，则无偏估计量：（4）

35、二阶段抽样的总体比例的估计1）两阶段均采用等概抽样，用比率估计的方法总体比例的比率估计为：，其中总体比例的方差为：方差的无偏估计为：三、样本量的确定（一）初级单元大小相等时最优样本量m与n的确定在抽取相等数量的次级单元的前提下，二阶（段）抽样的方差通常要小于整群抽样的方差但是大于分层抽样的方差。在实际应用中，一个很重要的问题就是如何确定第一阶样本量和第二阶样本量，使估计量的方差达到最小，或在给定的方差的条件下，如何使费用最省，即如何确定最优抽样比和的问题，就是要考虑费用和精度的权衡问题。考虑最简单的费用函数线性费用函数，根据柯西施瓦兹（CauchySchawarz）不等式，最终得：，即的最优值

36、为：（）确定后，根据给定的或就可以求出，从而确定了最优的和。（二）初级单元大小相等时分层二阶段抽样的最优分配和的最佳选择，即进行分层抽样时的最优分配。仍考虑最简单的线性费用函数，可得固定使达到极小或固定使达到极小的的最优值为：（）可以看出求最优的公式与非分层抽样中的公式是一致的。四、三阶段抽样及多阶抽样（一）各级单元大小相等时的三阶段抽样总体均值的无偏估计：的方差：方差的无偏估计：固定费用下使方差达到最小或在指定精度下（固定方差）使最小的和的最优值为：，与确定后即可根据总费用或精度要求求出第一阶样本量。（二）各级单元大小不等时的三阶段抽样总体总和的无偏估计量：总体总和的方差：方差的无偏估计

37、：其中（三）多阶段抽样各级单元大小相等时，根据求导三阶（段）抽样的过程及对比前面的二阶（段）抽样，不难得出更高阶抽样的相应结果，例如四阶抽样中，应有：（1），其中：，（2）（3）是的一个无偏估计。第七章整群抽样基本内容前面几章提到抽取样本单元时，都是指组成总体的基本单元，即抽样单元和入样单元是一致的，而本章则主要讨论抽样单元和入样单元不一致，即将子总体而非基本单元视为抽样单元的方法整群抽样（cluster sampling）来完成调查任务，目的是使读者掌握这一调查方法的特点和具体实施。重点讨论以下几个问题：1、整群抽样的概述；2、参数估计量及其性质。一、整群抽样的概述（一）整群抽样的定义设总

38、体由个大单元即初级单元(primary unit)组成，每个初级单元又由若干个较小的次级单元或二级单元(secondary unit)组成。首先从总体中按某种方式(不限于简单随机抽样方式)抽取n个初级单元，然后抽出其中所包含的所有次级单元，构成一个样本。这种抽样称为整群抽样(cluster sampling)。简单来说，整群抽样有三个步骤，第一步将总体划分为若干群(初级单元)，第二步以群为抽样单元，从总体中抽取一部分群；第三步抽取中选群中的100次级单元(也自然是100的基本单元)构成样本。（二）整群抽样的特点1、可以使用简单的抽样框。抽样框的构造相比于其他抽样方法要容易、方便一些。2、实施调

39、查便利，节省费用。整群抽样调查单元的分布相对集中，调查人员能节省大量来往于调查单元间的时间和费用。（三）适用场合可能适合整群抽样的一些实例总体变量基本单元群或初级单元某个城市住户特征住宅街区某个城市购买衣物人住宅机场旅游信息离开旅客人数航班高中就业计划学生班级农村社会态度成人村通过桥梁的年交通流量发车地和到达地机动车40分钟间隔城市土地所有者档案税务信息土地所有者分类台帐的页数健康保险档案医疗数据卡片连续10张卡片为一组在某些特定场合，整群抽样具有较高的精度，但是需要注意的是，虽然整群抽样具有方便经济的明显优点，但在样本容量一定的情况下，整群抽样也有抽样误差较大、精度较低的严重缺点，但可以通过

40、适当增大样本量的方法来得到弥补。二、参数估计量及其性质常见的总体特征：（1）总体均值；（2）总体总值；（3）总体比例。（一）群规模相等时的估计（1）总体均值的估计总体均值的简单估计量为：，可以证明该估计是无偏估计量。方差为：方差的无偏估计：（2）总体总值的估计总体总值的简单估计量为：方差为：方差的无偏估计为：（3）总体比例的估计总体比例的估计量：，且为无偏的。总体比例的方差：方差的无偏估计：（二）群规模不等时的估计（1）对群进行简单随机抽样。1）简单估计总体均值的简单估计为：，有偏的；的方差估计为：。注意该方法适用于各群的规模差异不是很大时的整群抽样。2）加权估计总体总和的估计为：，且

41、为无偏的；方差为：的无偏估计为：3）比率估计考虑对总体均值采用以群大小为为辅助变量的比率估计。的比率估计为：，有偏的，但当大时，偏倚很小，可看成是近似无偏的。方差近似为：方差的估计：4）总体比例的估计总体比例的估计可采用：方差为：方差的估计为：（2）对群进行不等概抽样群的抽取是按与成比例的放回抽样抽取的。总体总和的估计采用汉森赫维茨估计量：，且为无偏。总体总和的方差为：方差的估计：三、群内相关系数和设计效应群内相关系数（interclass correlation coefficient）表示同一群内不同次级或基本单元的变量值对总体均值的离差乘积的期望值与总体中所有次级或基本单元变量值对总体

42、均值离差平方的期望值之比。整群抽样的设计效应为：，可知为了获得同样的精度，整群抽样的样本量是简单随机抽样的倍。第八章系统抽样基本内容在实际的工作中，系统抽样是一种被广泛采用的抽样方法。系统抽样比简单随机抽样易于操作，但是抽样误差的估计比较复杂，本章主要讨论以下几个问题：1、概念及实施方法；2、参数估计量及其性质。一、系统抽样的概念及实施方法（一）定义系统抽样：设总体中的个单元按某种顺序（通常是按某种规律排列，但也可以是随机排列的）编号为。如抽样程序是首先抽取一个或一组起始单元的编号，然后按某种确定的规则选取其它单元的编号，直到满个为止，则这种抽样称为系统随机抽样，简称系统抽样。等距抽样：设

43、总体中的个单元按某种顺序（通常是按某种规律排列，但也可以是随机排列的）编号为。如抽样程序是先按简单随机抽样方式抽取一个起始单元的编号，然后按照固定的间隔选取其它单元的编号，直到满个为止，则这种抽样称为等距系统抽样，简称等距抽样。直线等距抽样：假设总体单元数为，样本容量为，且总体中的个单元已按某种确定顺序编号为。如抽样程序时先从头个单元编号中随机抽出一个单元编号，然后每隔个单元编号抽出一个单元编号，直到抽出个单元编号为止，则这种等距抽样称为直线等距抽样。圆形等距抽样：假设总体单元数为，样本容量为，总体中的个单元已按某种确定顺序编号为，如将这些编号看成首尾相接的一个环，并从1到中按简单随机抽样方式抽取一个单元编号作为随机起点，然