第11章调查中的非抽样误差.ppt
《第11章调查中的非抽样误差.ppt》由会员分享,可在线阅读,更多相关《第11章调查中的非抽样误差.ppt(41页珍藏版)》请在三一办公上搜索。
1、第11章 调查中的非抽样误差(non-sampling error),抽样误差 非抽样误差抽样框误差 无回答误差 计量误差,本章结构,11.1 引言11.2 抽样框误差11.3 无回答误差(补充敏感问题调查)11.4 计量误差11.5 离群值的检测和处理,学习目标,理解调查中的误差来源掌握抽样框误差的类型及不完善抽样框的使用掌握无回答误差的来源、影响及弥补措施掌握敏感性问题调查模型了解计量误差的来源,11.1 引言,一、概念抽样误差(sampling error)是由于样本的随机性引起的样本统计量的数值与总体目标量真值之间的差异。它随着样本容量的增大而减小。非抽样误差(non-sampling
2、 error)是指除了抽样误差之外,由于其他各种原因而引起的误差,是所有调查都可能存在的误差。,非抽样误差的特点,1、具有普遍性,由于它不是由于样本的随机性带来的,因而它不随样本容量的增大而减小;2、非抽样误差的存在往往造成估计量的有偏(如:无回答);3、具有隐蔽性,难以识别或测定;4、产生原因复杂。,非抽样误差的产生,1、可能在调查及抽样设计阶段产生,如:问卷设计不合理造成词义含糊;抽样设计中抽样框不完善(这是一个重要原因);抽样设计中使用了不准确的辅助信息等等;2、可能在数据采集阶段产生,如:无法找到被调查者或被调查者不在家或者不愿意接受调查(无回答是数据收集阶段产生非抽样误差的主要原因)
3、;3、可能产生在数据处理与分析阶段,如:对数据的审核、整理、编码及录入引起误差。,非抽样误差的分类,按照来源、性质分三类:(1)抽样框误差抽样框不完善;(2)无回答误差没有从调查单元获得调查结果,造成数据的缺失;(3)计量误差所获得的数据与其真值之间不一致。,11.2 抽样框误差,一、概念:1、抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。2、理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。3、现实中完善的抽样框往往难以得到,二、抽样框误差的类型及影响,(一)类型1、丢失目标总
4、体单元(少或漏),这种误差不易被察觉,可能造成总量估计偏低,均值估计有偏;2、包含非目标总体单元(多),容易造成总量估计偏高,但比较容易察觉;3、复合连接(重复),指抽样框中的单元与目标总体单元不完全一一对应,一个抽样框单元与多个目标单元连接或一个目标单元与多个抽样框单元连接,如:入户调查中常出现的一门多户或一户多个住处等等;4、不正确的辅助信息,有些抽样如分层臭氧、比率估计和回归估计等等需要辅助信息,若信息不完全或不正确就会影响抽样效果。,(二)对抽样框的一些基本认识,1、建立抽样框事先要做好充分的研究和资料搜集2、抽样框的维护、使用需要不断总结与研讨3、有些不完善的抽样框还可以使用,但是需
5、要一定的财力、人力来修补、调整;4、抽样框误差有时会被解释成其他形式的误差,(三)抽样框误差的影响,只对丢失目标总体单元的抽样框引起的误差进行分析:1、对总体总和的估计(1)总体总和的真值(2)总体总和的样本估计值(3)偏倚(4)相对偏倚,分析,1、总体总和和估计的相对偏倚取决于r和 W0两个因素。2、r=1即丢失单元均值与抽样框单元均值相等时,相对偏倚为-W03、r1,相对偏倚的绝对值也小于W0的绝对值。,2、对均值估计的影响,(1)在抽样框存在丢失单元时,均值的估计为:(2)估计量的偏倚为:(3)相对偏倚为:,分析,1、r=1,丢失单元均值和抽样单元均值相同时,估计量是目标变量的无偏估计;
6、2、偏倚状况随着r的变化而变化。r1估计偏低,r1估计偏高。,三、不完善抽样框的使用,(一)实行连接在调查方案设计阶段制定一定的规则,使没有包含在抽样框中的目标单元与包含在抽样框中的单元相连接。如:对不在抽样框中的学生与被抽中的学生实行连接(二)惟一连接对于抽样框中存在的复合连接,在方案设计中规定只有唯一的单元被抽中。,(三)使用多个抽样框设样本来自A、B两个抽样框,两个抽样框的单元总数分别为NA,NB,目标总体被分成三个部分:区域a、区域b、区域ab1、利用抽样框A的样本对区域a、区域ab进行事后分层的总和估计为:2、利用抽样框B的样本对区域b、区域ab进行事后分层的总和估计为:,3、目标总
7、体的总和估计为:其中WA,WB为适当的权数,且WA+WB=14、估计量的方差近似表达为:其中,、分别为重叠部分的单元占抽样框单元的比例:,5、结合调查费用来确定各抽样框的样本量na、nb和权数WA总费用函数为:在总费用给定的条件下使总方差最小的最优抽样比为:权数分别为:,11.3 无回答误差,一、概念1、无回答误差是指在调查中由于各种原因,调查人员没有能够从入选样本的单元获得所需要的信息,由于数据缺失而造成的估计量的偏误。2、无回答从内容来看分为单元无回答和项目无回答。所谓单元无回答是指被调查单元没有参与或拒绝接受调查而造成数据缺失;项目无回答指被调查者虽然接受了调查但是有些项目没有回答。3、
8、无回答从性质上分为有意无回答和无意无回答。有意无回答往往是因为对内容反感或涉及个人隐私不愿意回答,它对数据质量产生很大的影响;而无意无回答往往是被调查者生病、不在家或很忙无法接受调查。,二、无回答产生的原因及影响,在数据收集过程中都可能产生无回答误差:1、查找阶段由于地址不详或已经搬迁而无法找到被调查者,调查者不熟悉地址等等;2、接触阶段被调查者由于客观原因无法接受调查或由于主观原因不愿意接受调查;3、采访阶段,被调查者对于某些问题不愿意提供答案或调查人员粗心遗漏一些项目或调查中断等等。,将总体分为“回答层”和“无回答层”1、总体均值为:2、从总体中抽取容量为n的简单随机样本,n1来自“回答层
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11 调查 中的 抽样误差
链接地址:https://www.31ppt.com/p-5829182.html