第九章 复杂样本的方差估计ppt课件.ppt
《第九章 复杂样本的方差估计ppt课件.ppt》由会员分享,可在线阅读,更多相关《第九章 复杂样本的方差估计ppt课件.ppt(102页珍藏版)》请在三一办公上搜索。
1、第一节 概述,重抽样(复制样本),泰勒级数,广义方差函数,典型抽样方法?复杂设计:多种抽样方法结合,多种抽样框复杂估计:非线性,无回答调整,加权估计,事后分层,第二节 随机组法,一. 什么是随机组法(Random Group Method) 不同的名称: replicate samples 重复样本 ultimate cluster 末级群 交叉样本 等 不同的术语来自于不同的应用。,无偏估计,全样本估计,保守估计,利用随机组方法估计拒答率及其方差,样本,样本,拒答户数,合格调查户数,拒答户数,合格调查户数,172个抽屉 64张卡片,卡片可能是可能是合同汽车旅馆、饭店、空白卡片等 1总体中约有
2、5000个合同汽车旅馆,并准备抽取约700个单元作总样本,这样,总抽样比约为700/5000,即约7个里面抽1个。所以,每一个抽屉都各增加6张空白卡片,这样每个抽屉都有70张卡片。2从每一个抽屉中随机抽取一张卡片,组成一个172张卡片的样本。抽样在不同的抽屉中是互相独立的。 3按照第2步的方法有放回地再抽取9个样本,10个样本(或随机组) 互相独立。 4结果有854个汽车旅馆被抽入总样本,向每一个单元寄一张调查表。其他单元不是合同汽车放馆,不属于被调查总体。没有单元被重复观测。 510天后,对无回答的单元第二次寄调查表,再过一星期第三次寄调查表。如果一个单元24天后仍无返回调查表,就被认为是无
3、回答者。 6将无回答者按随机组的数字顺序排列,并从每3个相邻组中随机抽选一个。忽略对随机组估计量独立性的破坏。,总数,= 70(16+31) = 1330,权数:入样概率倒数,= 7094= 6580,第一随机组中回答者和无回答者子样本的求和,实际应用中很难实现多次有放回抽样,而是把一次样本随机分为k个随机组,所以随机组相互不独立,4 多阶段抽样:来自同一初级抽样单元(PSU)的所有基本样本单元的集合:末级群。随机组是通过将所有末级群分成组而得到的,具体的划分方法根据第一阶抽样方法而定。5如果采用的是二重抽样,则应将第一重样本划分成个随机组;而第二重样本则被相应地分成随机组,即第二重样本单元所
4、在的随机组完全由第一次划分时决定。,在许多大规模调查中偏差通常都不会很大,随机组问题的讨论涉及两个主要问题: 1. 估计量 的方差 2.估计量方差 的精度,即对随机组方差估计 的质量评估。,当N,n很大,抽样比很小时,也可用于不独立随机组,(1),峰度,由(1)式看出, 近似地反比于随机组个数K,定理说明CV依赖于两个因素, 和K 1. K小,CV则大 2. 大,CV也大,说明,方差的随机组估计的精度,不但依赖 k,而且与 的,分布(从而与 )有关。令m=n/k,如取采用有放回简单随机抽样,取 为a组的样本均值,则,这时,若抽样方式为放回PPS抽样,取 为第a组的总体总和的估计量,则,上述两种
5、形式蕴含了这样一个事实,从本质上讲, 的形式。,m从1开始增长时,峰度明显减少,但随m越来越大,峰度的递减作用减少,因此对越来越大的m,峰度的边际递减不足以弥补必要的k的递减,K对减少CV和提高方差估计精度比组容量m更重要。,要满足需要的精度水平,需要什么样的m和k? 估计 听取专家意见根据经验判断,K增长时费用会增加,因此最优k的选择应该在费用约束下寻找,总结:随机组方法,优点:计算简单,适用面广适于多参数、非参数问题,适于分中位数等非平滑函数,也可用于非抽样误差加权调整后的方差估计。缺点:随机组数目一般较少,方差估计不稳定,一般至少10个随机组。随机组的产生较困难:要求机制与复杂抽样相同,
6、而且限制随机组数目,如每层2个PSU,Resampling and replication methods,Sampling:“population”Subsamples (WR ):估计方差Banlanced Repeated ReplicationJacknifebootstrap,半样本法:50年代末美国普查局的W. N. 赫维茨和M. 格尼平衡半样本法 :麦卡锡,Banlanced Repeated Replication,第三节 平衡半样本方法,半样本基本原理每层只抽两个单元的分层抽样 随机组方法,随机组缺点?由于仅仅一个自由度,其稳定性比标准估计量差 半样本:从每层抽取一个单元形成
7、半样本,总共可能出现?个半样本 半样本之间是彼此相关的,半样本估计量,=1,如果第h层中第一个单元被选入第 个半样本; = 0,否则。,半样本估计量的性质,平衡半样本,一个小的半样本子集(k)尽量保留所有的信息,满足该条件的k个半样本为平衡半样本,完全正交平衡(full orthogonal balance)半样本,满足该条件的平衡半样本称为完全正交平衡半样本,完全正交平衡半样本 :k的选择应该是大于L的4的最小整数倍,部分平衡半样本,假设有L层,采用K组半样本 L层可分为G群 各群用同样方法 构造正交列,部分平衡半样本的方差估计量虽然不如完全平衡半样本精确,但也是无偏的。,用于多阶段抽样,在
8、L层中的每一层初级抽样单元(PSU)都是按放回的抽样抽取的,用于非线性估计,对于非线性估计量,一般 和 是不等的,但多数调查实践中两者非常接近,推广,nh = 1nh 2,第四节 Jackknife方法,Pseudo value,PPS例,前面srs+wr例,当k=n时,由于第j个虚拟值为平均值中的第j个变量,因此有,Jackknife的虚拟值为 Jackknife的估计量为 在非线性估计条件下,,拒答率案例,第五节 其他方法简介,一、bootstrap(Efron,1979),SRS,n, ”population”,resamples,假设S是一个容量为n的简单随机样本;将S视为总体,从中再
9、抽取重复样本。如果样本与总体确实相似如果样本的经验概率密度函数(epmf)与总体的概率密度函数相似那么从经验概率密度函数中产生的样本应该与从总体中抽取的样本表现出相同的特性。WR,WOR优势:非平滑函数,方便的构造置信区间,例,利用文件ht.srs中的样本,用bootstrap方法估计身高中位数的方差。总体中身高的中位数是168;而ht.srs中样本中位数是169。总体概率密度函数与样本柱状图有相同的形状,因此预期从S中放回地抽取容量为n的简单随机样本,与从总体中放回地抽取的简单随机样本是类似的。从S中抽取的重复样本可能与S并不完全一致,因为重复样本是放回的S中的有些观测值可能在重复样本中多次
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九章 复杂样本的方差估计ppt课件 第九 复杂 样本 方差 估计 ppt 课件

链接地址:https://www.31ppt.com/p-1876158.html