六章抽样估计课件.ppt
《六章抽样估计课件.ppt》由会员分享,可在线阅读,更多相关《六章抽样估计课件.ppt(123页珍藏版)》请在三一办公上搜索。
1、第六章 抽样估计,第六章 抽样估计,主要内容,1.抽样估计概述2.抽样误差3.抽样估计的方法4.样本容量的确定,主要内容1.抽样估计概述,设计抽样方案,定义总体及样本,选择抽样框,选择抽样方法,确定样本容量,抽样调查的程序,进入调查阶段,设定选选确抽样调查的程序进,选 择 抽 样 框,抽样框就是所有总体单位的集合,是总体的数据目录或全部总体单位的名单。根据抽样框可以重新界定总体。如抽样框是电话簿,则家庭成员总体可以被重新界定为列入电话簿中的那部分家庭的成员。,选 择 抽 样 框抽样框就是所有总体单位的集合,是总体的数据,抽 样 框,例 如:要从商学院的全体学生中抽取500名学生作为调查样本,则
2、商学院全体在校生的名单就是这次抽样的样本框;如果是从该校所有班级中抽取部分班级的全体同学作为调查样本,则此时的抽样框就是全校所有班级的名单,因为此时的抽样单位已经不再是单个的学生,而是单个的班级。,抽 样 框例 如:要从商学院的全体学生中抽取500名学生作,注 意:一般街道居委名录、企业名录、电话本、花名册、俱乐部名录、黄页簿、工商局企业登记库、行业年鉴等都是市场调查中常用的抽样框。,注 意:一般街道居委名录、企业名录、电话本、花名册、俱乐部名,1.抽样估计的概述,概念:在抽样调查的基础上,用样本的实际资料计算样本指标,并据此估计和推断总体相应数量特征的一种统计推断方法。特点:随机原则抽取;部
3、分单位推断总体;误差可算可控;基于概率的一种统计推断方法。,1.抽样估计的概述概念:,理论基础: 大数法则、中心极限定理大数法则:关于大量的随机现象具有稳定性质的法则。它论证了抽样平均数趋近于总体平均数的趋势,为抽样估计提供了重要的依据。中心极限定理:研究变量和分布序列的极限定理。如果总体变量存在有限的平均数和方差,那么不论这个总体变量分布如何,随着抽样单位数n的增加,抽样平均数的分布将趋近于正态分布。,理论基础:,抽样估计中的基本概念,(一)总体和样本(二)总体指标和样本指标(三)重复抽样和不重复抽样,抽样估计中的基本概念(一)总体和样本,总体和样本,总体:研究现象的全体,由所研究范围内具有
4、某种相同性质的全体单位所组成的整体。通常用N表示。,品质标志,数量标志,总体,属性总体,变量总体,总体和样本总体:研究现象的全体,由所研究范围内具有某种相同性,样本(子样):从总体中随机抽取出来,代表总体的那部分单位的集合。样本单位数,又称样本容量,通常用n表示。,样本容量如何确定呢?,样本(子样):从总体中随机抽取出来,代表总体的那部分单位的集,样本容量的确定,一般来讲:当 n 30,称为大样本; 当 n 30,称为小样本。,样本容量的确定一般来讲:当 n 30,称为大样本,样本容量,调查误差,调查费用,小样本容量节省费用但调查误差大,大样本容量调查精度高但费用较大,找出在规定误差范围内的最
5、小样本容量,确定样本容量的意义,找出在限定费用范围内的最大样本容量,样本容量调查误差调查费用小样本容量节省费用但调查误差大大样本,总体指标和样本指标,总体指标:根据总体中各单位的标志值或标志属性计算的,反映总体数量特征的综合指标。,总体是唯一确定的,总体指标的数值也是唯一确定的,样本数据(已知) 总体指标(未知),总体指标和样本指标总体指标:根据总体中各单位的标志值或标志属,统计推断,总体指标:参数(未知量),样本总体指标:统计量(已知量),总体是唯一确定 的,样本总体不唯一,注 意,统计推断总体指标:参数(未知量)样本总体指标:统计量(已知量,设总体变量X为:X1,X2,X3,XN,则有:,
6、或,或,对于变量总体,常用的总体指标有总体平均数 、总体标准差,设总体变量X为:X1,X2,X3,XN,则有:或或对于变量,对于属性总体,最常用的指标是成数。 总体成数表示总体中具有某种性质的单位数在总体全部单位数中所占的比重,以P表示;总体中不具有某种性质的单位数在总体全部单位数中所占的比重则以Q表示。,设总体N个单位中,有N1个单位具有某种性质,N0个单位不具有某种性质,N1+ N0=N,则有:,,,对于属性总体,最常用的指标是成数。 设总体N个单,样本指标:根据样本各单位标志值或标志属性计算的综合指标,也称统计量,它是来估计和推断总体参数的。与总体指标相对应,有样本平均数、样本成数及样本
7、标准差等。,样本指标:根据样本各单位标志值或标志属性计算的综合指标,也称,设样本变量x的观察值为:x1,x2,xn,则:,样本平均数:,样本标准差:,样本方差:,样本成数:,或,或,或,样本成数的标准差:,设样本变量x的观察值为:x1,x2,xn,则:样本平均数,重复抽样,又称作重置抽样、有放回抽样,抽出个体,登记特征,放回总体,继续抽取,特点,同一总体单位有可能被重复抽中,而且每次抽取都是独立进行,重复抽样又称作重置抽样、有放回抽样抽出登记放回继续特点同一总,不重复抽样,又被称作不重置抽样、不放回抽样,抽出个体,登记特征,继续抽取,特点,同一总体中每个单位被抽中的机会并不均等,在连续抽取时,
8、每次抽取都不是独立进行。,是最常用的抽样方法,用于无限总体和许多有限总体样本单位的抽样。,不重复抽样又被称作不重置抽样、不放回抽样抽出登记继续特点同一,名 称样 本总 体定义从总体中抽出的部分单位研究对象的全部单,1. 纯随机抽样(简单随机抽样) 对总体不做任何分类或排序,完全按随机原则抽样。 适用范围: 总体规模不大,内部差异较小。例:一个班组有A、B、C、D、E 5个工人,随机抽取2个工人的日工资数作为了解整个班组平均工资水平的样本。 可能的结果是,有放回抽样:25个样本不放回抽样:20个样本,随机抽样设计,1. 纯随机抽样(简单随机抽样)有放回抽样:25个样本随机抽,2. 等距抽样(机械
9、抽样或系统抽样) 将总体按某一标志值顺序排列,然后相等距离或相等间隔抽取样本单位。 间隔距离: N:总体单位数 n:需要抽取的样本单位数 例:从某企业5000名职工中抽取100人进行家庭收入水平调查。 样本的距离= 起点的选择:按姓氏排序,在第一个间隔中随机选取。,2. 等距抽样(机械抽样或系统抽样)排序标志无关标志,优点: 1.能保证被抽取的单位在总体中均匀分布 2.能使抽样过程简化 应用中的注意事项: 注意抽样间隔或样本距离和现象本身的节奏性和循环周期相重合的问题,第六章抽样估计课件,3. 类型抽样(分类抽样或分层抽样),先将总体中的所有单位按某个标志分组,然后从各组按纯随机抽样或等距抽样
10、方式抽样。采用这种方法,由于各单位之间的差异因划类或分层而缩小,这就比较容易选出有代表性的样本 适用范围:总体情况复杂,各类型或层次之间的差异较大而总体容量又较大。,优点:比简单纯随机抽样更精确,能以较少的抽样单位数得到较准确的推断结果。特别是当总体各单位变量值大小悬殊、各组标志变动程度很大时,划分类型能保证各组都有选中的机会。,3. 类型抽样(分类抽样或分层抽样) 先将总体中的所,类型抽样分类,类型比例抽样:按统一的比例来确定各类型组应抽选的样本单位数,即各类型中抽取的样本单位数 占各类型组所有单位数 的比例是相等的,等同于样本单位总数 n 占总体单位数 N 的比例类型适宜抽样:考虑各类型标
11、志变动程度 不同,变动程度大的组要多抽样,变动程度小的类型组可少抽样,使得各类型组的变动程度 在所有类型变动程度之和 中的比例相同,等同于 或,类型抽样分类类型比例抽样:按统一的比例来确定各类型组应抽选的,例:某项粮食播种面积20000亩,其中有平原和山区两种地形。以类型抽样的方法了解平均粮食产量。,类型抽样确定各组样本的方法:,地形全部面积(Ni)样本面积(ni)平原 14000,4. 整群抽样 将总体按某个标志分为多个群,按纯随机抽样方式或等距抽样方式,抽取若干群,然后对所抽中的各群中的全部单位一一进行调查。 适宜范围:不适合单个抽样的场合,就可采用整群抽样方式。 优缺点:调查方便,但抽样
12、误差较大。 例:从某县100个村中抽出10个村,进行全面调查,就可以大致了 解农村家庭副业发展情况。,总群数 R =13,C DG K,样本数 r =4,样本容量,n=nc+nd+ng+nk,4. 整群抽样总群数 R =13C D样本数 r =,5. 多阶段抽样 总体包含的单位很多,分布很广,要通过一次抽样抽选样本很困难,此时,可以将其分成若干阶段,然后逐阶段进行抽样,以完成整个抽样过程。 特点:多个阶段、多种方法综合抽样,优点是降低抽样成本。 例:对某山区的林采蓄积量作抽样调查。将总体50块面积相等的地划为10个区,每个区包括5个地块。采用两阶段抽样,先从10个区选中30%,再从选中的区域中
13、抽取60%的地块组成样本进行调查。,第六章抽样估计课件,2.抽样误差,抽样误差地概念抽样误差的侧度,2.抽样误差抽样误差地概念,-指所选取的样本的结果不能完全代表总体而导致的误差。,抽样误差,误差种类,样本单位的结构与总体单位结构分布不一致而产生的误差。,-指所选取的样本的结果不能完全代表总体而导致的误差。抽,三种误差的区别:,登记误差:由于人的主观失误在观察、登记、计算时造成的误差,可以避免。系统性误差:由于有意识选取调查单位造成的系统偏差,理论上可以避免。随机误差:由于按照随机原则抽取样本而产生的误差,无法避免但可以控制。,因 此:理论上讲,抽样误差一般指随机误差,而不包括登记性误差和系统
14、性偏差。,三种误差的区别:登记误差:由于人的主观失误在观察、登记、计算,影响抽样误差的因素,总体各单位的差异程度: 标准差越大,抽样误差越大; 样本单位数的多少: n 越大,抽样误差越小; 抽样方法:不重复抽样比重复抽样小; 抽样组织方式:简单随机抽样最大。,影响抽样误差的因素 总体各单位的差异程度:,抽样误差的侧度,(一)抽样实际误差(二)抽样平均误差(三)抽样极限误差,抽样误差的侧度(一)抽样实际误差,抽样实际误差,在一次具体的抽样调查中,由随机因素引起的样本指标与总体指标之间的离差。 抽样实际误差是无法计算的。同时,抽样实际误差仅仅是一系列可能出现的误差数值之一,因此,抽样实际误差没有概
15、括所有可能产生的抽样误差。,抽样实际误差 在一次具体的抽样调查中,由随机因素引起的样,抽样平均误差,反映抽样误差一般水平的一个指标。是指抽样平均数的标准差或抽样成数的标准差。设以 表示样本平均数的抽样平均误差,以 表示样本成数的抽样平均误差,M表示全部可能的样本数目,则有:,抽样平均误差反映抽样误差一般水平的一个指标。,(例题分析),【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。总体的均值、方差及分布如下,均值和方差,(例题分析)【例】设一个总体,含有4个元素(个体) ,即总体,(例题分析), 现从总体中抽取n2的简单
16、随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,(例题分析) 现从总体中抽取n2的简单随机样本,在重复,(例题分析), 计算出各样本的均值,如下表。并给出样本均值的抽样分布,(例题分析) 计算出各样本的均值,如下表。并给出样本均值,(例题分析), = 2.5 2 =1.25,总体分布,(例题分析) = 2.5 总体分布14230.1.2,在实际抽样调查中,总体单位数N常常很大,样本单位数n一般也不小于30,由此产生的所有样本数目是极大的,不可能抽完所有可能的样本;同时,在开展抽样调查之前,总体指标是未知的。因此,实际工作中,定义式缺乏可操作性。,在实际抽样调查中,总体单位数
17、N常常很大,样本单位,抽样平均误差,1.平均数的抽样平均误差(1)在简单随机重复抽样条件下:式中: 代表总体标准差,n代表样本单位数。(2)在简单随机不重复抽样条件下:,修正因子1,故不重复抽样的抽样平均误差总是小于重复抽样的抽样平均误差。,抽样平均误差1.平均数的抽样平均误差修正因子1故不重复抽样,当总体单位数N足够大的情况下,不重复抽样的抽样平均误差可以采用其近似公式计算:,当总体单位数N足够大的情况下,不重复抽样的抽样平均误差可以采,2.成数的抽样平均误差(1)在简单随机重复抽样条件下:(2)在简单随机不重复抽样条件下:,2.成数的抽样平均误差,上述公式中计算时需要注意:公式中的参数都是
18、总体指标,在实际应用中,选取的抽样估计方法。,上述公式中计算时需要注意:公式中的参数都是,第一,在大样本下,可用样本的标准差S代表总体标准差 ,用样本成数p代表总体成数P;小样本下,总体标准差 用修正的样本标准差S*代替,其计算公式为:,第一,在大样本下,可用样本的标准差S代表总体标准差,第二,若过去进行过同样的调查,可用过去的总体标准差 代替现在的总体标准差 ,用过去的总体成数P代替现在的总体成数P.,第二,若过去进行过同样的调查,可用过去的总体标准差 代,抽样极限误差,由于抽样只是从所有可能样本的角度来度量的抽样误差的一般水平,而任意一次抽样的实际抽样误差可能大于其抽样平均误差,也可能小于
19、其抽样平均误差。 在抽样估计中,不仅需要计算抽样平均误差,还需要了解在一定可能性下抽样误差的可能范围。,抽样极限误差 由于抽样只是从所有可能样本的角,定义:指的是样本指标与总体指标之间的误差范围。用 和 分别表示样本平均数和样本成数的抽样极限误差,则有:,定义:指的是样本指标与总体指标之间的误差范围。用 和,抽样极限误差是一个可能而非完全肯定的范围。因此这个可能范围的大小是可能大小的相对应。在抽样估计中,表示这个可能性大小的概念叫做置信度(又称可靠程度、把握程度、概率保证程度等),通常用(1- )表示。,抽样极限误差是一个可能而非完全肯定的范围。因此这个可能范围的,1.在大样本下,样本平均数
20、服从以总体平均数 为中心的正态分布,该分布的标准差就是抽样平均误差 。,68.2%95.45%99.73%,样本平均数落在的范围,可能性大小,1.在大样本下,样本平均数 服从以总体平均数,平均数的抽样极限误差可以用抽样平均误差的倍数来度量,其计算公式:同理,也可以得到在大样本条件下成数的抽样极限误差的计算公式为:,平均数的抽样极限误差可以用抽样平均误差的倍数来度量,其计算公,168.27%295.45%399.73%1.9695%1.,置信度(1- )越大, 越大,抽样极限误差也就越大,抽样估计的精确度也就越低,所以在抽样估计中,要求达到100%的置信度是不太可能的。另一方面,置信度小了,估计
21、结论的可靠性太低,又会影响估计本身的价值。因此,在做估计时,应该将置信度要求与估计的精确度要求结合起来考虑。,置信度(1- )越大, 越大,抽样极限误差也就越,在小样本条件下,要用修正的样本方差来估计总体方差。这时,有关的抽样分布不再是标准正态分布而是一个t分布。t分布依赖自由度,随自由度的增大,t分布逐渐趋于标准正态分布,在小样本条件下,要用修正的样本方差来估计总体方差。这时,有关,t 分布的图形(红色的曲线是标准正态分布),n = 1,n=15,n =2,不同的样本容量对应不同的自由度,因此对应的 t 分布也不同。,自由度概念,可以自由选择的数值的个数。,t 分布的图形(红色的曲线是标准正
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 估计 课件
链接地址:https://www.31ppt.com/p-2001914.html