抽样推断统计学.ppt
《抽样推断统计学.ppt》由会员分享,可在线阅读,更多相关《抽样推断统计学.ppt(189页珍藏版)》请在三一办公上搜索。
1、第九章 抽样估计,一、抽样调查的概念 又称为抽样推断,是指按照随机原则从总体中抽取部分样本单位进行调查,利用这部分单位的实际资料计算样本指标,并据以推算总体相应指标的一种统计方法。,第一节抽样调查的概念及作用,抽样调查是一种非全面调查目的在于推断总体的数量特征3.抽样必须遵循随机原则4.抽样调查必然存在可控误差,二、抽样调查的特点,三、抽样调查的作用,对于不可能进行全面调查,但又需要掌握其全面情况的现象,只能采取抽样调查的 方式。2.对于理论上存在全面调查的可能性,但实际中却不可能进行或经济上不合算或资料的质量无法保证的现象,只能采用抽样调查。3.对于某些时效性要求较高的调查,往往采用抽样的形
2、式。4.抽样调查能满足经济性的要求。5.抽样调查可以补充和修正全面调查的结果,1.全及总体:也称母体,简称总体,指所要认识的研究对象全体。它是由所研究范围内具有某种共同性质的全体单位所组成的集合体。2.样本总体:又称子样,是从总体中抽取出来,作为代表这一总体的那部分单位组成的集合体。,第二节抽样推断的一般问题,一、总体与样本,1.参数:反映总体某种属性的综合指标。是根据总体各个单位的标志值或标志属性计算的,所以参数的数据是由总体各单位标志值或标志特征决定的。2.统计量:是根据样本各单位标志值或标志属性计算的综合指标。在抽样调查中,总体参数的具体数值 事先未知,需用样本统计量来估计。,二、参数和
3、统计量,参数(总体指标):也称总体特征数,是说明总体数量特征或规律性的数字。(1)设总体单位数为N(2)X 为标志总量(3)总体平均数为:(4)总体方差,(5)总体标准差(6)PMN为总体成数 总体成数方差、标准差。,统计量(样本指标),(1)样本容量为n(2)x 称为样本标志总量(3)样本平均数:(4)样本方差(5)样本标准差(6)pmn 称为样本成数 总体成数方差、标准差,主要样本统计量,平均数比率(成数)方差,均值分布的数学期望和方差,抽 样 方 法 均 值 方 差,(1)从无限总体抽 样和有限总体放回抽样,(2)从有限总体不放回抽样,抽样误差,成数分布的数学期望和方差,抽 样 方 法
4、均 值 方 差,(1)从无限总体抽 样和有限总体放回抽样,(2)从有限总体不放回抽样,根据中心极限定理,只要样本足够大,的分布就近似正态分布。(np和nq大于5时),抽样误差,1.重复抽样和不重复抽样,三、抽样方法和样本可能数目,重复抽样:也称重置抽样。指从一个总体N个单位中每次抽取一个单位,把结果登记下来,又重新放回原总体,参加下一次抽取。,不重复抽样:也称不重置抽样。指每次从一个样本中抽取一个单位,连续进行n次抽取构成一个样本,但每次抽出的单位就不放回参加下一次抽取。,2.考虑顺序抽样和不考虑顺序抽样,考虑顺序抽样:指从总体N个单位中抽取n个单位组成样本,不但要考虑样本各单位的性质是否相同
5、,还要考虑不同性质各单位的中选顺序。,不考虑顺序抽样:指从总体N个单位中抽取n个单位组成样本,只考虑样本各单位的成分如何,而不考虑各单位的中选顺序。,3.把抽选方式和是否考虑样本中各单位的顺序结合起来的四种情况及其样本可能数目(M):,1)考虑顺序的重复抽样2)考虑顺序的不重复抽样3)不考虑顺序的重复抽样4)不考虑顺序的不重复抽样,1.大数定律及其重要意义,四、抽样调查的数理基础,大数定律:又称大数法则,是说明大量的随机现象的平均结果具有稳定性质的法则。说明如果被研究的总体数量特征是由大量的相互独立的随机变量形成的,而且每个变量对总体的影响都相对地小、那么对大量随机变量加以综合平均的结果,变量
6、的个别影响相互抵消,而显现出他们共同作用的倾向,使总体数量特征具有稳定性。,即:如果随机变量总体存在着有限的平均数和方差,则对于足够多的抽样单位数n,可以以几乎趋近于1的概率,来期望抽样平均数与总体平均数的绝对离差为任意小,即对任意小的正数,有,从理论上解释了样本与总体之间的内在联系,即随着样本单位数n的增加,样本平均数有接近于总体平均数的趋势,或说,样本平均数在概率上收敛于总体平均数。,大数定律对于抽样推断的重要意义,2.正态分布的有关定理,若总体很大且服从正态分布,则从该总体中抽取容量为n的样本平均 数 也服从正态分布,且其平均数等于总体平均数,标 准差(重复抽样)或(不重复抽样).而标准
7、随机变量 则服从标准正态分布N(0,1),(1)正态分布再生定理,若总体很大且变量X的平均数 和标准差 都是有限的数,但不服从正态分布,只要样本足够大(n30),样本平均数的分布就趋近于正态分布,且有,标准差(重 复抽样)或(不重复抽样)。而标准随机变量 则服从标准正态分布N(0,1).,(2)中心极限定理,第三节抽样推断的基本原理,一、抽样估计的优良标准,无偏性 一致性 有效性,评价准则,的数学期望等于总体参数,即,该估计量称为无偏估计,无偏性,有效性,当 为 的无偏估计时,方差 越小,无偏估计越有效。,一致性,对于无限总体,如果对任意,则称 是,的一致估计。,估计量,二、抽 样 误 差,1
8、.抽样误差的概念和意义抽样误差是指抽样指标与总体指标之间的离差。抽样误差不包括下面两类误差:登记性误差:在调查过程中由于观察、测量、登记、计算上的差错而引起的误差。系统性误差:由于违反抽样调查的随机原则,造成样本的代表性不足所引起的误差。,2.抽样误差的影响因素,总体各单位标志值的变异程度。在其他条件不变的情况下,总体各单位标志值的变异程度愈大,抽样误差也愈大,反之则愈小。样本单位数的多少。在其他条件不变的情况下,样本单位数愈多,抽样误差就愈小,反之则愈大。抽样方法。抽样方法不同,抽样误差也不同。一般,重复抽样的误差比不重复抽样的误差要大。抽样的组织形式。不同的抽样组织形式,有不同的抽样误差。
9、,三、抽样平均误差,1.抽样平均误差概念 样本平均数(样本成数)对总体平均数(或总体成数)的标准差。表示样本平均数的平均误差,表示样本成数的平均误差,M表示样本可能数目。则:,2.抽样平均误差的计算,当抽样方式为重复抽样时 它说明在重复抽样的条件下,抽样平均误差与总体标准差成正比,与样本容量的平方根成反比。当抽样方式为不重复抽样时,例:有5个工人的日产量分别为:6,8,10,12,14件,用重复抽样的方法,从中随机抽取2个工人的日产量,用以代表这5个工人的总体水平,则抽样平均误差为多少?,解:总体均值:总体标准差:抽样平均误差:,若用不重复抽样的方法:,在计算抽样平均误差时,通常得不到总体标准
10、差的数值,一般用样本标准差来代替总体标准差。,根据样本平均误差和总体标准差的关系,可得到样本成数的平均误差的计算公式:1.在重复抽样下:2.在不重复抽样下:,例:某企业生产的产品,按正常生产经验,合格率为90%。现从5000件产品中抽取50件进行检验,求合格率的抽样平均误差。,解:在重复抽样条件下:不重复抽样条件下:,四、抽样极限误差 抽样极限误差是指样本和总体指标之间误差的可能范围。由于总体指标是一个确定的数,而样本指标则是围绕总体指标上下波动的,它与总体指标之间既有正离差,也有负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围,我们将这种以绝对值形式表示的抽
11、样误差可能范围称为抽样极限误差。也称作允许误差、误差范围、误差置信限。,设x与p分别表示样本平均数与样本成数的抽样极限误差,则有:上述公式变换为不等式可表示成:,抽样误差的概率度把极限误差除以相应的抽样平均误差,便得到数值Z,表示误差范围为抽样平均误差的Z倍。Z是测量估计可靠程度的一个参数,称为抽样误差的概率度。其公式为:,抽样估计的置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。抽样时,估计抽样误差的范围大小称为抽样估计的精确程度;估计这一范围的概率是多少称为抽样估计的可靠程度。抽样误差范围增大时,抽样估计的置信度也大,抽样精确程度则降低,反之亦然。,四、抽样估计的置信度
12、,由于提高把握程度,会增大允许误差,使估计精度降低,而缩小允许误差,提高估计的精度,又会降低估计的把握程度,所以在实际中应根据具体情况,先确定一个合理的把握程度再求相应的允许误差或先确定一个允许误差范围再求相应的把握程度。,68.27%,95.45%,99.73%,当z=1时,F(z)=68.27%当z=1.96时,F(z)=95%当z=2时,F(z)=95.45%当z=3时,F(z)=99.73%,常用概率度Z值及相应的概率保证程度为:,六、抽样推断的方法,抽样推断的方法,即参数估计就是以所计算的样本指标来估计相应的总体指标。参数估计有点估计和区间估计两种形式。,(一)点估计,也称定值估计,
13、即直接以抽样指标值代表总体指标的估计值。通常评选估计量优良有三个标准,即:*无偏性*有效性*一致性,点估计的方法,*矩估计法*顺序统计量法*最大似然法*最小二乘法,点估计的缺点,由于一次只随机抽取一个样本,因样本不同,估计值会有很大差异,因此一次只随机抽一个样本的点估计值不能恰当代表所要估计的总体参数,即点估计的主要缺点是没有解决参数估计的精确度与可靠性问题。,(二)区间估计,对于总体的未知指标X,根据样本构造的两个统计量x1、x2,(x1x2),使随机区间(x1,x2)包含X的概率等于给定值1(01),即 P(x1Xx2)1 则称1为置信概率,也就是估计的可靠程度,也称为置信度。为显著水平,
14、(x1,x2)称为X的置信区间,x1,x2分别称为置信下限和置信上限。,根据所给条件不同有两种方法:,根据已给定的置信度的要求,利用概率表查出这个概率保证程度所对应的概率度 Z,然后结合抽样所得的抽样平均误差,最后求出抽样误差可能范围(极限误差)。2.根据已给定的允许误差范围(极限误差),然后结合抽样所得的平均误差,将极限误差除以平均误差,求出概率度 Z 值,在从概率表中查出有关 Z 值所对应的置信度F(Z).,1.总体平均数的区间估计,表达式,其中,为极限误差,步骤,计算样本平均数;,搜集总体方差的经验数据;或计算样本标准差,即,计算抽样平均误差:,重复抽样时:,不重复抽样时:,计算抽样极限
15、误差:,确定总体平均数的置信区间:,【例A】某企业生产某种产品的工人有1000人,某日采用不重复抽样从中随机抽取100人调查他们的当日产量,要求在95的概率保证程度下,估计该厂全部工人的日平均产量和日总产量。,100名工人的日产量分组资料,解:,则该企业工人人均产量 及日总产量 的置信区间为:,即该企业工人人均产量在124.797至127.203件之间,其日总产量在124797至127303件之间,估计的可靠程度为95。,【例B】某乡水稻总面积20000亩,以不重置抽样方法从中随机抽取400亩实割实测求得样本平均亩产645公斤,标准差72.6公斤。要求极限误差不超过7.2公斤,试对该乡水稻的亩
16、产和总产量作估计。,第一步:计算抽样平均误差,第二步:计算平均亩产和总产量的上下限,亩产下限=645-7.2=637.8(公斤),亩产上限=645+7.2=652.2(公斤),第三步:计算概率度,总产量下限=20000637.8=1275.6(公斤),总产量上限=20000652.2=1304.4(公斤),以95.45%保证该乡水稻平均亩产在637.8至652.2公斤之间,总产量在1275.6至1304.4万公斤之间。,(二)总体成数的区间估计,表达式,其中,为极限误差,步骤,计算样本成数;,搜集总体方差的经验数据;,计算抽样平均误差:,重复抽样条件下,不重复抽样条件下,计算抽样极限误差:,确
17、定总体成数的置信区间:,【例B】若例A中工人日产量在118件以上者为完成生产定额任务,要求在95的概率保证程度下,估计该厂全部工人中完成定额的工人比重及完成定额的工人总数。,100名工人的日产量分组资料,完成定额的人数,幻灯片 47,解:,则该企业全部工人中完成定额的工人比重 及完成定额的工人总数 的置信区间为:,即该企业工人中完成定额的工人比重在0.8432至0.9568之间,完成定额的工人总数在843.2至956.8人之间,估计的可靠程度为95。,保证抽选样本时按照随机原则进行。抽取样本单位时,应确保每个总体单位都有被抽取的可能;在对样本单位的资料进行搜集和整理时,不能随意遗漏或更换样本单
18、位。考虑样本合适的容量。要兼顾抽样组织形式和抽样方法。必须重视调查费用这个基本因素。在其他条件相同的情况下,选择费用最少的方案。,一、抽样方案设计的原则,第四节 抽样组织设计,二、抽样方案的检查(一)准确性检查 所谓准确性检查,看是否超过了方案所允许的误差的范围。若误差限小于或等于允许的误差,即:x允许误差,则说明方案的设计符合准确性的要求,可以实施。若,x允许误差,则说明方案不符合准确性的要求,就要对方案进行检查和修正,直至符合准确性的要求为止。,(二)代表性检查所谓代表性检查,是将方案中的样本指标与过去已掌握的总体同一指标进行对比,看其比率是否超过所规定的要求。,编制抽样框 确定抽样方法
19、确定抽样组织方式 确定样本容量,三、抽样方案设计的主要内容,(一)抽样框,指包括全部抽样单位的名单框架或清单表,仅对有限总体而言总体单位名称表地段抽样框,区域抽样框,在商场的大门口,在微波炉柜台前,在某个住宅小区,中山路桥西区桥东区华北地区东北地区居民一组居民二组,某公司在大连进行微波炉市场调查:,在市区街道旁边,(二)确定抽样方法,重复抽样,又被称作重置抽样、有放回抽样,抽出个体,登记特征,放回总体,继续抽取,特点,同一总体单位有可能被重复抽中,而且每次抽取都是独立进行。,不重复抽样,又被称作不重置抽样、不放回抽样,抽出个体,登记特征,继续抽取,特点,同一总体中每个单位被抽中的机会并不均等,
20、在连续抽取时,每次抽取都不是独立进行。,是最为常用的抽样方法,用于无限总体和许多有限总体样本单位的抽样。,1.简单随机抽样简单抽样也称纯随机抽样,是在总体单位均匀混合的情况下,按随机原则逐个抽出样本的抽样方法。比较适合于在总体单位标志变异较小,总体单位数不是很多的情况。,(三)确定抽样组织方式,计算样本平均数计算样本标准差计算抽样平均误差(重复)(不重复)推断。若已知置信度,对置信区间作出推断;若已知允许误差范围,对置信度作出判断。,简单随机抽样推断步骤,(1)总体平均数的推断,计算样本成数计算抽样成数方差计算成数抽样平均误差(重复);(不重复)推断。若已知置信度,对置信区间作出推断;若已知允
21、许误差范围,对置信度作出判断。,(2)总体成数的推断,重复抽样 不重复抽样,必要抽样数目的确定,(1)样本平均数给定时必要抽样数目的确定,计算结果通常向上进位,【例A】某食品厂要检验本月生产的10000袋某产品的重量,根据上月资料,这种产品每袋重量的标准差为25克。要求在95.45的概率保证程度下,平均每袋重量的误差范围不超过5克,应抽查多少袋产品?,重复抽样 不重复抽样,(2)样本成数给定时必要抽样数目的确定,【例B】某企业对一批总数为5000件的产品进行质量检查,过去几次同类调查所得的产品合格率为93、95、96,为了使合格率的允许误差不超过3,在99.73的概率保证程度下,应抽查多少件产
22、品?,【分析】因为共有三个过去的合格率的资料,为保证推断的把握程度,应选其中方差最大者,即P=93。,2.类型抽样 类型抽样又称分层抽样,是指在抽样之前,先将总体依照某种标准划分为若干互不重叠且穷尽的子总体,即每个单位必属于且仅属于一个子总体,称这些子总体为类或层,然后,在各层中独立抽取样本单位,总体样本由各层样本组成,根据各层样本汇总对总体参数作出估计。这种方式应用最为广泛。,类型抽样能使样本结构更接近于总体结构,提高样本的代表性;能同时推断总体指标和各子总体的指标。,总体N,样本n,等额抽取,等比例抽取,类型抽样分组是要遵循的原则 层内的齐一性,即被划入同一层的个 体单位要尽可能的近似。层
23、间的差距性,即在不同层内的单位 尽可能使其有较大的差异。,类型抽样的估计量和推断步骤(1)类型抽样的估计量 抽样误差的确定重复抽样下:样本平均数的平均误差:,其中,,样本成数的平均误差:其中,,不重复抽样下:样本平均数的平均误差:样本成数的平均误差:,必要抽样数目的确定 重复抽样下:样本平均数的必要抽样数目:样本成数的必要抽样数目:,不重复抽样下:样本平均数的必要抽样数目:样本成数的必要抽样数目:,(2)类型抽样推断的步骤计算各组的组平均数 其中,i=1,2,k;j=1,2,fi 计算各组的组内方差 i=1,2,k;j=1,2,fi 计算抽样的样本平均数,计算抽样样本的组内方差的平均数计算抽样
24、的平均误差(重复抽样)计算抽样推断的极限误差,或确定抽样推断的置信度F(z).,【例C】某厂有职工3300人,根据工作性质不同分为管理人员和工人两部分,其中管理人员300人,工人3000人。现按比例抽选10职工进行月工资调查,这330人的月工资资料如下表所示,要求在95的概率保证程度下(Z=1.96)对其平均收入做出区间估计。,解:计算各组平均数:各组组内方差:,样本平均数:组内方差的平均数:抽样平均误差:抽样极限误差:则该厂职工的平均月工资收入为707.27-11.39,707.27+11.39,即以95%的置信度推断该厂职工平均工资收入的置信区间为695.88,718.66。,结论,第一,
25、根据总体方差等于组间方差与组内平均方差之和的定理,所以类型抽样的平均误差一般小于简单随机抽样的平均误差,只有当组间方差等于0时,两者才相等。第二,由于总体方差是唯一确定的数值,因此在类型抽样分组时应该尽可能扩大组间方差,缩小组内方差,即各组间的差异可以大,而各组内的差异必须小,这样就可以减少抽样误差。,整群抽样也称集团抽样,是指在组织抽样调查时,将总体单位的某些特征将总体分为若干部分,每一部分称为一个群,把每一群作为一个抽样单位,按群进行抽样,然后,对抽中的群进行全面调查的组织形式。,3.整群抽样,例:总体群数R=16 样本群数r=4,样本容量,简单、方便,能节省人力、物力、财力和时间,但其样
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 推断 统计学
链接地址:https://www.31ppt.com/p-6118636.html