五章节抽样调查.ppt
第五章抽样调查,1,第五章 抽样调查,本章内容第一节 抽样调查的意义 第二节 抽样调查的基本概念及理论依据第三节 抽样平均误差 第四节 总体指标的推断第五节 抽样方案设计,下一页,返回目录,下一页,第五章抽样调查,2,通过学习,让学生了解抽样调查的概念、特点和应用范围、全及总体与抽样总体、全及指标与抽样指标、抽样方法、抽样调查的理论依据,了解与掌握抽样误差的概念、意义、影响抽样平均误差的因素、抽样平均误差的计算等,掌握总体指标的推断和总体参数的估计。,第五章抽样调查,3,引导案例:随机原则是抽样调查的精髓1936年是美国大选之年。为了预测新任总统候选人,美国文学文摘杂志收集了1000万电话用户和该杂志订户的意见,经过整理后断言兰登将以370比161的较大优势在总统选举中击败罗斯福,成为新一届美国总统。但结果是罗斯福当选了,文学文摘大丢面子。文学文摘杂志错在哪里?要估计一个鱼塘里有多少条鱼,小明同学想到了一个方法:他第一次在这个鱼塘里捞出100条鱼并做出标记,然后将它们放回鱼塘,等这些鱼差不多完全混合于鱼塘的鱼群中后,他又第二次捞出100条鱼,发现带标记的有2条,他就说这个鱼塘里大约有5000条鱼。你认为小明的说法在统计上有科学性吗?这两个案例说明:要想使估计结果靠谱,必须遵循随机原则。,第一节抽样调查的意义,一、抽样调查的概念 二、抽样调查的特点 三、抽样调查的作用,上一页,下一页,返回本章首页,一、抽样调查的概念,抽样调查是非全面调查,它是按照随机原则从调查对(总体)中抽取一部分单位进行调查,用调查所得指标数值对调查对象相应指标数值作出具有一定可靠性的的估计和推断的一种统计调查方法。我国的抽样调查应用主要有:国家和地方统计部门 一系列抽样调查制度:1%人口抽样调查、城市和农村住户调查、农产量抽样调查等。三支调查队:城市社会经济调查总队、农村社会经济调查总队、企业调查总队。,上一页,下一页,返回本节首页,其他政府部门、社会团体和学术团体 妇女生育力调查(国家计划生育委员会)公众科学素养调查(全国科协)语言与文字使用情况调查(教育部与国家语委)专业调查咨询机构 央视调查咨询中心、北京华通现代信息咨询有限公司、北京零点市场调查与分析公司等。,上一页,下一页,返回本节首页,二、抽样调查的特点,只抽取总体中一部分单位进行调查用一部分部位的指标值去推断总体的指标值抽取部分单位要遵循随机原则抽样误差可以计算,并且可以控制,上一页,下一页,返回本节首页,三、抽样调查的作用,有破坏性、不可能进行全面调查的事物可进行抽样调查全面调查实际办不到的事物可进行抽样调查节省人力、费用和时间,方式灵活可对总体进行推断,上一页,下一页,返回本节首页,第二节抽样调查的基本概念及理论依据,一、全及总体和抽样总体二、全及指标和抽样指标三、重复抽样和不重复抽样四、抽样调查的理论依据,上一页,下一页,返回本章首页,一、全及总体和抽样总体,总体概念:研究对象的全体总体的分类总体按各单位标志性质不同,可分为变量总体:各单位可用数量标志计量 无限总体:变量值无限,分为可列或连续 有限总体:变量值有限属性总体:各单位用品质标志描述总体单位数:N,上一页,下一页,返回本节首页,样本概念:将从总体中抽取的部分单位称为样本样本的大小:大样本超过30,小样本小于30样本的容量:n,上一页,下一页,返回本节首页,二、全及指标和抽样指标,总体指标:根据总体各单位标志值计算的、反映总体属性的指标。主要有:总体平均数,上一页,下一页,返回本节首页,总体方差,总体标准差,抽样指标:根据样本各单位标志值计算的、反映样本属性的指标。主要有:样本平均数,上一页,下一页,返回本节首页,总体方差,总体标准差,在属性总体中,设N1个单位具有某种属性,N0个单位不具有某种属性,则 称为总体成数,上一页,下一页,返回本节首页,称为样本成数 称为总体是非标志标准差 称为样本是非标志标准差,第五章抽样调查,15,有些社会经济现象,只表现为两种性质上的差异,例如,产品的质量表现为合格或不合格,对某一电视节目,观众表现为收看或不收看,学生成绩表现为及格或不及格等等,这些只表现为是或否、有或无的标志称为交替标志,也称作是非标志。成数。总体中,交替标志只有两种表现,我们把具有某种表现或不具有某种表现的单位数占全部总体单位数的比重称为成数。若p和q分别表示具有与不具有某种标志的成数,则同一总体两种成数之和等于1。用公式表示为:p+q=1 或 q=1-p 交替标志的平均数。交替标志表现了现象质的区别,因此计算期平均数首先需要将交替标志的两种表现进行量化处理。用“1”表示具有某种表现,用“0”表示不具有某种表现,则:,上一页,下一页,返回本节首页,第五章抽样调查,16,交替标志的标准差。,上一页,下一页,返回本节首页,注意:在有些书上,样本标准差用s表示,上一页,下一页,返回本节首页,在计算器上,有和s按钮,代表总体标准差,S代表样本标准差。在EXCEL“数据分析”“描述统计”中计算的样本方差即是按上面公式计算的。,第五章抽样调查,18,三、抽样方法抽样方法按抽取样本的方式不同分为重复(置)抽样和不重复(置)抽样。重复(置)抽样:是从全及总体抽取样本时,随机抽取一个样本单位,记录该单位有关标志表现后,把它放回到全及总体中去,再从全及总体中随机抽取第二个样本单位,记录它的有关标志表现后,也把它放回全及总体中去,照此下去直到抽选第n个样本单位。可见重置抽样时:总体单位数在抽选过程中始终不变;总体中各单位被抽中的可能性前后相同;总体中各单位有被重复抽中的可能。,上一页,下一页,返回本节首页,第五章抽样调查,19,不重复抽样:是从全及总体抽取样本时,随机抽取一个样本单位,记录该单位有关标志表现后,这个样本单位不再放回全及总体参加下一次抽选;然后,从总体N-1个单位中随机抽取第二个样本单位,记录它的有关标志表现后,该单位也不放回全及总体中去,从总体N-2个单位中抽取第三个样本单位,照此下去直到抽选出第n个样本单位。可见,不重置抽样时:总体单位数在抽选过程中逐渐减少;总体中各单位被抽中的可能性前后不断变化;总体中各单位没有被重复抽中的可能。,上一页,下一页,返回本节首页,四、抽样调查的理论依据,大数法则:随着抽样单位数的增加,抽样平均数 数 有接近总体平均数 的趋势。中心极限定理:如果总体变量存在有限的平均数和方差,则不论这个总体变量的分布如何,随着抽样单位数n的增加,抽样平均数的分布便趋于正态分布。,上一页,下一页,返回本节首页,第三节 抽样平均误差,一、抽样误差的概念二、抽样平均误差的意义三、影响抽样平均误差的因素四、抽样平均误差的计算,上一页,下一页,返回本章首页,一、抽样误差的概念,抽样误差的一般概念抽样误差是指样本指标与总体指标之间的差距。表示为、统计调查误差种类按产生的原因分,统计调查误差可分为登记性误差和代表性误差。登记性误差是指统计调查时,由于主观原因在登记、汇总、计算、过录中所产生的误差。登记性误差不论全面调查或非全面调查都可能产生。,上一页,下一页,返回本节首页,第五章抽样调查,23,代表性误差又可分为两种:系统性误差和随机误差。系统性误差又称偏差,它是由于抽样调查没有遵循随机原则而产生的误差。只要遵循随机原则就可以避免。随机误差又称偶然的代表性误差,它是指没有登记性误差的前提下,又遵循了随机原则所产生的误差。随机误差是抽样调查固有的误差。抽样误差是指这种随机误差。,上一页,下一页,返回本节首页,第五章抽样调查,24,抽样误差包括抽样实际误差和抽样平均误差两种。抽样实际误差是指某一样本指标与被它估计的总体指标产差数。抽样平均误差,从一般意义上说是所有抽样实际误差的平均水平。确切地说,抽样平均误差是所有样本指标(样本平均数和样本成数)的标准差。,上一页,下一页,返回本节首页,二、抽样平均误差的意义,抽样平均误差是一系列抽样指标的标准差。,上一页,下一页,返回本节首页,例:总体为2、3、4,从总体中按重复抽样抽出两个单位组成样本。,上一页,下一页,返回本节首页,求抽样平均误差就是求所有可 能样本平均数的标准差。用计算器求2、2.5、3、2.5、3、3.5、3、3.5、4的标准差得,即为抽样平均误差。,三、影响抽样平均误差的因素,全及总体标志的变动程度()全及总体标志变异程度大,抽样平均误差大;反之,全及总体标志变异程度小,抽样平均误差小。样本单位标志的变异程度(S)样本容量(n)的多少样本容量愈大,抽样平均误差愈小;反之,样本容量愈小,抽样平均误差愈小。抽样组织的方式有简单随机抽样、类型抽样、整群抽样、机械抽样等。,上一页,下一页,返回本节首页,四、抽样平均误差的计算,抽样平均数的抽样平均误差前面已经举例说明了直接按照可能抽样平均数求标准差的方法计算,但该方法太繁。可以证明:在重复抽样下抽样平均误差,上一页,下一页,返回本节首页,为总体标准差,n为样本单位数,在总体标准差未知,且样本单位数较大时,可以用样本标准差代替。,例:从40、50、70、80中抽取3个组成样本,在重复抽样下,求抽样平均误差。求总体标准差,直接用计算器统计功能键可以求出:,上一页,下一页,返回本节首页,求抽样平均误差,在不重复抽样下抽样平均误差,上一页,下一页,返回本节首页,为总体标准差,n为样本单位数,N为总体单位数。,例:从40、50、70、80中抽取3个组成样本,在不重复抽样下,求抽样平均误差。求总体标准差,直接用计算器统计功能键可以求出:,上一页,下一页,返回本节首页,求抽样平均误差,抽样成数的抽样平均误差 前面已经介绍过抽样成数的概念,总体成数是总体中具有某种属性的单位占所有单位的比重,用P表示,不具有某种属性的比重用Q表示;样本中具有某种属性用p表示,不具有某种属性用表示。可以证明:总体平均数=P总体标准差,上一页,下一页,返回本节首页,样本标准差,上一页,下一页,返回本节首页,求样本平均数和样本成数的抽样平均误差。,求灯泡平均使用时间、标准差和灯泡合格率(样本),上一页,下一页,返回本节首页,求灯泡使用时间抽样平均误差:在重复抽样下抽样平均误差:,上一页,下一页,返回本节首页,在重复抽样下抽样平均误差,求灯泡合格率的抽样平均误差:在重复抽样下抽样平均误差:,上一页,下一页,返回本节首页,在重复抽样下抽样平均误差,第四节 总体指标的推断,一、抽样极限误差 二、可信程度 三、抽样推断,上一页,下一页,返回本章首页,一、抽样极限误差,概念:抽样极限误差是指总体指标和抽样指标之间误差的可能范围。抽样平均数的抽样极限误差抽样成数的抽样极限误差,上一页,下一页,返回本节首页,总体范围的估计若有了抽样极限误差,则总体平均数和总体成数的可能范围可以用下式估计:抽样平均数的范围抽样成数的抽样极限误差,上一页,下一页,返回本节首页,例:要估计一批产品的合格率,从1000件产品中抽取200件,其中有10件不合格品,如果确定抽样极限误差的范围为2%,试估计产品合格率的范围。样本成数 p=190/200=95%总体成数下限=95%-2%=93%总体成数上限=95+2%=97%即该产品合格率在93%97%之间。,上一页,下一页,返回本节首页,抽样极限误差与抽样平均误差的关系抽样极限误差通常用抽样平均误差的倍数表示,即,上一页,下一页,返回本节首页,t称为概率度。,二、可信程度,可信程度是表示估计的可靠程度 如果估计区间越大,则可靠程度越大;估计区间越小,则可靠程度越小。而估计区间又与抽样极限误差有关,在一定的抽样方式下,抽样极限误差又是由概率度t决定的。因而可靠程度与t之间有一定正比关系。概率度t与概率保证程度(可靠程度)之间的关系见 表7-7。例:若概率为0.95,查表得t=1.96,上一页,下一页,返回本节首页,第五章抽样调查,43,概率度t与概率保证程度(可靠程度)之间的关系见表。,上一页,下一页,返回本节首页,三、抽样推断,抽样推断的步骤如下:计算抽样平均误差给定概率保证程度,查表得概率度t计算抽样极限误差 估计总体指标区间,上一页,下一页,返回本节首页,某灯泡厂某月生产5000000个灯泡,在进行质量检查中,随机抽取500个进行检验,这500个灯泡的耐用时间见下表:,上一页,下一页,返回本节首页,试求:该厂全部灯泡平均耐用时间的取值范围(概率保证程度0.9973)检查500个灯泡中不合格产品占0.4%,试在0.6827概率保证下,估计全部产品中不合格率的取值范围。,求解如下:计算抽样平均误差由概率保证程度0.9973,查表得概率度t=3计算抽样极限误差 估计总体指标区间,上一页,下一页,返回本节首页,p=0.4%,上一页,下一页,返回本节首页,概率保证程度为0.6827时,t=1,第五章抽样调查,48,第五节 样本容量的确定和对总量指标的推算,一、必要样本容量的确定二、总体总量指标的推算,上一页,下一页,返回本节首页,第五章抽样调查,49,一、必要样本容量的确定,影响必要样本容量的因素 总体各单位标志变异程度 即总体方差 或p(1-p)的大小。总体标志变异程度大,要求样本容量大一些;反之,总体标志变异程度小,样本容量可以小些。允许的极限误差 或 的大小 允许的极限误差越大,样本容量越小;反之,极限误差越小,样本容量越大。,上一页,下一页,返回本节首页,上一页,下一页,返回本节首页,第五章抽样调查,50,抽样方法 在其它条件相同的情况下,重置抽样比不重置抽样要抽取多一些样本单位。抽样方式 例如,采用类型抽样的样本容量要小于简单随机抽样的样本容量。抽样推断的可靠程度即概率度F(t)的大小 推断的可靠程度要求越高即F(t)越大,样本容量越多;反之,推断的可靠程度要求越低,样本容量越少。,上一页,下一页,返回本节首页,第五章抽样调查,51,必要样本容量的计算公式,重置抽样的必要样本容量 平均数的必要样本容量 由成数的必要样本容量,上一页,下一页,返回本节首页,第五章抽样调查,52,重置抽样的必要样本容量 平均数的必要样本容量 成数的必要样本容量,上一页,下一页,返回本节首页,第五章抽样调查,53,例:从某企业400名工人中随机抽取10%进行调查,获得日产零件资料如下:,上一页,下一页,返回本节首页,第五章抽样调查,54,已知样本方差s2=300要求:在不重复抽样情况下以95.45%(t=2)的可靠性估计平均每位工人的日产零件的置信区间。若在其它条件不变的情况下,使极限误差减少20%,则至少应抽多少工人进行调查。已知:N=400人,n=40人,人 件 的区间范围:214.72,225.28 人,上一页,下一页,返回本节首页,第五章抽样调查,55,二、总体总量指标的推算,直接换算法 即用样本指标或总体指标(总体平均数和总体成数)的区间估计值乘以总体单位数来推算总体总量指标的立法。样本指标值乘以总体单位数,即,PN是总体总量指标的点估计值。总体指标的区间估计值乘以总体单位数,即,是总体总量指标的区间估计值。例上,求40名工人总产零件的置信区间:40214.72,225.28=8588.80,9011.2,上一页,下一页,返回本节首页,第五章抽样调查,56,修正系数法计算差错比率 差错比率=(抽样调查数全面调查数)全面调查数100%用差错比率修正全面调查结果。,上一页,下一页,返回本节首页,第六节 抽样方案设计,一、抽样方案设计的基本原则二、简单随机抽样三、类型抽样四、机械抽样误差五、整群抽样,上一页,下一页,返回本章首页,一、抽样方案设计的基本原则,保证实现抽样随机性的原则保证实现最大的抽样效果原则,上一页,下一页,返回本节首页,二、简单随机抽样,简单随机抽样又称纯随机抽样,是按照随机的原则直接从N个总体单位中抽取n个单位作为样本。简单随机抽样最符合随机原则。,上一页,下一页,返回本节首页,三、类型抽样,类型抽样又称分类抽样,是先对总体各单位按一定标志加以分类,然后再从各类中按随机原则抽取样本,由各类内的样本组成一个总样本。将总体N分成N1、N2、Nm,从N1中抽取n1 个单位、N2中抽取n2 个单位、Nm中抽取nm 个单位组成样本。总体单位数N=N1+N2+Nm样本单位数n=n1+n2+nm,上一页,下一页,返回本节首页,四、机械抽样,机械抽样又称等距抽样,它是对总体按一定的顺序排列,每隔一定的间隔抽取一个或若干个单位,并把这些单位组成样本的一种抽样方法。机械抽样按排队的标志不同,分为无关标志排队和有关标志排队。,上一页,下一页,返回本节首页,五、整群抽样,整群抽样是将总体划分为由总体单位的组成的若干群,然后以群为抽样单位,抽取若干群作为样本,对群内所有单位进行抽样的方法。,上一页,下一页,返回本节首页,thank you very much!,谢谢!,上一页,退出,返回本章首页,