经济统计学第7章抽样调查.ppt
第七章抽样调查,2,第一节 抽样调查的意义,一、抽样调查的意义,一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。,3,二、抽样调查的适用范围,抽样调查方法是市场经济国家在调查方法上的必然选择,和普查相比,它具有准确度高、成本低、速度快、应用面广等优点。,4,1.有些事物在测量或试验时有破坏性,不可能进行全面调查。,2.有些总体从理论上讲可以进行全面调查,但实际上办不到。,3.和全面调查相比较,抽样调查能节省人力物力、费用和时间,而且比较灵活。,4.有些情况下,抽样调查的结果比全面调查要准确。,6.利用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍。,一般适用于以下范围:,5.有些调查方法可以用于工业生产过程中的质量控制。,5,第二节 抽样调查的基本概念及理论依据,(一)全及总体和抽样总体(总体和样本),全及总体:所要调查观察的全部事物。总体单位数用N表示。,抽样总体:抽取出来调查观察的单位。抽样总体的单位数用n表示。n 30 大样本 n 30 小样本,6,(二)全及指标和抽样指标(总体指标和样本指标),全及指标:全及总体的那些指标。抽样指标:抽样总体的那些指标。,7,抽样框 即总体单位的名单,是指对可以选择作为样本的总体单位列出名册或顺序编号,以确定总体的抽样范围和结构。,8,总体方差、标准差,9,抽样方差、标准差,10,抽样误差即指随机误差,这种误差是抽样调查固有的误差,是无法避免的。,第三节 抽样平均误差,11,18.3,18.3,18.26,12,抽样误差的作用:,1.在于说明样本指标的代表性大小。误差大,则样本指标代表性低;误差小,则样本指标代表性高;误差等于0,则样本指标和总体指标一样大。,2.说明样本指标和总体指标相差的一般范围。,13,二、抽样平均误差的意义及计算,抽样平均误差实际上是所有可能出现样本指标的标准差。通常用表示。,抽样平均误差的影响因素:1.全及总体标志变异程度。正比关系2.抽样单位数目的多少。反比关系3.不同的抽样组织方式。,14,1.如果是重复抽样:,在N中抽出n样本,从排列组合中可以有各种各样的样本组:,15,2.如果是不重复抽样:,16,17,18,19,三、纯随机抽样的抽样平均误差,(一)平均数的抽样平均误差,1.重复抽样,20,第五节 抽样方案设计,一、抽样方案设计的基本原则1.保证实现抽样随机性的原则2.保证实现最大化的抽样效果原则二、简单随机抽样直接抽取法、抽签法、随机数码表法三、类型抽样四、机械抽样五、整群抽样,21,第六节 必要抽样单位数的确定,第七节参数假设检验的基本概念,参数的假设检验是根据样本,对总体参数某种假设的正确性作出判断。可以分别提出两种假设:,前一种不能轻易拒绝的假设为原假设,后一种为备选假设。假设检验就是根据样本,检验 是否成立,不成立就接受备选假设。,一、基本思想:小概率原则:认为在一次实验中小概率事件几乎是不可能发生的,小概率事件的概率为显著性水平。,二、假设检验的基本内容 假设检验的规则就是把随机变量取值区间划分为两个互不相交的部分,即拒绝区域与接受区域。当样本的某个统计量属于拒绝区域时,将拒绝原假设。落入拒绝区域的概率,就是小概率,一般用显著性水平表示。,三、具体步骤 1构造假设 根据研究问题的需要提出原假设和备择假设。在统计的假设检验中,总是有原假设Ho、或估计值,相应的备择假设用H1、或 估计值。2确定检验的统计量及其分布 假设确定以后,决定是否拒绝原假设需根据某一统计量出现的数值,从概率意义上来判断,这取决于样本观察值。对于均值检验来说,当总体方差已知时,或大样本条件下,现象服从正态分布,可选用z统计量;如果在总体标准差未知,且小样本情况下,现象服从t分布,则选择t统计量。,3确定显著性水平确定显著性水平以后,拒绝区域也就随之而定。如果拒绝区域放在两侧,则称为双侧检验、双边检验或双尾检验,两边各为/2。如果拒绝区域放在曲线一侧,称为单侧检验、单边检验或单尾检验。显著性水平性的大小可根据研究问题所需要的精确程度和可靠程度而定。,4确定决策规则 决策规则通常有两种方法。一种是临界值法,即统计量与临界值z或t进行比较,通常对于双侧检验,统计量绝对值大于临界值便拒绝原假设,小于临界值便不能拒绝原假设。另一种是P值法,它是将统计量所计算的z值或t值转换成概率P,然后与显著性水平进行比较。P,不能拒绝Ho,说明所采用的检验方法不能证明样本所描述的总体与原假设所描述的总体具有显著差异。,5判断决策 在确定决策规则之后,就根据抽样观察结果,计算检验统计量的具体数值,按照决策规则作出统计决策。,四、犯两类错误的概率 第一类错误概率,“弃真”概率,第二类错误概率,“取伪”概率,,双侧检验与单侧检验(假设的形式),32,双侧检验(原假设与备择假设的确定),例如,某种零件的尺寸,要求其平均长度为10厘米,大于或小于10厘米均属于不合格建立的原假设与备择假设应为 H0:=10 H1:10,33,单侧检验(原假设与备择假设的确定),检验研究中的假设将所研究的假设作为备择假设H1将认为研究结果是无效的说法或理论作为原假设H0。或者说,把希望(想要)证明的假设作为备择假设先确立备择假设H1,34,单侧检验(原假设与备择假设的确定),例如,采用新技术生产后,将会使产品的使用寿命明显延长到1500小时以上属于研究中的假设建立的原假设与备择假设应为 H0:1500 H1:1500例如,改进生产工艺后,会使产品的废品率降低到2%以下属于研究中的假设建立的原假设与备择假设应为 H0:2%H1:2%,35,提出原假设:H0:25选择备择假设:H1:25,学生中经常上网的人数超过25%吗?(属于研究中的假设,先提出备择假设),单侧检验(例子),36,单侧检验(原假设与备择假设的确定),检验某项声明的有效性将所作出的说明(声明)作为原假设对该说明的质疑作为备择假设先确立原假设H0除非我们有证据表明“声明”无效,否则就应认为该“声明”是有效的,37,单侧检验(原假设与备择假设的确定),例如,某灯泡制造商声称,该企业所生产的灯泡的平均使用寿命在1000小时以上除非样本能提供证据表明使用寿命在1000小时以下,否则就应认为厂商的声称是正确的建立的原假设与备择假设应为 H0:1000 H1:1000,第二节 一个正态总体参数的假设检验,一个总体的检验,总体方差已知时的均值检验(双尾 Z 检验),均值的双尾 Z 检验(2 已知),1.假定条件总体服从正态分布若不服从正态分布,可用正态分布来近似(n30)2.原假设为:H0:=0;备择假设为:H1:0 3.使用z-统计量,均值的双尾 Z 检验(实例),【例】某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近似服从正态分布,其总体均值为0=0.081mm,总体标准差为=0.025。今换一种新机床进行加工,抽取n=200个零件进行检验,得到的椭圆度为0.076mm。试问新机床加工零件的椭圆度的均值与以前有无显著差异?(0.05),均值的双尾 Z 检验(计算结果),H0:=0.081H1:0.081=0.05n=200临界值(s):,检验统计量:,决策:,结论:,拒绝H0,有证据表明新机床加工的零件的椭圆度与以前有显著差异,总体方差已知时的均值检验(单尾 Z 检验),均值的单尾 Z 检验(2 已知),1.假定条件总体服从正态分布若不服从正态分布,可以用正态分布来近似(n30)2.备择假设有符号3.使用z-统计量,均值的单尾Z检验(实例),【例】某批发商欲从生产厂家购进一批灯泡,根据合同规定,灯泡的使用寿命平均不能低于1000小时。已知灯泡使用寿命服从正态分布,标准差为20小时。在总体中随机抽取100只灯泡,测得样本均值为960小时。批发商是否应该购买这批灯泡?(0.05),均值的单尾Z检验(计算结果),H0:1000H1:1000=0.05n=100临界值(s):,检验统计量:,在=0.05的水平上拒绝H0,有证据表明这批灯泡的使用寿命低于1000小时,决策:,结论:,均值的单尾Z检验(实例),【例】根据过去大量资料,某厂生产的灯泡的使用寿命服从正态分布N(1020,1002)。现从最近生产的一批产品中随机抽取16只,测得样本平均寿命为1080小时。试在0.05的显著性水平下判断这批产品的使用寿命是否有显著提高?(0.05),均值的单尾Z检验(计算结果),H0:1020H1:1020=0.05n=16临界值(s):,检验统计量:,在=0.05的水平上拒绝H0,有证据表明这批灯泡的使用寿命有显著提高,决策:,结论:,案例研究1 某企业购买金属板供应商声称金属板的厚度渐近服从正态分布,其总体均值为15毫米,总体标准差为0.1毫米。该企业随机抽取了50张金属板作为样本,测得样本均值为14.982毫米。以0.05显著性水平,能否证明供应商提供的总体均值是正确的。,提出假设:原假设:Ho:=15;备择假设:H1:15。统计量:由于总体服从正态分布且总体标准差已知,选z作为统计量。又因为如果样本均值显著大于或小于15,都拒绝原假设,故该检验是双侧检验。确定显著性水平:根据题意可知显著性水平为=0.05。,决策规则 根据显著性水平可得下图。从图可以看出,临界值为1.96,所以,统计量绝对值如果大于1.96,则落入拒绝区域,拒绝原假设。同样,如果统计量的P值小于a,则落入拒绝区域,拒绝原假设。,案例1判断决策 在这个检验中,“不能拒绝”原假设是因为样本均值与假设总体均值(15)非常接近,它的离差可以通过概率(P值)大于显著性水平来解释。当样本均值为14.982时,它很接近供应商提供的总体金属板的均值,所以经过检验得出的结论是:没有证据证明供应商提供的总体均值是不正确的。,案例研究2:运输天数单侧检验,某邮递家具公司收到了许多客户关于不按期送货的投诉。该公司怀疑责任在于他们雇用的货物运输公司。货物运输公司保证说它们的平均运输时间不超过24天,标准差为1.5天。家具公司随机抽选50次运输记录,得知样本均值为24.9天试以0.01的显著性水平对货运公司的保证作出判断。,提出假设:原假设:Ho:24;备择假设:H1:24统计量:由于总体标准差已知,所以可以选z作为统计量。又因为如果样本均值大于24,便拒绝原假设,则该检验是单侧检验。确定显著性水平:根据题意可知显著性水平为a=0.01。,决策规则:根据显著性水平可得下图。从图中可以看出,临界值为2.33,所以,统计量绝对值如果大于2.33,则落入拒绝区域,需拒绝原假设。同样,如果统计量的P值小于a,则落入拒绝区域,需拒绝原假设。,案例2判断决策 运输公司的保证是不可信的,平均运输时间可能超过24天。假如总体均值为24,从随机抽取的50个样本中,得到的均值为24或更大,如此之高的样本均值是不可能用偶然因素来解释的。,