《抽样调查》课件.ppt
《《抽样调查》课件.ppt》由会员分享,可在线阅读,更多相关《《抽样调查》课件.ppt(87页珍藏版)》请在三一办公上搜索。
1、2023/5/30,.,第三节 抽样误差与参数估计,一、抽样误差的概念 二、抽样平均误差 三、抽样极限误差 四、抽样估计的概率度和置信度 五、参数估计方法 六、样本容量的确定,2023/5/30,一、抽样误差的概念,(一)抽样调查误差的种类(二)抽样误差的概念(三)抽样实际误差(四)抽样平均误差的概念,2023/5/30,(一)抽样调查误差的种类,(可以计算),抽样误差(随机误差),抽样实际误差.,抽样平均误差,(无法计算),2023/5/30,抽样误差的性质:1、随机误差:样本产生的随机性 2、代表性误差:样本结构不足以代表总体结构,(二)抽样误差,抽样误差概念:抽样误差(随机误差)是指由于
2、抽样的随机性而产生的样本指标与总体指标之间的离差。,抽样误差表达形式:,2023/5/30,即是指每次抽样调查所得的样本指标与总体指标之间的离差。,抽样实际误差:,它随着样本的不同而不同,是一个随机变量。,(三)抽样实际误差,它无法计算。,2023/5/30,即是指所有可能出现的样本指标与总体指标之间的平均离差,即所有可能出现的样本指标与总体指标的标准差。,抽样平均误差:,对于一个特定的总体来说,抽样平均误差可以根据数理统计方法在调查之前计算出来,还可以通过设计调查方案控制其大小。,(四)抽样平均误差的概念,2023/5/30,(一)抽样平均误差的定义公式(二)抽样平均误差的应用公式(三)影响
3、抽样(平均)误差大小的因素,二、抽样平均误差,2023/5/30,M:全部可能的样本个数,1.样本平均数的抽样平均误差,2.样本成数的抽样平均误差,(一)抽样平均误差的定义公式,2023/5/30,平均误差的定义公式只能用来解释平均误差的概念,在实际问题中无法应用。因为:首先,总体的平均数或成数通常未知;其次,也很难给出全部样本的平均数或成数。,在实际工作中,用根据数理统计理论证明推导出来的公式。,2023/5/30,(1)重复抽样:,(2)不重复抽样:,注意:在实际计算抽样平均误差时,当总体标准差未知时,可以用样本标准差s来代替。即:,(大样本),(小样本),1.样本平均数的抽样平均误差,(
4、二)抽样平均误差的应用公式,2023/5/30,例:现有A、B、C、D四个工人构成的总体,他们所生产某种产品的日产量分别为22、24、26、28件,若按重复抽样方法,从工人总体中随机抽取两个工人组成一个样本,用其样本平均日产量来估计总体平均日产量。,总体平均数为:,所有可能样本个数:M=44=16,试计算样本平均日产量的抽样平均误差。,(N=4 n=2),总体标准差为:,在重复抽样条件下,所有可能的样本及样本平均日产量如右表,2023/5/30,重复抽样的样本平均数及其离差(抽样误差),40,2023/5/30,.,.,样本平均数的抽样平均误差,(用定义公式计算),(用应用公式计算),结论:,
5、第一,所有可能样本平均数的平均数等于总体平均数,第二,样本平均数的标准差(抽样平均误差)仅为总体标准差的,即:,2023/5/30,.,.,其所有可能样本及样本平均日产量如下:,在不重复抽样条件下,所有可能样本个数:M=43=12,重复抽样的样本平均数及其离差(抽样误差),300,20,2023/5/30,.,.,样本平均数的抽样平均误差,(用定义公式计算),(用应用公式计算),结论:,第一,所有可能样本平均数的平均数等于总体平均数,,第二,样本平均数的标准差(抽样平均误差)仅为总体标准差的,即:,2023/5/30,2.样本成数的抽样平均误差,由于总体成数可以表现为是非标志(,)分布的平均数
6、,而且它的标准差也可以从总体成数推算出来,,因此,可以从样本平均数的抽样平均误差和总体标准差的关系推出样本成数的抽样平均误差的计算公式。,(1)重复抽样:,(2)不重复抽样:,注意:在实际计算抽样平均误差时,当总体成数P未知时,可用样本成数 p 来代替。即:,2023/5/30,.,.,例:要估计某高校10000名在校生的近视率,现随机从中抽取400名,检查有近视眼的学生320名,试计算样本近视率的抽样平均误差。,(1)在重复抽样条件下,,样本近视率的抽样平均误差为:,解:根据已知条件:,2023/5/30,(2)在不重复抽样条件下,,样本近视率的抽样平均误差为:,计算结果表明,用样本的近视率
7、来估计总体的近视率其抽样平均误差为2左右(即用样本的近视率来估计总体的近视率其误差的绝对值平均说来在2左右)。,2023/5/30,(三)影响抽样(平均)误差大小的因素,1.总体标准差(总体标志变异程度),2.样本单位数,3.抽样方法,4.抽样的组织方式,例如:要使抽样误差减少为原来的一半,则样本容量将为原来的4倍。,它与成正比例变化。,它与成反比例变化。,重复抽样的总是大于不重复抽样的。,抽样的组织方式不同,抽样误差也不同。,2023/5/30,抽样极限误差是指在一定概率下样本指标与总体指标之间抽样误差的可允许范围。,三、抽样极限误差,抽样极限误差是从另外一个角度来考虑抽样误差的问题。,一般
8、情况下只进行一次具体的抽样。所以,不能只研究抽样平均误差,还必须研究某一次具体抽样的抽样误差的可能范围,即抽样极限误差。,2023/5/30,样本平均数的抽样极限误差,样本成数的抽样极限误差,在参数估计时,由于实际误差无法计算,只能用抽样平均误差来反映抽样误差的大小。而某一次抽样的实际误差可能为正,也可能为负,其绝对值可能大于或小于抽样平均误差。抽样极限误差是抽样误差的可能范围而非完全肯定的范围。故这个可能范围的大小与概率是紧密联系的。,2023/5/30,粮食总产量在20000(4005)公斤,即在790810万公斤之间。,例如,要估计某乡粮食亩产量和总产量,从该乡2万亩粮食作物中抽取400
9、亩,求得其平均亩产量为400公斤。如果确定抽样极限误差为5公斤,试估计该乡粮食亩产量和总产量所在的置信区间。,即该乡粮食亩产量的区间落在4005公斤的范围内,即在395405公斤之间。,2023/5/30,又如,要估计某高校10000名在校生的近视率,现随机从中抽取400名,计算的近视率为80,如果确定允许误差范围为4,试估计该高校在校生近视率所在的置信区间。,即该校学生近视率的区间将落在804的范围内,即在7684之间。,2023/5/30,四、抽样估计的概率度和置信度,抽样估计时,基于概率估计要求,抽样极限误差,得相对数t,表示误差范围为抽样平均误差的t倍。,通常需要以抽样平均误差,(一)
10、抽样估计的概率度,2023/5/30,t 是测量抽样估计可靠程度的一个参数,称为抽样误差的概率度,即临界值,2023/5/30,如上例,已知某乡粮食亩产量的标准差为=80公斤,总体单位数N=20000亩,样本单位数 n=400亩,求得其抽样平均误差为。,如果确定抽样极限误差为5公斤,则,我们可以用概率度:,表示抽样极限的误差范围,即用1.25x 来规定误差范围的大小。,2023/5/30,(二)抽样估计的置信度,样本指标随着样本的变动而变动,是个随机变量,样本指标与总体指标的误差也是个随机变量,并不能保证误差不超过一定范围这件事是必然的,而只能给以一定程度的概率保证,一般用 F(t)表示,,总
11、体平均数抽样估计的置信度(可靠程度):,总体成数抽样估计的置信度:,2023/5/30,在进行抽样估计时,我们既希望抽样估计的误差尽可能小。置信区间越小,说明估计的精确性越高;置信区间越大,说明估计的精确性较低。同时又希望抽样估计的把握程度(概率)尽可能大。但事实上着两者往往是矛盾的。,注意:,(置 信 区 间),(概率),用下图表示:,或,2023/5/30,68.27,95.45,99.73,当 t=1,当 t=2,当 t=3,概率用曲线下的面积表示,2023/5/30,常用的概率度t与相应的概率 F(t)对应数值如下:,可以看出:当确定的抽样极限误差愈大,则概率度t也就愈大,相应的概率也
12、愈大,即样本指标落在指定范围的可能性也愈大;反之,则相应的概率就减少。,正态分布概率表(双侧),2023/5/30,五、参数估计方法,(一)点估计,1、概念:点估计也称定值估计,就是把样本统计量直接作为总体参数的估计值。,例:抽样调查的方法调查某校学生的平均体重,从全部学生中随机抽取的400名学生,测得他们的平均体重为58公斤,这时就把58公斤作为该校全部8000名学生的平均体重。,2、优点:简单、直观、可得到总体参数的具体估计值。,2023/5/30,3、点估计量的优良标准(1)无偏性如果样本统计量的数学期望等于所估计的总体参数的值,该样本统计量称作总体参数的无偏估计量。也就是说:,2023
13、/5/30,(2)一致性:要求用样本估计量估计和推断总体参数时要达到:样本容量n充分大时,样本估计量充分靠近总体参数,即随着n的无限增大,样本估计量与未知的总体参数之间的绝对离差小于任意给定的正数的可能性趋近于1的概率,即几乎是一定发生的。根据概率论中的大数定律可知:对于任意给定的正数有:,2023/5/30,(3)有效性有效性要求样本估计量估计和推断总体参数时,作为估计量的标准差比其它估计量的标准差小。即:,设 是参数 的两个无偏估计量,若 的方差比 的方差小,则称 比 有效。,2023/5/30,4.常用的总体参数的点估计量(1)总体平均数(均值)的点估计量是样本均值(2)总体标准差的点估
14、计量是样本标准差(3)总体成数的点估计量是样本成数,2023/5/30,(二)区间估计,区间估计就是根据样本统计量和抽样极限误差,以一定的概率保证程度估计总体参数的所在区间。,概率保证程度称为置信度、置信水平、置信概率:表达了参数区间估计的可靠性。,:表达了参数区间估计的不可靠性。,2023/5/30,一般说来,在样本容量一定的前提下,精确度与置信度往往是相互矛盾的:若置信度增加,则区间必然增大,降低了精确度;若精确度提高,则区间缩小,置信度必然减小。要同时提高估计的置信度和精确度,就要增加样本容量。,置信区间的直观意义:若作为多次同样的抽样,将得到多个置信区间,其中有的区间包含了总体参数的真
15、值,有的区间没有包含总体参数的真值。,为置信区间。,2023/5/30,【例】某公司有职工3000人,从中随机抽取60人调查其工资收入情况。调查结果表明,职工的月平均工资为2350元,标准差为193元,月收入在2000元及以上职工40人。试以95.45%的置信水平推断:(1)该公司职工月平均工资所在的范围;(2)月收入在2000元及以上职工在全部职工中所占的比重。,统计量(估计量、样本指标),抽样极限误差(最大允许误差),置信度,(概率保证程度),区间估计要素,2023/5/30,解(1)依题意计算如下:,F(z)=95.45%,查表得 z=2,计算结果表明,有95.45%的把握说该公司职工月
16、平均工资在2300.66到2399.34元之间。,2023/5/30,(2)月收入在2000元及以上职工在全部职工中所占的比重为:,计算结果表明,有95.45%的把握说该公司月收入在2000元及以上职工占全部职工的比重在54.63%到78.71%之间。,2023/5/30,小结:区间估计的基本步骤:第一:根据样本资料,计算出样本平均数或样本成数、标准差等;第二:计算抽样平均误差;第三:根据给定的置信度(概率),查正态分布概率表得到相应的临界值(概率度);第四:计算抽样极限误差;第五:给出置信区间并说明其置信度。,2023/5/30,课堂练习1:从某厂生产的5000只灯泡中,随机不重复抽取100
17、只,对其使用寿命进行调查,调查结果如下表:,又知该厂质量规定使用寿命在3000小时以下为不合格品。,(1)按不重复抽样方法,以95.45%的概率保证程度估计该批灯泡的平均使用寿命;,(2)按不重复抽样方法,以68.27%的置信度估计该批灯泡的合格率。,2023/5/30,(1)N=5000 n=100 F(t)=95.45%t=2,解:,总体平均寿命所在的置信区间为:,上限:,下限:,即可以95.45%的概率估计该批灯泡平均使用寿命在4195.34484.7小时之间。,2023/5/30,样本合格率:,(2).n1=98 n=100 F(t)=68.27 t=1,样本合格率的抽样平均误差:,总
18、体合格率所在的置信区间为:,上限:,下限:,即可以68.27%的概率保证程度估计该批灯泡的合格率在96.699.4之间。,2023/5/30,课堂练习2:对某批成品按不重复抽样方法抽选200件检查,其中废品8件,又知样本容量为成品总量的(120)。以95的把握程度估计该批成品的废品率范围。,解:,N=4000 n=200 n1=8 F(t)=95 t=1.96,总体成数所在区间的上下限为:,上限:,下限:,即可以95的把握程度估计该批成品的废品率范围在1.356.65之间。,2023/5/30,六、样本容量的确定,(一)影响必要样本容量的因素,1.各单位标志变异程度的大小。总体标志变异程度越大
19、,要求样本容量要大些;反之则相反。,3.抽样方法。在其他条件相同时,重复抽样比不重复抽样要求样本容量大些。,2.抽样极限误差的大小。抽样极限误差越大,要求样本容量越小;反之则相反。,4.抽样的组织方式。,5.抽样推断的概率保证程度的大小。概率越大,要求样本容量越大;反之则相反。,2023/5/30,(二)平均数的必要样本容量 1.重复抽样,由公式,得:,2.不重复抽样,由公式,得:,2023/5/30,(三)成数的必要样本容量1.重复抽样,由公式,可得:,2.不重复抽样,由公式,可得:,2023/5/30,概率度如用t表示,则四个公式如下:,2023/5/30,【例】某批发站欲估算零售商贩的平
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样调查 课件
链接地址:https://www.31ppt.com/p-5032567.html