第7章抽样估计.ppt
《第7章抽样估计.ppt》由会员分享,可在线阅读,更多相关《第7章抽样估计.ppt(101页珍藏版)》请在三一办公上搜索。
1、第七章 抽样估计,1了解抽样推断的概念和特点,明确在哪些场合适合运用抽 样推断的方法;2理解抽样平均误差、抽样极限误差及概率度的概念和三者之间的相互关系,以及明确如何确定一定误差范围内的置信度;3理解抽样估计的优良标准是什么,掌握估计总体平均指标和成数指标的基本原理和基本方法;4掌握简单随机抽样、等距抽样、类型抽样、整群抽样等抽样组织方式的特点,以及各种组织形式的抽样平均误差计算方法及抽样推断方法。,学习目的和要求:,2023/11/18,第七章 抽样估计,2,第一节 抽样估计的一般问题,抽样估计是在抽样调查的基础上,利用样本的实际资料计算样本指标,并据以推算总体相应数量特征的一种统计分析方法
2、。,一、抽样估计的意义,(一)抽样估计的概念,2023/11/18,第七章 抽样估计,3,统计分析的主要任务,就是要反映现象总体的数量特征。但在实际工作中,我们不可能、也没有必要每次都对总体的所有单位进行全面调查。在很多情况下,我们只需抽取总体的一部分单位作为样本,通过分析样本的实际资料,来估计和推断总体的数量特征,以达到对现象总体的认识。,抽样估计的现实意义,2023/11/18,4,第七章 抽样估计,1抽样推断是由部分推算整体的一种认识方法;2抽样推断是建立在随机取样的基础之上的;3抽样推断运用的是概率估计的方法;4抽样推断的误差是可以事先计算并加以控制的。,(二)抽样推断的特点,2023
3、/11/18,5,第七章 抽样估计,(一)参数估计 虽然我们不知道总体的数量特征,但我们可以依据所获得的样本观察资料,对所研究对象总体的水平、结构、规模等数量特征进行估计,这种推断方法称为总体参数估计。(二)假设检验 由于我们对总体的变化情况不了解,不妨先对总体的状况作某种假设,然后根据抽样推断的原理,依据样本观察资料对所作假设进行检验,来判断这种假设的真伪,以决定我们行动的取舍,这种推断方法称为总体参数的假设检验。,二、抽样推断的内容,2023/11/18,6,第七章 抽样估计,(一)总体和样本 总体也称全及总体或母体,是指所要认识研究对象的全体。它是由所研究范围内具有某种共同性质的全体单位
4、所组成的集合体。总体的单位数通常较大,甚至是无限的,一般用N表示全及总体的单位数。一个全及总体的指标数值是确定的、唯一的,所以称为参数。样本又称样本总体或子样,它是从全及总体中随机抽取出来的一部分单位组成的集合体,样本的单位数是有限的,一般用n表示样本总体的单位数。样本总体的指标数值是个随机变量,所以称为样本统计量或样本估计量。,三、有关抽样的基本概念,2023/11/18,7,第七章 抽样估计,总体平均数和总体方差为:,总体成数及方差为:,(二)总体参数和样本统计量,2023/11/18,8,第七章 抽样估计,样本统计量是用来估计总体参数的,因此和总体参数相对应,有样本平均数及方差、样本成数
5、及方差。,样本成数及方差为:,样本平均数和方差为:,2023/11/18,9,第七章 抽样估计,样本容量是指一个样本包含的单位数。一个样本应包含多少单位较合适,这是抽样设计必须考虑的问题。样本容量的大小不但关系到抽样调查的效果,而且关系到抽样方法的应用。我们通常将单位数小于30的样本称为小样本,单位数等于或大于30的样本称为大样本。社会经济统计的抽样调查一般都采用大样本调查。样本个数又称样本可能数目,是指从一个总体可能抽取的样本个数。一个总体可以抽取多少个样本和样本容量以及抽样方法有关。从一个总体中能抽取多少个样本,则样本统计量就有多少种取值,从而形成了该统计量的分布。研究所有可能抽取的样本及
6、其统计量的分布,是抽样推断的基础。,(三)样本容量和样本个数,2023/11/18,10,第七章 抽样估计,重复抽样也称回置抽样,它是指每次抽取一个样本登记后再将它放回总体中参加下一次抽取。也就是说每一个样本单位都有被重复抽取的可能。重复抽样的特点是:每次抽取样本是在完全相同的条件下进行的,总体中每个单位中选的机会在各次都完全相等。,(四)重复抽样和不重复抽样,2023/11/18,11,第七章 抽样估计,例如:总体有A、B、C共3个单位,要从中以重复抽样的方法抽取2个单位构成样本,则可能抽取的样本数目为Nn=32=9个,它们是:,从总体N个单位中,用重复抽样的方法,随机抽取一个容量为n的样本
7、,共可抽取Nn个样本。,AA、AB、AC BA、BB、BC CA、CB、CC,2023/11/18,12,第七章 抽样估计,不重复抽样也称不回置抽样,它是指每次抽取一个样本登记后不再放回总体中参加下一次抽取。也就是说每一个样本单位只有一次被抽取的可能。不重复抽样时,每个样本的抽取不独立的,因为每个样本在抽取前总体单位数不一样。在实际操作中,大多数抽样都是不重复抽样。,不重复抽样的特点:,2023/11/18,13,第七章 抽样估计,例如:总体有3个单位A、B、C,要从中以不重复抽样的方法抽取2个单位构成样本,则全部可能抽取的样本数目为32=6个,它们是:AB、AC、BA、BC、CA、CB,从总
8、体N个单位中,采用不重复抽样的方法,随机抽取一个容量为n的样本,则全部可能抽取的样本数目为:N(N1)(N2)(Nn+1)个,2023/11/18,第七章 抽样估计,14,第二节 抽样误差,抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标的绝对离差。抽样误差不同于登记误差:登记误差是人为差错所引起的误差,所有统计调查都可能发生。抽样误差不是人为失误所引起的,而是随机抽样所特有的误差。,一、抽样误差的概念,2023/11/18,第七章 抽样估计,15,抽样误差是一种代表性误差。用样本统计量来代表总体参数,必然会有误差。因此,抽样误差是已遵循
9、了随机原则,由偶然因素引起的误差,它是抽样推断所固有误差,是无法消除的,但能事先计算并加以控制。有时抽样过程中可能会产生另一种代表性误差,即系统性误差。系统性误差是由于违反了随机原则而产生的数据偏大或偏小的情况,因此也叫做系统偏差。系统偏差不是抽样误差,它是人为原因产生的误差,是可以采取措施避免或加以消除的。,抽样误差的特点:,2023/11/18,第七章 抽样估计,16,1.总体各单位标志值的差异程度;2.样本单位数;3.抽样方法;4.抽样组织方式。,影响抽样误差大小的因素,2023/11/18,第七章 抽样估计,17,抽样平均误差是反映抽样误差一般水平的指标,它是所有可能抽取的样本平均数或
10、成数的标准差。由于所有样本平均数的平均数等于总体平均数,所有样本成数的平均数等于总体成数,因此,抽样平均数或成数的标准差反映了抽样平均数或成数与总体平均数或成数的平均离差程度。,二、抽样平均误差,2023/11/18,第七章 抽样估计,18,(一)重复抽样条件下平均数的抽样平均误差,定义公式为:,由定义公式导出的计算公式为:,2023/11/18,第七章 抽样估计,19,重复抽样平均误差计算公式的推导:,设总体变量为X1,X2,XN,样本变量为x1,x2,xn,根据平均数的定义和它的数学性质,有:,在重复抽样条件下,由于x1,x2,xn是相互独立的随机变量,每一个变量在总体中都有N种选择,中选
11、机会相等,概率都是1/N。即:,2023/11/18,第七章 抽样估计,20,根据方差的定义和它的数学性质,不重复抽样平均误差的计算公式可按其定义推导如下:,2023/11/18,第七章 抽样估计,21,所以平均数的抽样平均误差为:,其中:,式中:,表示平均数的抽样平均误差;,表示总体标准差;,表示样本容量。,2023/11/18,第七章 抽样估计,22,重复抽样平均误差计算公式的特性:,从抽样平均误差的计算公式可以看出:1.抽样平均误差的大小和总体标准差成正比,而与样本容量的平方根成反比变化;2.抽样平均误差比总体标准差小,仅为总体标准差的1/,。,2023/11/18,第七章 抽样估计,2
12、3,(二)不重复抽样平均数的抽样平均误差,定义公式为:,定义公式导出的计算公式:,当N较大时,有:,2023/11/18,第七章 抽样估计,24,不重复抽样平均误差计算公式的推导:,设总体变量为X1,X2,XN,样本变量为x1,x2,xn,根据平均数的定义和它的数学性质,有:,在不重复抽样条件下,由于x1,x2,xn不是相互独立的,其中x1 是抽取的第1个变量,它可以在x1,x2,xn 中选择,而总体中每个单位中选的概率都为1/N,因此:,2023/11/18,第七章 抽样估计,25,x2 是抽取的第2个变量,它可以在N1个总体单位中选择,而N1个总体单位的组合可以有N种选择,所以总体中每个单
13、位中选的概率还是都为1/N,即:,依此类推:,2023/11/18,第七章 抽样估计,26,所以有:,按照抽样平均误差的定义:,2023/11/18,第七章 抽样估计,27,由于在不重复抽样条件下,样本变量x不是互相独立的,因此共有n(n1)项的,和,的讨论:,式中:k、l=1,2,N。,2023/11/18,第七章 抽样估计,28,又由于:,所以:,可得:,2023/11/18,第七章 抽样估计,29,(三)成数的抽样平均误差,成数的方差为:,在重复抽样条件下,成数的抽样平均误差为:,或,在不重复抽样条件下,成数的抽样平均误差为:,2023/11/18,第七章 抽样估计,30,例71 假设总
14、体有3个单位A、B、C,它们的某标志值分别为3、5、7,样本容量为2个单位,试计算在重复抽样条件下和不重复抽样条件下的抽样平均误差。,重复抽样,不重复抽样,样本,样本,合计,合计,AAABACBABBBCCACBCC,ABACBABCCACB,3、33、53、75、35、55、77、37、57、7,3、53、75、3 5、77、37、5,345456567,4 5 4 6 5 6,4 1 0 1 0 1 0 1 412,1 0 1 1 0 1 4,本例N=3,n=2,易知,总体变量的平均数为5,样本平均数的平均也等于5,即:,重复抽样与不重复抽样条件下的样本组合及计算表,2023/11/18,
15、第七章 抽样估计,31,根据抽样平均误差的定义公式,重复抽样时有,根据抽样平均误差的计算公式,重复抽样时有:,两种方法计算结果是一样的。,2023/11/18,第七章 抽样估计,32,不重复抽样时根据抽样平均误差的定义公式,有,不重复抽样时根据抽样平均误差的计算公式,有:,两种方法计算结果是一样的。,2023/11/18,第七章 抽样估计,33,例72 某大学调查学生某公共基础课程的学习情况,现采用不重复抽样的方法抽取了5%的学生组成一个200人的样本。对样本的统计结果为:平均成绩为75分,标准差为17分;及格率为90%。试计算平均成绩和及格率的抽样平均误差。,本例采用样本方差代替总体方差,现
16、分别计算如下:,(分),2023/11/18,第七章 抽样估计,34,第三节 参数估计的方法,一、优良估计的标准(一)无偏性 无偏性标准就是要求在总体中所有可能抽取的样本统计量的平均数应等于被估计的总体参数。(二)一致性 一致性标准就是要求当样本容量充分大时,样本统计量也充分靠近总体参数。(三)有效性 有效性标准就是要求作为优良估计量的方差应该比其他估计量的方差小。,2023/11/18,第七章 抽样估计,35,二、总体对数的点估计,点估计又称定值估计,它是直接以样本统计量作为相应总体参数的估计量。例如,用样本平均数的实际值直接估计总体平均数,用样本成数的实际值直接估计总体成数等。在抽样调查中
17、,我们所抽取样本的结构与总体结构应该是一致的,样本统计量的计算方法与总体参数的计算方法是相同的,只是总体参数未知,要用样本统计量来估计它。无论从总体中抽取一个什么样的样本,用它的统计量来估计总体参数必然会有误差。但只要这个统计量符合无偏性、一致性和有效性三个标准,我们仍然可以认为它是优良估计。,2023/11/18,第七章 抽样估计,36,例73 某地对股民的资金帐户余额及盈亏情况进行调查,现按随机原则抽取了一个100人的样本,对样本的调查结果是:资金帐户平均余额为10万元,盈利股民比重为30%。试对该地全部股民的资金帐户平均余额和盈利股民比重进行点估计。,进行点估计就是直接用样本统计量估计总
18、体参数:(万元)即该地全部股民的资金帐户平均余额为10万元,即盈利股民比重为30%。点估计的优点:在于它能提供对于总体参数一个确定的估计值。点估计的不足:是这个确定的估计值有多大的误差是未知的。,2023/11/18,第七章 抽样估计,37,我们沿用例73的资料。假如我们不是直接用样本统计量资金帐户平均余额10万元来估计总体参数,而是给定一个区间,采用10万元左右这么一个幅度来估计该地全部股民的资金帐户平均余额,就可以计算出相应的可靠性程度。,三、总体参数的区间估计,(一)允许误差范围与估计区间,2023/11/18,第七章 抽样估计,38,例如,我们在10万元的左右都放宽2万元,即允许误差范
19、围为 2万元,从而可以形成一个估计区间812万元,如下图所示:,10,8,12,显然,平均数的抽样极限误差 为:,2023/11/18,第七章 抽样估计,39,估计区间的上限和下限分别为:,综合起来,总体平均数的估计区间为:,显然,本例有:,8(万元)12(万元),2023/11/18,第七章 抽样估计,40,对于成数,根据例73的资料,若不是用样本统计量盈利股民比重30%来直接估计该地全部股民的盈利股民比重,而是给定一个允许误差范围2%。如估计区间为28%32%,如下图所示:,则成数的抽样极限误差可表达为:,估计区间为:,本例有:,28%,32%,30%,28%,32%,2023/11/18
20、,第七章 抽样估计,41,引例:若总体有3个单位A、B、C,其变量值分别为3、5、7,样本容量为2,所有样本平均数的分布状况为:,样本平均数,3 4 5 6 7,1 2 3 2 1,次数,概率,由概率的完备性原理,有:,(二)区间估计的基本公式,样本平均数的分布,2023/11/18,第七章 抽样估计,42,1.对称性,近似正态分布;2.样本平均数的分布中心就是总体平均数。,所有样本平均数的分布特点:,本例有:,即:,2023/11/18,第七章 抽样估计,43,现在我们引申出正态分布理论。在大样本的条件下,样本平均数的分布接近于正态分布:,正态概率分布图,2023/11/18,第七章 抽样估
21、计,44,例如:分布中心两侧各一个单位的标准差所限定的区间,对应的概率为68.27%;分布中心两侧各二个单位的标准差所限定的区间,对应的概率为95.45%;分布中心两侧各三个单位的标准差所限定的区间,对应的概率为99.73%。可表达为:,式中:F(t)表示估计区间的概率;t 表示概率度。,根据正态分布理论:无论一组变量的平均数和标准差大小如何,分布中心两侧以标准差为单位度量的区间与这一区间的概率是一一对应的。,2023/11/18,第七章 抽样估计,45,概率度又是一个确定估计区间的度量值。抽样平均误差 是样本平均数的标准差,以 为单位,若给定一个区间,则可以表达为有 t 个 那么宽。,概率度
22、与区间估计的基本公式,概率度是测量估计可靠性程度的一个参数。概率度 t 的大小与概率的大小是一一对应的,可通过给定的 t 值,查阅“正态分布概率表”,查得相应的概率。,由此可得总体平均数和成数区间估计的基本公式:,例如,在总体中随机抽到了某个样本,其平均数为,若它落在分布中心 右侧2个 宽度的位置,则其对应的概率为47.725%,即:,2023/11/18,第七章 抽样估计,46,虽然分布中心是总体平均数,但其数值大小是未知的。因此,该样本平均数也有可能落在分布中心左侧2个 宽度的位置,则其对应的概率也为47.725%,即:,2023/11/18,第七章 抽样估计,47,一般可表达为:,考虑到
23、对称性,综合有:,2023/11/18,第七章 抽样估计,48,(三)区间估计的方法,总体参数区间估计的三要素包括样本统计量、抽样允许误差范围,以及概率保证程度(置信度)。样本统计量由抽取样本获得;抽样误差范围决定了估计的准确性;概率保证程度则决定了估计的可靠性。在已知样本统计量的情况下,抽样估计时只能对其中的一个要素提出要求。如果要对两个要素都要提出一定的要求,只能通过增加样本容量来解决。,1.区间估计应具备的三要素,2023/11/18,第七章 抽样估计,49,(1)在一定的样本条件下,给定概率保证程度,计算抽样极限误差;(2)在一定的样本条件下,给定抽样极限误差,计算概率保证程度;(3)
24、给定抽样极限误差和概率保证程度,推算出样本容量。,总体参数区间估计的方法,2023/11/18,第七章 抽样估计,50,2.给定概率保证程度求抽样极限误差,给定概率保证程度求抽样极限误差,就是根据区间估计的基本公式:在已知 t、的条件下,求。下面我们通过举例来说明具体计算步骤。,2023/11/18,第七章 抽样估计,51,例74 某镇对居民人均月生活费支出进行抽样调查,在全镇10万户居民中用不重复抽样方法随机抽取了一个630户的样本,抽查资料如下表所列,试以95%(t=1.96)的置信度对该地人均月生活费支出进行区间估计。,某地居民人均生活费支出抽查资料,人均月生活费支出(元),组中值(元)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 估计
链接地址:https://www.31ppt.com/p-6618885.html