《抽样推断概述》PPT课件.ppt
第一节 抽样推断概述,第二节 参数估计,第八章 抽样推断,第一节 抽样推断概述,指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会,一、抽样推断,按照随机原则从总体中抽取一部分单位进行观察,并依据所获得数据的处理结果,对总体的数量特征做出具有一定可靠程度的估计和判断,从而达到对总体的分布状况及其数量特征认识的目的。,统计推断,全及总体指标:参数(未知量),样本总体指标:统计量(已知量),抽样推断,按随机原则抽取样本单位以样本的数量特征推断总体的数量特征抽样推断产生抽样误差,但抽样误差可以事先计算并控制,抽样推断的特点,()用于无法采用或不必采用全面调查的现象;(2)对全面调查的结果进行复核;(3)生产过程的质量控制;(4)对总体的假设进行检验。,抽样推断的应用,设计抽样方案,抽取样本单位,收集样本数据,计算样本统计量,推断总体参数,抽样推断的一般步骤,二、抽样推断的基本概念,全及总体,抽样总体,又称总体或母体,是所要认识研究对象的全体,它由具有某种共同性质或特征的单位所组成。常用N表示全及总体的单位数目。,又称样本或子样,是指从全及总体中按照随机原则抽取的那部分个体的组合。抽样总体的单位数称为样本容量,通常用n表示。1nN。,例如:在100万户居民中,随机抽取1000户居民进行家庭收支情况调查,其中的100万户居民就是全及总体,而被抽中的1000户居民则构成抽样总体。,n30称为大样本,n 30称为小样本.n/N称为抽样比.,设总体中 个总体单位某项标志的标志值分别为,其中具有某种属性的有 个单位,不具有某种属性的有 个单位,则,总体平均数(又叫总体均值):,根据全及总体各个单位的标志值或标志特征所计算的反映总体某种属性的综合指标,又称总体参数。,全及指标,总体单位标志值的标准差:,总体单位标志值的方差:,总体成数:,总体是非标志的标准差:,总体是非标志的方差:,设样本中 个样本单位某项标志的标志值分别为,其中具有和不具有某种属性的样本单位数目分别为 和 个,则,样本平均数(又叫样本均值):,样本单位标志值的标准差:,样本单位标志值的方差:,为 的无偏估计,为 的无偏估计,样本成数:,样本单位是非标志的标准差:,样本单位是非标志的方差:,为 的无偏估计,为 的无偏估计,抽样方法的分类,重复抽样,从总体N个单位中随机抽取一个样本容量为n的样本,每次从总体中抽取一个,并把结果登记下来,又放回总体中重新参加下一次的抽选。又称放回抽样,不重复抽样,每次从总体中抽选一个单位后就不再将其放回参加下一次的抽选。又称不放回抽样.,总体单位数N不变,同一单位可能多次被抽中。,总体单位数减少n,同一单位只可能被抽中一次。,根据取样方式不同,可分为:,三、抽样误差 1、统计误差的种类统计误差是指统计数据与客观实际数量之间的差距。有两种情况:(1)登记性误差。指在调查、整理过程中,由于各种主观原因引起的误差。(2)代表性误差。指由于样本单位的结构情况不足以代表总体所产生的误差。又分两种:,系统性误差。由于违反了抽样调查的随机原则而产生的误差。随机性误差。由于遵守抽样的随机原则,但可能抽到不同的样本而产生的误差。又分两种:实际误差:某一样本指标与总体指标之间的差异;平均误差:所有可能出现的样本指标与总体指标的平均离差。,举例计算抽样平均误差,设有4个工人,每人的日产量分别为40、50、70、80,现随机抽选2人,求平均日产量,用以代表4人总体的平均日产量。总体平均日产量总体标准差,重复抽样条件下:样本平均数的平均数 样本平均误差,不重复抽样条件下:样本平均数的平均数 样本平均误差,四、抽样平均误差的计算,样本平均数的抽样平均误差,当N500时,有,重复抽样时:,不重复抽样时:,样本成数的抽样平均误差,重复抽样时:,不重复抽样时:,当N500时,有,抽样平均误差的计算公式,以上例验证抽样误差的公式:重复抽样条件下不重复抽样条件下,关于总体方差的估计方法,用过去同类问题全面调查或抽样调查的经验数据代替;用样本标准差 代替总体标准差,用 代替。,抽样平均误差的计算公式,影响抽样误差的因素,总体各单位标志值的差异程度(即标准差的大小):越大,抽样误差越大;样本单位数的多少:越大,抽样误差越小;抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小;抽样组织方式:简单随机抽样的误差最大。,例:已知某一总体的平均数未知,总体方差为0.09,现简单随机抽取4个单位,其样本单位的标志值为15.7、16.3、15.9、16.1,试求其抽样误差。,例:从一批产品中随机抽取100件,测得一级品为95件,试求一级品率的抽样误差。,抽样极限误差,指在一定的概率保证程度下,抽样指标与总体指标之间抽样误差的最大可能范围,也称作抽样允许误差。常用表示。,上式表明,样本平均数(成数)是以总体平均数(成数)为中心,在相应的区间内变动。,由于总体成数和总体平均数是未知的,它要求靠实测的抽样平均数和抽样成数来估计,因而抽样误差的实际意义是希望总体平均数(成数)落在某个已知的范围内。,抽样极限误差,所以前面的不等式应变换为:,在一个特定的全及总体中,当抽样方法和样本容量固定时,抽样平均误差是一个定值,因此,抽样极限误差通常以抽样平均误差为标准单位来衡量。即抽样极限误差通常表示为抽样平均误差的多少倍。,由于t值与样本估计值落入允许误差范围内的概率有关,因此,t也称为概率度。,抽样估计的置信度,抽样指标和总体指标的误差不超过一定范围的概率大小,我们将它称之为概率保证程度,也叫抽样估计的置信度,一般用F(t)表示。即:,置信度,t值与相应的概率保证程度存在一一对应关,常用t值及相应的概率保证程度为:,t值 概率保证程度1.00 0.6827 1.96 0.9500 2.00 0.9545 3.00 0.9973,在大样本下,68.27%,95.45%,99.73%,抽样极限误差与置信度,第二节 参数估计,也叫抽样估计,就是根据样本指标数值对总体指标数值作出估计或推断。,参数估计,通常,把用来估计总体特征的样本指标叫估计量或统计量,待估计的总体指标叫总体参数。,方法,点估计,区间估计,点估计量的优良标准,无偏性、有效性、一致性,区间估计,给出一个区间(置信区间)并推断真正的参数以一定的概率存在于这个区间的方法。,以样本统计量为中心,以抽样平均误差为距离单位,可以构造一个区间,并可以一定的概率保证待估计的总体参数落在这个区间之中。区间越大,则概率保证程度越高。,区间估计原理,总体平均数的区间估计,表达式,其中,为极限误差,步骤,计算样本平均数;,搜集总体方差的经验数据;或计算样本标准差,即,总体平均数的区间估计,步骤,计算抽样平均误差:,重复抽样时:,不重复抽样时:,总体平均数的区间估计,步骤,计算抽样极限误差:,确定总体平均数的置信区间:,总体平均数的区间估计,【例A】某企业生产某种产品的工人有1000人,某日采用不重复抽样从中随机抽取100人调查他们的当日产量,要求在95的概率保证程度下,估计该厂全部工人的日平均产量和日总产量。,总体平均数的区间估计,100名工人的日产量分组资料,解:,则该企业工人人均产量 及日总产量 的置信区间为:,即该企业工人人均产量在124.至127.件之间,其日总产量在124至127件之间,估计的可靠程度为95,总体成数的区间估计,表达式,其中,为极限误差,步骤,计算样本成数;,搜集总体方差的经验数据;,计算抽样平均误差:,重复抽样条件下,不重复抽样条件下,总体成数的区间估计,步骤,计算抽样极限误差:,确定总体成数的置信区间:,总体成数的区间估计,【例B】若例A中工人日产量在118件以上者为完成生产定额任务,要求在95的概率保证程度下,估计该厂全部工人中完成定额的工人比重及完成定额的工人总数。,总体成数的区间估计,100名工人的日产量分组资料,完成定额的人数,解:,则该企业全部工人中完成定额的工人比重 及完成定额的工人总数 的置信区间为:,即该企业工人中完成定额的工人比重在0.84至0.95之间,完成定额的工人总数在84.至95.人之间,估计的可靠程度为95。,样本容量的确定,影响样本容量的因素,总体各单位标志值的差异程度(即标准差的大小):越大,所需样本容量越多允许的极限误差的大小:越大,所需样本容量越小;推断的可靠程度,即置信度:对可靠程度要求越高,所需样本容量越大;抽样方法和抽样组织方式:重复抽样比不重复抽样所需样本容量要多;类型抽样比简单随机抽样所需样本容量多。,确定方法,推断总体平均数所需的样本容量,重复抽样条件下:,通常的做法是先确定置信度,然后限定抽样极限误差。,或 S通常未知。一般按以下方法确定其估计值:过去的经验数据;试验调查样本的S。,计算结果通常向上进位,不重复抽样条件下:,确定方法,推断总体平均数所需的样本容量,【例A】某食品厂要检验本月生产的10000袋某产品的重量,根据上月资料,这种产品每袋重量的标准差为25克。要求在95.45的概率保证程度下,平均每袋重量的误差范围不超过5克,应抽查多少袋产品?,解:,在不重复抽样下:,确定方法,推断总体成数所需的样本容量,重复抽样条件下:,不重复抽样条件下:,确定方法,推断总体成数所需的样本容量,【例B】某企业对一批总数为5000件的产品进行质量检查,过去几次同类调查所得的产品合格率为93、95、96,为了使合格率的允许误差不超过3,在99.73的概率保证程度下,应抽查多少件产品?,【分析】因为共有三个过去的合格率的资料,为保证推断的把握程度,应选其中方差最大者,即P=93。,必要样本容量的影响因素,总体方差的大小;允许误差范围的大小;概率保证程度;抽样方法;抽样的组织方式。,