经济应用统计学-第六章抽样推断.ppt
第六章 抽样推断,学习目标,理解抽样推断的特点、作用及基本概念掌握抽样推断的抽样平均误差、极限误差的计算方法运用抽样推断的一般原理,对全及总体的指标值作出具有一定概率保证程度的推断正确进行相应的假设检验。,第一节抽样推断的一般问题第二节抽样推断的基本原理第三节参数的估计方法第四节 抽样的组织方式第五节 参数的假设检验,主要内容,进入,进入,进入,进入,进入,第一节 抽样推断的一般问题,一、抽样推断的概念二、抽样推断的特点三、抽样推断的应用四、抽样推断中的几个基本概念,一、抽样推断的概念,抽样推断的概念,抽样推断是建立在概率论基础上的一种科学的统计分析方法。它是指按照随机原则,从全及总体中抽取一部分单位作为样本进行实际调查,然后根据调查所得的样本数据,推断总体特征的一种方法。,统计推断,全及总体指标:参数(未知量),样本总体指标:统计量(已知量),抽样推断,随机样本:与总体分布特征相同,非随机样本:与总体分布特征不同,并非所有的抽样估计都按随机原则抽取样本。也有非随机抽样。,1、按随机原则抽取样本,二、抽样推断的特点,概率论,中心极限定理,大数定律,抽样推断方法,2、运用概率论的理论和方法,用样本指标来推断总体指标。,二、抽样推断的特点,推断的误差可以事先计算和控制。,抽样推断误差,登记误差,代表性误差,二、抽样推断的特点,无法又很难进行全面调查而又需要了解其全面情况时某些可以采用全面调查的社会经济现象,也可采用抽样推断。可用于生产过程的质量控制进行假设检验,三、抽样推断的应用,1.无法或很难进行全面调查而又需要了解其全面情况时,无限总体需经破坏性实验才能取得结果的社会经济现象总体范围大,分布广,调查工作量和费用巨大的现象。,以下内容被视为属于无限总体:单位数太多的总体;一个正在进行的过程;预期将会发生的某个总量。,2.某些可以采用全面调查的社会经济现象,也可采用抽样推断。,节省人力和费用节省时间、提高资料的时效性可取得较详细的资料,保证资料的客观性作为全面调查的补充。,3.可用于生产过程的质量控制,在不同工序、不同阶段抽取部分制品做样本进行检测,以判断生产过程是否正常。,4.进行假设检验,新事物是否具有某种效果,我们对未知的总体做出一些假设,然后抽样调查,根据调查结果对假设进行检验,全及总体与样本总体全及指标与样本指标抽样方法与抽样组织方式样本的可能数目抽样误差,四、抽样推断的几对基本概念,1、把研究对象的总体叫做全及总体,简称总体。2、把按随机抽样方法从总体中抽出的部分单位所组成的集合体称为样本总体或抽样总体,简称样本。,(一)全及总体与样本总体,(二)全及指标与样本指标,1、全及指标:根据全及总体中各单位的标志值或标志属性计算得来,反映总体某种特征的指标2、样本指标:根据样本总体中各单位的标志值或标志属性计算得来的综合指标.,是唯一确定的量,样本指标是变量,1、全及指标:变量总体的指标,1、全及指标:属性总体的指标,2、样本指标:变量总体中抽出的样本的指标,2、样本指标:属性总体中抽出的样本的指标,重复抽样和不重复抽样,考虑顺序的抽样和不考虑顺序的抽样,(三)抽样方法和抽样组织方式,重点,从总体N个单位中随机抽取一个容量为n的样本,每次抽取一个单位,把结果登记后再放回到总体中,重新参加下一次的抽取.,抽出个体,登记特征,放回总体,继续抽取,抽样方法重复抽样,从总体N个单位中随机抽取一个容量为n的样本,每次抽取一个单位,把结果登记后不再放回到总体参加下一次的抽取.,抽出个体,登记特征,继续抽取,抽样方法不重复抽样,二者比较,重复抽样中每个单位有可能被重复抽取,影响样本的代表性.所以其抽样误差大于不重复抽样.,从总体N个单位中抽取n个单位构成样本,不但考虑样本各单位成分的不同,而且还要考虑样本各单位的中选顺序.,即中选成分相同但中选顺序不同的视为不同样本,抽样方法考虑顺序的抽样,姓名 身高体重(cm)(kg)丁 一 182 70 于 峰 175 62 马 宁 160 50 王一波 172 66 王忠烈 169 62 王洪宇 182 70 刘可心 166 61 李元元 152 48 李煌 188 90,编号001 002 003 004 005 006 007 008 009,001 008,008 001,为不同样本,从总体N个单位中抽取n个单位构成样本,只考虑样本各单位成分的不同,不管样本各单位的中选顺序.,即中选成分相同但中选顺序不同的视为同一样本,抽样方法不考虑顺序的抽样,简单随机抽样(纯随机抽样)类型(分层)抽样整群抽样等距抽样多阶段抽样多重抽样,抽样组织方式,按照一定的抽样方法和组织方式,从总体N中抽取n个单位构成样本,一共可以抽出的不同样本的数量,一般用M表示.,(四)样本可能数目,考虑顺序的不重复抽样考虑顺序的重复抽样不考虑顺序的不重复抽样不考虑顺序的重复抽样,在纯随机抽样组织方式下:,样本指标与总体指标之差,即抽样估计值与被估计的未知的真实总体参数之差。,(五)抽样误差,通过合理的组织和调整抽样方式可消除,不可消除,但可以进行计算加以控制,抽样误差,样本容量的大小,容量大,抽样误差小,总体的变异程度,变异大,抽样误差大,抽样方法和抽样组织方式,不同的方式方法产生的抽样误差大小也不一样,抽样误差的影响因素,第二节抽样推断的基本原理,一、抽样推断的理论基础二、样本的概率分布及其抽样分布定理三、抽样平均误差四、抽样极限误差五、抽样推断的可靠程度六、抽样推断的优良标准七、必要的样本容量,大数法则,现象的某种总体规律性,只有当足够多的单位综合汇总在一起时才能显示出来,大家都知道硬币掷出人头和字的机率各是50%,可是实际上掷二次却很难得到人头和字各一次,那这个机率到底是如何得来的呢?以前有位数学家,掷了一千次,得出来人头和字的机率不是等于50%,他又继续掷,掷了五千次.六千次.一万次,发现得到人头和字的机率愈来愈平均,也就是50%。,一、抽样推断的理论基础,大数法则,各单位的共同倾向决定着平均数的水平,而各单位对平均数的离差则会由于足够多单位的综合汇总而相互抵消,趋于消失。,如果变量总体存在着有限的平均数和方差,则对于充分大的抽样单位数,可以几乎为1的概率来期望,样本平均数和总体平均数的绝对离差任意小(二者几乎相等)。,统计推断的理论依据,学生成绩 30 40 50 60 70 80 90,按随机原则不考虑顺序不重复抽样抽选出名学生。,二、样本的概率分布及其抽样分布定理,样本 均值 样本 均值 样本 均值,上述样本平均数的概率分布列表如下,二者均值相等,样本平均数等于总体平均数,存在困难,对于样本的概率分布只能进行推算,推算的理论依据是中心极限定理,实践中不可能将所有样本一一列举,中心极限定理,全部可能样本平均数的均值等于总体均值,即:从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。样本均值的标准差为总体标准差的,只要样本容量足够大,样本平均数都服从正态分布,且:以总平均数为中心呈对称分布。样本平均数越接近总体平均数,其出现的概率越大,中心极限定理,可以利用标准正态分布函数来计算任何一个样本平均值落入某一区间的概率,及估计样本的概率分布。,抽样误差是样本统计量与总体参数之间的绝对差异,抽样误差是一个随样本不同而不同的随机变量。,抽样平均误差,抽样平均误差即全部可能样本的样本平均值或样本成数计算的标准差。又称抽样标准误差、抽样标准误,也就是样本的均值与总体均值离差的平均数,二、抽样误差与抽样平均误差,抽样平均误差的理论公式,但是,因为总体指标未知,对于任何一个样本,其抽样误差都不可能测量出来,总体方差,若总体方差未知:用样本方差2 代替用历史资料代替,抽样平均误差的应用公式,总体方差已知,总体方差未知,用样本方差代替总体的,影响抽样误差的因素,样本容量n离散程度(即方差)抽样方法和抽样组织方式(即是否重复抽样),由公式可见,抽样极限误差:在抽样推断中,在一定概率保证下,允许样本统计量偏离总体统计量的最大幅度。(可允许的误差范围),三、抽样极限误差,样本统计量的抽样分布,总体中心值,N(总体中心值,),和样本均值一起构造总体指标的区间估计,和样本均值一起构造总体指标的区间估计,抽样极限误差,抽样推断的基本原理,对总体平均数和总体成数的估计区间.,但,只有选取阴影中的样本才能使该估计成立.也就是说该估计是和一定的可信度相联系.,指总体指标和样本指标之间的误差不超过一定范围的概率保证程度,或者说是总体指标落入区间 或 的概率保证程度(可靠程度),即概率P。,四、抽样推断的可靠程度F(t),估计区间是一定可靠程度下的估计区间,可靠程度是一定估计精度(误差范围)下的可靠程度.,在抽样推断中,不仅要考虑抽样误差的范围,还要考虑实际抽样误差落入这一范围的概率有多大,也就是总体指标落入估计区间的可能性有多大.二者密切相连.,可靠程度的计算,数理统计证明概率度t和概率P之间具有一定的函数关系:,如何计算估计区间的可靠程度呢?,t称为概率度。又称为置信度。,抽样推断可靠程度的计算,总体中心值,0.6827,0.9545,0.9973,从总体中抽取一个样本,该样本的指标落入区间的概率可用占曲线面积的比例表示.,抽样推断可靠程度的计算,样本统计量的抽样分布,N(总体中心值,),实际中,为计算简便.已按不同的t值和相应的概率编制了专门的正态分布概率表,以供查询.见书后附表P394,几个常用的概率度,t F(t)1 0.6827 1.96 0.95 2 0.9545 2.33 0.98 2.58 0.99 3 0.9973,问题:第一,我们为什么以这一个而不是那一个统计量来估计某个总体参数?,第二,如果有两个以上的统计量可以用来估计某个总体参数,其估计结果是否一致?是否一个统计量要优于另一个?,估计值的优良标准:无偏性、有效性、一致性,五、估计值的优良标准,设为待估计的总体参数,为样本统计量,则的优良标准为:,若,则称为的无偏估计量(无偏性),设为待估计的总体参数,为样本统计量,则的优良标准为:,若,则称为比更有效的估计量(有效性),若,则称为的无偏估计量(无偏性),设为待估计的总体参数,为样本统计量,则的优良标准为:,若,则称为比更有效的估计量(有效性),若,则称为的无偏估计量(无偏性),若,则称为的一致估计量(一致性),估计值的优良标准,为的无偏、有效、一致估计量;为 的无偏、有效、一致估计量;为 的无偏、有效、一致估计量。,是指既能够满足抽样推断准确性和可靠性的要求,又不会造成浪费的样本单位数目。,六、必要样本容量,重复抽样,不重复抽样,1、必要样本容量的计算:变量总体,计算结果通常向上进位,重复抽样,以上公式中、P 或 p若未知,一般按以下方法确定其估计值:a 以前类似样本的、p;b、试验调查样本的S、p;,不重复抽样,2、抽样推断样本容量的计算:属性总体,例:某地硕士研究生毕业第一年年薪的标准差大约为2000元人民币。如果以95%的置信度估计其平均年薪,并且希望抽样极限误差分别不超过500元和100元,样本容量应为多少?,例题1,某网站一个由400名使用者组成的样本表明,该网站的使用者中26的使用者为女性。在95的置信度下,若希望将抽样极限误差控制在3,则样本容量应当为:,重复抽样,例题2,总体各单位的标志变异的程度允许的误差范围要求的概率保证程度抽样方法和抽样组织方式,3、影响必要样本容量的因素,第三节参数的估计方法,参数估计用得到的样本指标来推断总体指标。三要素估计值、估计的误差 范围、概率保证程度,二、参数估计的两种方法,点估计,区间估计,也称定值估计,即以样本指标值直接作为总体指标的估计值,同时给出极限误差和相应的可靠程度。,1、点估计,根据样本指标和极限误差确定出总体指标可能落入的某一具体区间及其相应的概率保证程度。,STAT,2、区间估计,具有一定概率保证程度的估计区间称为置信区间。,三、参数估计的两种模式,对总体指标进行推断需要三个要素,且三者密切相连。误差范围 和概率保证程度F(t)分别是对抽样推断的准确性和可靠性的要求,但二者之间是一对矛盾。,1、对抽样推断先提出可靠性的要求(给定F(t)),然后求极限误差,2、对抽样推断先提出准确性要求(给定),然后再求概率保证程度F(t),计算样本平均数和标准差,计算抽样平均误差,计算抽样极限误差,确定置信区间,四、对总体平均数的推断,第一种模式(已知可靠性),根据概率保证度查表求得t再代入公式计算,由532名商业周刊订阅者组成的样本表明,其每周使用因特网的平均时间为6.7小时。如果总体标准差为5.8小时,求该周刊订阅者总体每周平均花费在因特网上时间的95置信区间。,则:该置信区间为:,计算样本成数,计算抽样平均误差,计算抽样极限误差,确定置信区间,五、对总体成数的推断,第一种模式(已知可靠性),根据概率保证度查表求得t再代入公式计算,p,某校一个由413名大学生组成的样本中,277名学生没有宗教信仰。试估计该校学生总体中无宗教信仰比率的95置信区间。,于是:总体比率估计区间为:,计算样本统计量,计算抽样平均误差,计算t,查可靠程度,确定置信区间,例题见书上188-190页,第二种模式(已知准确性),已知极限误差,其他量需要计算。,第四节 抽样的组织方式,纯随机抽样类型抽样(分层抽样)等距抽样整群抽样多阶段抽样和多重抽样,1、概念,2、优缺点:P191-192,一、纯随机抽样,也称简单随机抽样。是按照随机原则直接从总体N个单位中抽取n个单位作为样本,然后通过对样本单位的调查观测,计算出样本指标,据以对总体指标作出推断。,A、抽签法,B、滚球法,C、随机数码表法,D、计算机模拟法,3、抽选样本的方法,一、纯随机抽样,样本的计算公式,重复抽样:,不重复抽样:,样本均值,一、纯随机抽样,例,第四节 抽样的组织方式,纯随机抽样类型抽样(分层抽样)等距抽样整群抽样多阶段抽样和多重抽样,分层抽样(类型抽样),概念:设总体由N个单位构成,把总体划分为K层(组),使,然后从每类中随机抽取个 单位,构成容量为n的样本,使得,二、分层抽样,特点:,可以提高样本的代表性可以缩小总体变异程度对抽样误差的影响,只受层内方差影响,不受层间方差影响.,二、分层抽样,2.抽样方法,A、等比例类型抽样,B、不等比例抽样,二、分层抽样,各层成数,3.样本指标的计算,各层平均数,样本均值,样本成数,样本平均数,二、分层抽样,3.样本指标的计算,抽样平均误差,推断总体平均数的抽样平均误差,重复抽样:,不重复抽样:,二、分层抽样,3.样本指标的计算,抽样平均误差,推断总体成数的抽样平均误差,重复抽样:,不重复抽样:,二、分层抽样,耕地类型平原山地合计,全部面积 样本面积 样本平均亩产 亩产标准差,亩400010005000,亩504126630,公斤960750918,公斤200400253,以95%的概率保证度进行推断,第四节 抽样的组织方式,纯随机抽样类型抽样(分层抽样)等距抽样整群抽样多阶段抽样和多重抽样,等距抽样(机械抽样系统抽样),概念:先将总体各单位按某一标志排队,然后按固定的顺序和间隔来抽取调查单位的一种组织方式.,三、等距抽样,从12个中抽取3个,三、等距抽样,三、等距抽样,三、等距抽样,三、等距抽样,等距抽样的种类,无关标志排队的等距抽样近似于简单随机抽样,因此,可以按简单随机抽样的方法计算抽样误差。,有关标志排队的等距抽样相当于等比例类型抽样,因此可用等比例类型抽样的公式计算抽样误差。并用不重复抽样的公式。,按有关标志排队等距抽样,按无关标志排队等距抽样,2.抽样方法,随机起点等距抽样,确定抽样距离(间隔),随机抽取第一个单位,依次抽取其他单位,各单位位置为:,例题203,一般用于按无关标志排队时,否则会出现系统误差(样本值偏大或偏小),随机起点等距抽样,2.抽样方法,中点等距抽样,确定抽样距离(间隔),随机抽取第一个单位,依次抽取其他单位,各单位位置为:,缺点:随机性差,各单位中选机会不等;只能抽取一个样本,抽样框利用率低,2.抽样方法,随机起点等距抽样,确定抽样距离(间隔),随机抽取第一个单位,依次抽取其他单位,各单位位置为:,对称抽取,对称等距抽样,每隔一个为等距,保留了中点等距抽样的优点,保证了样本的均匀分布克服了中点等距抽样的缺点,保持了较好的随机性,对称等距抽样的优点,等距抽样例题:p204,1、概念,整群抽样是将总体划分为由总体单位所组成的若干个群,然后,以群为单位,从总体中抽取若干个群作为样本,而对中选群内的所有单位进行全面调查的调查方式。,四、整群抽样,优点和缺点,但由于影响了样本单位在总体中的均匀分布误差较其他方式大,比较方便和节约费用。,四、整群抽样,特点,直接抽取的不是总体单位,而是群,总体群数用表示,样本群数用r表示只有群间方差影响抽样误差一般采用不重复抽样,抽样误差的计算,整群抽样均采用不重复抽样。,(1)抽样平均数的抽样误差,抽样误差的计算,整群抽样均采用不重复抽样。,(2)抽样成数的抽样平均误差,例题p 210,多阶段抽样和多重抽样,第六章抽样推断,第一节抽样推断的一般问题第二节抽样推断的基本原理第三节参数的估计方法第四节 抽样的组织方式第五节 参数的假设检验,