《《统计学原理》第5章:抽样推断.ppt》由会员分享,可在线阅读,更多相关《《统计学原理》第5章:抽样推断.ppt(75页珍藏版)》请在三一办公上搜索。
1、第五章 抽样推断,学习目标,理解抽样推断的特点、作用及基本概念掌握抽样推断的抽样平均误差、极限误差的计算方法运用抽样推断的一般原理,对全及总体的指标值作出具有一定概率保证程度的推断正确进行相应的假设检验。,第一节 抽样推断的一般问题,抽样推断的一般问题,抽样推断的概念,抽样推断是建立在概率论基础上的一种科学的统计分析方法。它是指按照随机原则,从全及总体中抽取一部分单位作为样本进行实际调查,然后根据调查所得的样本数据,对总体的特征值做出具有一定可靠程度的推断,以反映总体的数量特征或数量关系。,统计推断,全及总体指标:参数(未知量),样本总体指标:统计量(已知量),抽样推断的一般问题,按随机原则抽
2、取样本运用概率论的理论和方法,用样本指标来推断总体指标。推断的误差可以事先计算和控制。,抽样推断的一般问题,抽样推断的特点,无法或 很难进行全面调查而又需要了解其全面情况时某些可以采用全面调查的社会经济现象,也可采用抽样推断。可用于生产过程的质量控制进行假设检验,抽样推断的一般问题,抽样推断的应用,全及总体与样本总体全及指标与样本指标抽样方法与抽样组织方式样本的可能数目抽样误差,抽样推断的一般问题,抽样推断的几对基本概念,我们把研究对象的总体叫做全及总体,简称总体。把按随机抽样方法从总体中抽出的部分单位所组成的集合体称为样本总体或抽样总体,简称样本。,抽样推断的一般问题,全及总体与样本总体,全
3、及指标与样本指标,根据全及总体中各单位的标志值或标志属性计算得来,反映总体某种特征的指标根据样本总体中各单位的标志值或标志属性计算得来的综合指标.,重复抽样和不重复抽样,考虑顺序的抽样和不考虑顺序的抽样,抽样推断的一般问题,抽样方法,从总体N个单位中随机抽取一个容量为n的样本,每次抽取一个单位,把结果登记后再放回到总体中,重新参加下一次的抽取.,抽出个体,登记特征,放回总体,继续抽取,抽样推断的一般问题,抽样方法重复抽样,从总体N个单位中随机抽取一个容量为n的样本,每次抽取一个单位,把结果登记后不再放回到总体参加下一次的抽取.,抽出个体,登记特征,继续抽取,抽样推断的一般问题,抽样方法不重复抽
4、样,从总体N个单位中抽取n个单位构成样本,不但考虑样本各单位成分的不同,而且还要考虑样本各单位的中选顺序.,即中选成分相同但中选顺序不同的视为不同样本,抽样推断的一般问题,抽样方法考虑顺序的抽样,从总体N个单位中抽取n个单位构成样本,只考虑样本各单位成分的不同,不管样本各单位的中选顺序.,即中选成分相同但中选顺序不同的视为同一样本,抽样推断的一般问题,抽样方法不考虑顺序的抽样,简单随机抽样类型抽样整群抽样等距抽样多阶段抽样多重抽样,抽样推断的一般问题,抽样组织方式,按照一定的抽样方法和组织方式,从总体N中抽取n个单位构成样本,一共可以抽出的不同样本的数量,一般用M表示.,抽样推断的一般问题,样
5、本可能数目,考虑顺序的不重复抽样考虑顺序的重复抽样不考虑顺序的不重复抽样不考虑顺序的重复抽样,样本指标与总体指标之差,即抽样估计值与被估计的未知的真实总体参数之差。,抽样推断的一般问题,抽样误差,通过合理的组织和调整抽样方式可消除,不可消除,但可以进行计算加以控制,抽样误差,样本容量的大小,容量大,抽样误差小,总体的变异程度,变异大,抽样误差大,抽样方法和抽样组织方式,不同的方式方法产生的抽样误差大小也不一样,抽样推断的一般问题,抽样误差的影响因素,第二节 抽样推断的基本原理,统计推断的理论基础大数法则,如果变量总体存在着有限的平均数和方差,则对于充分大的抽样单位数,可以几乎为1的概率来期望,
6、样本平均数和总体平均数的绝对离差任意小(二者几乎相等)。,抽样推断的基本原理,按一定方法随机抽取样本时,所有可能样本的特征值及其所对应的概率分布情况,统计推断的理论基础样本的概率分布,抽样推断的基本原理,学生成绩 30 40 50 60 70 80 90,按随机原则考虑顺序重复抽样抽选出名学生。,样本 均值 样本 均值 样本 均值,上述样本平均数的概率分布列表如下,二者均值相等,实践中不可能将所有样本一一列举对于样本的概率分布只能进行推算推算的理论依据是中心极限定理,抽样分布定理,抽样推断的基本原理,全部可能样本平均数的均值等于总体均值,即:从非正态总体中抽取的样本平均数当n足够大时其分布接近
7、正态分布。从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。样本均值的标准差为总体标准差的。,抽样分布定理中心极限定理,抽样推断的基本原理,我们可以利用标准正态分布函数来计算任何一个样本平均值落入某一区间的概率,及估计样本的概率分布。,抽样误差是样本统计量与总体参数之间的绝对差异,抽样误差是一个随样本不同而不同的随机变量。,因为总体指标未知,对于任何一个样本,其抽样误差都不可能测量出来,抽样平均误差,抽样推断的基本原理,抽样平均误差即全部可能样本的样本平均值或样本成数计算的标准差。又称抽样标准误差、抽样标准误,也就是样本的均值与总体均值离差的平均数,抽样平均误差计算公式,抽样推断的基
8、本原理,总体方差,若总体方差未知:用样本方差2 代替用历史资料代替,总体方差已知,总体方差未知,用样本方差代替总体的,在抽样推断中,在一定概率保证下,允许样本统计量偏离总体统计量的最大幅度。(可允许的误差范围),从实际抽样角度来看,抽样极限误差就是实际样本指标与总体指标之间存在抽样误差的可能范围.,抽样极限误差,抽样推断的基本原理,样本统计量的抽样分布,总体中心值,N(总体中心值,),抽样极限误差,抽样推断的基本原理,和样本均值一起构造总体指标的区间估计,抽样极限误差,抽样推断的基本原理,和样本均值一起构造总体指标的区间估计,抽样极限误差,抽样推断的基本原理,所谓抽样推断的可靠程度,就是指总体
9、指标和样本指标之间的误差不超过一定范围的概率保证程度,或者说是总体指标落入区间 或的概率保证程度.,抽样推断的可靠程度,抽样推断的基本原理,估计区间是一定可靠程度下的估计区间,可靠程度是一定估计精度(误差范围)下的可靠程度.,样本统计量的抽样分布,总体中心值,N(总体中心值,),抽样极限误差可以以抽样平均误差为标准单位来衡量.,抽样推断可靠程度的计算,抽样推断的基本原理,t称为概率度。又称为置信度。,抽样推断可靠程度的计算,抽样推断的基本原理,总体中心值,0.6827,0.9545,0.9973,从总体中抽取一个样本,该样本的指标落入区间的概率可用占曲线面积的比例表示.,抽样推断的基本原理,抽
10、样推断可靠程度的计算,样本统计量的抽样分布,N(总体中心值,),设为待估计的总体参数,为样本统计量,则的优良标准为:,若,则称为比更有效的估计量(有效性),若,则称为的无偏估计量(无偏性),若越大越小,则称为的一致估计量(一致性),抽样推断的基本原理,抽样推断的优良标准,学生成绩 30 40 50 60 70 80 90,按随机原则抽选出名学生,并计算平均分数和中位分数。,抽样推断的基本原理,抽样推断的优良标准有效性,中位数的抽样分布,平均数的抽样分布,抽样推断的基本原理,抽样推断的优良标准有效性,有偏,无偏,抽样推断的优良标准无偏性,抽样推断的基本原理,学生成绩 30 40 50 60 70
11、 80 90,按随机原则抽选出5名学生,并计算平均分数。,n=4时 的抽样分布,n=5时 的抽样分布,抽样推断的优良标准一致性,抽样推断的基本原理,为的无偏、有效、一致估计量;为 的无偏、有效、一致估计量;为 的无偏、有效、一致估计量。,抽样推断的优良标准,抽样推断的基本原理,样本容量,调查误差,调查费用,小样本容量节省费用但调查误差大,大样本容量调查精度高但费用较大,找出在规定误差范围内的最小样本容量,找出在限定费用范围内的最大样本容量,抽样推断的样本容量,抽样推断的基本原理,总体各单位的标志变异的程度允许的误差范围要求的概率保证程度抽样方法和抽样组织方式,抽样推断样本容量的影响因素,抽样推
12、断的基本原理,若未知。一般按以下方法确定其估计值:以前类似样本的 试验调查样本的S,计算结果通常向上进位,抽样推断样本容量的计算,抽样推断的基本原理,重复抽样,例:某地硕士研究生毕业第一年年薪的标准差大约为2000元人民币。如果以95%的置信度估计其平均年薪,并且希望抽样极限误差分别不超过500元和100元,样本容量应为多少?,抽样推断的基本原理,抽样推断样本容量的计算,不重复抽样,抽样推断样本容量的计算,抽样推断的基本原理,P 或 p 必须事先知道,但通常未知。一般按以下方法确定其估计值:a 以前类似样本的p;b 试验调查样本的p;,计算结果通常向上进位,抽样推断样本容量的计算,抽样推断的基
13、本原理,重复抽样,某网站一个由400名使用者组成的样本表明,该网站的使用者中26的使用者为女性。在95的置信度下,若希望将抽样极限误差控制在3,则样本容量应当为:,抽样推断样本容量的计算,抽样推断的基本原理,重复抽样,抽样推断样本容量的计算,抽样推断的基本原理,不重复抽样,第三节 参数估计,参数估计的两种方法,点估计区间估计,参数估计用得到的样本指标来推断总体指标。三要素估计值、估计的误差范围、概率保证程度,参数估计的方法,在参数估计中,直接以样本统计量的值作为待估计的总体参数的值,称为点估计。,点估计的概念,同时给出极限误差和概率保证程度。,参数估计的方法,以样本统计量为中心,以抽样平均误差
14、为距离单位,可以构造一个区间,并可以一定的概率保证待估计的总体参数落在这个区间之中。区间越大,则概率保证程度越高。,区间估计的概念,参数估计的方法,同时给出概率保证程度,总体指标进行推断需要三个要素,且三者密切相连。,参数估计的模式,已知可靠性要求,其他量需要计算。已知极限误差,其他量需要计算。,由532名商业周刊订阅者组成的样本表明,其每周使用因特网的平均时间为6.7小时。如果总体标准差为5.8小时,求该周刊订阅者总体每周平均花费在因特网上时间的95置信区间。,则:该置信区间为:,参数估计的模式,已知可靠性要求,已知可靠性要求,某证券市场由10只股票组成的一个样本其市盈率分别为:5 7 9
15、10 14 23 20 15 3 26试求该市场全部股票总体市盈率均值的95置信区间。,查表,总体均值95置信区间为:,即:,参数估计的模式,参数估计的模式,已知可靠性要求,某校一个由413名大学生组成的样本中,277名学生没有宗教信仰。试估计该校学生总体中无宗教信仰比率的95置信区间。,于是:总体比率估计区间为:,第四节 抽样的组织方式,抽选样本的方法,滚球法抽签法随机数码表法计算机模拟法,抽样的组织方式,纯随机抽样,纯随机抽样也叫简单随机抽样。它是按照随机原则直接从总体N个单位中抽取n个单位作为样本,然后通过对样本单位的调查观测,计算出样本指标,据以对相应的总体指标作出推断,。,重复抽样:
16、,不重复抽样:,抽样的组织方式,纯随机抽样,设总体由N个单位构成,把总体划分为K层(组),使,然后从每类中随机抽取个 单位,构成容量为n的样本,使得,抽样的组织方式,分层抽样,可以提高样本的代表性可以缩小总体变异程度对抽样误差的影响,只受组内方差影响,不受组间方差影响.,抽样的组织方式,分层抽样,抽样方法,等比例类型抽样,不等比例抽样,先将总体各单位按某一标志排队,然后按固定的顺序和间隔来抽取调查单位的一种组织方式.,抽样的组织方式,等距抽样,从12个中抽取3个,无关标志排队的等距抽样近似于简单随机抽样,因此,可以按简单随机抽样的方法计算抽样误差。,有关标志排队的等距抽样相当于等比例类型抽样,
17、因此可用等比例类型抽样的公式计算抽样误差。并用不重复抽样的公式。,按有关标志排队等距抽样,按无关标志排队等距抽样,抽样的组织方式,等距抽样,随机起点等距抽样,确定抽样距离(间隔)随机抽取第一个单位依次抽取其他单位,抽样的组织方式,等距抽样,中点等距抽样,确定抽样距离(间隔)随机抽取第一个单位依次抽取其他单位,抽样的组织方式,等距抽样,随机性差,各单位中选机会不等;只能抽取一个样本,抽样框利用率低,对称等距抽样,确定抽样距离(间隔)随机抽取第一个单位依次抽取其他单位,抽样的组织方式,等距抽样,每隔一个为等距,保留了中点等距抽样的优点,保证了样本的均匀分布克服了中点等距抽样的缺点,保持了较好的随机性,整群抽样是将总体划分为由总体单位所组成的若干个群,然后,以群为单位,从总体中抽取若干个群作为样本,而对中选群内的所有单位进行全面调查的调查方式。,抽样的组织方式,整群抽样,比较方便和节约费用。由于影响了样本单位在总体中的均匀分布误差较其他方式大,直接抽取的不是总体单位,而是群,总体群数用表示,样本群数用r表示只有群间方差影响抽样误差一般采用不重复抽样,抽样的组织方式,整群抽样,
链接地址:https://www.31ppt.com/p-6528767.html