《旅游统计学》PPT课件.ppt
第5章 抽样与参数估计,参考书目:旅游统计学原理与实务李享 中国旅游出版社统计学袁卫 庞浩 曾五一 贾俊平主编 高等教育出版社,抽样是一种常用的统计技术,其目的在于推断我们所关心的总体特征。抽样是国际上通行的调查方法,同时也是旅游统计、特别是针对与旅游者相关的各类统计分析和研究的主要方式和方法。本章首先介绍抽样和抽样分布的一些知识,最后介绍参数估计的方法及样本容量的确定。,本章纲要,第一节 抽样的特点与意义第二节 抽样的基本概念和理论基础第三节 抽样方法与程序设计 第四节 抽样误差的测定 第五节 样本容量的确定,第一节 抽样与抽样分布,一、什么是抽样?抽样是按照随机原则从调查的总体中抽取一部分单位(样本单位)进行观察,并以样本指标对总体相应指标做出具有一定可靠性的估计和推断,从而达到对调查总体认识的一种统计调查与分析方法。抽样既是搜集统计资料的方法,也是对调查对象进行科学估计和推断的方法,抽样推断的意义和过程,二、抽样的特点,第一,抽样是对调查总体中的一部分单位进行调查,是专门组织的一次性的非全面调查。第二,抽选样本单位时要遵守随机原则,使样本单位有同等机会被抽中或抽不中。第三,抽样是以样本指标的数值 去推断和估计总体指标的数值,也称为抽样推断,这也是抽样与其它非全面调查的区别。第四,抽样产生的抽样误差,可以计算并可采取措施控制在一定范围之内,从而使抽样调查具有一定的可靠性。,例如,某村种有晚稻3000亩,在稻子成熟后随机抽取 50个单位的田块为样本,每个单位为10平方市尺,进行实割实测,求得其平均亩产为410千克,从而推算该村的晚稻总产量为41030001230000千克。当然这种推断也会存在一定的误差,但它与其他统计估算不同,抽样误差的范围可以事先加以计算,并控制这个误差范围,以保证抽样推断的结果达到一定的可靠程度。,三、抽样的意义,第一,抽样调查与全面调查相比,能节省人力、物力和财力,并能提高资料的时效性。第二,从理论上讲,有些现象可以全面调查,但实际上没有必要或很难办到,也要采用抽样调查。第三,抽样调查的结果可以对全面调查的结果进行检查和修正。第四利用抽样调查 原理,可以对某些总体的估计和假设进行检验。,第二节 抽样的基本概念和理论基础,一、总体和样本二、总体参数和样本统计量三、抽样的理论基础,一、总体和样本,总体:被研究事物或现象的全体,它由调查对象所有单位组成,用N表示。样本:在全体中按照随机原则抽出来的那部分单位数所组成的小总体,用n表示。一般n=30为大样本,n30为小样本。样本容量:一个样本中所包含的单位数,用n表示。样本个数:从一个总体中所可能抽取的样本的个数总体是唯一的、确定的,而样本是不确定的、可变的、随机的。,参数,根据总体各单位的标志值或标志属性计算的,反映总体数量特征的指标,全及指标(参数)是总体变量的函数,其数值是由总体各单位的标志值或标志属性决定的。一个全及指标的指标数值是确定的、唯一的,所以称为参数。,总体中的数量标志,常用的总体参数有总体平均数和总体方差,统计量,根据样本各单位标志值或标志属性计算的综合指标称为统计量。统计量是样本的函数,用来估计总体参数的,因此和常用的总体参数相对应。,二、参数和统计量,抽样估计常用参数-统计量对照表,三、抽样的理论基础,抽样是建立概率论大数定律基础上的。大数定律是阐明大量随机现象平均结果的稳定性的一系列定理的总称。大数定律的一系列定理为抽样调查提供了数学依据。,大数定律,大数定律表明:如果被研究的总体是由大量的相互独立的随机因素所构成,而且每个因素对总体的影响都相对的小,那么对这睦大量因素加以综合平均的结果,因素的个别影响将互相抵消,而呈现出共同作用的影响,使总体具有稳定的性质。联系到抽样来看,大数定律证明,随着样本容量n的增加,抽样平均数有接近总体平均数的趋势,几乎是具有实际的必然性。,大数定律有若干个表现形式。这里仅介绍其中常用的两个重要定律:切贝雪夫大数定理设x1,x2 是一列两两相互独立的随机变量,服从同一分布,且存在有限的数学期望a和方差2,则对任意小的正数,有:该定律的含义是:当n很大,服从同一分布的随机变量x1,x2,xn 的算术平均数 将依概率接近于这些随机变量的数学期望。将该定律应用于抽样调查,就会有如下结论:随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。,贝努里大数定律设 是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为P,则对任意正数,有:该定律是切贝雪夫大数定律的特例,其含义是,当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此。,大数定律论证了抽样平均数趋于总体平均数的趋势,这为抽样调查提供了重要的理论依据。但是抽样平均数和总体平均数离差究竟有多大?离差不趋过一定概率(把握程度或可靠程度)有多大?这个问题要用概率论的中心极限定理来研究。,样本均值的分布(例题分析),【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下,均值和方差,样本均值的分布(例题分析),现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的分布(例题分析),计算出各样本的均值,如下表。并给出样本均值的抽样分布,2008年8月,样本均值的分布与总体分布的比较(例题分析),=2.5 2=1.25,总体分布,样本均值分布,2008年8月,样本均值的分布与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的期望值为,方差为2/n。即xN(,2/n),2008年8月,中心极限定理(central limit theorem),从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,中心极限定理(central limit theorem),x 的分布趋于正态分布的过程,在现实生活中,一个随机变量服从正态分布未必很多,但是多个随机变量和的分布趋于正态分布则是普遍存在的。抽样平均数也是一种随机变量和的分布,因此,在样本容 量n充分大的条件下,抽样平均数也趋于正态分布,这为抽样误差的概率估计理论提供了理论基础。,德莫佛拉普拉斯中心极限定理,设 是n次独立试验中事件A发生的次数,事件A在每次试验中发生的概率为p,则当n无限大时,频率 趋于服从正态分布。即:该定理是辛钦中心极限定理的特例。在抽样调查中,不论总体服从什么分布,只要n充分大,那么频率就近似服从正态分布。,第三节 抽样方法与程序设计,一、概率抽样方法(一)简单随机抽样简单随机抽样又称纯随机抽样,是一种最基本的抽样方式。设总体的大小为N,从中随机抽取容量n的样本,每一个单位都有同样的机会被抽中,这种抽样的方法称为简单随机抽样,所抽到的样本称为简单随机样本。简单随机抽样的抽取可以有多种方法,抽签摸球就是最原始的办法。简单随机抽样可分为重复抽样和不重复抽样两种。,1.重复抽样重复抽样是从总体中抽取样本时,随机抽取一个样本单位,记录该单位有关标志表现以后,把它放回到总体中去,再从总体中随机抽取第二个样本单位,记录它的有关标志表现以后,也把它放回总体中去,以此类推,一直到抽选n个样本单位。重复抽样时总体单位数在抽选过程中始终未减少,总体各单位被抽中的可能性前后相同。2.不重复抽样不重复抽样是从总体中抽取第一个样本单位,记录该单位有关标志表现后,这个样本单位不再放加总体参加下一次抽选。然后,从总体N-1个单位中随机抽选第二个样本单位,记录了该单位有关标志表现以后,该单位也不放回总体中去,从总体N-2个单位中抽选 第三个样本单位,以此类推直到抽选 出n个样本单位。不重复抽样时,总体单位数在抽选过程中逐渐减少,各单位被 抽中的可能性前后不断变化,不存在重复抽中的可能,(二)分层抽样,分层抽样也称分类抽样或类型抽样,在分层抽样中,总体首先被分成若干个“层”,然后再从每一个层中随机抽取样本。每一层内的元素应呈现出同质性或相似性,层与层间的元素应表现出异质性或差异性。例:中国主要城市接待入境旅游者构成统计中,把旅游者分为外国游客、香满同胞、澳门同胞、台湾同胞。,分层抽样的作用可以体现在以下方面:,第一,利用已知的信息提高抽样调查的精确度,或者在一定精度下减少样本的单位数以节约调查费用。但要求分层抽样之前,要对客观总体有一定的了解,需要知道各层的本单位数,是利用主观认识提高抽样效率的一种手段。第二,分层抽样与特定研究目的有关。如果抽样调查既要了解总体的有关信息,又要了解一些子总体的信息,这种情况下就可以将子总体分层。如,按行政隶属的系统分层,按地理的区划分层等等。,(三)等距抽样,等距抽样是先将总体按某一因素排列,然后每隔一定距离选取一个样本,即从数量为N的总体中每隔k个单位就选取一个样本,若需选择n个样本,则k=N/k,k的值需取整。抽样时,先在第一个间隔随机抽取一个单位,假定为a,然后从a开始,每隔k个单位抽取入选单位:a,a+k,a+2k,a+3k,a+(n-1)k,总数正好是样本容量n。,等距抽样的作用可以体现在以下方面:,第一,简便易行。从简单随机抽样来说,在抽样之前需要对每一个单位加以编号,然后才能利用随即数字表方法 抽选样本。当总体单位数量很多时,编号说抽选过程比较麻烦,而等距抽样只要确定抽样的起点和间隔,整个样本的所有单位也随之而自然确定。它可以充分利用现成的各种排列,抽样方便,便于推广。第二,系统抽样的误差大小说总体单位的排列顺序有关。当对总体结构有一定了解时,可以利用已有的信息对总体单位进行排列后再系统抽样,可以提高抽样效率,是大规模抽样调查时一种比较常用的抽样方法。,(三)整群抽样,整体抽样首先需要把总体分为几个互不重叠的群,然后再在每一个群中随机抽取样本。一旦某些群被选入样本后,群中的一个单位都要调查。例如,调查某学校学生身高,其基本单位是学生,但抽样单位可以椒班级或系,这里一个班级或系就是一个群,我们对抽中胡班级或系的全部学生作为样本进行 观察。整群抽样适用于群间差异小而群内差异大的总体,这点正好与分类抽样相反。,(三)多阶段抽样,当总体很大时,直接从总体中抽取单位,在技术上就会产生困难,因此一般采用多阶段抽样。在多阶段抽样中每一级都可以看做是一次整体抽样,每一个抽中的整体又可以看做是由若干子群所组成,从入样的整群中,再随机抽取若干子群组成子子群,然后依法继续往下抽取,直至抽中的单位满足抽样者的要求,成为基本调查单位。,二、非概率抽样方法,非概率抽样不是按照概率均的原则,而是根据人们的主观经验或其他条件来抽取样本。代表性较小、误差相当大,且无法估计大规模正式研究中很少采用,只是在探索性研究中采用,(一)偶遇抽样,又称为方便抽样或自然抽样。是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为对象,或者仅仅选择那些离得最近、最容易找到的人作为对象。与随机抽样的根本差别在于,偶遇抽样没有保证总体中的每个成员都具有同等被抽中的概率。那些最先被碰到、最容易见到、最方便找到胡对象具有比其他对象大得多的机会被抽中。不能依赖偶遇抽样得到的样本来推论总体。,(二)判断抽样,又称为立意抽样。是指研究者根据研究目标和自己主观分析来选择和确定研究对象的方法。首先需要确定抽样标准,标准的确定带有较大的主观性,往往与研究者的理论修养、实际经验以及对对象的熟悉程度有很大关系。优点:充分发挥研究人员的主观能动作用。缺点:所得样本的代表性难以判断多用于总体规模小,所涉及的范围较窄或时间、人力等条件 有限而难以进行大规模抽样的情况。,(三)雪球抽样,一种极特殊的抽样方法。当我们无法了解总体情况时,可以从总体中少数成员入手,对他们进行调查。向他们询问还知道那些符合条件的人;再去找那些人再询问他们知道的人。如同滚雪球一样。如果总体不大,有时用不了几次就会接近饱和状况,即后访问的人再介绍的都是已经访问过的人。,二、抽样的程序设计,抽样设计的任务,就是要依据调查的目的,在给定的人力、物力、经费、时间要求等条件下,设计一个精度高,能够由样本正确推断总体的良好抽样调查方案。,第一、明确规定调查目的及抽样目标的总体。第二、搜集和编制抽样框第三、确定要搜集的资料第四、规定要达到的精度第五、规定抽样方法及计量方法第六、确定样本容量第七、经费核算,(一)抽样设计的主要内容,(二)抽样设计效果的评价,在给定调查总体的条件下,采用什么样的组织方式才能获得优良的抽样效果,决定于评价抽样设计方案的原则。第一、在核定费用范围内最小抽样误差的原则第二、以最少的费用达到要求精度的原则,第四节 抽样误差的测定,一、抽样误差的概念抽样误差是指样本指标和总体指标之间数量上的差别,即 或。抽样误差是不可避免的。第一,抽样误差是指由于抽样的随机性而产生的那一部分代表性误差,不包括登记误差,也不包括可能发生的偏差。抽样误差是一个随机变量。第二,随机误差有两种:实际误差和抽样平均误差。实际误差是一个样本指标与总体指标的差别,是无法知道的误差;抽样平均误差是指所有可能出现的样本指标的标准差,即所有可能出现的样本指标和总体指标的平均离差。抽样平均误差是可以计算的,用于衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度。,二、影响抽样平均误差的因素,总体标志的变动程度:总体标志变动程度越大,抽样平均误差就越大;反之,总体标志变动程度越小,则抽样平均误差越小。者成正比关系变化。抽样单位数的多少:在其他 条件不变的情况下,抽取的单位数越多,后样平均误差越小;样本单位数越少,抽样平均误差越大。抽样平均差的大小和样本单位数呈相反关系变化。抽样方法的影响:在相同的样本容量条件下,调查费用大致是相同的,但不同的抽样方法的抽样误差却不同,简单随机抽样要比其他 概率抽样的方法误差大一些。抽样设计 中需要以抽样误差为标准,比较不同抽样方案的效果,以确定最佳的抽样方法。,三、抽样平均误差的计算,样本统计量抽样分布的标准差,称为抽样平均误差,也称为标准误差。衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度在重复抽样条件下,样本均值和样本比例的抽样平均误差分别为不重复抽样的计算公式,五、抽样极限误差,(一)概念由于总体参数是一个确定的量,而样本统计量是一个围绕着总体参数上下波动的随机变量。样本统计量变动的上限或下限与总体参数之差的绝对值 即为样本统计量与总体参数之间的抽样误差的可能范围。抽样极限误差是指以绝对值 形式表示的抽样误差的可能范围。计算公式为:例某饭店门口等街出租车时间平均为12分钟,抽样极限误差为3分钟,则要求样本的估计值 在12+-3分钟才是符合要求的。,(二)抽样极限误差与概率度、抽样平均误差的关系,基于概率的要求,抽样极限误差通常以抽样平均误差 或 为标准单位来衡量,抽样极限误差与抽样平均误差的比值(或倍数)t,称为抽样误差的概率度。t是测定估计可靠程度的一个重要指标。抽样极限误差随概率度和抽样平均误差的变化而变化。t值越大,则 越大;否则相以。同理,在t 值 不变的条件下,值 越大,则 越大;否则相反。抽样平均误差是通过计算取得的,而t 值的大小是由概率保证度(置信水平)决定的。,置信水平也称为置信系数或概率保证度,表示为(1-。(为显著性水平,是总体参数未在区间内的概率)置信水平是用来构造置信区间上下界的样本统计量覆盖总体参数的概率。也就是说,无穷次重复抽样构造的所有置信区间中,有(1-的区间包含总体参数的真值。常用的置信水平值有 99%,95%,90%相应的 为0.01,0.05,0.10,置信水平 或概率保证度,样本平均数越接近总体平均数,其出现的可能性越大;反之样本平均数越远离总体平均数,其出现的可能性越小。这种可能性在数学上称为概率F(t),也就是可靠性(在区间估计中,可靠性水平是事先确定的,即概率保证度或置信水平)。与概率对应的数值称为概率度,即抽样误差扩大的倍数,用字母t表示。概率F(t)与概率度t 的对应函数关系如图4-2所示。,(三)概率度与概率的关系,落在总体均值某一区间内的样本,图4-2显示样本平均数与总体平均数的平均误差不超过1的概率为0.6827,不超过2的概率为0.9545,不超过3的概率为0.9973。即:当t=1时,F(t)=0.6827 当t=2时,F(t)=0.9545 当t=3时,F(t)=0.9973 概率度t与概率F(t)的对应关系是:概率F(t)越大,则概率度t值越大,估计的可靠性越高,样本统计量与总体参数之间正负离差的变动范围也越大。对于t每取一个值,概率F(t)有一个唯一确定的值与之对应。因此人们制定正态分布概率表(见书后附页)供大家查找。,