抽样的原理与类型课件.ppt
第一节 抽样的意义与作用,抽样及其相关概念抽样调查的作用,一、抽样及其相关概念,1.什么是抽样抽样 是一种选择调查对象的程序和方法。 抽样调查 是在社会研究中,从研究对象的总体中选择一部分代表加以调查研究,然后用所得的结果推论和说明总体特征。 这种由总体中选取一部分代表的过程就是抽样,所选取的这一部分代表称为样本。目前,抽样已被广泛运用于社会的各个领域,并逐渐成为社会调查的主流。,2.抽样调查的优越性,与普查相比,抽样调查具有下列的优越性: 1调查费用较低。 2速度快。 3应用范围广。 4可获得内容丰富的资料。因调查对象的数目少,可以设置较多和较复杂的调查项目。 5准确性高。,3.抽样调查的关键,抽样调查成功首先要求所选取的样本能够代表总体。所谓代表,也就是说,抽取出来的样本从调查所要研究的总体特征来看,能够再现总体的结构。 用样本来概括和说明总体时是有误差的。重要的不是没有误差,而是能知道误差的大小、控制它的大小,并依据我们要求的精确程度抽取出相应的样本。误差越小,样本代表性高。 抽样调查的关键在于: (1)如何判断一个样本误差的大小。 (2)怎样才抽到一个我们所要求的精度的样本。,4.抽样的术语,总体(population) 是指调查研究对象全体所构成的集合; 样本(sample) 是指按照一定方法从总体中抽取出来进行调查的那部分对象的集合;抽样(sampling) 指的是从组成某个总体的所有元素(或个体)的集合中,按一定的方式选择或抽取一部分元素的过程。,抽样单位(sampling unit) 是指抽样过程中使用的基本单位,它可以是调查对象的某种集合,也可以是最终调查对象;样本框(sampling frame) 是指抽样过程中抽取样本的所有抽样单位的名单。参数值(parameter )也称总体值,是关于总体中某一变量的综合描述。 统计值(statistic) 也称样本值,是关于样本中某一变量的综合描述。,图示,总体、样本、抽样单位、样本框、参数值、统计值,二、抽样的作用,自学抽样调查的重要内容之一就是通过样本统计值推算总体的参数值,从而达到由部分认识总体的目的。,第二节 抽样的类型与抽样程序,一、抽样的类型二、概率抽样的基本原理三、抽样分布四、抽样的一般程序五、抽样设计的原则,一、抽样的类型,抽样调查的基本方法可分为两大类:概率抽样非概率抽样见下图,抽样方法,非概率抽样,概率抽样,偶遇抽样,判断抽样,配额抽样,滚雪球抽样,简单随机抽样,系统抽样,分层抽样,整群抽样,多级抽样,其他抽样技术,按比例,不按比例,二、概率抽样的基本原理,概率抽样就是使总体内所有个体具有相同的被抽入样本的概率,这样的样本被称为随机样本 ,它能避免抽样过程中的人为误差,保证样本的代表性。样本必须取自于明确界定后的总体,样本中所得的结果,也只能推广到这种最初已作出明确界定的总体范围中。,三、抽样分布,抽样分布,也就是统计量的分布。抽样分布(sampling distribution)是进行统计推断的基础,正是依据抽样分布的性质,我们才能对总体作出具有一定概率保证的推断。样本统计值,在未抽取前是一个随机变量,抽取后是一个确切的数值。虽然样本统计值是个随机变量,但却具有某种概率分布,利用这些概率分布可以对总体参数进行有效地估计和检验。 在统计学中,将这种样本统计值所形成的概率分布称为抽样分布。,总体和样本的关系示意,抽样分布,是指按照一定的样本量、独立抽取所有可能的样本,由这些样本计算得到的统计值所形成的概率分布称为抽样分布。,四、抽样的一般程序,界定总体选择适当的抽样方法确定抽样单位,制定样本框确定样本量大小收集整理分析样本资料,(1)界定总体界定总体,就是在具体抽样前,先对从中抽取样本的总体范围和界限作明确的界定。(2)选择适当的抽样方法选择时需要考虑:样本的代表性研究对象的情况抽样方法的适用性。(3)确定抽样单位,制定样本框确定抽样单位就是在抽样中,确定抽样的基本单元。制定抽样框 是抽样单位的集合。,(4)确定样本量大小(5)对样本进行评估样本抽出后,开始调查前还应对样本进行评估。样本评估,就是对样本的质量、代表性、偏差等进行初步的检验和衡量。 其目的是初步检查样本对于总体的代表性。 评估样本可以采取收集若干容易得到的资料作为总体,并和样本之间进行比较。,第三节 概率抽样方法,一、简单概率抽样二、系统抽样三、分层抽样四、整群抽样五、多段抽样六、PPS抽样七、户内抽样,一、简单随机抽样,又称为纯随机抽样,它是概率抽样的最基本形式,其他概率抽样都可以看成是由它派生出来的。 特点:总体中的任何个体都同样有被抽取的平等机会。 如,抓阄、抽签要求:把总体中的每一个单位都编号。 但是当总体太大时,通常是使用随机数字表来抽样。 随机数字是由数字09组成的表,由电子计算机编制而成,是真正随机排列的。 见随机数字表,随机数字表:一千个随机数字,著名随机数字表有:美国兰德公司100万数字的表和肯德尔与史密斯10万数字表,二、系统抽样,它是简单随机抽样的一个变种,又称等距抽样或机械抽样。 具体作法是: 1.确定抽样框 2.计算抽样距离。公式:K= N/n 3.确定随机的起点。在头K个个体中,用完全随机的方法抽取一个个体,设其所在的位置的序号为k。 4.自k开始,每隔K个个体抽取一个个体,直到抽够数。 注意:该抽样一个重要的前提是,总体的排列顺序是随机的,即不存在某种与研究变量相关的规则分布。等距抽样最适用于同质性较高的总体。,等距抽样示例,调查大学生上网情况假设总体9000名,制定样本框:从19000编号;计划抽取100个样本,则抽样方法如下: (1)计算抽样距离: K=9000/100=90 (2) 在前90人中,先以简单随机方法抽出1个; 如,第25称为随机的起点 (3) 自25始,每隔90,抽出一个,直到抽够100样本。 如,25+90;25+90 2;,三、分层随机抽样,先将总体依照某一种或某几种特性或标志分为若干层次(或类型),然后从每一层中采用简单随机抽样方法抽取一个子样本,将这些子样本合在一起即为总体的样本。 目前,在社会研究中获得广泛的应用。因为社会研究对象的复杂性和异质性较高, 分层抽样分:按比例分层抽样和不按比例分层抽样。按比例分层抽样,就是要求各层子样本在总体样本中所占比例与本层在总体中所占的比例相同。 不按比例分层抽样,主要是基于对不同层次的子总体进行专门研究或进行相互比较,而确定抽取样本数。,四、整群抽样,又称聚类抽样。是将总体按照某种标准划分为一些子群体,每个子群体作为一个抽样单位,采用随机的办法从中抽取若干子群,然后由所抽出的若干个小群体的所有元素构成样本。 整群抽样与分层抽样的不同。分层抽样是在所有子群中均要抽取一个子样本,作为样本的一部分。而整群抽样则不然,它是抽取若干子群并将抽出的子群中全部个体作为样本,因此样本只分布在几个群中。 整群抽样的分群标准应用与分层抽样不同,它是群间异质性低,群内异质性高。,五、多阶段抽样,又称为多级抽样或分段抽样。 它是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。 其具体做法:先从总体中随机抽取若干大群(组),然后再从这几个大群(组)内抽取几个小群(组),这样一层层抽下去,直至抽到最终样本为止。 采用多阶段抽样,通常在第一阶段使用严格的随机抽样方法,而从第二阶段起开始使用概率比例抽样,因为只有这样才能保证总体样本的随机原则。所谓概率比例抽样是根据每一群所含个体的多少分配样本名额。 多段抽样,适用于总体规模特别大,六、 PPS抽样,全称为:概率与元素的规模大小成比例的抽样。 (Sampling with probability proportional to size)简称PPS抽样。它是一种不等概率抽样方法其原理: 以阶段性的不等概率换取最终的、总体的等概率。其做法:(简介,自学)第一阶段,每个群按照其规模(其所含元素的数量)被给予大小不等的抽取概率。第二阶段,从每个抽中的群中都抽取同样多的元素(也是不等概率)最终:使得总体中每个元素都具有同等被抽中的概率。,七、户内抽样,1.什么是户内抽样当研究者以家庭作为分析单位,以入户访谈的方法收集资料时,不仅需要抽出家庭户作为样本,而且还需要从被抽中的家庭中再抽取一个成年人作为访谈对象。因此,这类抽样分为两阶段:先是利用前面介绍的抽样方法选取家庭样本;然后,再从所抽中的家庭中抽取一个成年人。这后一阶段,即户内抽样。,2.户内抽样的方法户内抽样采取的是一种被称做“Kish选择法”的方式进行。这种抽样方法,仍然是等概率抽样,即家庭中所有成年人均有同等被选中的概率。,Kish具体方法,(1)先将调查表分为A、B1、B2、C、D、E1、E2、F八种;每种表的数目分别占调查总数的1/6、1/12、1/12、1/6、1/6、1/12、1/12、1/6;(2)印制若干套(一套8种)“选择卡”发给每个调查员一套;(3)调查员先对每户中成年人进行排序并编号;(4)调查员按照调查表上的编号找出编号相同的那种“选择卡”,根据家庭人口数,从“选择卡”中查出该选个体的序号,最后对这一序号所对应的那个家庭成员访谈。,“选择卡”的样式Kish选择表,家庭成年人排序与编号方法,遵循以下规则:先男性,后女性;先年长,后年幼。,3.一种简便的户内随机抽样生日法,具体操作步骤为:(1)随机确定一年中的某一天为标准日期(几月几日);(2)了解被抽中家庭中所有成年人(满18岁)的生日;(3)计算出每人的生日距离标准日期的天数;(4)从中选出生日距离标准日期最近的人作为调查对象。,第四节 非概率抽样方法,非概率抽样,是根据人们的主观经验或其他条件来抽取样本。而不遵循概率均等的原则。 其样本的代表性较小,误差有时相当大。 适用:探索性研究中采用。或 当调查对象的总体边界不清,无法编制随机抽样所应具备的抽样框时,采用此种方法。 注意:将非概率抽样的结论推论到总体时要慎重 非概率抽样有以下几种类型 偶遇抽样 主观抽样 定额抽样 滚雪球抽样,(1)偶遇抽样,偶遇抽样又称方便抽样,是指研究者将其在一定时间内、一定环境里所能遇见或接触到的人均选入样本的方法。 如,“街头拦人”即为一例,即在街头路口、车站码头等处拦住过往行人进行访问。 电视台、电台和报纸的记者常使用这种方法迅速了解公众对某些刚刚发生的重大事件的看法。 为方便起见,选择那些离得最近、最易找到人、或愿被调查者的人作为样本。,(2)主观抽样 -分两种情况,一种,称判断抽样或立意抽样 即研究者依据主观判断选取可以代表总体的个体作为样本,这种样本的代表性取决于研究者对总体的了解程度和判断能力。 当总体规模小,所涉及的范围较窄时,样本的代表性较好,但总体太大且涉及的范围较广时,其代表性将显著降低。 在无法确定总体的边界或因研究者的时间、条件有限而无法进行抽样时,可以采用这种方法。,第二种,主观抽样是 “有目的地”选择样本的意思 亦称为:目的抽样。如在问卷设计阶段,为检验问题设计是否得当,常有意地选择一些观点差异悬殊的人作为调查对象。有时研究者去找那些偏离总体平均水平者作为调查对象,其目的是研究什么原因导致了这种偏离。 其作用在于发现问题,提出假设,而不在于对总体作出概括。,(3)定额抽样,定额抽样又称配额抽样,是按调查对象的某种属性或特征将总体中所有个体分成若干类或层,然后在各层中抽样。 样本中各层(类)所占的比例与它们在总体中所占的比例一样。 例某高校有4000名学生,其中男女比为64,文理科各占50;1-4年级学生比例为40、30、20、10。现抽取100人,如表:,定额样本的选取也可以基于属性或特征(变量)的组合。 定额抽样是以代表总体为目的的,因此,必须对总体的性质有充分的了解,(4)滚雪球抽样,滚雪球抽样是先从几个适合的样本开始,然后通过它们得到更多的样本,这样一步步地扩大样本范围的抽样方法。 当调查总体的个体信息不充分时常采用这种方法。 这种情况适合于,当我们无法了解总体情况时采用。当我们获得的样本太多时,可再选用概率抽样或非概率抽样。,第五节 样本规模与抽样误差,一、样本规模及其计算二、影响样本规模研究的因素三、样本规模与抽样误差,一、样本规模及其计算,略(自学)对样本的代表性,不同研究有不同的要求,这种要求一般用精确度来衡量,某研究所要求的精确度就是这项研究能允许样本估计量有多大的误差。但要精确地确定样本数目,一是需要进行复杂的计算;二是要考虑到各种复杂的社会因素。因此,精确的抽样调查不仅需要抽样专家,也需要专业研究人员的指导。在一般的社会调查研究中,实际上并不要求很高的精确度,一般是凭经验确定样本数目的大致范围。经验确定样本数的范围,二、影响样本规模确定的因素,总体的规模抽样的精确性要求总体的异质性程度调查者拥有的人力、财力、时间,三、样本规模与抽样误差,抽样误差: 是指由于随机抽样的偶然因素使样本各单位的结构对总体各单位结构的代表性形成差异,而引起的统计值和参数值之间的绝对离差。即这种差异纯粹是抽样引起的,故称之为抽样误差。凡进行抽样就一定会产生抽样误差,这种误差虽然是不可避免的,但可以控制,所以又称为可控制误差。由于总体的异质性和样本与总体范围的差异性,即在用样本的统计值去推论总体的参数值时,总会存在着偏差,这种偏差就是抽样误差。,抽样误差是衡量样本代表性大小的标准,它主要取决于总体的异质性和样本所含的个体的多少。 一般地说,样本所含个体越多,代表性就越高,抽样误差越小,反之则代表性越低,抽样误差越大;总体异质性程度越高,同样数目的样本的代表性越低,抽样误差越大,反之,代表性越高,抽样误差越小。事先了解和掌握总体的结构及各方面的情况,这是取得好的抽样效果的前提条件。,本讲结束谢谢,