抽样调查教案-1绪论.docx
抽 样 调 查李启才南京师范大学数学与计算机学院liqicai07级统计学目 录第1章 绪论 (3)第2章 简单随机抽样 (18)第3章 分层抽样 (48)第4章 不等概率抽样 (76)第5章 整群抽样 (3)第6章 系统抽样 (3)第7章 多阶抽样 (3)第8章 二重抽样 (3)第10章 复杂样本的方差估计 (3)第11章 调查中的非抽样误差 (3)第12章 案例及其它 (3) 致谢:本讲义大量参考引用了文献1、2、3、4、5以及其它文献内容,在此一并致谢!参考文献:1抽样技术 金勇进 蒋妍 李序颖编著 人大出版社(教材) 2抽样技术与应用 杜子芳编著 清华大学出版社 3抽样调查 倪加勋 广西师范大学出版社 4抽样调查 L.KishUSA 倪加勋主译 中国统计出版社 5抽样调查 樊鸿康 高教出版社第一章 绪 论 §1.1 统计与抽样调查引言:什么是统计?你觉得我们需要统计嘛?比如你想知道江苏省2008年人均年收入及其收入分布状况怎么办?像人口普查那样?你想要了解南师同学们每个月平均消费水平怎么办?一个个同学去询问?你想过下列问题嘛?当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢?如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某项事物(比如商品或政策)的态度的关系呢? 如何才能够客观地得到某个电视节目的收视率,以确定广告的价格是否合理呢?“调查结果表明20%的观众喜欢某节目”“抽样调查结果的误差为±3%” “支持率的95置信区间为(25%,30%)”“某学校排名第一”“消费价格指数为120%”“该药品疗效99%”“该国贫富差距大”“该型号电器的实用年限是20年”你可以举出很多例子。实际上,上述诸多问题都是统计问题,统计学可以解决。所以你即将学习的数理(推断)统计很重要。一般来说,统计先从现实世界收集数据(抽样),然后根据数据作出判断。那么数据你怎么得到呢?像人口普查那样?当然你其实也可从报纸、电视、互联网、年鉴等方面看到各种数据并且从这些数据可以提取对自己有用的信息。这些间接得到的(并非自己收集的)数据都是二手数据。获得第一手数据要困难得多。某方便面企业每年至少花三四千万元来收集和分析数据,调查其产品及竞争者在市场中的状况、各种类型消费者对其产品的态度、收集各地方的经济交通等信息等等。 可见获得统计数据,并对它分析,提取需要的信息是非常重要的,你的预测决策都需要。你可以有很多方法去获取数据,而我们即将进行的抽样调查就是科学获得局部数据并对它进行分析的一种有效手段。一、什么是抽样调查(Sample survey) 调查(survey)是系统的信息搜集(或收集)与分析活动。它一般包括调查主体、调查客体、调查目标、调查目的、调查方案等要素。人类社会在发展过程中离不开对数据、资料、信息的统计调查和分析,比如人口普查、工业生产普查等等这些都是我们常见的。然而政府统计中的普查和定期报表只适于对基本国情(国势、国力等)等调查,而大量的社会现象都不可能作全面调查(一方面费时费力费财,是否值得?我们是否会“为了知道牛肉的滋味而吞噬掉整头牛”(萨缪尔森 Samuelson)?另一方面某些现象根本无法作合理的普查,因为被调查对象可能不完全清晰),因此发展非全面调查非常必要,通过局部数据推断全局特征,这正是统计的一条主线。广义意义上的抽样调查就是非全面调查。非全面调查根据抽取方式不同,又可以分为非概率抽样和概率抽样。 (一)非概率抽样 非概率抽样没有严格的定义,也称非随机抽样,是一种不按照随机原则、总体中各单位被抽中概率事先未知或难以确定的抽样,样本的抽取主要根据人们的主观判断或简便性原则来进行。其致命的缺点是,难以计算和控制抽样误差,难以保证推断的准确性和可靠性。非概率抽样有很多形式:随意抽样、典型抽样、重点抽样、判断抽样、定额抽样和流动总体抽样等等。 随意抽样:也称任意抽样,即抽样者随意地或任意地(通常遵循便利原则)从总体中抽取样本。如我们常见的街头拦访、商场在柜台分发的问卷调查等。这样的样本往往有偏,不能代表总体。比如调查1840岁女性关于某品牌化妆品观点,则在柜台拦到的单元很可能属于更倾向于经常购买某类或某品牌的人群,她们的观点显然不能代表全体1840岁的女性。典型抽样:只对总体中的典型(有代表性的)单元调查。如调查一个地方农村经济发展情况,根据调查者对当地情况的了解,选择有代表性的村调查;典型案件的调查等。重点调查:只对总体的重点单元调查。这些被选择的单元虽然数目不多,但它们的标志总量在总体总量中占据了绝大部分。如调查我国钢铁行业的现状,则只对宝钢、鞍钢、首钢等几家国有特大型企业调查,因为这几家产量占全国产量大半,把握了它们的情况就可以把握总体情况。典型调查和重点调查中如果抽样者对典型或重点把握比较准确,则会有较高精度,否则精度比价低。还有其它非概率抽样不一一赘述,本课程重点是在概率抽样上。(二)概率抽样概率抽样也称随机抽样,是遵循随机性的原则,使总体中的每个单位都有一个事先已知的、非零概率被抽中的抽样。从总体中抽取部分单元,采取科学的统计方法,以其所得到的结果对总体的数量特征作出具有一定精度和信度的估计与推断的一种非全面调查方法。总体各单元被抽中的概率可以通过样本设计来规定,通过某种随机化操作来实现。通常所说的、狭义上的抽样就是指概率抽样,狭义上的抽样调查就是指概率抽样调查。常用的概率抽样方式有简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样。我们将在后面章节一一介绍。 而抽样调查是遵循随机性的原则,采取科学的统计方法,从总体中抽取部分单元进行调查,以其所得到的结果对总体的数量特征作出具有一定精度和信度的估计与推断的一种非全面调查方法。因而在抽样调查中需要以较多的概率统计知识为基础。二、抽样调查的随性原则 抽样调查的随机性原则是指在抽样过程中,样本单元的抽取不受任何主观因素及其它系统因素的影响,从而保证总体中的每一个单元都有一定的概率被抽中。随机性原则是抽样调查所必须遵循的基本原则。有人把随机性原则理解为任意性或随意性,还有人将随机性原则等同于客观性原则,认为只要排除了人的主观意识就满足了随机性原则,这些都是不正确定。事实上,随机性原则包含两个缺一不可得方面:抽样的客观性和样本的随机性。(比如网络上的随机调查,随意很大,就不满足这样的条件) 抽样的客观性是指在整体抽样过程中,总体每个单元是否被抽中不取决于任何主观因素的影响。这就是说,每个样本单元的取得,既不取决于调查者的爱好和愿望,也不决定于被调查着的合作态度。即使调查者认为所抽取得某个调查单元,加入后会影响样本对总体的估计,也不能另取一个来代替被抽中的样本单元。因为这样就会破坏抽样的客观性,从而违背随机性原则,坚持抽样的客观性是坚持随机性原则的前提。 抽样的随机性是指整个抽样过程中必须保证总体各个单元都有一定的被抽中的概率。只有这样才能保证样本结构类似总体结构,才能运用概率与数理统计知识进行合理推断。 一个反面案例是:1936年美国作家文摘对总统选举的民意预测调查。该刊从电话簿和俱乐部成员中选取1000万样本进行调查,其中回收200万份,根据样本反映共和党候选人Landon(兰登,57)大幅度领先民主党候选人Rossevlt(罗斯福,43),于是该刊预测共和党候选人Landon将肯定胜出。然而选举结果却是民主党候选人Rossevlt(62)以很大优势胜出(Landon,38)。为什么作家文摘花费那么大精力收集那么多数据会产生那么大错误,最终导致该刊不久即“关门大吉”呢?原来作家文摘选取样本出了很大问题,完全没有遵循随机性原则。选取得1000万份样本明显排斥穷人,因为在当时,一般穷人很少拥有私人电话或属于哪个俱乐部。众所周知,经济地位很大程度上影响政治态度,穷人压倒性支持Rossevlt,而有钱人倾心Landon,作家文摘选取样本没有反映出这样的社会现实(总体结构),从而犯了致命错误。三、抽样调查的特点和作用(1) 遵循随机性原则(2) 可以科学合理推断总体(3) 可以较好的控制误差(在一定信度下) 当今,抽样方法的应用范围不断扩大,它的原理(包括抽样调查理论和抽样推断理论)已成为统计学中发展最快、最活跃的一个分支。它在社会经济和科学领域的应用愈加广泛。§ 节约成本§ 时效性强§ 提高调查数据的质量§ 可以承担全面调查无法胜任的项目:(1) 无限总体 例如,气象调查、新工艺新设备新材料的功能调查等等(2) 包括未来时间序列总体 例如生产过程稳定性检查(3) 破坏性的产品质量检验 例如灯具寿命有些现象虽然属于有限总体,但是总体范围过大,如水库鱼苗数,森林蓄木量;有些现象根据研究的任务要求没有必要进行全面调查,如民意测验。当然,抽样技术也并非十全十美,首先是由于技术性强而不易理解和掌握,其次是抽样推断的结果有时也会产生差错,三是对于总体未被调查的部分很难提供有价值的信息,四是有些理论方法问题还没有得到完全解决。另外你得有思想准备:作为统计学类课程,它将面临大量实际问题和数据,很多时候计算量是巨大的,然而计算机的发展给你带来了很大的方便,所以应学会使用一些统计软件。(如SPSS)四、抽样调查的应用领域(一)人口调查 1、人口调查是最早应用抽样技术的领域。 2、我国抽样技术在人口调查中的应用主要有三个方面:一是用于普查中提前估计人口总数和检验普查的质量;二是用于两次普查年份之间(逢5年份)的1%的人口抽样调查;三是用于每年一次的经常性人口变动情况抽样调查。 3、我国现行的人口变动情况抽样调查,采用在抽中的调查小区(调查群),按常住人口登记的原则以户为单位进行调查,全国约抽取120万人。抽样调查的主要指标是人口出生率、死亡率和失业率。调查的标准时间为当年10月31日0时,现场登记的时间为11月份。调查以全国为总体,以省级单位为次总体,采用分层、多级、概率比例的抽样方法。多数省级单位采用五级抽样方法 ,直辖市和少数省级单位采用四级抽样方法 。 (二)经济调查1、经济调查是应用抽样技术最为普遍、也最重要的领域。目前各国在产业、贸易、金融、居民收入与支出、消费等方面,基本上都通过抽样调查来获取信息。 2、我国在经济调查方面应用抽样技术的主要有以下这些方面:农村居民生产、生活情况调查,农产量调查,城镇居民生活情况调查,工业调查,批发零售贸易与餐饮业调查,第三产业调查,企业景气调查,物价调查,固定资产投资调查等政府统计调查,以及不同主体的各种市场调查、专题经济调查。3、不同的调查,所应用的抽样技术也不一样。(三)社会调查1、抽样技术在社会调查中的应用主要是各种社会专题调查和民意调查。 2、我国有关主管部门和研究机构曾先后组织开展了公众对物价改革的社会心理反映调查,深入的生育率调查,全国专业技术人员状况调查,妇女地位调查,中国儿童情况调查,公众对科学技术态度调查,以及老年人状况调查、青少年犯罪调查、全国群众安全感调查等。 3、2004年11月的第四次全国群众安全感抽样调查,按照多阶段、分层、整群、概率比例抽样方法,在全国共抽取了997个县、市和市辖区的3631个乡、镇、街道,共调查了102309个家庭,每个家庭随机抽取一名16岁以上的人员。 4、我国这些年来,各种研究机构、民间团体也进行了大量民意调查。 (四)其它调查抽样技术还在文化卫生调查、环境资源调查等方面得到广泛应用。 例如,我国曾先后进行了全国使用语言文字情况调查,中国5岁以下儿童死亡率调查,国家卫生服务总调查,高血压流行病学调查,结核病流行病学调查,老年痴呆病调查,青少年肥胖症调查,儿童龋齿情况调查,粮食农药污染情况调查,耕地面积卫星遥感调查等专题抽样调查。有些国家还开展了森林资源、草地资源和珍惜动物资源等的抽样调查。 此外,各国在电视收视率调查方面也广泛采用了抽样技术。 五、抽样调查发展简史(来源) 1、1776年,法国经济学家麦桑斯在其所著的法国人口论中,以部分地区的人口清查数来推算全国人口。1786年,法国著名数学家拉普拉斯建议用某些地区的出生率来推算整个法国人口,并对推算误差进行了研究。1802年,他在全国挑选了30个县,对连续三年内出生的人数进行了调查,得出人口出生率为3527。 2、1853年,曾提出统计结果稳定性的“平均人”理论的比利时统计学家凯特莱主持召开了第一次国际统计会议,提出在家庭收支调查方面采用“代表性”调查。 3、1861年,英国的威廉·法尔在人口普查中利用了部分抽样。19世纪末,任美国联邦劳动委员会委员的赖特,在国家工业和劳动统计中曾提到使用“代表性”的样本。 4、挪威首任中央统计局局长凯尔是竭力提出并推广抽样技术的先驱者,他在1895年于瑞士伯尔尼召开的第五届国际统计学会会议上,根据1894年由他自己亲自组织进行的关于挪威退休金和疾病保险金抽样调查的经验(调查项目60多个,样本人数8万),提出了所谓“代表性调查”的抽样方法,首次引入了抽样的概念。他将代表性调查定义为“根据抽样设计,从总体的正常代表中合理地收集数据”,认为“调查结果的准确性,不是取决于观察数量的多少,而是取决于正确的代表性方法”,主张“按照一个以过去统计调查为基础的合理方法来选取样本单位”,也就是按照调查者的主观判断来取样,这就是我们所说的有目的抽样。由于凯尔没有提出完善的推断理论和解决如何检验“代表性”的问题,因此他的观点引起了激烈争论 。 5、1899年,在俄国彼得堡召开的第七届国际统计学会会议上,凯尔继续捍卫“代表性调查”的方法,并且强调该方法不仅适用于社会经济调查,也适用于农业和林业,还提出了分层的思想和控制调查结论、便于统计分析的主张,呼吁研究和发展这一方法的实际和理论的各个方面。国际统计学会任命一个分委员会来充分讨论这个问题,并且要求提出研究报告。 6、1903年,第九届国际统计学会会议在柏林召开,对“代表性方法”进行肯定,并建议继续进行研究。此后,相继出现了随意抽样、判断抽样、定额抽样等非概率抽样形式,并在相当长的时期里得到应用。但非概率抽样毕竟不够科学,例如1936年美国文学摘要杂志用随意抽样方式和1948年美国盖洛普(Gallup)咨询公司用定额抽样方式对总统选举所作的推断预测都遭遇了失败。 7、随着代表性方法逐步被接受,争论的焦点开始集中在如何保证样本的代表性上。德国统计学家波特基维茨( 1901年)和英国统计学家鲍莱( 1906年)都提出应以概率论作为抽样的理论依据。1908年,英国的戈塞特提出了小样本思想和t分布理论。1923年,费希尔提出了方差分析法,完善了小样本理论,阐述了实验设计原理。英国统计学家蒂配特编制了历史上第一张随机数字表。 8、1924年,国际统计学会成立“抽样方法应用研究委员会”。1925年,在罗马举行的第十六届国际统计学会会议上,发布了鲍莱的抽样精确度的测定和丹麦统计学家詹森的代表性方法的实践两个报告,首次对随机抽样和有目的抽样进行了比较研究,提出了要按照概率原理给每个单位都有被抽中机会的观点,从理论和实践上充分肯定了抽样方法的科学性。 9、1934年,美国统计学家奈曼根据概率论的原理提出了置信区间的推断理论,此后又提出了分层抽样的样本最优分配原理和方法,改进了整群抽样设计,探讨了比率估计方法和双重抽样技术,研究了不等概率抽样方法,并从对比研究中进一步肯定了随机抽样的优越性。 10、印度著名的统计学家马哈拉诺比斯从1931年开始在他创办的印度统计学院中进行了一系列抽样调查实践和研究工作,他提出了“费用函数”和“方差函数”的概念用于设计最优抽样方案,创立了估计复杂样本方差的“交叉子样本”技术,在农作物产量抽样调查方面取得了许多重要成果。印度的另一统计学家苏克哈特米对分层抽样和非抽样误差控制的研究也取得了突出成绩。在他们的带领下,印度的抽样技术、尤其是农业抽样技术处在了世界领先水平。 11、美国也是世界上最早推广应用抽样技术的国家之一。美国劳工部在1937年采用比率估计和置信区间的方法进行了全国失业情况抽样调查,在1938年采用了多阶段抽样方法,在1942年对各阶段抽样进一步采用了非等概率抽样和比率估计方法,并且进行了控制非抽样误差的设计。1935年,美国进行了消费品购买量抽样调查。不久,美国农业部开展了农业抽样调查。1943年,美国进行了劳动力月报抽样调查,后来发展成为美国最重要的一项调查现时人口调查(Current Population Survey)。在美国抽样技术的推广应用和发展中,产生了一批著名的抽样专家,如戴明(W.E.Deming),汉森(M.H.Hansen)、赫维茨(W.N.Hurwitz)、麦多(W.G.Madow),基什(L.Kish),科克伦(W.G.Cochran),耶茨(F.Yates)等 。 12、休哈特(W.Shewhart),戴明和朱兰(J.Juran)等人,还把抽样技术推广应用到了统计过程控制和全面质量管理,对战后日本重建和当今世界工商业管理起到了很大的作用。 13、原苏联从1925年开始在农业经济、雇佣劳动力、作物面积、牲畜、农产量、集市农庄市场价格、农民和职工家庭收支、工业产品质量检查等方面,广泛采用抽样调查,但随机抽样方法的普遍采用则主要从50年代开始。 14、1947年,联合国专门设立了“统计委员会抽样分会” 。1950年,联合国统计局发行了当前各国抽样调查要况,介绍了印度的实践和经验。1960年,出版了抽样调查理论基础,推荐了22种社会经济抽样调查方法,1927年增加至32种。此后又出版了抽样设计的计算机程序和工业普查实用抽样技术。 六、我国对抽样技术的研究与推广 1、我国对抽样技术的研究与推广始于20世纪三、四十年代,杰出人物是北京大学的许宝禄教授,他在19381945年期间,发表了一系列有关抽样推断和多元分析的论文,达到了当时的世界先进水平,由他编著的讲义抽样论为指导大规模抽样调查提供了方法依据。 19431944年,清华大学陈达教授主持了云南户籍示范人口普查,并用抽样方法抽取部分人口以核对普查结果。这是我国第一次抽样调查。 上海曾于1946年进行工人生活状况抽样调查。 2、 1952年8月,新中国成立了国家统计局 。 3、1955年1月,国家统计局颁布了1954年农民家计调查方案,进行了新中国第一次在全国范围内按统一方案、统一计划进行的农民家计抽样调查,1957年开始在全国范围内建立经常性的农民家庭调查。人民公社化后这项工作暂停了一段时间,1962年又恢复社员家计调查。 4、1956年,国家统计局制定了全国职工家计调查方案,运用类型比例与等距抽样相结合的方式,对十个工业部门的国营和公私合营的6000名职工进行了家计调查。1957年,职工家计调查扩大到商业、教育、机关团体等部门,并改变由全国统一抽选调查单位为各地自行抽选,并提出应用双重抽样方法。 5、1956年12月,以王思华为团长的国家统计局代表团到印度考察农产量抽样调查工作。 6、1957年6月,统计工作通讯发表社论积极在全国范围开展抽样调查,广泛收集统计资料。 7、1957年6月,作为印度政府统计顾问和联合国统计委员会主席的马哈拉诺比斯教授到中国访问讲学 。 8、1963年,国务院发布统计工作试行条例,强调指出灵活运用包括抽样调查在内的各种统计调查方法。同年,国务院批准成立第一支专业抽样调查队伍全国农产量调查队。国家统计局颁布了农作物产量抽样调查方案(草案)并试点,规定在群众估产的基础上,分层排队,等距抽样。以省(区)为总体采用四阶段抽样方式。1964年,各省(区)正式进行了主要农作物的播种面积和农产量的抽样调查,推算了全国产量。 9、“文革” 期间,抽样技术被横加批判,抽样调查工作被迫中断。 10、1980年4月,恢复职工家计调查。 11、1981年9月,国家统计局在关于加强和改革统计工作的报告中明确指出:“凡是适合用抽样调查的,就不用全面报表;现在已经建立的全面报表制度,适合改用抽样调查的要逐步用抽样调查代替”。同时,国务院批准成立了农村社会经济和城市社会经济两支抽样调查队。1982年,恢复农产量抽样调查,采用以前三年平均粮食亩产排队、累计面积、多阶段等距抽样。同年4月,开始进行城市物价抽样调查,作为编制零售物价指数和职工生活费价格指数的依据。1984年7月,国家统计局颁布农村抽样调查网点的抽选方案(试行),规定农产量、农村住户和其它农经调查的三套网点合而为一。 12、1994年,为了适应社会主义市场经济的需要,经国务院审批,全国统计工作会议提出建立“以周期性普查为基础,以经常性抽样调查为主体,同时辅之以重点调查、科学推算等方法综合运用的统计调查方法体系”,正式提出确立抽样调查的主体地位。同年,国务院批准国家统计局建立第三支抽样调查队企业调查队,负责全国第二、三产业的抽样调查。 13、抽样技术在我国大力推广的同时,有关高校也纷纷开设了抽样技术或抽样调查课程,研究抽样技术的人员也越来越多,发表了许多有较高学术水平的论著。经过近20年的努力,我国在抽样技术研究与推广方面的水平,与世界的差距已经明显缩小。 §1.2 基本概念一、总体和样本 我们把研究对象全体组成的集合称为总体,把组成总体的基本成员称为个体(基本单元)。总体中个体的总数目称为总体容量或大小。 在实际中,对总体的研究往往是研究它的某个或某些数量指标Y(总体参数)。因此在数学上,个体常常是一个个具体的数值,用大写的表示,总体即为,N是总体容量,可以是一维数值也可以是多维向量值。但要注意他们本身都是非随机的,只是可能我们不知道。 为了对总体进行研究,往往要从总体中抽取若干个(比如n个)个体出来进行观察,得到n个观察值,称或者为抽自总体的一个样本,n为样本容量或大小。注:目标总体和抽样总体 目标总体就是上述总体,比如我们要研究北京市个体商业的情况,总体就是北京市所有从事商业活动的个体经营单位,每个个体经营单位就是总体单元。抽样总体是指从中抽取样本的总体。理论上讲,抽样总体和目标总体应该是一致的,但是在实践中两者可能不一致。如上述举例,抽样总体是什么呢?选择之一,营业执照,即把北京市工商局个体商业的营业执照作为抽样总体,从中抽取样本。但是有些虽然持有执照但是不再从事商业活动了,他们不在目标总体范畴;有些无照经营,应该属于目标总体。所以二者完全一致是不容易的。(见图1.1) 基本原则是,抽样总体由目标总体所决定,但在实践中,可以构造的抽样总体却有可能反过来决定调查中的目标总体,即根据抽样总体来调整目标总体。 抽样总体通常是有限总体,它所包含的调查单元个数称为总体容量,常用N表示。 样本是总体的一部分,是从抽样总体中按一定方法和程序抽取的部分调查单元的集合,也称为子样。 如果说总体是我们所要研究的对象,那么样本就是我们所要观察的对象 。 样本中所包含的抽样单元数称为样本容量,常用n表示。 样本容量与总体容量之比称为抽样比,常用f来表示,即fn/N。 对于同一总体,用相同的抽样方法反复从中抽样,可以构成一系列容量为n的样本。从一个总体中最多可以抽取的容量为n的不同样本数目,称为样本个数。SampleTarget PopulationSamplingPopulation图1.1二、抽样框与抽样单元 翻开一本书,你会发现前面都有目录,比如,我们的教材,每一部分内容都对应一个编号, “简单随机抽样”对应“2”(第2章)“系统抽样”对应“6”。(第6章)。抽样框有类似的意思,简单来说: 我们将抽样总体的基本单元划分成块(当然也可以一个基本单元作为一块),每块我们可以称之为一个抽样单元,然后将抽样单元一一按编号。那么抽样框就是抽样单元与其编号一一对应的一本名册(目录)。严格来讲: 定义:抽样框与抽样单元是抽样的一对基本概念。其单元满足与“实际抽样总体的每个单元之间存在确定的对应关系,凭借这种对应关系可以找个实际总体中的一个或一些单元”条件的实际总体的映射总体称为抽样框,构成映射总体的单元则称为抽样单元。换言之,包含所有抽样单元的总体称为抽样框,构成抽样框的单元称为抽样单元。事实上,为了方便抽样的实施,必须拥有一个目录性清单,这个目录性清单的每个目录项与实际总体的每个单元之间存在确定的对应关系,根据一个目录项总可以找个实际抽样总体中特定的一个或一些单元。抽样框就是这样的一个目录性清单。抽样时,我们抽取的并不是具体的总体中的某个单元,而是抽取它的编号,我们是用抽样框进行抽取操作的。为了保证抽样之后,调查者能过根据抽样框找到具体的抽样单元,因此必须:抽样框必须是有序的编号。抽样框中的抽样单元必须“不重不漏”。抽样单元不仅指构成抽样框的目录项,同时还表示该目录项所对应的实际总体中的特定一个或多个单元。它不一定是最小的单元基本单元,可能包含一个或一些基本单元。比如在手机调查中,我们抽中一栋居民楼,居民楼是抽样单元,而楼中的每个居民就是基本单元。抽样单元还可以分级。一个大的抽样单元可以分成若干个小单元。例如,在对我国人口情况做抽样调查时,可以将省份作为抽样单元,先抽省(初级单元);在省内抽样时又可以将县作为抽样单元(次级单元);依次类推(三级单元、四级单元)。最小一级的叫基本抽样单元。在实际工作中,特别是经济调查中,自然行政区划是经常用到的划分抽样单元的方法。 例如:欲对南京市小学生的视力状况进行抽样调查,可以将总体(全体南京市小学生)按小学划分成K个抽样单元(这样南京市有几所小学就有几个抽样单元),每个抽样单元依次编上号码,于是抽样框就是这些抽样单元(小学)及其与其对应当编号的目录(如设南京市共有2008所小学:0001北京东路小学,0002-北京西路小学2008-仙林小学,这样在抽样时抽取编号,若抽取0002,则就代表抽取北京西路小学。) 如把小学中的班级视为二级单位,把学生视为三级单元(基本个体)。抽取的顺序可以为先抽取学校再抽取班级最后抽取学生。 一般抽样框还应该含有抽样单元的一些具体信息,比如地理位置、规模等。好的抽样框应该尽量与目标总体一致,而且尽可能提供有关辅助信息。三、总体的数字特征(总体参数) 设总体是一个一维总体,从中等可能地随机抽取一个,记为,则为一个随机变量(r.v.,注意用的是小写字母),其分布列为:于是称为总体均值,为总体方差,称为总体方差,称为总体标准差。记,分别称为总体变异系数及总体总量。设总体的指标值为向量,总体记,称,,分别为总体Y与X的协方差,总体Y与X相关系数,总体Y对X的线性回归系数,总体Y对X的比率。四、调查的目标量 我们称这些(个)要估计的总体数字特征为目标量或总体参数。常见到目标量有:1总体总量Y2总体均值3总体具有某种属性的个体所占比例,即,如果令 4二维总体的两个分量的比率,例如人口密度、人均收入、食品费用占生活总费用的比例R(恩格尔系数)。5二维总体两个分量的回归系数6总体中位数或其它分位数五、估计量及其评价 设是从总体中抽取得样本,为某个调查目标量,对于在上面叙述的各种总体数字特征,将其改为小写字母,则得到相应当各种样本的数字特征,名称相同,只须将“总体”改为“样本”即可(样本总量除外)。1点估计构造统计量,以该统计量(的值)作为总体调查目标量的估计量(值)2区间估计 对给定的置信度,构造一个随机区间作为的估计范围并使得在抽样调查中,由于抽样方法比较复杂,要确切知道估计量的概率分布是比较困难道,此时通常利用中心极限定理采用大样本方法()进行区间估计。如:的估计量分布近似正态分布,所以的近似置信区间为,其中为标准正态分布分位点,即,是估计量的均方误差。3 估计量的评价(1)点估计的均方误差(Mean square error) 记,其中为估计量偏倚即系统误差,产生系统误差的原因有两种,一种是估计量本身有偏,这时估计量的数学期望和总体参数不一致;另一种情况是非抽样误差因素的影响。为估计量方差即随机误差。抽样方差体现了多次抽样得到的估计值与真值之间的离散程度,当然我们希望它越小越好,越小说明估计值越集中靠近真值。但真值是未知的,所以一般抽样方差也是未知的,需要估计。(2)无偏性 若,即则称为无偏估计,否则为有偏估计。若,则为渐进无偏估计。(3)有效性 若均为的无偏估计,且,则称比有效。 (4)评价优劣的两原则 均方误差越小越好;对有偏估计仅当时,可用。六、精度、样本容量与费用 精度通常是用误差来表现的。如果不考虑系统误差,则精度就表现为估计量的方差。此时为提高精度可以采取增加样本容量的方法。但是样本容量越大往往计算复杂且成本增加。而且样本大到一定程度后再增加一个样本单元对提高精度的作用逐渐减小。故在确定样本时通常考虑原则: 1在满足精度和信度的条件下,使调查费用最小; 2 在费用允许范围内,考虑适当的信度下,使均方误差最小。本课程四个基本问题:(1) 怎样合理设计样本(用什么方法抽取样本)(2) 获取样本后怎么估计总体数量指标(如总体均值,总体总量)(3) 如何计算估计的精度(4) 样本容量怎么控制我们将围绕这四个方面对每种概率抽样展开讨论。§1.3 几种基本抽样方法(略)§1.4 抽样调查的程序一个完整的抽样调查过程,大致包括以下六个基本步骤:(一)确定调研问题(二)设计抽样方案。 (三)编制抽样框和设计问卷调查表 。(四)实施抽样调查(包括之前的培训、试调查)。(五)数据处理分析。(六)撰写调查报告。 练习题:1 什么是概率抽样?什么是抽样框?2 为什么用正态分布构造置信区间?3 有一个理论上的正四面体,四个面分别标有1,2,3,4.抽取一个容量为2的样本,共有多少种可能样本均值?取得该样本均值的理论概率是多少?4 现有一个容量为30的样本: 55 40 59 57 76 79 78 38 75 48 80 38 84 66 43 62 76 45 79 55 41 69 59 42 56 46 84 65 73 52(1)计算样本均值;(2)假设已知总体的标准差为15,试计算的方差、标准差、并构造总体均值的置信度为95的置信区间;(3)假设已知总体的标准差未知,试计算的方差、标准差、并构造总体均值的置信度为95的置信区间; (4)你用SPSS等软件对这30个样本数据做统计分析可以直接得到上面的结论嘛?5 在问卷调查中,问卷的设计是复杂而重要的一步,你能设计一份调查问卷并说明其中需要注意的问题。16njnuliqicai