《农业调查问卷》PPT课件.ppt
补充内容1 问卷设计,问卷设计是一门技巧性很强的学问,一份设计巧妙的问卷应当使被访问者完全明确调查的意图并乐意配合作出正确的回答,同时使得调查机构便于对调查进行计算机处理并作出推断与预测。,这样就要求调查问卷的设计者不仅要有大量的统计推断知识,而且要对调查内容的有关知识有所了解。例如,调查计算机网络设备的市场需求问题,倘若一个人对计算机、网络等都很不熟悉,那就干脆不要去设计问卷。必要时应当与有关专家一起设计。为了使得访问有效,设计者也应当具有一定的心理学知识。另外,由于抽样调查的样本容量一般很大,通常要用计算机处理数据,因此要求设计者对计算机数据处理也要有所了解。,下面讨论若干原则问题,(1)设置的问题应当围绕调查的目的展开。切忌问一些不着边际的问题,否则,一旦被访问者对调查产生怀疑的态度,那么你的调查肯定要以失败告终。,(2)访问时间的长短要适当控制。经验告诉我们,大约2025分钟的调查时间,只要问题妥当,就不会使得被访问者产生不耐烦的情绪并配合完成调查工作。请注意,为了调查顺利,请不要在人家家中或办公室坐上半个小时还不想离开。通常问卷由30多个提问组成,往往若干个提问是了解一项信息的,一般不超过50个提问。,(3)问卷的开头往往设置问题以区别被访问者的类型这一点在市场调查中尤为突出。对于不同类型的被访问者,问卷进行不同的安排。,倘若抽样单位不是个人而是集体,如工厂、学校、车间等,然而被访问者当然还是“一个人”,此时被访问者的身份很重要,它可使访问员知道此人是否了解很多有关情况,为数据的可信度提供依据。,盖洛普公司在我国曾经进行过一次有关计算机网络使用及其需求预测的市场调查,在问题展开之前的一个预备问题很有启发性:,“请问您在网络设备的购买过程中起到哪些作用?(可选择多项)我决定有无必要购买网络设备;我推荐/指定品牌;我决定购买的网络产品应该具备哪些功能;我评估/进行性能测试;我是购买品牌的最终决策者;我批准购买网络产品(如果只选此项,则终止访问)”,(4)所提问题要清晰,用词要妥贴,并注意礼貌。,清晰的问题才有可能得到正确的回答。一张问卷中如果出现较多需要被访问者发表议论、谈谈看法的问题,则会使得被访问者无所适从,不知从哪儿谈起为好。而且也给计算机处理带来很多麻烦。,为使问卷清晰,一般问卷常常采用选择题、是非题、填空题之类的形式。其中选择题拟定的可供选择必须包含全部可能性并且各种选择之间有明确的界限。任何模棱两可的选项、含糊不清的答案都是绝对不容许的,否则容易产生混淆,例如,对某产品的评价问题,设计者拟定了若干项评价性的选择:信誉最好、质量最好、价格最低、售后服务好等条款。对这些条款再进行打分:非常赞成,5分;赞成,4分;无所谓,3分;反对,2分;非常反对,1分;不知道,9分(另行处理)。,在实际操作中,发生了被访问者在“无所谓”与“不知道”之间随意选择的混淆现象。“无所谓”本指在“赞成”与“反对”之间持中立态度,而“不知道”却是指对该问题不了解、不知道应该怎样选择才好。两个选择存在重大差别!例如,对“价格最低”一项,有些被访问者反映,他们对待产品最要紧的是质量保证,只要质量好,价格略高或略低均“无所谓”,因此,他的确“不知道”该产品是否真的“价格最低”。,问卷的礼貌用词也许每位问卷设计着都会注意到。而问题提法的恰当妥贴更需要设计人员捉摸被访问者的心理状态,要照顾到被访问者的心理承受能力。,例如,在对某行业各工厂的景气程度进行调查时,类似“你们厂在近几年内有倒闭或被迫转产的可能性吗?”这样的问题应该绝对避免。试想被访者往往是一些厂长、经理等负责人,既使该单位正处于相当困难时期,这样的提问往往使对方无心继续配合调查。,遇到这种尖刻的但又必须提问以获得有关信息的“难题”,最好采用婉转曲折、拆成多题、旁敲侧击等手法来力争达到目的。例如,前面的问题可以换为“你对你的工厂近几年的前景持何种看法?”如果他选择比较悲观的答复,可以接着问“你的工厂将会作出何种选择?”。,(5)问题要有层次地展开,市场调查等问卷中要注意有比较。,一般地,安排问题总是由简单到复杂,从容易到较难,逐步让被访者有一个适应的过程。一些带有敏感性的问题通常总是放在较后面部分处理;有些尖刻的问题,若拆成多道问题来提问,则不少设计者并不是将它们放在一起接二连三地提出,因为有时连珠炮式的提问反而会引起对方的警觉与怀疑,从而产生不好的效果。,对某些特别重要的问题,调查机构非常想核实但又不可能再三地问,只能设计一系列有关(但表面上看并不特别明显)的问题逐步提出,一层层地深入到所需了解的中心。,美国总统选举预测中有一个较关键的问题:“你是否打算在今年11月参加投票?”它直接关系到投票率以及预测的精度。美国人可以不去投票,但一般不愿公开承认不去投票,因为这样人们会认为他不关心国事。这种想法会影响到对该问题的回答。但是,对于上一次选举没有投票的既成事实比较容易承认,而这个事实对这一次是否会去投票的确存在着影响,对判断他实际上是否会去参加投票多少有一些参考价值。出于这种逻辑推理,盖洛普公司在问卷的适当地方设计了诸如“上一次选举你是否投票?”、“那次投票站设在何处?”等问题巧妙地对前面的关键问题进行核实(当然,核实的过程还需要用到上几次投票的既成事实所提供的信息)。,问题的有层次展开常常是指“深度”,其实问题以及提供的选择的安排顺序对调查能否成功也有一定的影响。因为合理的顺序将会引导被访者愉快地、配合良好地、合乎逻辑地完成整份问卷。,这里所说的“引导”,绝对不是以调查机构或调查员的主观意图去引导被访者,那样的引导本身就不符合抽样调查的目的与要求。,可供选择的答案的排列顺序对被访者有可能产生误导,人们习惯于认为排在前面的是重要的,事实上排列在前的选择的确容易给人们留下较深刻的印象。我们除了强调“排名不分先后”之外,恐怕还要采取一些小措施,比如访问员可以随机地按各种不同次序念出所有选择等等。,市场调研中关于某产品的市场供需问题,很要紧的是同种产品的不同品牌不同型号之间的比较。只有比较才能真正了解什么样的产品、什么样的型号是人们所喜爱的,才能了解产品的市场竞争情况。,因此,在设计问卷前以及设计过程中,设计人员必须收集与了解有关产品的几种最主要的品牌和型号,将它们编入问题中去。千万不要提问“请你谈谈对其他品牌的看法”等笼统的问题。,(6)注意问卷的格式,一般在卷首印有访问员的自我介绍,表明是代表哪个调查机构或公司作何种目的的调查。大方且礼貌的介绍词及其感谢语句将为调查的成功创造好的机会。卷末一般写有最终感谢词。,(7)一般问卷中应设有编码栏,因为大多数调查的样本容量比较大,只能借助于计算机来处理数据,编码栏的设立使计算机可以对调查数据加以统计、汇总和分类。,以上仅仅是一些原则性的东西,一般为了使问卷设计的合理有效,调查机构常常采用试调查手段,抽少量单元用已设计好的初稿进行试调查,从中发现不完善之处,并进一步修改之。不要认为实施这一步会增加工作量,实际上试调查的样本总是作为样本的一部分。,问卷设计的步骤,1.研究所需的调查资料 a.初步考虑的资料列出与筛选。b.对需要的资料的收集方式进行研究。2.研究调查的样本特征3.确定问题 列出所有详尽问题,对问题逐题检查筛选,排列问题的前后。4.进行试调查 a.问题清楚明了?b.被调查者是否能够和愿意回答?时间长短,逻辑顺序 c.所得资料能否满足调查的要求 d.编码输入等是否存在问题,问题的设立,答案由调查者设定,还可以细分,如:你喝啤酒多少年了?优点:畅所欲言,提高资 料的质量缺点:调查者与应答者的偏见,调查整理遭遇瓶颈,被调查的层次不一,如:您认为电脑打印纸这个产品,在哪方面需要改进?A.纸张质量B.扩大品种C.销售服务D.其他(请填写)_,例:1.您家里有电视吗?A.有 B.无 2.目前您家有几台电视?A.无 B.1台 C.2台 D.3台及以上 3.请问您家有下列哪些家用电器?a电视 b电脑 c冰箱 d空调 e摄像机 f组合音响 g洗衣机 h热水器 i微波炉 4.您对XX电器整体的售后服务总体评价?A.非常满意 B.满意 C.一般 D.不满意 5.您对广州快速公交(BRT)服务质量的最大愿望?请您在以下项目中按重要程度选择3项,以1,2,3编号 A司机态度好 B车站候车秩序良好 C候车时间正常 D能按时到达目的地 E车厢内外整洁舒适 F车辆不出故障 G对老弱病残孕的照顾,6.您一般多少时间使用下列产品?(每种产品均为单选)每天2次及以上 每天1次 每周4-6次 每周2-3次 每周1次 每周少于1次 不用()()()()()()()()()()()()()()()()()()()()(),香水洁面乳沐浴乳,7.贵单位董事长基本情况,8.您家有汽车吗?A 有(跳问下一个问题)B 没有是否两年内打算购买?a 打算购买 b 不购买,问卷的格式,一、介绍词 有些人从未接受过调查或者警惕性过分高,往往需要一番口舌,才能让被调查对象弄明白.介绍词的作用:1.表明进行该项调查的人或组织的身份 解除对于调查工作的疑虑。一般来说:对政府系统或者在社会上有一定声望的市场调查部门,人们的信任度和配合度比较高。2.说明该项调查的重要性3.使被调查对象认识到他的回答的意义 让被调查者认识到自己是按照科学抽样程序被选中的,不能由他人代替,所以他的意见很重要。4.让被调查对象了解对他的回答秘密处理并为之保守秘密 解除顾虑,能实事求是的自主回答,真实表达自己的意见。如全国普查人口5.对被调查对象的配合与支持表示感谢 感谢在先,答题在后。加强调查员与被调查者的感情联系。,二、填表说明的写法 为使得答案规范统一,便于编码与计算机录入与数据处理,在问卷中必须写一段填表说明,对于问题的回答和选择做解释,为被调查者回答问题提供帮助。如:请您根据自己的情况,在下列合适的数字上用“”表示,除特别说明外,均为单选。,补充内容2 调查员素质,抽样调查是一项严肃认真的工作,对调查员素质要求较高。真实可靠的调查资料是抽样调查质量保证的基础。由于调查员工作态度的马虎和疏漏对数据质量造成的损失是毁灭性的。,试想一个学校为了了解教师的教学质量,发给班长一叠调查表,班长找几个同学一人填上十份交了回来,这种调查结果有多大意义?又如,系里管分配的一位领导找班里几位同学开座谈会,了解教师教学情况,同学们不发言,他千方百计地启发、诱导、鼓励大家积极提意见,这样的调查结果能不带偏性吗?,调查员和调查机构的中立性是保证获得正确信息的必要条件之一。,美国盖洛普调查公司发布的调查结果具有很高的信誉,100多家有名的的独立报纸都愿意公布他关于总统选举民意测验的结果。大半个世纪以来,盖洛普调查公司在调查咨询领域获得了极大的成功,这个成功与它的调查员的中立性以及客观公正的态度是分不开的。,美国现场人口调查所收集的数据之所以有很高的质量,关键在于他们对调查员素质的重视,在于仔细挑选、培训和指导现场工作人员。在调查员上岗之前,进行约 4 天时间的调查程序培训;在他们上岗之后,每个月必须进行若干小时的培训。调查员的主管人每年至少要对他们的工作考查一次。另外,约3的月样本(由单独的概率抽样程序选取)由主管人重新访问。所有不相符之处都与访问员进行讨论。访问员的报告全部加以校对,即查核不完全和不一致的记载,每项差错都与造成此差错的人员核对一下。由于他们的严格管理及其认真的态度,一般来说差错率很低,从而保证了它们的数据质量。,进行抽样调查工作,如有可能应使用专业调查人员。他们受过专门训练,有长期的调查访问经验,更为重要的是,他们以调查为专门职业,调查的质量与他们的工资、奖励相结合,调查机构和组织内部有一整套监督、检查、激励奖惩措施。一般来说,专业调查人员比起一次性、临时性的调查人员来说,比较重视个人的工作信誉,能够较好地保证调查工作的质量。,美国人口普查局每个月都要进行一次现场人口抽样调查,它拥有一支由1500名专职访问员组成的实地工作班子,向约115000人的一个全国性概率样本征询意见,调查结果发布于若干重要的刊物和总统报告上,例如:劳工评论月刊、就业与收入(月刊)、现场人口报告(不定期)、特别劳动力报告(不定期)、美利坚合众国统计摘要(年度)、总统经济报告(年度)。它的调查结果具有极高的权威性。据说它的数据可信度比10年一次的人口普查还要高。这当然是由于它的数据是由专业人员采集的而人口普查必须动用大量临时人员的原因。,不少抽样调查是一次性的、临时性的。此时,可以请调查公司代劳;当然,也可以自己组织。如果自己组织,那么在调查前必须对调查人员进行培训。对访问员的培训是该次调查能否取得成功的关键之一。访问员必须熟悉本次调查的目的与要求,必须熟悉问卷内容,明确访问对象的特征。在被访问者筛选过程中,一般应当将不同类型的被访单位和个人一一记录在案,通常要求访问员做到:,(1)严格遵守访问程序和指示,不允许擅自变通处理,(2)访问过程中始终保持中立,不使用任何代诱导性语言。,(3)忠实被访者的回答,严禁在不经询问或被访人尚未回答之时,擅自代答或代填问卷。,(4)除出现某种情况下规定的跳答题之外,任何题均要按规定询问,不能因为估计被访者有可能不回答而跳过。倘若遇到拒绝回答或被访人确实不知道等情况,则应在答卷上一一注明。,(5)访问大致完成时,访问员应当场浏览一遍问卷,把漏记或不明确的地方补充完整。,(6)应尽可能在问卷中详细记录被访人的姓名、单位、地址以及电话等,以便于复查。,此外,在培训过程中,应当让访问员明白问卷的重点信息所在,这对保证调查质量起着至关重要的作用。,每一次抽样调查都要进行抽样复查。一般地,在所访问后的问卷中抽10左右复核。复查可以通过再上门或电话访问等手段实现。,以上对访问员的要求当然是针对上门访问:它具有回收率高、精确度高的优点,但花费自然较大。有些大规模的抽样调查采用邮寄或电话访问等形式,比起上门访问效果要差许多,尤其是邮寄问卷方式,一般回收率较低,因此大大降低调查的质量。,补充内容3 数据处理与调查总结报告,问卷回收、核实后,接着进行数据的整理、分类、计算、汇总等处理工作。除了一些小型、临时抽样调查可用手工处理数据外,大多数抽样调查数据通常用计算机进行处理。调查结束后,根据圈出的答案进行编码,以方便计算机识别。现在有不少统计软件用于抽样调查的数据处理相当有效,例如SAS统计软件。当然,也可以请计算机专家和统计专家编制一些针对具体抽样调查的专用应用程序。通过数据处理,最终得到所要求的浓缩信息,如总量、平均数的估计、比例、P分位数的估计,以及它们的精度等。,在抽样调查的最后阶段,应该提交一份抽样调查总结报告。理由很简单,调查中所得到的大量数据看上去是那么杂乱无章,一古脑儿地收集在一起上交或转交,上级部门无法据此作出决策,委托部门搞不清最终到底有什么样的结论。,计算机上输出的结果也必须解释和阐明它的实际意义。因此,必须撰写一份调查总结报告,表现出这次抽样调查和统计分析的基本成果。,撰写总结报告宜开门见山,简明扼要;应清楚地说明本次调查的目的,具体的抽样方案也应该简略地一一交待,其中包括调查的实施过程,实际走访了多少单元,发了多少份问卷,回收率究竟有多少等等。以上所写通常占总结报告的一小部分,报告的主体部分当然是调查结果。调查结果必须完全依据调查数据以及数据处理结果来写。所有的推断与预测必须依据数据而行,即所谓实事求是的作风,严禁凭空设想。根据数据分析结果,可以做一些适当的解释和议论,提出一些建议和看法。不过,这些不能占过多篇幅,以免喧宾夺主。,总结报告的撰写应当有文字、有数据、有一定的分析。,能使人一目了然的统计图表非常受上级或委托部门的欢迎,因此,调查报告最好作出统计图表。,调查结果要有一定的结论,至少倾向性一定要鲜明,不要模模糊糊的预测或推断。需要明白的是,政府部门或企业、公司拿出经费来是要你得出一些结论性的东西。因此,每个待估计的参数都要有估计的数字。可以做一些分门别类的工作,可以对一些指标或者个体聚类进行分析,这样做也许能为委托单位提供有价值的参考信息。在调查总结报告中有一个重要的数据应该报告给委托单位,那就是调查的精确度。只告诉委托方参数的估计值而不告诉估计的精确度,那么你的工作没有全部完成。,如你告诉电视台某档节目的收视率为65,那么电视台精明的负责人一定会问你误差有多大,倘若该百分比的误差为15,则电视台不敢认同这档节目的收视率为65;而如果你告诉他收视率为65 3,那么这个65就显得很有意义了。,统计图表往往有着用语言难以达到的效果。它可以使人们一下子就抓住事物的全貌或者特征。,有关的大批数据、次要的各种各样的数据图式,一般都以附录的形式放在总结报告的最后面。,以上仅仅是调查总结报告一般性的特点,具体的内容和格式依实际的抽样调查而定。,补充内容4 若干数学准备,抽样推断既然必须处理收集来的数据,因此数学知识是必不可少的。下面仅就抽样调查中一些最基本的常用数学知识和概念以直观简洁的方式做一些介绍。,1、盒子模型,一般抽样调查面临的总体只有有限多个初级单元。从总体中抽样,就相当于从一个盒子里摸取若干张票,盒子里的票数相当于有限总体的单元个数,票上记载着反映该单元特征的指标的值。设总体有N个单元,各指标值为则盒子如图21所示:,该盒中票的平均数为:,即总体平均数,它表示票上指标的中心。,另一个重要的总体参数是盒中票的指标的离散程度,用指标值关于中心的距离的平方和的平均数来表示:,这实际上是总体的方差;但大部分情况采用:,如果我们只关心总体中具有某些特定类型的集合占整个总体的比例,那么只需稍加处理,引入01指标,总体比例的问题立刻转化为总体平均数的一个特例。,只要将盒子中的票子分为两类,我们感兴趣的一类全标上1,其余的都标上0。于是盒子可用图22表示:,则盒子中票子指标的平均数为:,正好是我们关心的那类个体占总体的比例。因此,凡对总体平均数有的结果,总体比例也有相应的结果。,此时,盒子的方差化为:,常采用的方差表示为:,从盒子中作随机抽取常常有两种不同方式:随机有放回抽取和随机无放回抽取。从直观上看,随机有放回方式存在着一张票子被抽中两次或两次以上的可能性,而随机无放回方式则不存在这种可能。,在实际操作中,人们不太可能心甘情愿地花费两倍以上的费用去访问同一个单元。因此,随机无放回通常比随机有放回应“有效”一些,这一点将在第三章的讨论中在理论上加以肯定。但是,当盒子中的票数相当多,而抽取的票数相对较少时,有许多事件的概率习性对于有放回或无放回两种情况几乎差不多,因而有时候我们常从随机有放回这一最简单的形式入手讨论问题,而将有关的结果近似地套到随机无放回的情形。,这里讨论的盒子模型是对简单随机抽样而言的,至于分层、分阶段等其它情况无非是大盒子里放小盒子等。,2、随机误差与无偏估计量,先讨论一个简单的具体例子。设有一个容量为7的总体由下面盒子给出,如图23所示:,总体平均数和方差为:,标准差,此时,盒子中指标值以及总体的参数 和 对于调查者来说是未知的。调查者的任务就是从总体中抽出一个样本,构造样本估计量,来推断总体平均数 和方差。,设样本容量n=3,使用样本 的样本均值和方差来估计总体的平均值 和方差。,考虑不放回简单随机抽样,由于抽样是随机的,7个个体中的任何3个都可能入选样本。所有可能的样本数有,此时,每一个样本被抽中的概率都相等且为,如抽中样本(2,3,6),则,用它们来估计总体的平均数和方差,误差如下:,对平均数有随机误差,对方差有随机误差,由于样本是随机的,误差也将随着样本的不同而发生变化。如果我们的运气不佳,抽到样本(1,2,3),此时,随机误差分别为,随机误差就大得许多。也就是说,用样本平均数和方差来估计总体平均数和方差有时是很糟糕的。,为什么还要用样本平均数和方差来估计总体平均数和方差呢?,原因一:和 是样本平均数 和方差 的波动中心,换句话说,虽然估计量 和 会发生随机误差,随机误差有正有负,但随机误差的平均值为0。或者说,所有可能的 和 的平均值分别为 和。,以前述例子为例:所有可能的 的平均值为,类似:所有可能的 的平均值为,原因二:随着样本容量 n 的增大(与总体容量N相比仍可能很小),与 以及 与 发生大的误差的可能性越来越小,以至于可以忽略,而误差在 0 附近的可能性变得越来越大,或者说某种平均意义下的误差越来越小。,一般来说,基于抽样数据的统计量通常记为,在前面的例子中是 和 作为参数 的估计量,总是希望能够较好地近似代表。由于依据局部来估计总体避免不了会发生误差,这个误差还是随机的,任何两次抽样所产生的误差都不会相同,每次所产生的误差都是这个随机变量的一次实现。,另外,待估参数又是未知的,我们也不可能知道抽样误差到底等于多少。为了排除偶然因素,我们往往从平均意义上来看抽样误差。这就是在数学上对随机变量取数学期望。,如果估计 的统计量 具有性质:,则称 为 的无偏估计。,以上分析告诉我们,所谓无偏估计并非是说估计量与参数之间就没有偏差,而是说估计量所有可能取值的平均值等于参数。或者说估计量与参数的平均偏差为零。,数理统计告诉我们,并非所有的待估参数都存在无偏估计。例如成功率为 p 的 n 次贝努里试验,其中成功的次数 x服从二项分布,对于观察到的成功次数 x,可用 x/n 估计参数 p,而且是无偏估计。但参数 1/p 不存在无偏估计。,其实,有偏估计不见得一定讨厌。虽然 是 的有偏估计,即,但是随着样本容量 n 的增大,,并且 具有其它良好的性质。称具有这种性质的估计量为渐近无偏估计量。抽样调查中的比估计量就是一种渐近无偏估计量。在抽样调查理论中,有必要讨论有偏估计,这是因为:,(1)对于某些常见的参数,我们经常采用一些既合理又方便的估计量。这些估计量在实际操作中能为几乎所有的人接受,而它们却不是无偏估计量。,(2)既使我们采用的估计量是概率意义上的无偏估计量,但在实际抽样中却变成了有偏估计,这是由抽样本身造成的例如:在抽样中常常发生不回答现象,这些不回答的人一般对所调查的问题带有一定的倾向性,根据回答者提供的资料构造的理论上的无偏估计实质上并非整个总体的参数的无偏估计。,3、随机误差的度量,对无偏估计,我们已经知道估计量 与参数 的差 的所有可能取值的平均值等于0,即。用这个平均的概念是无法度量估计量的偏差的。,以一元参数为例,由于随机性,可以在 的左边,也可以在 的右边,而在前述平均意义下,这些正负偏差将互相抵消。随机误差的正负号是没有多大意义的,实际关心的是 距离 的长度。如果两个估计量 和,远离 而 却经常在 的附近,那么我们比较喜欢使用 来估计。我们也可以考虑用所有可能随机误差的绝对值的平均值 来度量随机误差的大小,但是绝对值在数学上处理起来不方便。因此,我们常用所有可能随机误差平方的平均值 来度量随机误差的大小,称为均方误差,记为 在 是 的无偏估计的前提下,实际上是 的方差即,称为 的标准误差,接着讨论前面的例子。在总数为7的盒子中抽出3个个体组成样本,用 作为参数 的估计量,求估计量的标准误差,(具体运算见(3.7)式),也就是说,使用 来估计,在平均意义上的误差为0.94。考虑到盒子中数值都是整数,标准误差0.94不是很大。如果从盒子中抽取样本容量为5的样本,可得,也就是说,标准误差随着 n 的增大将显著地减小了,这是一条一般性的规律,基本上与总体数N无关。,遗憾的是,在实际操作中,我们对估计量误差的测量并不一定作得如此之好。因为在抽样调查中,盒子中每一个体的指标值我们不能全部得知,故真正的参数也不可能得知。可以知道的只是抽出的那组样本。因此,在实际操作中,我们只是用样本的估计量来代替参数本身,并用样本方差 来代替总体方差,从而估计出估计量的方差和标准误差。比如:若抽得样本(2,3,7),则,比起真正的标准误差 0.94来,近似标准误差还不至于太令人失望。令人安慰的是,适当加大样本容量 n,我们将做得更好。,前面讨论的主要是无偏估计的情况。对于有偏估计来说在一定的条件下,也有类似的结果。,设 是 的有偏估计,即。称 为 的偏倚,记为。此时,的均方误差为,当 是 的渐近无偏估计,并且上式右端第二项是比 更高阶的无穷小,则仍可使用 的方差 和均方误差 来近似地度量随机误差的大小。也就是说:当 n适当大后,如果第二项 比起 来是小得可以忽略不计的量,那么可以用均方误差MSE近似地取代方差。,4、正态曲线的应用与置信区间,如果随机变量的概率密度函数为,当 时,该曲线称为标准正态曲线,其概率密度为,分布函数为,则称该随机变量服从参数为 的正态分布。记为其中 是随机变量的期望(平均值),为随机变量的方差,为随机变量的标准差。,分布函数给出了标准正态随机变量小于实数 t 的概率。一个随机变量的变化规律用正泰曲线来描述,称该随机变量服从正态分布,记作:,一个随机变量的变化如果受到许多因素的共同影响,但没有一个或数个因素起主导作用,那么我们认为这个变量服从正态分布。这个事实是由中心极限定理严格论证了的。一般地,当这些变量所来自的母体具有非零有限方差,而 时,成立:,也就是说,当 n 很大时,的分布可以近似地用 代替。这就是在实际中我们把样本平均数归结为它具有标准正态分布的原因。,在抽样调查中,情况稍有不同,但结论类似。主要原因是抽样调查中总体是有限总体,大多数抽样方式是随机无放回,因而样本的抽取不满足独立同分布,不能直接应用上述中心极限定理。然而,当N(总体总数)相当大,抽样样本容量 n 相对较小时,随机有放回与随机无放回常有相类同的概率习性。二十世纪六七十年代,一些概率统计工作者,如Hajek等人,对有限总体无放回抽样的样本平均数进行了研究,得到如下与独立同分布变量相同的结论:,定理2.1:设有限总体单元为,从中随机无放回抽取 n 个单元,记为,它们的平均数记为,总体平均数记作,方差记为,则当 时,成立:,上述定理告诉我们,当 N,n,Nn相当大时,可将 的分布近似地用看作标准正态分布。,由于1/N比1/n小的多,将1/N忽略,代替S,上式和前式即为一致。,在抽样调查理论中,样本平均数 的近似正态性的重要作用之一,就是给出待估参数 和 的置信区间。,前面讲了总体平均数 的估计 以及标准误差,由此可以构造一个区间,用 代替,得下面区间:,由于 是未知参数,是某一固定值。由于 和 是随机样本的函数,所以该区间是一个随机区间。它可能覆盖,也可能没有覆盖。,由,可知,上述区间覆盖 这一随机事件的概率为68%,称此区间为待估参数 的置信度为68%的置信区间。其含义为如果我们做了100次抽样调查,每次得到一个这样的区间,在这些区间中大约有68个覆盖了。,由,可得 的置信水平为95%的置信区间:,由,可得 的置信水平为99.7%的置信区间:,一般地,由,可得 的置信水平为 的置信区间:,可查显著性水平为 的标准正态分布表获得。,美中不足的是置信水平提高了,但是置信区间的宽度却加大了。在实际操作中只能是选择适当的置信水平,或者加大样本容量 n 来弥补。比如,在上海市1994年人口变动抽样调查中,常住人口总量95%置信水平的置信区间估计为:1308.18 38.59万,而估计的和实际登记的户籍人口总数为,1289万,后一个数字是很精确的。但是,常住人口总量的置信区间下界为1308.1838.59=1269.59万,比户籍人口数小了近20万人。众所周知,人口总量应该比户籍人口总量大,显然,这里置信水平95%过大了,选为90%就可以了。,例2.1 某大学有25000名注册学生。某学期进行了一项调查以估计常住在学校的学生的百分数。1个月内有20天以上住在学校者为常住。抽取了一个400名学生的简单随机样本,结果是317名学生常住学校。试估计该学期该大学常住学校的学生的百分比,并求估计的标准误差以及68%的置信区间。,前面我们说过,比例的估计只是平均数估计的特例,只要引进01指标即可。此时总体比例数P=,样本比例数p=,总体方差和样本方差分别为,解:,样本百分比为,它是总体百分比的估计,估计的标准误差,置信水平为68%的置信区间:,即约有 的学生常住学校,习题1调查某地区25000户家庭内汽车和电视机的比例,抽取了500户家庭作为样本,调查结果显示在样本中有179户家庭有汽车,有498户人家有电视机,请估计25000户家庭有电冰箱和电视机的比例及其95%的区间估计,解:汽车:N=25000 n=500,为拥有汽车比例的估计,样本方差,估计的标准误差为,置信水平为95的置信区间为,电视机:N=25000 n=500,为拥有电视机比例的估计,样本方差,估计的标准误差为,置信水平为95的置信区间为,