《统计数据收集》PPT课件.ppt
第二章 统计数据收集,第一节 数据收集第二节 调查问卷的设计,提出问题,我们从哪里获得数据?哪里有我们所需要的数据?如果需要调查,有那么潜在调查者,我们应当向谁调查?选中被调查者以后,我们怎么实施调查?我们所获得的数据都很准确吗?如果不准确,误差是怎么产生的?怎么控制误差以获得较高质量的数据?,数据来源,数据的间接来源数据的直接来源,间接数据的来源,统计部门和政府部门公布的有关资料,如各类统计年鉴、统计公报(类别与级别)各类经济信息中心、信息咨询机构、专业调查机构等提供的数据(证券,会计事务所)各类专业期刊、报纸、书籍所提供的资料(国内外期刊)各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料(top级会议,学者类和学生类)从互联网或图书馆查阅到的相关资料(国内、外数据库),间接数据的特点,搜集容易,采集成本低作用广泛分析所要研究的问题提供研究问题的背景帮助研究者更好地定义问题检验和回答某些疑问和假设寻找研究问题的思路和途径搜集二手资料在研究中应优先考虑,间接数据的评估,数据是谁搜集的?可信度评估为什么目的而搜集的?数据是怎样搜集的?什么时候搜集的?,数据的直接来源(原始数据),调查数据通过统计调查方法获得的数据通常是对社会现象而言通常取自有限总体 实验数据通过实验方法得到的数据通常是对自然现象而言 也被广泛运用到社会科学中如心理学(旗舰)、教育学(多媒体)、社会学、经济学、管理学等,全面调查,全面调查是对考察对象中的所有单位全部进行调查,其主要目的是要取得全面、系统、完整的统计资料,如工业普查、人口普查等。例如设在芝加哥大学的“美国全国民意调查中心”,每两年做一次的“全面社会调查(GSS,General Social Survey)”,是最重要的社会科学抽样调查,它调查的内容包括个人以及家庭背景、经验习惯以及对某些主题的态度和意见。主题从堕胎到战争都有。,总体单位,调查单位,全面调查,对全部单位进行的调查。,1994年方案 人口 农业 工业 第三产业 基本单位 普查年份 0 7 3 5 1,6(尾数)建筑业 2003年方案 人口 农业 经济普查 普查年份 0 6 3,8(尾数),我国的普查,重点调查,重点调查是在考察对象中选择一部分重点单位进行的一种全面调查。所谓重点单位是指在被调查的总体中,少数几个单位的标志总量在总体标志总量中占绝大比重的单位。这些单位在总体中起着举足轻重的作用。重点单位可以是重点企业、重点产区、重点项目等。例如,为了掌握全国钢铁生产情况,可选鞍钢、宝钢、武钢、包钢、首钢、攀刚、马钢等几个大型钢铁企业进行调查,因为这少数几家大型钢铁企业的钢产量占全国钢产量的较大比重,这些大型钢铁企业就是重点企业。这样的调查统计既可以掌握面上的基本情况,又可以节省人力、物力、财力和时间。重点调查的意义就在于当总体内客观存在重点单位时,我们能够利用较少的费用和较短的时间,通过对少量重点单位的统计调查,来获得能够反映总体全貌的数量特征的基本资料。,总体单位,调查单位,重点调查,对重点单位(个数不多,但其标志量占标志总量比重较大的单位)进行的调查。,典型调查,典型调查就是在考查对象中有意识地选择若干具有典型意义的单位进行调查。典型调查有两个显著的特点:一是调查单位是有意选择出来的,并具有代表性;二是调查范围小,调查单位少,可对某些专门问题作深入细致的调查。典型单位根据调查的目的不同,一般有三种不同选取办法。一是近似地估算总体的数值,可采用“划类选典”方法。二是了解总体的一般数量表现,可采用“择中选典”方法。三是研究成功的经验或失败的教训,可采用“优劣选典”方法。典型调查的首要问题就是要选择典型单位,如果我们要了解总体的一般数量表现,可以选择中等水平的单位作为调查单位,此种选典方法称为“取中选典”比如我们要了解整个科大学生的一般水平外语水平,那么可以挑选成绩在中等水平的学生作为调查的样本进行分析。再比如如果是要总结经验教训或失败的教训,则应选择先进单位或者落后单位作为典型,做深入细致的调查。这种选典调查称为“优劣选典”。,总体单位,调查单位,典型调查,有意识地选择部分典型单位进行的调查。,数据调查方法,概率抽样和非概率抽样方法搜集数据的基本方法,简单随机抽样分层抽样系统抽样多阶段抽样,概率抽样方法,根据一个已知的概率来抽取样本单位,也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,概率抽样(probability sampling),从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样特点:简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性:当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率要求太高,现实中的数据很难满足,简单随机抽样(simple random sampling),将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。比如可以按照教育程度把要访问的人群分成几类,再在每一类中调查和该类成比例数目的人,这样就确保了每一类都有相应比例的代表。优点:保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计,分层抽样(stratified sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难,系统抽样(systematic sampling),先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样具有整群抽样的优点,保证样本相对集中,节约调查费用需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开在大规模的抽样调查中,经常被采用的方法,多阶段抽样(multi-stage sampling),相对于概率抽样而言抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查有方便抽样、自愿样本、滚雪球抽样等方式,非概率抽样(non-probability sampling),调查过程中由调查员依据方便的原则,自行确定入抽样本的单位调查员在街头、公园、商店等公共场所进行拦截调查厂家在出售产品柜台前对路过顾客进行的调查优点:容易实施,调查的成本低缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体,方便抽样,被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本自愿样本与抽样的随机性无关样本是有偏的不能依据样本的信息推断总体,自愿样本,先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应适合于对稀少群体和特定群体研究优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低,滚雪球抽样,概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体适合研究对象总体的数量特征非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析做准备,概率抽样与非概率抽样的比较,搜集数据的基本方法,搜集数据的基本方法,自填式问卷调查,没有调查员协助的情况下由被调查者自己完成调查问卷问卷递送方法有:调查员分发、邮寄、网络、媒体要求调查问卷结构严谨,有清楚的说明(出版社赠书)弱点问卷的返回率比较低不适合结构复杂的问卷调查周期比较长 数据搜集过程中出现的问题难于及时采取调改措施,面访式问卷调查,调查员与被调查者面对面提问、被调查者回答的一种调查方式(老师谈话,police)优点可提高调查的回答率可提高调查数据的质量能调节数据搜集所花费的时间弱点调查的成本较高(小礼物)调查过程的质量控制有一定难度(直接取决于调查员),电话式问卷调查,您好!我是调查公司的调查员,通过电话向被调查者实施调查(CATI)特点速度快,能在短时间内完成调查成本低、问题能及时解决、调查安全性高适合于样本单位十分分散的情况局限如果被调查者没有电话,调查将无法实施访问的时间不能太长使用的问卷需要简单被访者不愿意接受调查时,难以说服,观察式调查,1.就调查对象的行动和意识,调查人员边观察边记录以收集所需信息2.调查人员不是强行介入3.能够在被调查者不察觉的情况下获得资料如交通流量的调查暗恋,各调查方法的比较,数据的误差,抽样误差(sampling error),由于抽样的随机性所带来的误差 所有样本可能的结果与总体真值之间的平均性差异 影响抽样误差的大小的因素样本量的大小总体的变异性,非抽样误差(non-sampling error),相对抽样误差而言除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异存在于所有的调查之中概率抽样,非概率抽样,全面性调查有抽样框误差(时滞)、回答误差(理解)、调查员误差(登记),中国的人口统计数据:公元2年(汉元始二年)59594978人公元754年(唐天宝十三载)52880488人公元1122年(宋宣和四年)46734784人公元1281年(元至元十八年)58830000人公元1578年(明万历六年)60692856人公元1711年(清康熙五十年)24621324人公元1741年(清乾隆六年)143411559人公元1763年(清乾隆二十八年)204209828人公元1790年(清乾隆五十二年)301487115人公元1835年(清道光十五年)401767053人,“有五六丁之户,仅一人缴纳钱粮,或有九丁、十丁,亦仅二三人缴纳钱粮”,康熙五十一年定“滋生人丁永不加赋”,30年间增加近5倍!,登记性误差,统计数据质量实例,误差的控制,抽样误差可计算和控制非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度,统计数据的搜集是统计活动的基础环节,所有统计数据的处理和分析都是在这个基础上进行的。对于统计数据质量的要求,具体可以归纳为统计数据的时效性,准确性、一致性三个方面的具体标准。统计数据的时效性就是指及时和准时获取统计数据。及时获取统计调查资料就是要在规定的统计调查时间内完成统计调查工作。准时获取统计调查资料就是要确切地反映出统计调查对象在规定的调查时点上,或规定的调查时段中的数量特征。(及时有效的数据是top级paper的砝码),统计数据的质量标准,2统计数据的准确性是指确保统计数据的完整性、真实性和精确性,最大限度地降低统计数据中的各种偏误。统计调查的完整性是要保证调查对象中每一个调查单位的标志特征都要包含在统计调查的实际登记资料之中,并且仅出现一次。统计调查的真实性是要保证每一个调查单位的标志特征都要无偏差、无失真、准确无误地反映在统计调查的登记资料中。统计调查的精确性是指在抽样调查中,要保证抽样误差有效地控制在规定的许可范围内。3统计数据的一致性是指统计数据在时间上和空间上的连续性和可比性。统计调查的一致性就是指统计调查的具体方法、指标设置、调查体系等在时间、空间上的可比性。(GDP、出口、存贷款),第二节 调查设计,2.1 调查方案的结构2.2 调查问卷设计,调查方案的结构(survey plan),调查方案的内容,调查目的(objective of survey),1.调查要达到的具体目标2.回答“为什么调查?”3.调查之前必须明确,调查对象和调查单位(Respondent and Survey unit),调查对象:调查研究的总体或调查范围调查单位:需要对之进行调查的单位。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查)回答“向谁调查?”,调查项目(Survey items),调查的具体内容通常表现为表格或问卷回答“调查什么?”,方案设计中的其他问题,1.明确调查所采用的方法2.确定调查资料的所属时间和调查工作的期限3.调查的组织与实施细则,调查问卷设计,什么是问卷?(questionnaires),用来搜集调查数据的一种工具调查者根据调查目的和要求所设计的,由一系列问题、备选答案、说明以及码表组成的一种调查形式不同的调查问卷在具体结构、题型、措词、版式等设计上会有所不同,但在结构上一般都由开头部分、甄别部分、主体部分和背景部分组成,问卷的基本结构,问卷的基本结构,开头,甄别,主体,背景,问候语,填写说明,问卷编号,开头部分(问候语),女士/小姐/先生 您好!我是市场调查公司访问员,我们正在进行一项有关公众医疗保险意识方面的调查,目的是想了解人们对医疗保险的看法和意见,以便更好地促进医疗保险事业的发展。您的回答无所谓对错,只要真实地反映了您的情况和看法,就达到了这次调查的目的。希望您能积极参与,我们对您的回答完全是保密的。调查要耽搁您一些时间,请您谅解。谢谢您的支持与合作!,开头部分(填写说明),填写要求:请您在所选择答案的题号上画圈对只许选择一个答案的问题只能画一个圈;对可选多个答案的问题,请在你认为合适的答案上画圈需填写数字的题目在留出的横线上填写对于表格中选择答案的题目,在所选的栏目内画勾对注明要求您自己填写的内容,请在规定的地方填上您的意见,开头部分(问卷的编号),用于识别问卷、调查者、被调查者姓名和地址等便于校对检查、更正错误,问卷编号001,甄别部分,甄别也称为过滤,它是先对被调查者进行过滤,筛选掉不需要的部分,然后针对特定的被调查者进行调查通过甄别,可以筛选掉与调查事项有直接关系的人,以达到避嫌的目的可以确定哪些人是合格的被调查者,哪些人不是甄别的目的是确保被调查者合格,能够作为该市场调查项目的代表,从而符合调查研究的需要,甄别部分(过滤性问卷),S1请问您或您的家庭有没有在下列行业工作的呢?1广告、公关机构 2市场研究、咨询、调查机构 3电视,广播,报纸等媒介机构 终止访问 4轿车制造 5轿车批发、零售 6以上皆无继续访问S2请问您的年龄是:120岁以下终止访问 220岁30岁 330岁40岁 440岁50岁 550岁以上终止访问,主体部分,是调查问卷的核心内容包括所要调查的全部问题,主要由问题和答案所组成,Q1.您在购买汽车时主要考虑哪些因素?Q2.您认为这款汽车的加速性能怎么样?,背景部分,通常放在问卷的最后,主要是有关被调查者的一些背景资料该部分所包含的各项问题,可使研究者根据背景资料对被调查者进行分类比较分析,1.您具体做什么工作?2.您的受教育程度?,背景部分,A请 问 您 的 教 育 程 度?没 受 过 正 式 教 育 1 小 学,初 中 2 高 中,职 高,中 专,技 校 3 大 专,大 学 或 以 上 4 B请 问 您 的 职 业 和 职 位 是 什 么?普 通 职 员,工 人1 部 门 经 理 负 责 人/高 级 管 理 人 员 2 公 司 老 板,厂 长,总 经 理 3 专 业 人 员 4 个 体 户,自 营 职 业 5 失 业,待 业 6 学 生7 离 退 休 人 员 8 其 他(请注明)9,提问项目的设计,提问项目的设计,提问的内容尽可能短 用词要确切、通俗可按6W准则加以推敲。6W即Who(谁),Where(何处),When(何时),Why(为什么),What(什么事),How(如何)一项提问只包含一项内容 避免诱导性提问 避免否定形式的提问 避免敏感性问题,用词要确切、通俗,请问您使用什么牌子的洗发水?,请问您最近三个月使用什么牌子的洗发水?,您最近一段时间使用什么品牌的化妆品?,您最近一个月使用什么品牌的化妆品?,您觉得这种电视机的画面质量怎么样?,您认为这种电视机的画面是否清晰?,一项提问只包含一项内容,您觉得这种新款轿车的加速性能和制动性能怎么样?,您觉得这种新款轿车的加速性能怎么样?您觉得这种新款轿车的制动性能怎么样?,避免诱导性提问,人们认为长虹牌彩电质量不错,你觉得怎么样?,您觉得长虹牌彩电的质量怎么样?,避免否定形式的提问,您觉得这种产品的新包装不美观吗?,您觉得这种产品的新包装美观吗?,回答项目(答案)的设计,回答的类型与方法,回答的类型与方法,开放性问题(自由回答型),封闭性问题(选择回答型),两项选择法,多项选择法,顺序选择法,评定尺度法,双向列联法,限制选择型,多项选择型,单项选择型,开放性问题,对问题的回答未提供任何具体的答案,由被调查者根据自己的想法自由作出回答属于自由回答型优点:比较灵活,适合于搜集更深层次的信息,特别适合于那些尚未弄清各种可能答案或潜在答案类型较多的问题。而且可以使被调查者充分表达自己的意见和想法,有利于被调查者发挥自己的创造缺点:由于会出现各种各样的答案,给调查后的资料整理带来一定困难,开放性问题,您认为我国目前的广告宣传中,存在的 主要问题是什么?您对这种捷达新款车有何更具体的看法?,封闭性问题,对问题事先设计出了各种可能的答案,由被调查者从中选择问题的答案是标准化的,有利于被调查者对问题的理解和回答,也有利于调查后的资料整理对答案的要求较高,对一些比较复杂的问题,有时很难把答案设计周全问题的答案是选择回答型,所以设计出的答案一定要穷尽和互斥回答方法有:两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法五种,封闭性问题(两项选择法),答案只有两项,要求被调查者选择其中之一来回答优点:被调查者只需在二者之中选择一项,回答比较容易;调查后的数据处理也很方便缺点:得到的信息量较少;当被调查者对两项答案均不满意时,很难作出回答,您有手机吗?1.有 2没有,封闭性问题(多项选择法),在设计问卷时,对一个问题给出三个或三个以上的答案,让被调查者从中选择进行回答根据要求选择的答案多少不同,有以下类型单项选择型:要求被调查者对所给出的问题答案选择其中的一项 多项选择型:要求被调查者对所给出的问题答案中,选出自己认为合适的答案,数量不受限制限制选择型:要求被调查者在所给出的问题答案中,选出自己认为合适的答案,但数量要受一定限制,封闭性问题(单项选择法实例),单项选择型,您觉得哪种类型的广告宣传效果最好?(选一项)1电视广告 2广播广告 3杂志广告 4报纸广告 5路牌广告,封闭性问题(多项选择法实例),多项选择型、限制选择型,请问您在购买小轿车时,主要考虑哪些因素?(选出您认为合适的答案)(限选4项)1价格 6维修费用 2款式 7乘坐舒适 3品牌 8行使平稳 4耗油量 9加速性能 5售后服务 10制动性能,封闭性问题(顺序选择法),问题答案有多个,要求被调查者在回答时,对所选的答案按要求的顺序或重要程度加以排列。其中,对所选的的答案数量可以进行一定的限制,也可以不进行限制问题答案不仅可以反映所要调查的内容,而且可以反映出被调查者对问题的看法,从而增加了信息量,封闭性问题(评定尺度法),问题答案,由表示不同等级的形容词组成,并按照一定的程度排序,由被调查者依次 选择,您对这种新款轿车是否感到满意?1非常满意;2比较满意;3一般 4不太满意;5不满意。,封闭性问题(双向列联法),将两类不同问题综合到一起,通常用表格来表现表的横向是一类问题,纵向是另一类问题这种问题结构可以反映两方面因素的综合作用,提供单一类型问题无法提供的信息可以节省问卷的篇幅,封闭性问题(双向列联法实例),请在您赞同项目的空格内划“”,问题顺序的设计,问题顺序的设计,问题的安排应具有逻辑性问题的顺序应先易后难能引起被调查者兴趣的问题放在前面开放性问题放在后面版面格式的设计问卷的结构安排要合理,问卷的主体部分要突出、醒目不要编排过密,各问题之间要留出一定的空间外表及内容的印刷要美观,(1)问题的排列应具有层次性和逻辑性,符合人们思维习惯。前后相继的问题具有内在联系,反映事物的因果关系,和递进的思维层次。(2)“过滤”性问卷设计的问题排列。“过滤”性问卷设计要求问题排列构成逻辑的树状结构。(3)问题的排列应先易后难。将简单、容易、直观的问题放在问卷的前面,提高被调查者的兴趣,使被调查者比较容易地进入答题角色,顺利完成问卷中所有问题的回答。(4)开放性问题的排列。开放性问题属于非标准化问题,其数据需要调查人员事后进行人工分类整理,才能进行数据分析。开放性问题的排列要从属于封闭性问题,有关全局性的开放性问题放在整个问卷主体部分的末尾;相对某类具体封闭性问题的开放性问题,放在这类封闭性问题的末尾。,问题排列,