【教学课件】第2章数据搜集.ppt
第 2 章 数据收集,第 2 章 数据收集,2.1 数据来源2.2 调查设计2.5 数据质量,学习目标,数据的来源数据的调查方法调查方案的结构和设计调查问卷设计数据的误差数据的质量要求,2.1 数据来源,2.1.1 数据的间接来源2.1.2 数据的直接来源,数据的间接来源,二手数据的来源,统计部门和政府部门公布的有关资料,如各类统计年鉴各类经济信息中心、信息咨询机构、专业调查机构等提供的数据各类专业期刊、报纸、书籍所提供的资料各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料从互联网或图书馆查阅到的相关资料,二手数据的特点,收集容易,采集成本低作用广泛分析所要研究的问题提供研究问题的背景帮助研究者更好地定义问题检验和回答某些疑问和假设寻找研究问题的思路和途径收集二手资料在研究中应优先考虑,二手数据的评估,数据是谁收集的?可信度评估为什么目的而收集的?数据是怎样收集的?什么时候收集的?,数据的直接来源,数据的直接来源(原始数据),调查数据通过调查方法获得的数据通常是对社会现象而言通常取自有限总体 实验数据通过实验方法得到的数据通常是对自然现象而言 也被广泛运用到社会科学中如心理学、教育学、社会学、经济学、管理学等,统计调查方式,统计调查方式,统计调查方式,抽样调查(sampling survey),1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法,2.具有经济性、时 效性强、适应面广、准确性高等特点,普查(census),为特定目的专门组织的非经常性全面调查2.通常是一次性或周期性的3.一般需要规定统一的标准调查时间4.数据的规范化程度较高5.应用范围比较狭窄,统计报表(statistical report forms),1.统计调查方式之一2.过去曾经是我国主要的数据收集方式3.按照国家有关法规的规定、自上而下地统一布置、自下而上地逐级提供基本统计数据4.有各种各样的类型,概率抽样方法,6.1.1 简单随机抽样6.1.2 分层抽样6.1.3 系统抽样6.1.4 整群抽样,6.1 概率抽样方法,6.1.1 简单随机抽样6.1.2 分层抽样6.1.3 系统抽样6.1.4 整群抽样,抽样方法,概率抽样(probability sampling),根据一个已知的概率来抽取样本单位,也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,简单随机抽样(simple random sampling),从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率,分层抽样(stratified sampling),将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计,系统抽样(systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难,整群抽样(cluster sampling),将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差,多阶段抽样(multi-stage sampling),先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样具有整群抽样的优点,保证样本相对集中,节约调查费用需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开在大规模的抽样调查中,经常被采用的方法,非概率抽样(non-probability sampling),相对于概率抽样而言抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式,方便抽样,调查过程中由调查员依据方便的原则,自行确定入抽样本的单位调查员在街头、公园、商店等公共场所进行拦截调查厂家在出售产品柜台前对路过顾客进行的调查优点:容易实施,调查的成本低缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体,判断抽样,研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本有重点抽样,典型抽样等方式判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性抽样成本比较低,容易操作样本是人为确定的,没有依据随机的原则,调查结果不能用于对推断总体,自愿样本,被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本自愿样本与抽样的随机性无关样本是有偏的不能依据样本的信息推断总体,配额抽样,先将体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似抽取具体样本单位时,不是依据随机原则,属于非概率抽样,概率抽样与非概率抽样的比较,概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体,数据的收集方法,数据的收集方法,数据的收集方法,访问调查(personal interview),1.调查者与被调查者通过面对面地交谈而获得资料2.有标准式访问和非标准式访问标准式访问通常按事先设计好的问卷进行非标准式访问事先一般不制作问卷,对不起,打扰了!,邮寄调查(mail survey),也称邮寄问卷调查是一种标准化调查调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷通过某种方式将调查表或问卷送至某调查者手中,由被调查者填写,然后将问卷寄回指定收集点问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种,电话调查(telephone survey),调查者利用电话与被调查者进行语言交流以获得信息时效快、成本低问题的数量不宜过多,您好!我是调查公司的调查员,电脑辅助调查(computerassisted telephone interviewing),又称电脑辅助电话调查电脑与电话相结合完成调查的全过程一般需借助专门的软件进行硬件设备要求较高,问卷,座谈会(colloquia),1.也称集体访谈2.将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料3.参加座谈会的人数不宜过多,一般为610人4.侧重于定性研究,个别深度访问(personal Interviewing),一次只有一名受访者参加、针对特殊问题的调查适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题侧重于定性研究,观察法(observational method),1.就调查对象的行动和意识,调查人员边观察边记录以收集所需信息2.调查人员不是强行介入3.能够在被调查者不察觉的情况下获得资料,实验法(experimental method),1.在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料2.有室内实验法和市场实验法,2.2 调查设计,2.2.1 调查方案的结构2.2.2 调查问卷设计,调查方案的结构,调查方案的结构(survey plan),调查方案的内容,调查目的(objective of survey),1.调查要达到的具体目标回答“为什么调查?”调查之前必须明确,调查对象和调查单位(Respondent and Survey unit),调查对象:调查研究的总体或调查范围调查单位:需要对之进行调查的单位。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查)回答“向谁调查?”,调查项目(Survey items),调查的具体内容通常表现为表格或问卷回答“调查什么?”,方案设计中的其他问题,1.明确调查所采用的方法2.确定调查资料的所属时间和调查工作的期限3.调查的组织与实施细则,调查问卷设计,什么是问卷?(questionnaires),用来搜集调查数据的一种工具调查者根据调查目的和要求所设计的,由一系列问题、备选答案、说明以及码表组成的一种调查形式不同的调查问卷在具体结构、题型、措词、版式等设计上会有所不同,但在结构上一般都由开头部分、甄别部分、主体部分和背景部分组成,问卷的基本结构,问卷的基本结构,开头部分,甄别部分,主体部分,背景部分,问候语,填写说明,问卷编号,开头部分(问候语),女士/小姐/先生 您好!我是市场调查公司访问员,我们正在进行一项有关公众医疗保险意识方面的调查,目的是想了解人们对医疗保险的看法和意见,以便更好地促进医疗保险事业的发展。您的回答无所谓对错,只要真实地反映了您的情况和看法,就达到了这次调查的目的。希望您能积极参与,我们对您的回答完全是保密的。调查要耽搁您一些时间,请您谅解。谢谢您的支持与合作!,开头部分(填写说明),填写要求:请您在所选择答案的题号上画圈对只许选择一个答案的问题只能画一个圈;对可选多个答案的问题,请在你认为合适的答案上画圈需填写数字的题目在留出的横线上填写对于表格中选择答案的题目,在所选的栏目内画勾对注明要求您自己填写的内容,请在规定的地方填上您的意见,开头部分(问卷的编号),用于识别问卷、调查者、被调查者姓名和地址等便于校对检查、更正错误,问卷编号001,甄别部分,甄别也称为过滤,它是先对被调查者进行过滤,筛选掉不需要的部分,然后针对特定的被调查者进行调查通过甄别,可以筛选掉与调查事项有直接关系的人,以达到避嫌的目的可以确定哪些人是合格的被调查者,哪些人不是甄别的目的是确保被调查者合格,能够作为该市场调查项目的代表,从而符合调查研究的需要,甄别部分,S1请问您或您的家庭有没有在下列行业工作的呢?1广告、公关机构 2市场研究、咨询、调查机构 3电视,广播,报纸等媒介机构 终止访问 4轿车制造 5轿车批发、零售 6以上皆无继续访问S2请问您的年龄是:120岁以下终止访问 220岁30岁 330岁40岁 440岁50岁 550岁以上终止访问,主体部分,是调查问卷的核心内容包括所要调查的全部问题,主要由问题和答案所组成,Q1.您在购买汽车时主要考虑哪些因素?Q2.您认为这款汽车的加速性能怎么样?,背景部分,通常放在问卷的最后,主要是有关被调查者的一些背景资料该部分所包含的各项问题,可使研究者根据背景资料对被调查者进行分类比较分析,1.您具体做什么工作?2.您的受教育程度?,背景部分,A出 示 卡 片请 问 您 的 教 育 程 度?(901)没 受 过 正 式 教 育 1 小 学,初 中 2 高 中,职 高,中 专,技 校 3 大 专,大 学 或 以 上 4 B出 示 卡 片请 问 您 的 职 业 和 职 位 是 什 么?(902)普 通 职 员,工 人1 部 门 经 理 负 责 人/高 级 管 理 人 员 2 公 司 老 板,厂 长,总 经 理 3 专 业 人 员 4 个 体 户,自 营 职 业 5 失 业,待 业 6 学 生7 离 退 休 人 员 8 其 他(请注明)9,提问项目的设计,提问项目的设计,提问的内容尽可能短 用词要确切、通俗可按6W准则加以推敲。6W即Who(谁),Where(何处),When(何时),Why(为什么),What(什么事),How(如何)一项提问只包含一项内容 避免诱导性提问 避免否定形式的提问 避免敏感性问题,用词要确切、通俗,请问您使用什么牌子的洗发水?,请问您最近三个月使用什么牌子的洗发水?,您最近一段时间使用什么品牌的化妆品?,您最近一个月使用什么品牌的化妆品?,您觉得这种电视机的画面质量怎么样?,您认为这种电视机的画面是否清晰?,一项提问只包含一项内容,您觉得这种新款轿车的加速性能和制动性能怎么样?,您觉得这种新款轿车的加速性能怎么样?您觉得这种新款轿车的制动性能怎么样?,避免诱导性提问,人们认为长虹牌彩电质量不错,你觉得怎么样?,您觉得长虹牌彩电的质量怎么样?,避免否定形式的提问,您觉得这种产品的新包装不美观吗?,您觉得这种产品的新包装美观吗?,回答项目(答案)的设计,回答的类型与方法,回答的类型与方法,开放性问题(自由回答型),封闭性问题(选择回答型),两项选择法,多项选择法,顺序选择法,评定尺度法,双向列联法,限制选择型,多项选择型,单项选择型,开放性问题,对问题的回答未提供任何具体的答案,由被调查者根据自己的想法自由作出回答属于自由回答型优点:比较灵活,适合于搜集更深层次的信息,特别适合于那些尚未弄清各种可能答案或潜在答案类型较多的问题。而且可以使被调查者充分表达自己的意见和想法,有利于被调查者发挥自己的创造缺点:由于会出现各种各样的答案,给调查后的资料整理带来一定困难,开放性问题,您认为我国目前的广告宣传中,存在的 主要问题是什么?您对这种捷达新款车有何更具体的看法?,封闭性问题,对问题事先设计出了各种可能的答案,由被调查者从中选择问题的答案是标准化的,有利于被调查者对问题的理解和回答,也有利于调查后的资料整理对答案的要求较高,对一些比较复杂的问题,有时很难把答案设计周全问题的答案是选择回答型,所以设计出的答案一定要穷尽和互斥回答方法有:两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法五种,封闭性问题(两项选择法),答案只有两项,要求被调查者选择其中之一来回答优点:被调查者只需在二者之中选择一项,回答比较容易;调查后的数据处理也很方便缺点:得到的信息量较少;当被调查者对两项答案均不满意时,很难作出回答,您有手机吗?1.有 2没有,封闭性问题(多项选择法),在设计问卷时,对一个问题给出三个或三个以上的答案,让被调查者从中选择进行回答根据要求选择的答案多少不同,有以下类型单项选择型:要求被调查者对所给出的问题答案选择其中的一项 多项选择型:要求被调查者对所给出的问题答案中,选出自己认为合适的答案,数量不受限制限制选择型:要求被调查者在所给出的问题答案中,选出自己认为合适的答案,但数量要受一定限制,封闭性问题(单项选择法实例),单项选择型,您觉得哪种类型的广告宣传效果最好?(选一项)1电视广告 2广播广告 3杂志广告 4报纸广告 5路牌广告,封闭性问题(多项选择法实例),多项选择型,请问您在购买小轿车时,主要考虑哪些因素?(选出您认为合适的答案)1价格 6维修费用 2款式 7乘坐舒适 3品牌 8行使平稳 4耗油量 9加速性能 5售后服务 10制动性能,封闭性问题(顺序选择法),问题答案有多个,要求被调查者在回答时,对所选的答案按要求的顺序或重要程度加以排列。其中,对所选的的答案数量可以进行一定的限制,也可以不进行限制问题答案不仅可以反映所要调查的内容,而且可以反映出被调查者对问题的看法,从而增加了信息量,封闭性问题(评定尺度法),问题答案,由表示不同等级的形容词组成,并按照一定的程度排序,由被调查者依次 选择,您对这种新款轿车是否感到满意?1非常满意;2比较满意;3一般 4不太满意;5不满意。,封闭性问题(双向列联法),将两类不同问题综合到一起,通常用表格来表现表的横向是一类问题,纵向是另一类问题这种问题结构可以反映两方面因素的综合作用,提供单一类型问题无法提供的信息可以节省问卷的篇幅,封闭性问题(双向列联法实例),请在您赞同项目的空格内划“”,问题顺序的设计,问题顺序的设计,问题的安排应具有逻辑性问题的顺序应先易后难能引起被调查者兴趣的问题放在前面开放性问题放在后面版面格式的设计问卷的结构安排要合理,问卷的主体部分要突出、醒目不要编排过密,各问题之间要留出一定的空间外表及内容的印刷要美观,2.3 数据质量,2.3.1 数据的误差2.3.2 数据的质量要求,数据的误差,抽样误差(sampling error),由于抽样的随机性所带来的误差 所有样本可能的结果与总体真值之间的平均性差异 影响抽样误差的大小的因素样本量的大小总体的变异性,非抽样误差(non-sampling error),相对抽样误差而言除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异存在于所有的调查之中概率抽样,非概率抽样,全面性调查有抽样框误差、回答误差、无回答误差、调查员误差、测量误差,误差的控制,抽样误差可计算和控制非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度,统计数据的质量要求,1.精 度:最低的抽样误差或随机误差2.准 确 性:最小的非抽样误差或偏差3.关 联 性:满足用户决策、管理和研究的需要4.及 时 性:在最短的时间里取得并公布数据5.一 致 性:保持时间序列的可比性6.最低成本:以最经济的方式取得数据,本章小结,数据来源调查设计数据质量,结 束,THANKS,