第二章数据收集hy课件.ppt
第2章 数据收集,2.1 数据的来源2.2 调查方案设计2.3 调查问卷设计2.4 数据的质量,学习目标与重难点提示,了解统计数据的来源了解数据的收集方法掌握调查方案的设计内容与要求掌握调查问卷及其设计技巧了解数据误差及对数据的质量要求 目的:统计分析数据的基础环节。,前言,人们购买住户是喜欢大户型还是小户型?对父母的孝敬程度与子女的性别有无关系?国民在购买保险的时候,是选择国内的保险公司,还是选择国外的保险公司?这些都是我们感兴趣却又不知道答案的问题。为了回答这些问题,需要搜集相关数据进行分析。就要考虑:我们从获得数据?哪里有我们所需要的数据?若要调查,我们应当向谁进行调查?如何确定被调查者?确定后如何实施调查?取得的数据准确吗?如何控制误差保证数据质量?,2.1 数据的来源,2.1.1 数据的间接来源2.1.2 数据的直接来源,内容提示,数据的间接来源,二手数据的来源,统计部门和政府部门公布的有关资料,如各类统计年鉴各类经济信息中心、信息咨询机构、专业调查机构等提供的数据各类专业期刊、报纸、书籍所提供的资料各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料从互联网或图书馆查阅到的相关资料,二手数据的特点,收集容易,采集成本低作用广泛分析所要研究的问题提供研究问题的背景帮助研究者更好地定义问题检验和回答某些疑问和假设寻找研究问题的思路和途径收集二手资料在研究中应优先考虑,二手数据的评估,数据是谁收集的?可信度评估为什么目的而收集的? 针对性评估3.数据是怎样收集的?准确性评估 4.什么时候收集的?适时性评估,数据的直接来源,数据的直接来源(原始数据),调查数据(观测数据)通过调查方法获得的数据通常是对社会现象而言通常取自有限总体 实验数据通过实验方法得到的数据通常是对自然现象而言 也被广泛运用到社会科学中如心理学、教育学、社会学、经济学、管理学等,一、统计调查方式,2.1.2 统计数据的直接来源,统计调查方式,抽样调查(sampling survey),1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法,2. 具有经济性、时效性强、适应面广、准确性高等特点,普查(census),为特定目的专门组织的非经常性全面调查通常是周期性的我国进行的普查主要有人口普查,每10年进行一次,末尾数字为“0”的年份进行农业普查,每10年进行一次,每逢“6”的年份进行经济普查,每5年进行一次,每逢“3”和“8”的年份进行包括工业普查第三产业普查建筑业普查基本单位普查,统计报表(statistical report forms),1.统计调查方式之一2.过去曾经是我国主要的数据收集方式3.按照国家有关法规的规定、自上而下地统一布置、自下而上地逐级提供基本统计数据4.有各种各样的类型,统计数据的来源(小结),二、数据的搜集方法,数据的收集方法(P22-P24自学),访问调查 (personal interview),1.调查者与被调查者通过面对面地交谈而获得资料2.有标准式访问和非标准式访问标准式访问通常按事先设计好的问卷进行非标准式访问事先一般不制作问卷,对不起,打扰了!,邮寄调查 (mail survey),也称邮寄问卷调查是一种标准化调查调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷通过某种方式将调查表或问卷送至某调查者手中,由被调查者填写,然后将问卷寄回指定收集点问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种,电话调查 (telephone survey),调查者利用电话与被调查者进行语言交流以获得信息时效快、成本低问题的数量不宜过多,您好!我是调查公司的调查员,电脑辅助调查 (computerassisted telephone interviewing),又称电脑辅助电话调查电脑与电话相结合完成调查的全过程一般需借助专门的软件进行硬件设备要求较高,问卷,座谈会 (colloquia),1.也称集体访谈2.将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料3.参加座谈会的人数不宜过多,一般为610人4.侧重于定性研究,个别深度访问 (personal interviewing),一次只有一名受访者参加、针对特殊问题的调查适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题侧重于定性研究,观察法 (observational method),1.就调查对象的行动和意识,调查人员边观察边记录以收集所需信息2.调查人员不是强行介入3.能够在被调查者不察觉的情况下获得资料,实验法 (experimental method),1.在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料2.有室内实验法和市场实验法,有一年,美国北方格外严寒,大雪纷飞,电线上积满冰雪,大跨度的电线常被积雪压断,严重影响通信。很久问题都悬而未决。后来,电信公司经理召开了会议,参会的是不同专业的技术人员,要求他们必须遵守以下原则:自由思考;延迟评判;以量求质;结合改善。按照这种会议规则,大家七嘴八舌地议论开来。有人提出设计一种专用的电线清雪机;有人想到用电热来化解冰雪;也有人建议用振荡技术来清除积雪;还有人提出能否带上几把大扫帚,乘坐直升机去扫电线上的积雪。对于这种“坐飞机扫雪”的设想,大家心里尽管觉得滑稽可笑,但在会上也无人提出批评。,有趣的案例,案例22:以下属于哪一种数据搜集方法?,相反,有一工程师在听到用飞机扫雪的想法后,一种简单可行且高效率的清雪方法冒了出来。他想,每当大雪过后,出动直升机沿积雪严重的电线飞行,依靠高速旋转的螺旋桨即可将电线上的积雪迅速扇落。他马上提出“用直升机扇雪”的新设想,顿时又引起其他与会者的联想,有关用飞机除雪的主意一下子又多了七八条。不到一小时,与会的10名技术人员共提出90多条新设想。会后,公司组织专家对设想进行分类论证。专家们认为设计专用清雪机,采用电热或电磁振荡等方法清除电线上的积雪,在技术上虽然可行,但研制费用大,周期长,一时难以见效。那种因“坐飞机扫雪”激发出来的几种设想,倒是一种大胆的新方案,如果可行,将是一种既简单又高效的好办法。经过现场试验,发现用直升机扇雪真能奏效。,有趣的案例,头脑风暴法(Brain Storming),案例22: 17世纪初发生在军事学上的例子,当时英国海军面临一种病的威胁,在海上长期航行的水手们皮肤上有青灰斑点,牙龈大量出血,英国海军部怀疑这是由于缺乏柑橘类水果的原因。当这个想法被提出时恰好有四艘海军军舰正要离开英国本土做长期航行,为调查是否是因为缺乏柑橘类水果而产生这种疾病,海军部安排其中一艘军舰上的水手每天喝柑橘汁,而其他三艘军舰上的水手则没有柑橘汁供应。航行还未结束,没有喝柑橘汁的水手们开始成批地生病,以至于不得不把每天喝柑橘汁的水手分配到这三艘军舰上以帮助这些军舰进港。请问:以上属于哪一种搜集数据的方法? 尽管这项实验计划现在看来还可以更好地改进,但这个实验本身显然成功地证实了海军部最初的想法。,案例23:是什么数据搜集方法帮助A公司胜诉?,美国的A公司生产著名的运动包,该公司发现B公司(一个大型的中心商业集团)引进一条生产线,生产的运动包与A公司生产的运动包形状几乎完全一样,消费者很难区分。A公司指控B公司:误导消费者,让消费者觉得自己买的是A公司的产品,而实际买的是B公司的产品。为了证实这一点,A公司进行了一次现场实验。实验中选择了两组妇女,给第一组妇女看的是A公司生产的包,包面上的所有标签都去掉,所有的标识、说明都印在包的内层。给第二组妇女看的是B公司生产的包,包上的商标明显可见,所有的标签和悬挂物都按出售现场的样子保留。A公司希望通过这种试验了解妇女们购买包时选择标准。例如,她们能否区分出,案例23:是什么数据搜集方法帮助A公司胜诉?,包的不同来源或品牌,她们靠什么进行识别或辨认,如果靠某些东西来辨认的话,那么这样做的理由是什么. 每组样本都是200人,实验分别在芝加哥、洛杉矶和纽约的大商场进行。调查采用拦截式面访,被调查者都是配额样本,即按妇女不同的年龄比例分配样本单位。实验结果表明:大多数消费者无法区分两种包的不同来源,她们购买包时的依据主要是包的款式,而A公司生产的包是名牌商品,这种包的款式是人们所熟悉的。这个结果支持了A公司的立场。调查数据帮助A公司在法庭上胜诉,B公司同意停止销售自己公司所生产的包。,数据来源与收集方法 (小结),课前思考题,1.什么是样本?什么是样本容量?2.什么是变量?什么是离散型变量?什么是连续型变量?3.常用的调查方式有哪些?,失败案例24,文献摘要杂志的惨败,共和党阿尔夫兰登,1936年美国总统选举,该杂志进行调查,民主党富兰克林罗斯福,讨论:问题出在哪里?,一次失败的统计调查,在1936年的美国总统选举前,一份名为 Literary Digest (文献摘要)杂志进行了一次民意调查。调查的焦点是谁将成为下一届总统是挑战者,堪萨斯州州长Alf Landon,还是现任总统 Franklin Delano Roosevelt。为了解选民意向,民意调查专家们根据电话簿和车辆登记簿上的名单给一大批人发了简单的调查表(电话和汽车在1936年并不像现在那样普及,但是这些名单比较容易得到)。尽管发出的调查表大约有一千万张,但收回的比例并不高。在收回的调查表中, Alf Landon非常受欢迎。于是该杂志预测 Landon 将赢得选举。但事实上是Franklin Roosevelt赢得了这次选举。在经济大萧条时期调查有电话和汽车的人们,并不能够反映全体选民的观点。此外,只有少数的问卷被收回。这些都是值得怀疑的。,2.2 调查方案设计 (p21),2.2.1 确定调查目的2.2.2 确定调查对象和调查单位2.2.3 设计调查项目和调查表2.2.4 方案设计中的其他内容,内容提示,调查方案的结构 (survey plan),调查目的 (objective of survey),1.调查要达到的具体目标回答“为什么调查?”调查之前必须明确,调查对象和调查单位,调查对象(respondent):调查研究的总体或调查范围 调查单位(survey unit):需要对之进行调查的单位。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查) 回答“向谁调查?”,设计调查项目和调查表,1.调查项目(survey items):调查的具体内容2.调查表(questionnaire):表现调查项目的表格或问卷3. 回答“调查什么?”,方案设计中的其他问题,1.明确调查所采用的方法2.确定调查资料的所属时间和调查工作的期限拟订调查的组织与实施细则案例25,2.3 调查问卷设计,2.3.1 问卷的基本结构2.3.2 提问项目的设计2.3.3 回答项目的设计2.3.4 问题顺序的设计,内容提示,2.3.1 问卷的基本结构,什么是问卷? (questionnaires),用来搜集调查数据的一种工具调查者根据调查目的和要求所设计的,由一系列问题、备选答案、说明以及码表组成的一种调查形式不同的调查问卷在具体结构、题型、措词、版式等设计上会有所不同,但在结构上一般都由开头部分、甄别部分、主体部分和背景部分组成,问卷的基本结构,问卷的基本结构,开头部分,甄别部分,主体部分,背景部分,问候语,填写说明,问卷编号,开头部分(问候语),女士/小姐/先生: 您好!我是市场调查公司访问员,我们正在进行一项有关公众医疗保险意识方面的调查,目的是想了解人们对医疗保险的看法和意见,以便更好地促进医疗保险事业的发展。您的回答无所谓对错,只要真实地反映了您的情况和看法,就达到了这次调查的目的。希望您能积极参与,我们对您的回答完全是保密的。调查要耽搁您一些时间,请您谅解。谢谢您的支持与合作!,开头部分(填写说明),填写要求:请您在所选择答案的题号上画圈。对只许选择一个答案的问题只能画一个圈;对可选多个答案的问题,请在你认为合适的答案上画圈。需填写数字的题目在留出的横线上填写。对于表格中选择答案的题目,在所选的栏目内画勾。对注明要求您自己填写的内容,请在规定的地方填上您的意见。,开头部分(问卷的编号),用于识别问卷、调查者、被调查者姓名和地址等便于校对检查、更正错误,问卷编号001,甄别部分,甄别也称为过滤,它是先对被调查者进行过滤,筛选掉不需要的部分,然后针对特定的被调查者进行调查通过甄别,可以筛选掉与调查事项有直接关系的人,以达到避嫌的目的可以确定哪些人是合格的被调查者,哪些人不是甄别的目的是确保被调查者合格,能够作为该市场调查项目的代表,从而符合调查研究的需要,甄别部分,S1请问您或您的家庭有没有在下列行业工作的呢? 1广告、公关机构 2市场研究、咨询、调查机构 3电视,广播,报纸等媒介机构 终止访问 4轿车制造 5轿车批发、零售 6以上皆无继续访问S2请问您的年龄是: 120岁以下终止访问 22030岁 33040岁 44050岁 550岁以上终止访问,主体部分,是调查问卷的核心内容包括所要调查的全部问题,主要由问题和答案所组成,Q1.您在购买汽车时主要考虑哪些因素?Q2.您认为这款汽车的加速性能怎么样?,背景部分,通常放在问卷的最后,主要是有关被调查者的一些背景资料该部分所包含的各项问题,可使研究者根据背景资料对被调查者进行分类比较分析,1.您具体做什么工作?2.您的受教育程度?,背景部分,A出 示 卡 片请 问 您 的 教 育 程 度? (901) 没 受 过 正 式 教 育 1 小 学, 初 中 2 高 中, 职 高, 中 专, 技 校 3 大 专, 大 学 或 以 上 4 B出 示 卡 片请 问 您 的 职 业 和 职 位 是 什 么?(902) 普 通 职 员, 工 人1 部 门 经 理 负 责 人/ 高 级 管 理 人 员 2 公 司 老 板, 厂 长,总 经 理 3 专 业 人 员 4 个 体 户,自 营 职 业 5 失 业, 待 业 6 学 生7 离 退 休 人 员 8 其 他(请注明) 9,2.3.2 提问项目的设计,提问项目的设计,提问的内容尽可能短 用词要确切、通俗可按6W准则加以推敲。6W即Who(谁),Where(何处),When(何时),Why(为什么),What(什么事),How(如何)一项提问只包含一项内容 避免诱导性提问 避免否定形式的提问 避免敏感性问题,用词要确切、通俗,请问您使用什么牌子的洗发水?,请问您最近三个月使用什么牌子的洗发水?,您最近一段时间使用什么品牌的化妆品?,您最近一个月使用什么品牌的化妆品?,您觉得这种电视机的画面质量怎么样?,您觉得这种电视机的画面是否清晰?,一项提问只包含一项内容,您觉得这种新款轿车的加速性能和制动性能怎么样?,您觉得这种新款轿车的加速性能怎么样?您觉得这种新款轿车的制动性能怎么样?,避免诱导性提问,人们认为长虹牌彩电质量不错,你觉得怎么样?,您觉得长虹牌彩电的质量怎么样?,避免否定形式的提问,您觉得这种产品的新包装不美观吗?,您觉得这种产品的新包装美观吗?,2.3.3 回答项目的设计,回答的类型与方法 (p28) ,回答的类型与方法,开放性问题(自由回答型),封闭性问题(选择回答型),两项选择法,多项选择法,顺序选择法,评定尺度法,双向列联法,限制选择型,多项选择型,单项选择型,开放性问题(不得超过2个),对问题的回答未提供任何具体的答案,由被调查者根据自己的想法自由作出回答属于自由回答型优点:比较灵活,适合于搜集更深层次的信息,特别适合于那些尚未弄清各种可能答案或潜在答案类型较多的问题。而且可以使被调查者充分表达自己的意见和想法,有利于被调查者发挥自己的创造缺点:由于会出现各种各样的答案,给调查后的资料整理带来一定困难,开放性问题(例子),您认为我国目前的广告宣传中,存在的 主要问题是什么? 您对这种捷达新款车有何更具体的看法?,封闭性问题,对问题事先设计出了各种可能的答案,由被调查者从中选择问题的答案是标准化的,有利于被调查者对问题的理解和回答,也有利于调查后的资料整理对答案的要求较高,对一些比较复杂的问题,有时很难把答案设计周全问题的答案是选择回答型,所以设计出的答案一定要穷尽和互斥回答方法有:两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法五种,封闭性问题(不得超过3个)(两项选择法),答案只有两项,要求被调查者选择其中之一来回答优点:被调查者只需在二中之中选择一项,回答比较容易;调查后的数据处理也很方便缺点:得到的信息量较少;当被调查者对两项答案均不满意时,很难作出回答,您家里有电视机吗? 1. 有 2没有,封闭性问题(多项选择法),在设计问卷时,对一个问题给出三个或三个以上的答案,让被调查者从中选择进行回答根据要求选择的答案多少不同,有以下类型单项选择型:要求被调查者对所给出的问题答案选择其中的一项 多项选择型:要求被调查者对所给出的问题答案中,选出自己认为合适的答案,数量不受限制限制选择型:要求被调查者在所给出的问题答案中,选出自己认为合适的答案,但数量要受一定限制,封闭性问题(单项选择法实例),单项选择型,您觉得哪种类型的广告宣传效果最好? (选一项) 1电视广告 2广播广告 3杂志广告 4报纸广告 5路牌广告,封闭性问题(多项选择法实例),多项选择型,请问您在购买小轿车时,主要考虑哪些因素? (选出您认为合适的答案) 1价格 6维修费用 2款式 7乘坐舒适 3品牌 8行使平稳 4耗油量 9加速性能 5售后服务 10制动性能,封闭性问题(顺序选择法),问题答案有多个,要求被调查者在回答时,对所选的答案按要求的顺序或重要程度加以排列。其中,对所选的的答案数量可以进行一定的限制,也可以不进行限制问题答案不仅可以反映所要调查的内容,而且可以反映出被调查者对问题的看法,从而增加了信息量,封闭性问题(评定尺度法),问题答案,由表示不同等级的形容词组成, 并按照一定的程度排序,由被调查者依次 选择,您对这种新款轿车是否感到满意? 1非常满意;2比较满意;3一般 4不太满意;5不满意。,封闭性问题(双向列联法),将两类不同问题综合到一起,通常用表格来表现表的横向是一类问题,纵向是另一类问题这种问题结构可以反映两方面因素的综合作用,提供单一类型问题无法提供的信息可以节省问卷的篇幅,封闭性问题(双向列联法实例),请在您赞同项目的空格内划“”,2.3.4 问题顺序的设计,问题顺序的设计,问题的安排应具有逻辑性问题的顺序应先易后难能引起被调查者兴趣的问题放在前面开放性问题放在后面版面格式的设计问卷的结构安排要合理,问卷的主体部分要突出、醒目不要编排过密,各问题之间要留出一定的空间外表及内容的印刷要美观,问卷的设计思路,练习题,针对本校大学生生活费收支状况设计出一份调查问卷,大学生收支调查问卷,您的性别:,您的年级:,您的生活费主要来源依次是:,您的月生活费支出在: (金额),您的各项开支为(单位:元): (排序),作业,请各小组以以下内容为主题拟定一份调查方案,在设计调查方案的基础上设计好自己小组的调查问卷。主题参考统计学课程设计要求要求:调查方案内容包括调查目的、调查对象和调查单位、调查方法、调查程序、调查时间、调查计划。调查问卷要内容准确、外型美观,统计学课程设计报告要求,选题内容商学院(江城学院)学风图书馆利用率英语学习考研 考试逃课情况培训班 学习动机商学院(江城学院)学生情况电脑利用课程安排情况 专业认知课余情况寝室环境与建设 就业,课前思考题,1.问卷设计的基本结构由哪几个部分构成?2.问卷设计中关于“回答项目设计”通常采用哪些方法?,2.4 统计数据的质量,2.4.1 统计数据的误差2.4.2 统计数据的质量要求,内容提示,数据的误差,抽样误差(sampling error),由于抽样的随机性所带来的误差 所有样本可能的结果与总体真值之间的平均性差异 影响抽样误差的大小的因素样本量的大小(成反比)总体的变异性(成正比),非抽样误差(non-sampling error),相对抽样误差而言除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异存在于所有的调查之中概率抽样,非概率抽样,全面性调查理论上讲是可以消除的,误差的控制,抽样误差可计算和控制非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度,统计数据的质量要求,1. 精 度:最低的抽样误差或随机误差2. 准 确 性:最小的非抽样误差或偏差3. 关 联 性:满足用户决策、管理和研究的需要4. 及 时 性:在最短的时间里取得并公布数据5. 一 致 性:保持时间序列的可比性6. 最低成本:以最经济的方式取得数据,思考与练习,一、思考题:P37 2.3 / 2.4 / 2.5 / 2.6 / 2.7 二、练习题:P37 2.1三、实训:设计问卷,本章归纳与小结,统计数据的来源2. 调查方案设计 (为什么?向谁?调查什么?如何调查?)调查问卷设计 4. 统计数据的质量,间接来源,直接来源,提问项目设计,收集方法,普查,调查方式 ,抽样调查,统计报表,基本结构,回答项目设计,问题顺序设计,结 束,THANKS,