数据观测和收集.ppt
第四章 数据观测和收集,目录,第一节 假设论证途径第二节 实验研究第三节 统计调查研究第四节 实地研究第五节 无干扰研究,第一节 假设论证途径,一、实证研究和理论研究,实证研究反映归纳法:以观察事实和归纳逻辑为基础,透过现象的描述和解释概括出理论命题。理论研究反映演绎法:从已知的法则、理论出发,演绎推演出新的知识,包括原创性地提出无法验证的公理、理论推演出某种命题。实证研究应该是研究生论文的主要工作内容。,一、实证研究和理论研究,研究工作中理论推理仍然很重要。假设的提出离不开理论为依据进行臆测。以理论为依据,体现在:第一,假设必然在某种理论中占有一定的位置。第二、假设的提出必然涉及到现有的理论或命题。第三、证实的假设或理论往往是在否定或修正前人的假设或理论后形成的,即便如此,被否定、修正的命题或理论仍然是假设提出的基础。,一、实证研究和理论研究,事实和数据的分析与理论密不可分。从实证研究的阶段看,论文工作的问题辨析阶段与理论关系最为密切,理论逻辑体现在假设的提出和表述过程,二、日常观测和科学观测,日常观测与科学观测的差别:第一、日常观测是一种不自觉的行为,科学观测是自觉的行为第二、科学观测比日常观测周密,要采用专门的方法和技术。,二、日常观测和科学观测,研究设计阶段与数据收集和分析阶段的关系,犹如规划与执行的关系。数据收集和分析工作要从属于研究设计阶段提出的研究假设,根据研究假设的要求,有针对性地选择观测方法。,二、日常观测和科学观测,实证方法可分为实验研究和非实验研究。非实验研究又可分为统计调查研究和无干扰研究。,第二节 实验研究,实验研究是一种受控的观测方法,通过一个或多个自变量的变化来评估它对一个或多个变量产生的效应。实验研究按数据观测地点的差异可分为两种:一种称为实验室实验,在人为建造的特定环境下进行;另一种称为现场实验,在日常工作环境下进行,一、基本概念,基本概念,研究者期望弄清自变量的变化对因变量产生的影响,对自变量施加的控制行为叫实验刺激(experimental stimulus)或实验处理(experimental treatment)。实验组(experimental group)是指接受实验刺激的一组研究对象或自变量。,基本概念,实验组的变化所引起因变量的变异称为实验变异。因变量的误差不止来源于实验刺激,测量误差和随机干扰以及未接受实验刺激的自变量也会引起变异。由实验刺激之外的因素引起因变量的变异称为外部变异 为了消除外部变异而凸显实验变异需要引进控制变量和控制组控制变量指实验过程中其值保持不变的自变量(这些变量引起的因变量的任何变化都应该消除)。控制组指未接受实验刺激的一组研究对象。实验结束时,比较实验组和控制组便可看出实验刺激产生的差异,控制组提供了测量实验变异的参考点。,基本概念,为了比较实验组和控制组的状态并确定实验变量产生的影响,两组的组成要素必须尽可能类似,为了使实验组和控制组样本具有相同条件两种方法,可采用配对和随机化两种方式。,基本概念,随机分配样本,特别是在小样本情况下,也会出现两组成员不对称状况。【示例1】如下表所示,8个样本及其性别、身高两变量属性,按实验主体某重要变量的属性值排序从2到18,变量的属性均值为10。如分为实验组和控制组,最好是两组均值一致,样本小的情况下,随机分配很难达到此要求,如ABCD为一组,EFGH为一组,因变量值分别为5和15,差异很大。,基本概念,随机化及分块说明,基本概念,为了防止这种差异,研究人员可采用配对和随机相结合的方法即分块法:将样本先按某关键量配对,然后随机分配。先判断与某变量强相关的自变量,性别明显影响该变量,身高却不明显。于是将样本按性别变量配对,分配给实验组和控制组各两男两女,分块后在进行随机选择。两组因变量平均值差异最坏的情况为8和12,比不分块改善很多。,基本概念,“效度”作为一种辨别实验正确程度的指标,指观测结果所得到的关系达到期望的真实关系的程度。实验研究的内部效度指实验前后因变量观测结果的差异直接来源于实验处理的程度,或者说消除外部变异源的程度。,基本概念,内部效度越大,则越有信心做出因变量的变化来自实验变量变化的判断。内部效度受到许多因素的干扰,坎布尔和斯坦利概括出七个主要因素:,基本概念,(1)历程实验前测量因变量的值为a,试验后测量因变量的值为b,如果两次测量之间,外界环境发生某种研究者事先未曾估计到的事件并干扰实验结果,此即历程效应(history effect)。(2)成熟程度受试者随着实验的推移而产生的生理、心理和思维的变化,以致影响实验结果。(3)测试经验受试者在多次测试中产生学习效果,并影响到下次测验的结果。(4)测试工具测试者在实验开始和终止期间发生的变化,以及测试者、测试问题的更换等原因所引起的偏差归结为测试工具偏差。,基本概念,(5)统计回归当实验组和控制组的实验主体按照某种变量分类,且所选样本集合的变量平均值极高或极低时,会出现样本集合平均值向总体的变量平均值回归的趋向。(6)选择所选的实验组和控制组的实验主体一定要有可比性,否则无法得出实验结果。(7)实验消耗实验过程中,各组成员的减员或变化将造成效度的降低。,二、实验设计,实验设计是实验内容和步骤的规划,告诉人们实验做什么、合适做,以及对象是什么,一项实验设计要满足两项功能要求:,第一,能够表明自变量对因变量的效应,得以验证所提出的假设。,第二,排除实验结果的其他可能解释。,实验设计功能要求,实验设计,实验设计,实验设计分为三类:,1、预实验设计:未通过随机化办法提高内部效度,2、真实验设计:使用随机化和配对等技术控制内部效度,3、准实验设计:在真实现场环境下,无法进行真实验设计而进行近似的实验设计,O因变量的观测值X对实验主体或研 究变量施加的实验刺激R随机分配样本,实验设计,1、预实验设计 a 单组前后测设计:实验组 O X O 只有一个研究变量,其效应通过因变量后测与前测的差异来反映,简便而缺点多,易受多种内部效应干扰而影响实验结果。b 静态组间比较 实验组:X O 控制组:O 受测者分为两组,一组接受实验刺激,一另组未接受,视为控制组。然而,这个控制组不能起到完全控制的作用,只是属于自然状态的群体,在实验条件下并不能保证两组之间的可比性。,实验设计,2、真实验设计,五种设计类型,前后测加控制组设计,多实验组及单设计控制组,实验设计,A前后测加控制组设计(典型设计)实验组:R O X O 控制组:R O O 这种设计原则上可消除实验消耗之外的各种效度干扰因素。由于两个组在实验过程中,除了一个未接受实验刺激外,都经历相同的事件,历程干扰可排除。两组所经历的实验时间都一样,成熟因素带来的干扰也可排除测量工具误差对两组产生的影响相同,统计回归的干扰也由于随机分配受测者而对两组产生类似影响。只是实验刺激引起实验组受试者的短缺,即实验消耗效应无法消除。,实验设计,B 所罗门四组设计 实验组1:R O X O 控制组1:R O O 实验组2:R X O 控制组2:R O 它能提示因变量的变化是否来自前测和实验刺激的交互作用,实验组2接受实验刺激但未受前测,与经受前测的实验组1相比,若后测结果不同,则前测和实验刺激具有交互作用。所罗门设计得以辨别因变量变化的原因,“历程”和“成熟”因素引起的误差即可控制又可测。精确是此法的优点,然而参与实验的组数加倍时,时间和成本也得加倍。,实验设计,C 后测控制组设计 实验组 R X O 控制组 R O 这种设计通过随机分配受试者来控制“历程”、“统计回归”等效应引起的误差,衡量工具效应的影响因只测量一次而减低。,实验设计,D 多实验组及单控制组设计 实验组1:R O X1 O 实验组2:R O X2 O 实验组3:R O X3 O 控制组:R O OX1、X2、X3等表示研究变量接受不同程度的刺激,从各实验组结果比较中可得出自变量和因变量的关联性。有时,不仅是辨别有无影响还要求辨别影响程度和大小,研究变量变化到什么程度才引起因变量的变化,便可采取多实验组设计。,实验设计,E 因子设计 实验组1:R X1 X2 O 实验组2:R X1 O 实验组3:R X2 O 控制组:R O 如果自变量之间还存在交互作用,研究多变量之间交互作用的影响,便可采用因子设计。实验组1的结果和实验组2、3的累计结果比较,如果不相同的话,则辨别出两变量的交互影响。【示例2】改进方案有A、B两种,工人素质有高低两种属性。两个变量,每个变量都有两种属性,则有4种组合,即为最简单的因子设计。如下图所示,,实验设计,【因子设计示例】,20,40,60,80,100,20,40,60,80,100,a,b,图1,实验设计,图a表示设想的实验结果,表格中的数字表示每种组合的试验后测结果,素质高的工人接受方法A后业绩提高到80,接受方法B则为40.素质低的工人接受A后业绩为60,接受B则为20。无论素质高低,接受A比B的业绩要好,方法A的两类工人平均业绩70,方法B为30,可见方法A优于B,工人的素质和方法无交叉效应。图b表示的情况不一样,方法A和B何者较优很难说,取决于工人素质,对于素质高的工人方法A好,对于素质低的工人,方法B好,两种方法的平均值均为50。可见因子设计将工人素质和方法两因素组合实验,便显示出交互作用的影响。,实验设计,3、准实验设计 真实验设计所需的各项条件在现实中难以满足,实验主体不大可能按研究者的意图随机分配,在难以充分控制自变量,也难以进行实验设计要求的实验处理时,可采用准实验设计。,准实验设计,时间序列设计,不同群体时间序列设计,多时间序列设计,实验设计,(时间序列设计)实验组:O1 O2 O3 O4 X O5 O6 O7 O8 在实验前后的若干时点进行重复测量,从实验前后的因变量的变化趋势发现自变量的影响程度。前测后测的次数可以不同,但不应少于三次,时间序列设计可将重复测量数据作图表示。【示例3】如图2说明几种时间序列可能的结果,研究者关心O4和O5之间施加实验刺激后的反应,A,B,C情况下,刺激X显然产生影响,O4、O5的差别比其他任何相邻测量值都明显。E、F情况说明并非实验刺激而是其他因素再起作用。情况D可能是由于实验刺激X的时延效应或其他因素引起。,实验设计,O1,O2,O3,O4,O5,O6,O7,O8,A B C D E F,图2 时间序列结果分析,实验设计,时间序列设计可以很好地控制干扰效度的各种因素。成熟、测试、衡量工具、回归、消耗等效应都是渐变过程,不可能影响到对O4、O5之间突变的判断,只有历程是时间序列可能存在的干扰因素,如果某外界事件和实验刺激正巧同时发生,刺激X的效应便会曲扭。,实验设计,(2)不同群体时间序列设计R O1R O2R O3R O4 XR O5R O6R O7R O8,此设计产生和时间序列设计同样类型的数据,对干扰效度因素的控制能力也和时间序列设计类似,缺点是需要许多随即样本只在抽样成本不高的情况下适用,例如,商业调查中通过电话定期向各种随机样本征询意见。,实验设计,(3)多时间序列设计实验组:O1 O2 O3 O4 X O5 O6 O7 O8控制组:O1 O2 O3 O4 O5 O6 O7 O8 多时间序列设计引入控制组,以便辨别实验刺激期间是否还存在其他影响因素。【示例4】肯布尔和罗斯研究康州超速罚款措施对高速公路事故率的影响,康州在1995年制定了罚款条例。,实验设计,图3 的统计数据表明,此后几年的事故率一直下降,但下降原因是由于罚款条例还是别的因素难以确定,因为康州前几年的事故率也有这种波动。采用相邻的某州作为控制组后,邻州的事故率在1995年后并无明显下降,因此可以有把握得出结论,超速罚款条例是事故减少的原因。,16141210,1951 1952 1953 1954 1955 1956 1957 1958 1959 年份,控制对象实验对象,事故率,图3 多时间序列分析,三、实验外部效度,外部效度指实验得出的结果推广到不同时空范围和不同研究对象的可能性。内部效度是衡量精确性的指标,外部效度是衡量概括性的指标。实验结果的精确性和概括性之间互有矛盾,为了达到精确性就要人为严格控制情景和外部变量,或多或少地破坏了事件发展的“自然状态”,越是精确,破坏越多,这种“非自然状态”限制了实验结果推向现实世界的可能性。精确度越高,概括性越差。重复实验可以检验研究结果的外部效度。通常为了验证某种假设,现在实验室或严格控制条件下进行实验,如得到支持便可在稍微放松的条件下再实验,如满意,再从另外一些放松条件下重复实验,通过重复达到内部和外部的双重目标。,实验外部效度,外部效度的干扰因素可归纳为三点,实验外部效度,1、测量效应实验中的前测可能使实验主题对于自变量的变化产生不同的反应,并影响其在后测中的表现。当研究结果推广到未曾接受前测的总体中便会产生误差。2、样本代表性实验主体是否有代表性是外部效度的关键问题。由于主观偏好因素,从样本得出的结果推广到更一般的总体中,外部效度就可能有问题。3、实验环境效应实验环境本身导致参与实验的人们失去平常心,而采取与日常不同的行为,这就影响到实验结论的普遍适用性。,实验外部效度,试验的需求特征和研究者的期望可能引起因变量的变化,这就是实验环境造成的干扰,为了减少这种干扰,可采取“盲试”的办法,不让实验主体了解实验的意图和要证的假设,让受试者感觉不到自己在被试中更好。研究者由于对实验抱有主观期望,对符合自己期望的观测值比较敏感重视,对不符合的则忽略,这种干扰可采取“双盲实验”的办法,让研究者自己也不知道实验主体谁属于实验组,谁属于控制组,不明白试验主体的回答是支持还是否定期望结果。,小结,实验法的优点:首先,实验研究者有独立自主性,可完全按照自己提出的假设来决定研究哪些变量、设计变量的属性和取值,其次,实验法是序贯式研究,实验在一段时间内进行,按多个时刻进行测量,研究变量的动态变化。再次,实验法的耗费比其他研究方法要省,控制变量、样本数都比较小,而现场研究、问卷等方法的出差费等比较大。实验法的主要缺点是“非自然状态”,研究人员认为营造实验条件,实验的特定需求等,容易引起外部效度差的问题。此外,样本也难以完备,实验只限于某段时间和少数样本。,第三节 统计调查研究,访谈法,问卷法,调查研究方法,统计调查研究时以研究样本回答问题的数据为基础辨析总体状况的研究方法。,统计调查研究经常应用于以下几个方面:,一、问卷法,1.问卷构建封面信:致被调查者的短信指导语:指导被调查者如何正确填写问题和答案:问卷的主体 问题从形式上分为开放式和封闭式,从内容上分为特征、行为、态度三方面的问题。,一、问卷法,2.问卷设计的要点总原则:简明、便于回答、有吸引力答案尽可能完备,答案之间有明显差别一个问题包括一个明确界定的概念几项禁忌:1)问卷不能带倾向性 2)不提有可能难以真实回答的问题 3)不把未经确认的事情当做前提假设,一、问卷法,3.量表 量表将所希望测量的变量属性赋予一定的数字或符号,问卷中通常采用下述几种量表:总加量表李克特量表语义差量表,一、问卷法,问卷效度 一般采用的效度判断的方法是抽样观察回答者的实际情况是否和问卷调查得出的有关态度、行为、看法的结果一致。经验表明,问卷回收率如小于70%则调查结果的效度便有问题,二、访谈法,访谈法可以得到问卷法难以得到的深入资料,但是太费时,成本大,样本数有限。访谈提纲取代问卷,研究者需要良好的公关和沟通技术,需要记录技术和访谈前的从分准备。,二、访谈法,1.设计访谈提纲访谈提纲包括:问题、提问次序、可能提出的附加或试探性问题访谈中所提问题包括结构化问题和非结构化问题访谈问题尽可能简单清晰,二、访谈法,2.沟通在提出第一个问题之前,要有一段融洽沟通的时间避免任何言行引起被访谈者的不快,二、访谈法,3.访谈记录只需记下被访谈者谈话的要点和关键事例如征得被访谈者同意采用录音或录像,则可以加速访谈过程,二、访谈法,4.试点先找个别的样本进行访谈,反馈的信息可用于修改。,第四节 实地研究,实地研究的基本概念,实地研究是对自然状态下的研究对象进行直接观察,收集一段时期内若干变量的数据。自然状态,指所研究的变量不会在研究者可控的环境或条件下发生变化,而是顺其自然,保留研究者未出现时的原来面目。采用实地研究方法隐含一个出发点,即所研究对象受其环境的影响,变量是在一定的情境下发生变化的。实地研究最主要的优点是综合性。,三类课题最适用实地研究的方法:,实地研究者的四种不同角色,实地研究者的四种不同角色,观测者身份的观测者,实地研究的五个步骤,实地研究步骤一:准备工作,通过曾与该企业有交往的人员,通过收集到的书籍资料,准备工作,实地研究步骤二:抽样,适合实地研究的四种抽样方法,根据,适合实地研究的四种抽样方法,在实地研究的抽样过程中,始终要注意两个问题:,实际观察到的样本情况是否反映了所有可能观察到的情况,从样本观察到的信息能在多大程度上反映所期望解释的现象,注意问题,实地研究步骤三:提问,实地研究步骤四:观察记录,实地研究的基本工具:笔和记录本记录可包括两部分:(1)实际观察到的事实和对此事实的诠释(2)记录所知道的已发生事件和对已发生事件的设想,记录要及时整理,间隔越久则遗漏越多,记录内容所必须具备的五项内容:,实地研究步骤五:资料分析,找出现象的相似和差异之处,理清共性和差异现象,发现新的种属和特征。,实地研究的优点与缺点,第五节 无干扰研究,无干扰研究的基本概念,无干扰研究是指研究者不直接观察研究对象的行为,也不直接沟通,不引起研究对象的反应,更不干扰其行为。,无干扰研究的基本分类,文本分析借助各种文件报纸期刊和书籍等书面出版物发现和分析问题,现有统计数据分析利用所能收集到的统计数据进行论证,历程比较分析研究旨在从历史记录中掌握关键情节,无干扰研究的几种特征,研究者无法操纵和控制所研究的变量,假设提出过程和论证过程重合,研究者不干扰被研究对象,无干扰研究,无干扰研究方法的缺点,*注意效度和信度问题,无干扰研究依靠现有文本和数据现有信息的分类:,即定量观测值。各级政府部门定期收集和出版的人口、社会经济等统计资料,这就构成了研究中的重要资料来源,指所有非定量的各种传媒形式记载的信息,包括书籍、期刊、信件、回忆录、日记、档案(即各种社会、经济和法律事件记录),无干扰研究分类的框架,文本分析,假设形成变量抽取和属性归类资料分析结果分析,现有统计数据分析 现有统计数字可来自多方面,研究报告官方统计资料信息调查研究机构和咨询公司的数据库,举例:法国社会会学家杜尔克姆1897年成书的自杀论,历程比较分析(1)假设形成(2)资源收集,变量设置 历程比较研究资料包括原始资料和二手资料(3)结果论证,四.事件研究方法,1.界定事件及事件期间2.界定估计期间和后事件期间界定估计期间:利用该期间的数据去估算在事件未出现情况下因变量 之值,即期望收益值。将期望收益值与事件期间因变量变异后之值(即实际收益值)相比较,便得出事件所带来的异常收益值。后事件期间:后事件期间数据和估计期间数据共同用来估计无事件情况下的期望收益,以便在有趋势性变异情况下提高期望收益值估算的可靠性。3.确定分析单位4.预期正常收益计算5.异常收益计算6.异常收益累计,定常均值收益模型市场模型,四.事件研究方法,7.统计检验8.机理解释,提出零假设H0构造统计量根据事先给定的显著性水平a,确定提出零假设H0,五.应用示例,1.事件期间设计2.观测及计算数据3.统计检验4.计算,Thank You!,