测量的误差及其检验.ppt
《测量的误差及其检验.ppt》由会员分享,可在线阅读,更多相关《测量的误差及其检验.ppt(172页珍藏版)》请在三一办公上搜索。
1、第三章 测量的误差及其检验,第一节 测量的误差 第二节 测量的信度 第三节 测量的效度,教学目的与要求(1)了解测量误差的种类与来源(2)掌握信度的定义、意义及其估计方法(3)掌握效度的定义、意义及其估计方法,第一节 测量的误差,一、误差的定义和种类二、误差的来源三、真分数,一、误差的定义和种类(一)误差的定义 误差是在测量中与目的无关的因素所产生的不准确的或不一致的结果。有二层含义:、误差是由与测量目的无关的因素引起的;、误差是不准确或不一致的测量结果。,(二)误差的种类1、随机误差:与测量目的无关的偶然因素引起的变化无规律的误差,这种误差的大小和方向是随机的。既影响测量的准确性又影响一致性
2、。2、系统误差:与测量目的无关的因素引起的恒定的有规律的误差,它稳定地存在于每一次测量中。只影响测量的准确性。,二、误差的来源在心理测量中,常见的误差来源于三个方面:测验自身;施测过程;受测者本身。,(一)测验自身引起的误差 主要来源于测验的编制过程,其中项目取样影响最大。测验题目少或样本缺乏代表性 测验复本不等值 题目用词模棱两可 反应步骤说明不清 题目过难引起猜测 时间短促仓促作答等,(二)施测过程引起的误差1、测试环境2、测试时间3、主试因素4、意外干扰5、评分记分(评的客观,记得准确),小资料:对于论文题、问答题要多少人评分,平均分数才能相对稳定和客观呢?国外有人做过专门研究,结果如下
3、:哲学论文人,作文人,物理人,数学人。,(三)被试引起的误差,既使一个测验经过精心编制,题目取样具有代表性,又有标准化的施测和记分程序,由于受测者本身的变化,仍然会给测验分数带来误差,这种误差是最难控制的。,1、应试动机被试对测验的动机不同,会影响其作答态度,注意力、持久性、反应速度等,从而影响测验成绩。2、测验焦虑测验焦虑是指受测者在应试前和测试中出现的一种紧张的、不愉快的情绪体验。中等程度的焦虑最有利于被试的发挥,测验焦虑影响因素,1能力高的人,测验焦虑一般较低,而对自己能力没有把握的人,测验焦虑较高 2抱负水平过高,求胜心切的人,测验焦虑较高;3,具有某种人格特点,如缺乏自信、患得患失、
4、情绪不稳定的人易产生测验焦虑;4测验成绩与被试的关系重大,或被试受到的压力过大,容易使其产生测验焦虑;5经常接受测验的人焦虑较低,而对测验程序不熟悉,尤其是测验中采取了新的 题目形式或实施程序会增加测验焦虑。6,被试不了解测验目的,指导语不清会增加被试的焦虑。,3、测验经验任何一种新的项目形式,由于被试比较陌生,就可能使测验成绩受到影响。如果提供足够的演示和练习,测验成绩就会提高。相反,有些被试测验经验较多,掌握了答题技巧,成为了“测验油子”。4、练习效应任何一个测验在重复使用时,都会有练习效应而使成绩提高。,练习效应,教育背景较差、经验较少或智力较高者,其受练习效应的影响较大着重速度的测验练
5、习效应较为明显重复实施相同的测验,受练习效应影响的程度要大于复本的测验两次测验时距越大,练习效应越小,三个月以上可以忽略一般的练习效应,约在1/5标准差以下,5、反应倾向(反应定势)反应定势是指独立于测验内容的反应倾向。即由于每个人回答问题的习惯不同,而使能力相同的被试得到不同的测验分数。6、生理变因指生病、疲劳、失眠等生理因素以及在智力、情绪、体力等方面的生物节律也会影响测验成绩而带来误差。,常见的反应定势,求“快”与求“精确”的反应定势喜好正面叙述的反应定势喜好特殊位置的反应定势喜好较长选项的反应定势猜测的反应定势,三、真分数,(一)含义理论定义:是指测量没有误差时所得到的真值。真分数是一
6、个在理论上构想出来的抽象概念。操作定义:是无数次测量结果的平均值。,(二)数学模型及其假设、经典测量理论的基本思想把任何一个人在一个测验上的成绩都看作是真分数和测量误差的和,这是经典测量理论的基本思想。即:X=T+E X:实得分数或观测分数T:假设的真分数E:测量误差,注意:测量误差E指的是引起测量不一致的变因所产生的效应,即指随机误差,不包括系统误差。系统误差不引起分数的改变,因此包含在真值中。,关于测量误差E有以下假设:()如果对一个人测量无数次或同一测验施测于无限大的人群,其平均误差为,即;()真分数和测量误差是相互独立的即;()误差分数和实得分数的相关为,即。,2、引申:(1)对于一个
7、团体来说,实得分数的变异数等于其真分数的变异数与误差变异数之和。SX2=ST2+SE2(2)真分数的变异数可以分成两部分:与测量目的有关的变异SV2(有效变异)和与测量目的无关的但却稳定的变异SI2,即:ST2=SV2+SI2,(3)一次测验中,一个团体的实得分数的变异性是由与测量目的有关的变异数SV2、稳定的但出自无关来源的变异数SI2和随机误差的变异数SE2所决定的。即:SX2=SV2+SI2+SE2,SX2,ST2,第二节 信度,一、什么是信度二、信度的类型及估计方法三、信度的应用四、影响信度的因素,一、什么是信度,定义:指的是测量结果的稳定性程度(或叫可靠性、一致性)。思考:信度受随机
8、误差的影响还是受系统误差的影响?,在测量学中,信度被定义为:一组测量分数的真分数变异数(方差)与总变异数(总方差、实得分数的方差)的比率,或者是真实分数方差占总方差的百分比。计算公式:rxx=ST2/SX2 rxx也被称为信度系数。,该定义有两点要注意:、信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性。、信度是一个理论上构想的概念,只能根据一组实得分数作出估计。,信度系数rxx实际是真正分数与实得分数之间的决定系数。可以解释为在实得分数的变异数中有多少比例是由真分数的变异决定的。例如:当rxx 0.9时,怎么解释?rxx?rxx 0?,对信度系数也要注意三点:1)在不同情况下,对
9、不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不止一个信度系数。2)信度系数只是对测量分数不一致性程度的估计,并没有指出不一致的原因。3)获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的第一步,是使测验有效的一个必要条件。,二、信度的类型及估计方法,信度是个理论上构想的概念,在实际应用时,通常以同一样本所得的两组资料的相关,作为测量一致性的指标。由于测验分数的误差来源不同,估计信度的方法也不同,故每一种信度系数只能说明信度的不同方面,因而具有不同的意义。,(一)重测信度(再测信度)(二)复本信度(三)分半信度(四)同质性信度(五)评分者信度,(一)重测信度(再测信
10、度),1、含义与计算用同一个测验,在同样条件下对同一组被试前后两次施测,求两次得分间的相关系数。它反映的是两次测验的结果有无变化,也就是测验分数的稳定程度,所以又称稳定性系数。计算公式为:,例题:假设有一份主观幸福感调查表,先后两次施测于10名学生,时间间隔为半年,结果如表所示,求该测验的重测信度。(为了便于理解和计算,本章估计信度的例子都是小样组,实际应用时应采用大样组。)表1 某幸福感调查表的两次测试结果,解:用计算器算出:S1=2.82 S23.38 把以上数据代入公式,2、使用的前提条件(1)所测量的心理特性必须是稳定的。(2)遗忘和练习的效果基本上相互抵消。(3)在时间间隔中没有学习
11、另外的与测验有关的东西,或者说每人学习其他东西的程度都一样。,3、使用时的注意要点(1)两次测验的时间间隔要适当。(2)再测法适用于速度测验和人格测验。(3)应注意提高被试的积极性。提问:重测法的误差主要是来源于什么?,4、优缺点缺点:(1)易受练习和记忆的影响。(2)如果两次施测时间间隔较长,由于在此期间受到被试学习、成熟的影响,都会使两次测验结果不相同。(3)同一被试对一个测验先后两次作答,对测验的兴趣不同、身心状况的变化,影响测验结果。(4)两次施测的条件不同,也是产生测量误差的因素。,优点:(1)能提供有关测验结果是否随着时间而变异的资料,可作为预测受测者将来行为表现的依据;(2)首测
12、和再测只需要一套测验题目,省时、省力;(3)同一套题目无论施测几次,所测的属性是完全相同的。,(二)复本信度,1、含义与计算含义:根据一组被试在两个平行(等值)测验上的得分计算的相关系数即为复本信度。其计算方法与再测法相同。,例题:假设用A、B两型创造力复本测验对初中一年级10个学生施测,计算该测验的复本信度。结果见表2。,表2 某创造力复本测验测试结果,解:先用计算器计算得出以下值:把以上数据代入公式,2、使用的前提条件:(1)要两份或两份以上真正等值的测验,必须是真正的复本,否则所得的信度就成了歪曲的估计。(2)被试要有条件接受两个测验。主要取决于时间、经费等几方面。,3、连续施测和间隔施
13、测(1)连续施测同时施测的复本信度叫等值性系数。提问:同时施测的复本信度的误差主要来源于什么?,(2)间隔施测相距一段时间分两次施测得到的信度叫做稳定性与等值性系数。提问:间隔施测的复本信度的误差主要来源于什么?,4、复本信度局限性如果测量的行为易受练习的影响,则复本信度只能减少而不能完全消除这种影响;由于第二个测验只改变了题目的内容,已经掌握的解题原则,可以很容易地迁移到同类问题。对于许多测验来说,建立复本是十分困难的。,(三)分半信度,1、含义含义:按正常的程序实施测验,然后将全部项目分成相等的两半,根据各人在这两半测验的分数计算其相关系数。由于只需对一个测验进行一次施测,考察的是两半题目
14、之间的一致性,所以这种信度系数有时也被称为内部一致性系数。,2、计算提问:怎样对测验进行分半?进行奇偶分半时,要注意的问题是:怎样安排互相有牵连的题目。在这种情况下整个一组的题目应放到同一半。,(1)两半测验分数的变异数相等(方差齐性)先计算两半测验的积差相关系数,再进行斯皮尔曼布朗公式校正:rhh为两半分数的相关系数;rxx为测验在原长度时的信度估计提问:为什么求得的分半信度要用斯皮尔曼布朗公式校正?,(2)两半测验分数的变异数不等(方差不齐)当两半测验不等值时,可采用下列公式的两种之一,直接求得测验的信度系数:弗朗那根公式:Sa2 和Sb2表示两半测验分数的变异数SX2表示测验总分的变异数
15、,卢伦公式:Sd2为两半测验分数之差的变异数;Sx2为测验总分的变异数;r为信度值。提问:怎样理解卢伦公式?,例:有一个由100题构成的量表施测于10个高三学生。测验一次后,应试者即毕业离校。现在怎样评价测验结果的信度?,解:因不能再次测验,只能求分半信度。步骤:(1)计算出每个应试者的奇数题总分(X1)和偶数题总分(X2),见表:,解:用计算器求得(也可以用计算机做):(1)斯皮尔曼布朗公式(平均数和标准差差异显著性检验略),(2)弗朗那根公式:,(3)卢伦公式:,3、使用的前提条件及范围(1)分半信度通常是只能施测一次或没有复本的情况下使用。(2)由于将一个测验分成两半的方法很多,所以,同
16、一测验通常会有多个分半信度值。(3)当试卷中有任选题时不宜用分半法,速度测验也不宜用分半法。,(四)同质性信度,1、含义同质性也指内部一致性,指测验内部所有题目间的一致性。题目的一致性有两层含义:其一是指所有题目都测的是同一种心理特质;其二是指所有题目之间都具有较高的正相关。总之,同质性信度就是一个测验所测内容或特质的相同程度。,2、测量同质性的基本公式:K:构成测验的题目数:项目间相关系数的平均数:同质性性度值提问:这个公式说明什么?,3、库德-理查逊公式:适用于客观性试题(0、1记分)K-R20公式:K:构成测验的题目数Pi:通过第i题的人数比例qi:未通过第i题的人数比例Sx2:测验总分
17、的变异数,K-R21公式:适用于各项目难度相近的情况 K:构成测验的题目数:测验总分的平均数Sx2:测验总分的变异数,4、克伦巴赫系数:适用于多重记分测验K:构成测验的题目数Si2:某一题目分数的变异数Sx2:测验总分的变异数,例:有一种包含6个论文式题目的测验,对5个应试者施行,得分见下表,试求该测验的信度。,解:(1)求每题各被试得分的方差Si2、方差和(2)求测验总分的变异数即各被试得分的方差(即求40、62、41、54、52的方差),Sx 2 68.96(3)代入公式求信度系数,4、注意:用库德-理查逊公式和克伦巴赫系数所求得的信度通常比分半信度低。上面这些公式不适用于速度性测验。提问
18、:同质性信度的误差主要来源于什么?,(五)评分者信度,1、含义指的是多个评分者给同一批人的答卷进行评分的一致性程度。是用于测量不同评分者之间所产生的误差。,2、方法与计算方法:随机抽取相当份数的试卷,由两个或多个评分者按评分标准打分,然后求其间的相关。(1)两个评分者采用皮尔逊积差相关或等级相关。一般要求经过训练的成对评分者之间的一致性程度达到0.90以上,才认为评分是标准客观的。,(2)多个评分者评多个对象,并用等级法计分时,可以用肯德尔和谐系数:W:和谐系数K:评分者的人数N:被评对象数Ri:每一对象被评的等级总和。,例:假设有三位专家给六篇论文评等级,结果如表所示,试计算此次评分者的评分
19、者信度。,提问:评分者信度的误差主要来源于什么?,以上介绍的各种信度估计方法都是对测验的一致性进行估计,但由于误差来源不同,它们的研究侧面各不相同,说明的是信度的不同方面。这些方法具有不同的意义,每一种信度系数不能代替其他信度系数。,估计信度的方法与测验复本的数目以及施测次数的关系,各种信度系数相应误差变异的来源,提问:在理论上,哪种方法得到的信度系数最高?哪种最低?,实际上,有多少种误差来源,便有多少种估计信度的方法。一个测验哪种误差大,便应该用哪种误差估计。有时一个测验需要几种信度系数,这样我们就能把总分数的变异数分成不同的分支。,假设对100个六年级学生以两个月的时间间隔先后施测一个创造
20、力测验的A、B复本,所得到的等值性与稳定性系数为0.70。我们还根据被试对每个复本的反应计算出分半信度为0.80(先计算每个复本的分半相关系数,将二者平均后用斯皮尔曼-布朗公式校正)。同时,我们让另一个评分者随机抽取50份卷另外评分,得到的评分者信度为0.92。那么,这个测量的总误差变异是多少?真实的变异是多少?,一个假想测验的误差变异来源分析,一个假想测验的误差变异来源分析,注意:信度虽然是测验的特性,但不能笼统地说某个测验的信度有多高。只能说在特定的条件下,用于特定的团体,采用特定的方法所得到的某个测验的信度系数是多少。总之,信度总是与特定的情境有关的。,三、信度的应用,(一)评价测验(二
21、)解释分数,(一)评价测验一般能力与成就测验的信度系数在0.90以上,有的可以达0.95,性格、兴趣、价值观等人格测验的信度系数,通常在0.80到0.85或更高些。,(二)解释分数、个人测验分数的误差用一组被试两次施测的结果来估计测量误差的变异数。此时,个人在两次测验中的分数差异就是测量误差,由此可制成误差分数的分布。这个分布的标准差就是测量的标准误,是表示测量误差大小的指标。提问:测量的标准误与信度间有什么关系?,测量的标准误实际上是在一组测量分数中误差分布的标准差,可以像其它标准差一样地解释。我们可以根据标准误从每个人的实得分数估计出真分数的可能范围,即确定出在不同或然率水准上真分数的置信
22、区间。人们一般采用95的或然率水准,其置信区间为:(X-1.96SE)T(X+1.96SE),例题:在一次测验中有些学生得80分,如果再测一次他们的分数将改变多少?已知该次测验的标准差为5,信度系数为0.84。,注意:(1)SE对真分数做的是区间估计,不可能由此得到一个确切的点。(2)置信水平确定后,估计的精度主要取决于SE,SE越小,范围越小,估计就越精确。(3)真分数不能等同于真正能力或心理特质,当系统误差对施测分数产生影响时,用此方法估计出的真分数并非代表被试的真正能力或特质,因此我们应该选择效度较高的量表,减小系统误差。,、两种测验分数的比较为了说明个人在两种测验上表现的优劣,我们可用
23、“差异的标准误”来检验其差异的显著性,常用的公式如下:如果两种分数的差异达到或超过.05的显著水平,始能认为二者真有差异。,例题:某被试在韦氏成人智力测验中言语智商为102,操作智商为108。已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.97和0.93。问其操作智商是否显著高于言语智商呢?,四、标准参照测验的信度估计,思考题:为什么以上介绍的估计信度的方法不适用于标准参照测验?,1、对相关法信度系数进行校正利文斯顿公式:,2、用决策的一致性作为信度指标林德曼与梅伦达的一致性公式:C为一致性,n为在两次施测中均未达标的人数,b为在两次施测中均
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 测量 误差 及其 检验
链接地址:https://www.31ppt.com/p-6126867.html