测量的误差及其检验.ppt

上传人：小飞机

文档编号：6126867

上传时间：2023-09-26

格式：PPT

页数：172

大小：840KB

《测量的误差及其检验.ppt》由会员分享，可在线阅读，更多相关《测量的误差及其检验.ppt（172页珍藏版）》请在三一办公上搜索。

1、第三章测量的误差及其检验,第一节测量的误差第二节测量的信度第三节测量的效度,教学目的与要求（1）了解测量误差的种类与来源（2）掌握信度的定义、意义及其估计方法（3）掌握效度的定义、意义及其估计方法,第一节测量的误差,一、误差的定义和种类二、误差的来源三、真分数,一、误差的定义和种类（一）误差的定义误差是在测量中与目的无关的因素所产生的不准确的或不一致的结果。有二层含义：、误差是由与测量目的无关的因素引起的；、误差是不准确或不一致的测量结果。,（二）误差的种类1、随机误差：与测量目的无关的偶然因素引起的变化无规律的误差，这种误差的大小和方向是随机的。既影响测量的准确性又影响一致性

2、。2、系统误差：与测量目的无关的因素引起的恒定的有规律的误差，它稳定地存在于每一次测量中。只影响测量的准确性。,二、误差的来源在心理测量中，常见的误差来源于三个方面：测验自身；施测过程；受测者本身。,（一）测验自身引起的误差主要来源于测验的编制过程，其中项目取样影响最大。测验题目少或样本缺乏代表性测验复本不等值题目用词模棱两可反应步骤说明不清题目过难引起猜测时间短促仓促作答等,（二）施测过程引起的误差1、测试环境2、测试时间3、主试因素4、意外干扰5、评分记分(评的客观，记得准确）,小资料：对于论文题、问答题要多少人评分，平均分数才能相对稳定和客观呢？国外有人做过专门研究，结果如下

3、：哲学论文人，作文人，物理人，数学人。,（三）被试引起的误差,既使一个测验经过精心编制，题目取样具有代表性，又有标准化的施测和记分程序，由于受测者本身的变化，仍然会给测验分数带来误差，这种误差是最难控制的。,1、应试动机被试对测验的动机不同，会影响其作答态度，注意力、持久性、反应速度等，从而影响测验成绩。2、测验焦虑测验焦虑是指受测者在应试前和测试中出现的一种紧张的、不愉快的情绪体验。中等程度的焦虑最有利于被试的发挥,测验焦虑影响因素,1能力高的人，测验焦虑一般较低，而对自己能力没有把握的人，测验焦虑较高 2抱负水平过高，求胜心切的人，测验焦虑较高；3，具有某种人格特点，如缺乏自信、患得患失、

4、情绪不稳定的人易产生测验焦虑；4测验成绩与被试的关系重大，或被试受到的压力过大，容易使其产生测验焦虑；5经常接受测验的人焦虑较低，而对测验程序不熟悉，尤其是测验中采取了新的题目形式或实施程序会增加测验焦虑。6，被试不了解测验目的，指导语不清会增加被试的焦虑。,3、测验经验任何一种新的项目形式，由于被试比较陌生，就可能使测验成绩受到影响。如果提供足够的演示和练习，测验成绩就会提高。相反，有些被试测验经验较多，掌握了答题技巧，成为了“测验油子”。4、练习效应任何一个测验在重复使用时，都会有练习效应而使成绩提高。,练习效应,教育背景较差、经验较少或智力较高者，其受练习效应的影响较大着重速度的测验练

5、习效应较为明显重复实施相同的测验，受练习效应影响的程度要大于复本的测验两次测验时距越大，练习效应越小，三个月以上可以忽略一般的练习效应，约在1/5标准差以下,5、反应倾向（反应定势）反应定势是指独立于测验内容的反应倾向。即由于每个人回答问题的习惯不同，而使能力相同的被试得到不同的测验分数。6、生理变因指生病、疲劳、失眠等生理因素以及在智力、情绪、体力等方面的生物节律也会影响测验成绩而带来误差。,常见的反应定势,求“快”与求“精确”的反应定势喜好正面叙述的反应定势喜好特殊位置的反应定势喜好较长选项的反应定势猜测的反应定势,三、真分数,（一）含义理论定义：是指测量没有误差时所得到的真值。真分数是一

6、个在理论上构想出来的抽象概念。操作定义：是无数次测量结果的平均值。,（二）数学模型及其假设、经典测量理论的基本思想把任何一个人在一个测验上的成绩都看作是真分数和测量误差的和，这是经典测量理论的基本思想。即：X=T+E X：实得分数或观测分数T：假设的真分数E：测量误差,注意：测量误差E指的是引起测量不一致的变因所产生的效应，即指随机误差，不包括系统误差。系统误差不引起分数的改变，因此包含在真值中。,关于测量误差E有以下假设：（）如果对一个人测量无数次或同一测验施测于无限大的人群，其平均误差为，即；（）真分数和测量误差是相互独立的即；（）误差分数和实得分数的相关为，即。,2、引申：（1）对于一个

7、团体来说，实得分数的变异数等于其真分数的变异数与误差变异数之和。SX2=ST2+SE2（2）真分数的变异数可以分成两部分：与测量目的有关的变异SV2（有效变异）和与测量目的无关的但却稳定的变异SI2，即：ST2=SV2+SI2,（3）一次测验中，一个团体的实得分数的变异性是由与测量目的有关的变异数SV2、稳定的但出自无关来源的变异数SI2和随机误差的变异数SE2所决定的。即：SX2=SV2+SI2+SE2,SX2,ST2,第二节信度,一、什么是信度二、信度的类型及估计方法三、信度的应用四、影响信度的因素,一、什么是信度,定义：指的是测量结果的稳定性程度（或叫可靠性、一致性）。思考：信度受随机

8、误差的影响还是受系统误差的影响？,在测量学中，信度被定义为：一组测量分数的真分数变异数（方差）与总变异数（总方差、实得分数的方差）的比率，或者是真实分数方差占总方差的百分比。计算公式：rxx=ST2/SX2 rxx也被称为信度系数。,该定义有两点要注意：、信度指的是一组测验分数或一列测量的特性，而不是个人分数的特性。、信度是一个理论上构想的概念，只能根据一组实得分数作出估计。,信度系数rxx实际是真正分数与实得分数之间的决定系数。可以解释为在实得分数的变异数中有多少比例是由真分数的变异决定的。例如：当rxx 0.9时，怎么解释？rxx？rxx 0？,对信度系数也要注意三点：1)在不同情况下，对

9、不同样本，采用不同方法会得到不同的信度系数，因此一个测验可能不止一个信度系数。2)信度系数只是对测量分数不一致性程度的估计，并没有指出不一致的原因。3)获得较高的信度系数并不是心理测量追求的最终目的，它只是迈向目标的第一步，是使测验有效的一个必要条件。,二、信度的类型及估计方法,信度是个理论上构想的概念，在实际应用时，通常以同一样本所得的两组资料的相关，作为测量一致性的指标。由于测验分数的误差来源不同，估计信度的方法也不同，故每一种信度系数只能说明信度的不同方面，因而具有不同的意义。,（一）重测信度（再测信度）（二）复本信度（三）分半信度（四）同质性信度（五）评分者信度,（一）重测信度（再测信

10、度）,1、含义与计算用同一个测验，在同样条件下对同一组被试前后两次施测，求两次得分间的相关系数。它反映的是两次测验的结果有无变化，也就是测验分数的稳定程度，所以又称稳定性系数。计算公式为：,例题：假设有一份主观幸福感调查表，先后两次施测于10名学生，时间间隔为半年，结果如表所示，求该测验的重测信度。（为了便于理解和计算，本章估计信度的例子都是小样组，实际应用时应采用大样组。）表1 某幸福感调查表的两次测试结果,解：用计算器算出:S1=2.82 S23.38 把以上数据代入公式,2、使用的前提条件（1）所测量的心理特性必须是稳定的。（2）遗忘和练习的效果基本上相互抵消。（3）在时间间隔中没有学习

11、另外的与测验有关的东西，或者说每人学习其他东西的程度都一样。,3、使用时的注意要点（1）两次测验的时间间隔要适当。（2）再测法适用于速度测验和人格测验。（3）应注意提高被试的积极性。提问：重测法的误差主要是来源于什么？,4、优缺点缺点：（1）易受练习和记忆的影响。（2）如果两次施测时间间隔较长，由于在此期间受到被试学习、成熟的影响，都会使两次测验结果不相同。（3）同一被试对一个测验先后两次作答，对测验的兴趣不同、身心状况的变化，影响测验结果。（4）两次施测的条件不同，也是产生测量误差的因素。,优点：（1）能提供有关测验结果是否随着时间而变异的资料，可作为预测受测者将来行为表现的依据；（2）首测

12、和再测只需要一套测验题目，省时、省力；（3）同一套题目无论施测几次，所测的属性是完全相同的。,（二）复本信度,1、含义与计算含义：根据一组被试在两个平行（等值）测验上的得分计算的相关系数即为复本信度。其计算方法与再测法相同。,例题：假设用A、B两型创造力复本测验对初中一年级10个学生施测,计算该测验的复本信度。结果见表2。,表2 某创造力复本测验测试结果,解：先用计算器计算得出以下值：把以上数据代入公式,2、使用的前提条件：（1）要两份或两份以上真正等值的测验，必须是真正的复本，否则所得的信度就成了歪曲的估计。（2）被试要有条件接受两个测验。主要取决于时间、经费等几方面。,3、连续施测和间隔施

13、测（1）连续施测同时施测的复本信度叫等值性系数。提问：同时施测的复本信度的误差主要来源于什么？,（2）间隔施测相距一段时间分两次施测得到的信度叫做稳定性与等值性系数。提问：间隔施测的复本信度的误差主要来源于什么？,4、复本信度局限性如果测量的行为易受练习的影响，则复本信度只能减少而不能完全消除这种影响；由于第二个测验只改变了题目的内容，已经掌握的解题原则，可以很容易地迁移到同类问题。对于许多测验来说，建立复本是十分困难的。,（三）分半信度,1、含义含义：按正常的程序实施测验，然后将全部项目分成相等的两半，根据各人在这两半测验的分数计算其相关系数。由于只需对一个测验进行一次施测，考察的是两半题目

14、之间的一致性，所以这种信度系数有时也被称为内部一致性系数。,2、计算提问：怎样对测验进行分半？进行奇偶分半时，要注意的问题是:怎样安排互相有牵连的题目。在这种情况下整个一组的题目应放到同一半。,（1）两半测验分数的变异数相等（方差齐性）先计算两半测验的积差相关系数，再进行斯皮尔曼布朗公式校正：rhh为两半分数的相关系数；rxx为测验在原长度时的信度估计提问：为什么求得的分半信度要用斯皮尔曼布朗公式校正？,（2）两半测验分数的变异数不等（方差不齐）当两半测验不等值时，可采用下列公式的两种之一，直接求得测验的信度系数：弗朗那根公式：Sa2 和Sb2表示两半测验分数的变异数SX2表示测验总分的变异数

15、,卢伦公式：Sd2为两半测验分数之差的变异数；Sx2为测验总分的变异数；r为信度值。提问：怎样理解卢伦公式？,例：有一个由100题构成的量表施测于10个高三学生。测验一次后，应试者即毕业离校。现在怎样评价测验结果的信度？,解：因不能再次测验，只能求分半信度。步骤：（1）计算出每个应试者的奇数题总分（X1）和偶数题总分（X2），见表：,解：用计算器求得（也可以用计算机做）：（1）斯皮尔曼布朗公式（平均数和标准差差异显著性检验略）,（2）弗朗那根公式：,（3）卢伦公式：,3、使用的前提条件及范围（1）分半信度通常是只能施测一次或没有复本的情况下使用。（2）由于将一个测验分成两半的方法很多，所以，同

16、一测验通常会有多个分半信度值。（3）当试卷中有任选题时不宜用分半法，速度测验也不宜用分半法。,（四）同质性信度,1、含义同质性也指内部一致性，指测验内部所有题目间的一致性。题目的一致性有两层含义：其一是指所有题目都测的是同一种心理特质；其二是指所有题目之间都具有较高的正相关。总之，同质性信度就是一个测验所测内容或特质的相同程度。,2、测量同质性的基本公式：K:构成测验的题目数:项目间相关系数的平均数:同质性性度值提问：这个公式说明什么？,3、库德-理查逊公式：适用于客观性试题（0、1记分）K-R20公式：K：构成测验的题目数Pi：通过第i题的人数比例qi：未通过第i题的人数比例Sx2：测验总分

17、的变异数,K-R21公式：适用于各项目难度相近的情况 K:构成测验的题目数:测验总分的平均数Sx2:测验总分的变异数,4、克伦巴赫系数：适用于多重记分测验K：构成测验的题目数Si2：某一题目分数的变异数Sx2：测验总分的变异数,例：有一种包含6个论文式题目的测验，对5个应试者施行，得分见下表，试求该测验的信度。,解：（1）求每题各被试得分的方差Si2、方差和（2）求测验总分的变异数即各被试得分的方差（即求40、62、41、54、52的方差），Sx 2 68.96（3）代入公式求信度系数,4、注意：用库德-理查逊公式和克伦巴赫系数所求得的信度通常比分半信度低。上面这些公式不适用于速度性测验。提问

18、：同质性信度的误差主要来源于什么？,（五）评分者信度,1、含义指的是多个评分者给同一批人的答卷进行评分的一致性程度。是用于测量不同评分者之间所产生的误差。,2、方法与计算方法：随机抽取相当份数的试卷，由两个或多个评分者按评分标准打分，然后求其间的相关。(1)两个评分者采用皮尔逊积差相关或等级相关。一般要求经过训练的成对评分者之间的一致性程度达到0.90以上，才认为评分是标准客观的。,(2)多个评分者评多个对象，并用等级法计分时，可以用肯德尔和谐系数：W:和谐系数K:评分者的人数N:被评对象数Ri:每一对象被评的等级总和。,例：假设有三位专家给六篇论文评等级，结果如表所示，试计算此次评分者的评分

19、者信度。,提问：评分者信度的误差主要来源于什么？,以上介绍的各种信度估计方法都是对测验的一致性进行估计，但由于误差来源不同，它们的研究侧面各不相同，说明的是信度的不同方面。这些方法具有不同的意义，每一种信度系数不能代替其他信度系数。,估计信度的方法与测验复本的数目以及施测次数的关系,各种信度系数相应误差变异的来源,提问：在理论上，哪种方法得到的信度系数最高？哪种最低？,实际上，有多少种误差来源，便有多少种估计信度的方法。一个测验哪种误差大，便应该用哪种误差估计。有时一个测验需要几种信度系数，这样我们就能把总分数的变异数分成不同的分支。,假设对100个六年级学生以两个月的时间间隔先后施测一个创造

20、力测验的A、B复本，所得到的等值性与稳定性系数为0.70。我们还根据被试对每个复本的反应计算出分半信度为0.80(先计算每个复本的分半相关系数,将二者平均后用斯皮尔曼-布朗公式校正)。同时，我们让另一个评分者随机抽取50份卷另外评分，得到的评分者信度为0.92。那么，这个测量的总误差变异是多少？真实的变异是多少？,一个假想测验的误差变异来源分析,一个假想测验的误差变异来源分析,注意：信度虽然是测验的特性，但不能笼统地说某个测验的信度有多高。只能说在特定的条件下，用于特定的团体，采用特定的方法所得到的某个测验的信度系数是多少。总之，信度总是与特定的情境有关的。,三、信度的应用,（一）评价测验（二

21、）解释分数,（一）评价测验一般能力与成就测验的信度系数在0.90以上，有的可以达0.95，性格、兴趣、价值观等人格测验的信度系数，通常在0.80到0.85或更高些。,（二）解释分数、个人测验分数的误差用一组被试两次施测的结果来估计测量误差的变异数。此时，个人在两次测验中的分数差异就是测量误差，由此可制成误差分数的分布。这个分布的标准差就是测量的标准误，是表示测量误差大小的指标。提问：测量的标准误与信度间有什么关系？,测量的标准误实际上是在一组测量分数中误差分布的标准差，可以像其它标准差一样地解释。我们可以根据标准误从每个人的实得分数估计出真分数的可能范围，即确定出在不同或然率水准上真分数的置信

22、区间。人们一般采用95的或然率水准，其置信区间为：(X-1.96SE)T(X+1.96SE),例题：在一次测验中有些学生得80分，如果再测一次他们的分数将改变多少?已知该次测验的标准差为5，信度系数为0.84。,注意：（1）SE对真分数做的是区间估计，不可能由此得到一个确切的点。（2）置信水平确定后，估计的精度主要取决于SE，SE越小，范围越小，估计就越精确。（3）真分数不能等同于真正能力或心理特质，当系统误差对施测分数产生影响时，用此方法估计出的真分数并非代表被试的真正能力或特质，因此我们应该选择效度较高的量表，减小系统误差。,、两种测验分数的比较为了说明个人在两种测验上表现的优劣，我们可用

23、“差异的标准误”来检验其差异的显著性，常用的公式如下：如果两种分数的差异达到或超过.05的显著水平，始能认为二者真有差异。,例题：某被试在韦氏成人智力测验中言语智商为102，操作智商为108。已知两个分数都是以100为平均数，15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.97和0.93。问其操作智商是否显著高于言语智商呢？,四、标准参照测验的信度估计,思考题：为什么以上介绍的估计信度的方法不适用于标准参照测验？,1、对相关法信度系数进行校正利文斯顿公式：,2、用决策的一致性作为信度指标林德曼与梅伦达的一致性公式：C为一致性，n为在两次施测中均未达标的人数，b为在两次施测中均

24、已达标的人数，f为只在第一次施测中达标的人数，s为只在第二次施测中达标的人数，v为f或s中较小的值。,五、影响信度的因素,（一）被试的样本当一个测验用于比常模团体更为同质的团体时，要重新确定测量的信度：,例题：一个测验应用于全体小学生团体的样本（常模团体），其分数的标准差为10，信度系数为0.90，假如将此测验应用于小学五年级，其分数标准差为5。其信度系数应为多少？,（二）测验的长度测验的长度也是影响信度系数的一个因素。这是因为：1、测验越长，测验的测题取样或内容取样越有代表性，可以更好地反映被试的真实水平。2、测验的项目越多，在每个项目上的随机误差就可以相互抵消。,增加测验长度的效果可以用斯

25、皮尔曼-布朗公式的通式来计算：,例题1：假设有一个包括10个题目的测验，信度为0.50，若把测验增加到50个题目，其信度将增加到多少？例题2：一个包含50个题目的测验信度是0.75，欲将信度提高到0.90，需要增加多少题目？,注意：只有当新题目与原题目选自同一总体，即与原题目具有同质性时，增长测验才能改进信度。,（三）测验的难度难度对信度的影响只存在于某些测验中，如智力测验、成就测验、能力倾向测验等。提问：从理论上讲，测验处于什么难度时，所得的信度系数最大？为什么？,当测验过难而且题目允许猜测时，被试会对许多题目作随机反应瞎猜，这样我们就无法对其分数置信。洛德提出了在学绩测验中，为了保证其可靠

26、性，各类选择题的理想平均难度为：五选题:0.70四选题:0.74三选题:0.77是非题:0.85,第三节测量的效度,一、什么是效度二、效度和信度的关系三、效度的类型及评估方法四、标准参照测验的效度五、影响效度的因素六、对各种效度系数的要求,一、什么是效度,定义：效度指的是测量的有效性和正确性，即一个测验能够测量出其所要测量的东西的程度。效度和信度一样，也是一个相对的概念。这种相对性表现在两个方面：效度是相对于一定的测量目的而言的。效度只有程度上的差异。,在测量学中，效度被定义为：在一组测量中，与测量目的有关的变异（或称有效变异）与实得变异数（总变异）的比率。即：一个测验的效度表明：在一组测验

27、分数中，有多大比例的变异数是由测验所要测量的变因引起的。,该定义有两点要注意：、和信度一样，效度也是指的是一组测验分数或一列测量的特性，而不是个人分数的特性。、由于有效变异是一个理论值，无法测量，所以效度和信度一样是一个理论上构想的概念，,SX2,ST2,二、效度和信度的关系,思考：效度受随机误差的影响还是受系统误差的影响？,（一）信度是效度的必要而非充分条件。（二）效度是受信度制约的。,三、效度的类型及评估方法,（一）内容效度（二）构想效度（三）效标效度,（一）内容效度,1、定义：指项目对欲测的内容或行为范围取样的适当程度。,一个测验要具备较好的内容效度必须满足的条件：（1）要确定好内容范围

28、，并使测验的全部项目均在此范围内。（2）测验题目应是所界定的内容范围的代表性取样。代表性取样，就是选出的项目能包含所测的内容范围的主要方面，并且使各部分项目所占比例适当。,2、内容效度的评估方法（1）专家判断法请有关专家对测验题目与原定内容范围的符合性做出判断。这是一种定性分析的方法。,步骤：定义好内容总体。划分细纲目，并根据重要性规定好各纲目的比例，对内容范围作尽可能详尽的描述。确定每个题目所测的内容与技能，并与测验编制者所列的双向细目表对照，逐题地将自己的分类与编制者的分类作比较。制定评定量表，对测验作出总的评定。,（2）复本法克伦巴赫认为，内容效度可由一组被试在取自同样内容范围的两个测验

29、复本上得分的相关来作数量上的估计。（3）再测法先将测验施测于某个团体，该团体对测验所包括的内容仅具有最少量的知识，因而得分很低。然后，让这个团体参与者有关材料的学习和训练，结束后将测验再测一次。,（4）经验法检查不同年级的学生在测验上的得分和在每个题目上的反应情况。测验总分和题目通过率随着年级而增高，就是测验具有内容效度的证据。,3、内容效度的局限思考：内容效度的主要缺点是什么？内容效度缺乏可靠的数量指标，因而妨碍了各测验间的相互比较。,4、内容效度的应用（1）是编制任何测验应加以考虑的基本方面。（2）对标准参照测验更为重要。（3）内容效度也适用于某些对员工选拔和分类的职业测验。（4）内容效度

30、对于能力倾向测验和人格测验一般是不适用的。,（5）在实际应用中，注意内容效度容易和表面效度混淆。表面效度就是外行人从表面看这个测验是否有效。表面效度不是效度的客观指标，它虽然不能保证测量的正确性，但能对被试的动机产生影响，因而也会影响到效度。,（二）构想效度,1、定义构想心理学理论所涉及的抽象而属假设性的概念或特质，它们往往用某种操作来定义并用测验来测量。构想效度测验对某一理论或特质测量的程度，也叫结构效度或构思效度。,2、确定构想效度的基本步骤（1）从某一理论出发，提出关于某一心理特质的假设。（2）根据假设设计和编制测验并进行施测。（3）对测验的结果采用相关或因素分析等方法进行分析，验证与理

31、论假设的相符程度。注意：构想效度是由累积的证据来评价的，因而不可能有单一的效度指标。,3、确定构想效度的方法有关构想效度的资料可以用很多方法从不同来源去搜集，归纳起来有以下几种：测验内法测验间法效标关联法实验操作法,（1）测验内法这类方法主要是研究测验内部构造，如测验内容、对题目作反应的过程、以及测验的同质性等等来分析测验的构想效度。,确定测验的内容效度测验的内容效度有时可以作为测验的构想效度的证据。对测验所取样的内容或行为范围确定后，就可利用这些资料来定义测验所要测的构想的性质。,分析被试对题目做反应的过程通过观察被试的操作，询问他如何处理题目，以及必要的统计分析，可发现哪些变量影响了反应

32、，因而可确定测验是否测量了所要测的特质。,考察测验的同质性这种方法是以测验的内在一致性系数（如KR20，KR21，以及系数等）为指标，判断测验测的是单一特质还是多种特质，从而确定测验构想效度的高低。从测验的一致性可以为构想效度提供证据。,（2）测验间法通过研究几个测验间的相互关系，找出它们的共同特点，进而推断出所测的共同特质是什么，便可确定这些测验是否有构想效度。,相容效度计算被试在新测验上的分数与另一个效度已知的同类测验上的分数之间的相关。假如相关高，说明这两个测验测的是相同特质。由于相关系数的平方代表两组测验分数所共有的变异数比例，所以这种方法所确定的效度称为相容效度。,区分效度一个有效的

33、测验不仅应与其他测量同一构想的测验有较高的相关，而且还应与测量不同构想的测验具有低相关。用这种方法确定的效度叫做区分效度。,因素效度通过对一组测验进行因素分析，可以找到影响测验分数的共同因素。每个测验与各因素的相关，称做是测验的因素效度。而在测验分数的总变异数中来自有关因素的比例，便可作为构想效度的指标。,（3）效标关联法通过考察一个测验的效标效度来了解该测验的构想效度。,第一种方法：我们可以根据效标选取不同的被试，组成对照组，然后比较两组被试的测验成绩，看测验分数能否把他们区分开来，如果能把他们区分开来，就说明这个测验测量的是所要测的构想。,第二种方法：我们可以根据测验分数把被试分成高分组和

34、低分组，然后比较两组被试的行为特点。如果这些特征与定义的构想相符，就说明该测验具有构想效度。,（4）实验操作法通过实验操作控制某些条件，观察其对测验分数的影响，也可以获得构想效度的信息。如：我们假设将“考试焦虑”定义为“当考试结果对个体有重大意义时的一种害怕失败的紧张情绪”，这是一个构想。现在有一个焦虑测验，我们想考察一下这个测验对测量考试焦虑是否有构想效度，为此可以设计以下几种实验情境：,第一种：在一场决定前途命运的重要考试之前施测焦虑测验，将其分数与平时接受焦虑测验的分数比较。第二种：举行两种考试，使被试相信一场考试关系重大，一场考试无关紧要，然后将考试结果与焦虑测验分数比较。第三种：搜集

35、被试在经历一场重大考试时的生理心理参数（如脉搏、血压等）作为焦虑的指标，将其与焦虑测验分数比较。,4、对构想效度的评价,（1）缺点有些构想概念模糊，没有一致的定义。确定效度时没有明确的操作步骤和程序。没有单一的数量指标来描述有效的程度。,（2）优点构想效度促使研究者把着眼点放在提出假设上、检验假设上，使得测验成为理论研究的重要工具，而不再只是实际决策的辅助工具，从而使测验有了更广阔的发展情景。,（三）效标效度,1、定义被预测的行为是衡量测验是否有效的参照标准，就是效标。效标效度就是考查测验分数（预测源）与效标的关系，看测验对我们感兴趣的行为预测得如何。因为效标效度需要有实际证据，所以又叫实证效

36、度。,2、分类同时效度，即测验分数与效标资料同时获得。这种效度通常与心理特征的评估及诊断有关。预测效度，效标资料需过一段时间才可以搜集到。这种效度对人员的选拔和安置工作非常重要。“某人成功了吗？”“某人得精神病了吗？”“某人会成功吗？”“某人会得精神病吗？”,3、效标和效标测量（1）效标衡量测验有效性的参照标准，指的是可以直接而且独立测量的我们感兴趣的行为,就是要预测的行为。,（2）常用的效标学业成就等级评定临床诊断特殊训练的成绩实际工作表现对团体的区分,（3）效标测量效标可以分为两个层次：其一是理论水平的观念效标；其二是操作定义水平的效标测量。观念效标是一个概念，效标测量是对观念效标的数量化

37、。,效标测量必须具备以下几个条件：有效性效标测量必须要能真正反映观念效标，即效标测量本身必须有效。可靠性效标测量还必须稳定可靠，也就是具有较高的信度。,客观性当效标测量是主观评定时，可能受到评定者主观印象和成见的影响而引起偏差。因此，采用判断性的效标测量，必须控制偏见，尽量使评定过程客观。效标污染，是指个人的效标成绩由于评定者知道其测验分数而受到影响的情况。实用性在保证有效性的前提下，最佳的效标测量应该是用法简单、省时、花费少，也就是经济实用。,4、效标效度的估计方法效标效度是通过考察测验分数与效标的经验关系确定的，一般都可以通过统计分析得到一个数量指标，因此有人又叫它统计效度。具体有以下几

38、种估计方法：（1）相关法（2）分组法（3）预期表法（4）命中率法（5）功利率法,（1）相关法确定效标效度最常用的方法是计算测验分数与效标测量的相关，所得到的数量指标叫做效度系数。,积差相关当测验分数和效标分数都是正态连续变量，且两种存在线性相关时。,例题：假如有10名男性经职业兴趣测验而被选定作为推销员，其测验分数见下表，而第二行是经过若干年后他们某段时间内销售金额总量（以万元为单位）。试求该测验的预测效度。,二列相关当测验分数和效标的总体分布均为正态，测验分数为连续变量，效标测量被人为地分成两类。,例题：352名被试参加一项智力测验，其中重点中学学生66名，IQ平均数为114；一般中学学生2

39、86名，IQ平均数为96。全体被试的IQ标准差为14.53。试求该智力测验的效标效度。,点二列相关测验分数是正态变量，且是连续变量，效标测量是二分名义变量（以是否达到某一标准表示）。,多系列相关多系列相关适用的情况是，测验分数和效标的总体分布均为正态，测验分数为连续变量，效标测量被人为地分成多种类别。若效标测量被分成三类，就称为三列相关，若被人为地分成四类，就称为四列相关。,例：对某班学生进行学习能力测验，并让班主任对学生进行成绩评定，以此为学习能力测验的效标。学习能力测验分数的标准差为10分，教师评定情况如下，D等20人，C等30人，B等30人，A等20人。其中D等学生的学习能力测验平均分数

40、为30分，C等学生的学习能力测验平均分数为45分，B等学生的学习能力测验平均分数为55分，A等学生的学习能力测验平均分数为70分。试分析该能力测验的效度。,求这类相关可用贾斯朋（jaspen）多系列相关公式计算:Pi为效标属于不同等级的人数占总人数的百分比，Xi为与不同等级对应的测验分数的平均数，St为测验分数的标准差，yi为效标的每一个等级所对应的下限的正态曲线的高度，yk为上限所对应的正态曲线的高度。,相关法的优点：提供了一个统计指标以总结预测源和效标间的关系；可利用回归方程来预测每个人的效标分数。缺点：假如预测源和效标的关系不是直线性的，则必须采用特殊的相关方法；测验结果不能提供有关取舍

41、正确性的指标。,（2）分组法是检验测验分数能否有效地区分由效标测量所定义的团体。和为成功组与不成功组的平均测验分数；Ss和Su为两组测验分数的标准差；Ns和Nu为两组的人数。,注意：组间平均数差异在统计上的显著性取决于团体的大小。为避免这一缺点，还要计算这两个分布的重叠量。重叠量可用两个指标来表示：每一组内得分超过或低于另一组平均数的人次百分比；两组分数分布共同区的百分比。重叠量越大，说明两组差异越小。,（3）预期表法预期表法是将测验源分数和效标分数制成双维图，并将每个变量按水平分成若干个档次，然后列出每个档次上的人数百分比。,（4）命中率法是当测验用来做取舍的依据时，其有效性的指标就是正确

42、决定的比例。,命中表,命中率的计算有两种方法:一是计算总命中率，另一种是计算正命中率：,例:假设用某种测验选拔员工100人，经过一段时间的工作检验，得到以下四组数据：正确接受为42人，正确拒绝为34人，错误接受为10人，错误拒绝为14人。请算出该次选拔的总命中率和正命中率。,思考题：请你评价命中率法。,（5）功利率法为了确定测验的功效，人们对使用测验所花掉的费用与得到的利益进行比较，看是否利大于弊，此种效度指标叫功利率。U代表功利率；B代表录用一个成功的工人所产生的平均利润；C代表录用一个不合格的工人所造成的损失；Ns和Nu分别代表所录用的人中成功和不成功的人数；S代表整个选人程序的费用。,当

43、费用与收益可以转换成确切的价值时，功利率的好处是将效度变成了对决策者有意义的信息。思考：功利率法给我们编制测验带来什么样的启发？,5、效标分数的预测和预测误差（1）效标分数的预测知道了一个人的测验分数和测量的效度系数，就可以预测他的期待效标分数。如果x和y两变量呈直线关系，只要确定出二者之间的回归方程，就可以从一个变量推估出另一变量。最常用的是y对x的回归方程：是预测的效标分数；是纵轴上的截距，用来纠正平均数的差异；是斜率，亦即Y向X回归的系数；X为测验分数。,要得到回归方程，必须确定和这两个常数的值：为测验分数和效标分数的相关，即效度系数；Sy与Sx分别为效标分数与测验分数的标准差；与

44、分别为效标分数与测验分数的平均数。,（2）预测误差真正的效标分数与估计效标分数的差距叫做预测误差。预测误差的大小可由估计的标准误来表示。估计的标准误，就是预测误差分布的标准差。Sest为估计的标准误，Sy为效标分数的标准差，rxy为效度系数。,例题：某班学生某门课程期中考试和期末考试分数统计如下：期中考试=70 Sx=7.02期末考试=66 Sy=2.82两次考试的相关系数r=0.90某学生期中考试成绩为80分，期末考试因故缺席，试预测他的期末考试成绩并确定0.95的置信区间。,四、标准参照测验的效度,1、内容效度适用于标准参照测验，而且标准参照测验所测量的内容范围更明确，其内容效度一般要比常

45、模参照测验高些。2、标准参照测验有时也会用来作预测，但一般不用相关法计算效标效度，可用命中率法或预期表法来估计其效度。3、构想效度一般不适合于标准参照测验。,五、影响效度的因素,（一）测验本身1、项目质量测验的指导语和试题的解答说明不明确、试题的编制不符合测验目的、试题难度不合适、试题的编排不合理、试题提供了额外的线索等等，都会影响测验的效度。,2、项目数量如果改变后的长度是原来长度的n倍，新测验的有效性可用下列公式来计算：r(nx)y是测验增长为原来n倍的效度值；n是测验增长倍数；rxy为原测验效度；rxx为原测验信度。,如果我们想知道为了取得合意的有效水平，需要将测验增长多少倍，可根据下列

46、公式来计算：,例:一测验的信度系数为0.50，效度系数为0.40，现想将其效度增长为0.50，问测验的长度应增长为原来的几倍？,（二）测验的实施在施测时不遵照指导语，被试作弊，测验环境太差，评分不客观，记分错误等等，都会影响到测验的效度。（三）被试1、身心状态2、样本特点,（四）效标1、效标测量的可靠性测验的效度不但受本身的信度的制约，而且受效标测量的信度制约。除非两个测量都可靠，否则二者便不能有任何可靠的相关。,2、效标和测验分数的关系类型在计算效度系数之前，必需知道预测源与效标测量之间是否呈直线关系，如果两个变量不呈直线关系，则会低估相关的大小。,六、对各种效度系数的要求1、智力测验分数与教师对学生的等级评定之间的效度系数一般在0.300.50的范围内。2、相同科目的标准测验成绩与教师对学生名次的排列之间的相关系数一般应达到0.600.70之间。3、两种不同的智力测验或标准测验之间的相关系数应达到0.600.80，才能认为符合要求。,