戴海崎旧版心理与教育测量1 3ppt课件.ppt

上传人：牧羊曲112

文档编号：1417481

上传时间：2022-11-21

格式：PPT

页数：94

大小：1.65MB

《戴海崎旧版心理与教育测量1 3ppt课件.ppt》由会员分享，可在线阅读，更多相关《戴海崎旧版心理与教育测量1 3ppt课件.ppt（94页珍藏版）》请在三一办公上搜索。

1、1,第三章,经典测验理论的基本假设,2,第一节心理特质及其可测性假设,心理特质表现在一个人身上所特有的相对稳定的行为方式一组内部相关的行为的概括，如善良、聪明；比较稳定，对不同的刺激做相同的反应；特质可以分为多个层次，智力可以分语言和操作，语言可以分为词汇和文法。通过特质可以对人的行为作出预测；心理特质的可测性Thorndike“凡客观存在的事物都有其数量。”McCall“凡有数量的东西都可以测量。”,3,第二节测量误差及其来源,测量误差在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应种类系统误差：由与测量目的无关的变因引起的一种恒定而有规律的效应随机误差：由

2、与测量目的无关的、偶然因素引起而又不易控制的误差,4,测量误差的来源测量工具题目取样指导语难度时限测验复本不等值被测对象测验的经验练习因素应试动机测验焦虑生理因素,5,施测过程物理环境主试者方面意外干扰评分计分,6,第三节真分数及其有关的假设,真分数的含义真分数（True Score，T分数）反映被试某种心理特质真正水平的那个数值，一个测量工具在没有测量误差时，所得到的纯正值。操作定义：经过无数次测量所得到的平均值。观测分数（Observed Score）实测分数,7,二、数学模型及其假设 X = T + E观测分数=真分数+随机误差,8,测量误差的假设：1. 如果一个人的某种心理特质可以

3、用平行的测验反复测量足够多次，则其观测分数的平均值会接近于真分数。即（X）= T 或（E）= 0,9,2. 真分数和误差分数之间的相关为零。即（T，E）= 0,10,3. 各平行测验上的误差分数之间的相关为零。即（E1，E2）= 0,11,第2.3条假设意在说明E是一个随机误差，没有包含系统误差在内，第1条假设则在于说明E是个服从均值为零的正态分布的随机变量。,12,对于经典真分数理论（CTT）的理解：（1）在问题的研究范围之内，反应个体某种心理特质水平的真分数是假定不会变的，测量的任务就是估计这一真分数的大小。（2）观测分数被假定等于真分数与误差分数之和，即假定观测分数与

4、真分数之间是线性关系，而不是其他关系。（3）测量误差是完全随机的，并服从均值为零的正态分布。,13,平行测验：如果两个题目不同的测验测的是同一特质，并且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布都是一致的，则这两个测验称作彼此平行的测验。,14,根据CTT模型和假设，推导如下关系：（1）在一次测量中，被试观测分数的方差等于其真分数方差与误差分数方差之和即 SX2 = ST2 + SE2 （2）真分数分为两部分：与测量目的有关变异和与测验目的无关的变异即ST2 = SV2 + SI2 （3）由（2）带入（1）得 SX2 = SV2 + SI2 + SE2 在一次测验

5、中，一个团体的实测分数之间的变异性是由与测验目的有关的变异数、稳定的但出自无关来源的变异数和测量误差的变异数所决定的。,15,第四章,测量信度,16,第一节信度概述,什么是信度？信度（reliability）是指测量结果的稳定性程度，也叫测量的可靠性。操作定义： rxx=ST2 / Sx2rXX=TX2rXX=XX注意：信度指的是一组测验分数或一系列测量的特性，而不是个人分数的特性；真分数的变异数是不能直接测量的，因此信度是一个理论上构想的概念，只能根据一组实得分数作出估计。,17,信度系数与信度指数信度指数：相关系数信度系数：相关系数的平方注意：信度系数有多种。同一种信度系数也会因样本、测

6、查时间不同而有多个。信度系数只是对测量分数一致性的估计，但并没有指出不一致的原因。获得较高的信度只是测验有效的必要条件。,18,三、信度的作用信度是测量过程中所存在的随机误差大小的反映信度可以用来解释个人测验分数的意义SE=SX1 - rXX真分数的置信区间（95%）=X1.96SE信度可以帮助进行不同测验分数的比较,19,假设在一个智力测验中，某个被试的IQ为100，这是否反映了他的真实水平？如果再测一次他的分数将改变多少？已知该测验的标准差为15，信度系数为0.84、某被试在韦氏成人智力测验中言语智商为102，操作智商为110.已知两个分数都是以100为平均数，15为标准差的标准分数。假设

7、言语测验和操作测验的分半信度分别是0.87和0.88.问其操作智商是否显著高于言语智商呢？,20,一个测验可以有多个信度估计值，因而其误差估计值也会有多个，在实际工作者要注意选择。本理论假定同一个团体中所有人的测量误差都是相同的，但实际上水平高的人与水平低的人在做测量时会有不同的随机误差。测量的结果不能僵硬地看成一个点，而应看成是一个以该点为中心，以SE的某个倍数为半径上下波动的一个范围（区间估计）,21,第二节信度的估计方法,一、重测信度含义和计算重测信度（test-retest reliability）是指用同一量表对同一组被试施测两次所得结果的一致性程度。皮尔逊积差相关系数 (教材p4

8、8)使用的前提条件所测量的心理特质必须是稳定的；练习和遗忘的效果基本上相互抵消；在两次施测的间隔时期内，被试在所要测查的心理特质方面没有获得更多的学习和训练。,22,使用重测信度时应注意两次测验的时间间隔要适当（研究报告中需要说明）。再测信度适用于速度测验或人格测验，不适用于难度测验。重测时应注意提高被试的积极性。优缺点用再测法估计信度的优点是能提供测验结果是否随时间而变化的资料，可作为预测被试将来行为的依据。其缺点是易受练习和记忆的影响。,23,SPSS计算,求出两次测量的总分Analyze-Correlate-Bivariate,24,二、复本信度1含义和计算复本信度（Alterna

9、te-form reliability）指的是两个平行的测验测量同一批被试所得结果的一致性程度，其值等于同一批被试在两个复本测验上所得分数的积差相关系数。复本信度又称为等值性系数。测验实施的时间不同，复本信度所表达的含义略有不同。如果两个复本测验是同时连续施测的，则称这种复本信度为等值性系数。如果两个复本测验是相距一段时间分两次施测的，则称这种复本信度为稳定性与等值性系数。,25,使用的前提条件两测验真正平行；被试要有条件接受两个测验。优点避免记忆效果和学习效应,26,复本信度的局限性如果所考虑的行为机能受到练习的影响很大，那么使用复本只能减少但不能消除这种影响。测验的性质会由于重复而有

10、所改变，比如迁移的影响编制真正的等值测验实际困难重重，因此许多测验没有复本。,27,内部一致性信度（1）,三、分半信度含义和计算分半信度（split-half reliability）是指将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。由于分半信度描述的是两半题目间的一致性，所以有时也被称作内部一致性系数。计算方法：皮尔逊积差相关校正公式：斯皮尔曼-布朗公式rxx= 2 rhh /（1+ rhh）,28,斯布公式只有在两半测验分数的方差相等时才能使用，否则，应选择下面两个等价的公式之一：弗郎那根（Flanagan）公式：rxx = 2 1 -（Sa2 + Sb2）/ Sx

11、2 ， Sa2 ，Sb2 ，Sx2 分别为分半测验的方差和总分的方差卢仑（Rulon）公式rxx = 1 - Sd2 / Sx2 ， Sd2 是两分半测验之差的方差,29,应用前提及范围分半信度通常是在只能施测一次或没有复本的情况下使用。试卷存在任选题或试卷为速度测验时，不宜采用分半法。,30,常见的分半方法是按测题序号奇偶分半：测验题目按某种顺序（如难度）排列；如果是随机排列的题目，则必须是所有题目是平等的（要么难度相等，要么性质一致，是测同一个心理特质的）；如果测验有多个分量表，应在分量表内部排好顺序，再把各分量表的两半组合起来求相关。,31,SPSS计算,第一种算法题目排序，分半求积差

12、相关进行斯-布公式校正第二章算法直接求分半系数,32,内部一致性信度（2）,四、同质性信度含义同质性信度（homogeneity reliability）也叫内部一致性系数，它是指测验内部所有题目间的一致性程度。同质性信度是指一个测验所测内容或特质的相同程度。,33,题目间的一致性含有两层意思：其一是指所有题目都测的是同一种心理特质，其二是指所有题目得分之间都具有较高的正相关。值得注意的是，一些表面上看起来是测量同一种心理特质的题目，如果其题目间不具有较高的正相关，则不能认为它们具有同质性。,34,计算及适用范围rxx = K rij / 1 +（K - 1）rij ，其中K为一个测验的题目

13、个数， rij 为项目间相关系数的平均数（1）KR20公式： rxx = K /（K - 1） 1-（piqi）/ Sx2 pi为答对第i题的人数的比例；qi为答错第i题的人数的比例。K为题目数， Sx2为测验总分的变异。仅适用于（0，1）记分的测验。（2）KR21公式： rxx = K /（K - 1） 1 -（K p q ）/ Sx2 只有当所有题目的难度接近时才适用,35,（3）克龙巴赫系数： = K /（K - 1） 1 -（Si2）/ Sx2 克伦巴赫系数可以处理任何测验的内部一致性系数的计算问题。实际上，K-R 20 和K-R 21 只是系数的特例。系数是所有可能的分半信度的平

14、均值。是测量信度的下界的一个估计值。即值大，必有测量信度高，但值小时，却不能断定测量信度不高。,36,计算步骤：按一定要求抽取n个被试的试卷，计算几个人测验总分的方差这几个人在每一个题上都会有一个得分，分别求出这几个人在每道题上得分的方差。代入公式，最后求出。,37,SPSS计算,Analyze-Scale-Reliability Analysis单击“Statistics”出现reliability Analysis：Statistics在Descriptives for 方框中选取 “item”、“scale”、“scale if item deleted”在“inter-item”，单

15、击“correlations”，单击“continue”按钮回到“reliability Analysis”对话框，单击“ok”按钮。,38,当研究者采用试题的标准分数总和作为量表分数时，此情况应该选用标准化系数；当研究者采用试题的标准分数总和作为量表分数时，则不选用标准化系数,39,（4）荷伊特信度测试分数的总变异可分解为被试间变异、项目间变异和人与试题交互作用三部分。荷伊特认为可用MS人作为被试方差估计值，用MS人题作为误差方差估计值。Rxx=1-MS人题/MS人一般用于预测的测验或学绩测验可不考虑同质性。而验证理论构想时必须考虑同质性。因此，同质性不但与信度有关，还与效度有关。,40,五

16、、评分者信度含义评分者信度（scorer reliability）是指多个评分者给同一批人的答卷进行评分的一致性程度。计算2人时：相关系数多人时：肯德尔和谐系数W=12 R i2 -（R i）2 / N / K2（N3 -N）（K=320；N=37时，查W表检验）K是评分者人数，N是被评的对象数，R I为第i个被试被评的水平等级之和,41,将数据导入到SPSS中，点击：analyse-nonparametrics tests-K related samples 把所有变量选中（所有作品的列）再选中Kendalls W , Ok 结果出来了，主要看最下面一个表的数据，一个是Kendalls

17、Wa , 这个数字应该在0.7以上，另一个是Asymp ,这个数字应该小于0.05,如果结果不是符合这两个规则的话，一致辞性检验不通过，成绩要重新打分。,42,43,评判间一致性系数给出一个评分说明，让两个或更多人来打分，分数是顺序或者称名（等级或者是/否）公式 Cohens kappa参考心理测量骆方孙晓敏译中国轻工业出版社评分者内部一致性系数计算一个评分者在给不同测验打分时分数的一致性系数或KR-20,44,各种信度系数相应误差变异的来源,45,几种心理测验的信度系数,46,第三节提高测量信度的方法,影响测量信度的主要因素被试方面被试团体同质性越高（个体差异越小），所得相关系数（信度

18、）就越低。被试团体异质性越高（个体差异越大），所得相关系数（信度）就越高。主试方面指导语、态度、期望等施测情境,47,四）测量工具测验长度：测验越长，信度越高。测验难度：过难或过易都会使个体间得分差异减小，降低信度。显然只有当测验难度水平可以使测验分数的分布范围最大时，测验的信度才会最高。通常这个难度水平为0.50。测验内容：试题取样不当，内部一致性低，题意模糊，信度则低。（五）两次施测的间隔时间间隔时间越短，信度越高；间隔时间越长，信度越低。,48,斯皮尔曼布郎公式,公式中，K为改变后长度与原长度之比 rxx为原测验的信度 rkk为测验长度是原来K倍时的信度估计,49,例：某一测验有10个

19、项目，信度是0.60，问测验应增加到多少个项目，才能使信度达到0.90？,50,解:,即，应扩大为原来的6倍，才能满足要求。调整后的测验长度应是60个项目。,51,提高测量信度的常用方法适当增加测验的长度使测验中所有试题的难度接近正态分布，并控制在中等水平努力提高测验试题的区分度选取恰当的被试团体，提高测验在各同质性较强的亚团体上的信度主试者严格执行施测规程，评分者严格按照标准给分，施测场地按测验手册的要求进行布置，减少无关因素的干扰,52,洛德（Lord）提出学绩测验难度,53,几点说明,提高测量信度的方法还有很多。本章所讨论的各种信度计算方法仅适用于常模参照性测验。目标参照性测验的信度必须

20、以测量的概化理论为基础才能进行很好的处理。信度的标准信度高低的标准：标准化能力或学绩测验：0.90；人格测验：0.80；教师自编学绩测验：0.60测验解释的标准：一般来说，当信度0.70，测验不能用于对个人作出评价与预测，而且不能作团体间比较；当0.70信度0.85时，可用于团体比较；当信度0.85时，才能用来鉴别或预测个人成绩。,54,速度测验的信度,对于速度测验，不存在评分者信度，也无法计算同质性信度，而重测信度和复本信度均可按传统的方法求得，只有分半信度不能按传统方法估计要估计速度测验的分半信度，不能按题目的奇偶项来划分测验，而应按测验时间划分相等的两部分，再求出两部分测验的相关，才是分

21、半信度。将测验分成两部分，然后以总测验的一半时间分别进行施测，计算两部分得分的相关系数。整个时限分为四部分，并求出在每个时限内的得分。计算第一部分和第四部分的总分数；第二部分和第三部分的总分数，然后计算相关。,55,第五章,测量效度,56,效度效度（validity）是指一个测验或量表实际能测出其所要测的心理特质的程度。在测验的众多质量指标中，效度是一个最重要的指标。,57,效度是一个相对的概念：每个测量工具都有自己的目的；内隐特质是通过外显行为间接测得的。效度是测量的随机误差和系统误差的综合反映。判断一个测量是否有效要从多方面收集证据,58,在测量理论中，效度被定义为：在一列测量中，与测

22、量目的有关的真实变异数（由所要测量的变因引起的有效变异）与总变异数（实得变异数）的比率。即：公式中，rxy表示测量的效度系数； SV2表示有效变异数， SX2 表示总变异数,59,效度与信度的关系信度高是效度高的必要而非充分的条件测验的效度受它的信度制约信度高，效度未必高，信度低，效度必然低；效度高，信度必然高，效度低，信度未必低。,60,第二节效度的估计,测量效度是就测量结果达到测量目的的程度而言的，所以测量效度的估计在很大程度上取决于人们对测量目的的解释。常见的解释角度主要有三种：测验内容内容效度理论结构构想效度工作实效实证效度,61,内容效度,1. 含义及应用范

23、围内容效度（content validity）是指测验题目对有关内容或行为取样的适当程度，即一个测验实际测到的内容与所要测量的内容之间的吻合程度。因此，一个测验要有内容效度必须具备两个条件：（1）要有定义完好的内容范围（2）测验题目应是所界定的内容范围的代表性取样。,62,内容效度主要应用于成就测验。因为成就测验主要是测量被试掌握某种技能或学习某门课程所达到的程度。在这种测验中，题目取样的代表性问题是内容效度的主要考察方面。编制双向细目表就是为了提高内容效度。,63,内容效度也适合于某些用于选拔和分类的职业测验。这种测验所要测的内容就是实际工作中所需的知识和技能，编制这种测验应首先对实际工作

24、做较细的分析，否则，题目取样的代表性就难以令人满意。,64,内容效度不适合用于能力倾向测验和人格测验。此外，在使用内容效度时，要避免与表面效度（surface validity）相混淆。表面效度是外行人对某个测验从表面上看好像是测某种心理特质的一种现象。表面效度可以取得被试者的合作最佳行为测验往往表明效度高；典型行为测验表面效度低职业兴趣测验；成就测验人格测验,65,2内容效度的确定方法（1）逻辑分析法：专家判断根据自己的知识经验对量表的有效性（逻辑性）作出判断，也称逻辑效度。为使内容效度的判断过程更客观，一般采用下列步骤：确定测验内容的总体范围；编制双向细目表；编制评定量表，从测验内容所

25、测的技能、题目对所定义的范围的覆盖率、各种题目数量和分数的比例以及题目形式的适当性等方面，对测验作出总的评价。,66,（2）统计方法：用两个测验复本来测同一批被试，若相关高，则内容效度可能高，但若相关低，则说明必有一个测验缺乏内容效度。（3）再测法：前测教学后测如果后测成绩优于前测成绩，说明该测验具有一定的内容效度。,67,内容效度既具有一定的优点，也有一定的局限。其主要缺点是缺乏可靠的数量指标，因而妨碍了各测验间的相互比较。,68,结构效度,含义、特点与应用范围结构效度（structure validity）是指一个测验实际测到所要测量的理论结构或特质的程度，或者说测验分数能够说明心理学理论

26、的某种结构或特质的程度。特点：构想效度的大小首先取决于事先假定的心理特质理论。当实际测量的资料无法证实我们的理论假设时，并不一定就表明该测验构想效度不高。不可能有单一的数量指标来描述构想效度。构想效度主要用于智力测验、人格测验等。,69,结构效度的确定方法（1）提出理论框架；（2）依据理论框架推演出有关测验成绩的假设；（3）用逻辑或实证的方法来证明假设。,70,确定构想效度的基本方法（1）测验内部寻找证据法分析测验的内容效度：若内容效度高，说明其结构效度也高；分析被试对题目反应的特点：有无社会称许性的题目，如“当事情不顺我意时，我时常动怒。”对该题的回答，也许反映不了要测的性格。计算测

27、验的同质性信度：分半信度、系数、KR20、KR21,71,（2）测验之间寻找证据法相容效度：新老测验之间的相关（两测验测的是同一心理特质）。若相关高，则说明新测验可能有较高的效度。区分效度：新老测验之间的相关（两测验测的不是同一心理特质），若相关低，则说明新测验可能有较高的效度。因素分析法：得出的因素符合理论的构思，说明效度高。,72,（3）考察测验的实证效度法根据效标把被试分组，考察其得分差异。根据测验得分差异把被试分组，考察其所测特质（行为表现）的差异。成就测验：分为高分组和低分组人格测验：分为不同类型的效标组,73,（4）多种特质-多种方法矩阵法方法：1、2、3特质：A、B、C,74,7

28、5,（5）验证性因素分析（confirmatory factor analysis）验证性因素分析是目前心理学研究中应用的一种重要统计分析方法，是在研究的范围内，对已有的理论结构进行验证性分析的方法。在研究中，这一方法可以帮助我们讨论测验研究是否具有构想效度。,76,对构想效度的评价总的来说，构想效度促使研究者把着眼点放在提出假设、检验假设上，使得测验成为理论研究的重要工具，而不再只是实际决策的辅助工具，从而使测验有了更广阔的发展前景。,77,三、实证效度1含义、种类及作用实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。被估计的行为是检验测验效度的标准，简称效标。所以，实证效

29、度又称效标关联效度（criterion-related validity）。同时效度：测验分数与效标资料是同时收集的。预测效度：先获得测验分数，隔一段时间后，再收集效标资料。,78,例：某大学研究生入学考试要求达到一定的分数线，但偶尔也会录取一名没有达到分数线的学生，但要求这名学生在获得学位之前必须达到研究生入学的最低分数线。你怎样看这个问题？,79,2效标（1）效标与效标测量效标（criterion）就是衡量一个测验是否有效的外在标准，独立于测验并可以从实践中直接获得我们所感兴趣的行为。常用的效标：学业成就、临床诊断、实际工作表现、特殊训练成绩、不同团体的总体表现、先前有效的测验、等级评

30、定。观念效标：理论定义，如“大学的成功”效标测量：操作定义，如“大学成绩”,80,（2）效标的特性a.多样性：一个测验可能有不同的观念效标，同一个观念效标又可能有不同的效标测量。b.复杂性：几乎每一种效标行为都由多种特质构成，包含复杂的成分。c.特殊性：即使一个普通的效标，在应用时也有特殊性。d.时间性：近期效标与最后效标,81,（3）效标测量的条件a.有效性：效标测量能真正反映观念效标。b.可靠性：有较高的信度c.客观性：效标测量必须能真正反映观念效标，防止效标污染。效标污染（criterion contamination）是指评定者知道被试的测验分数，因而影响到对效标的客观评定

31、。d.实用性：经济实用,82,确定效标效度的基本步骤明确观念效标确定效标测量考察测验分数与效标测量的关系,83,（1）相关法测验分数与效标测量之间的相关系数。（2）区分法测验工作效标测量（工作成绩）按工作成绩分高低两组，如工作成绩高，测验得分也高；工作成绩低，测验得分也低，说明该测验是有一定效度的,84,（3）命中率当用测验作取舍决策时，决策的正命中率和总命中率是测验有效性的较好指标。总命中率是指根据测验选出的人当中工作合格的人数，以及根据测验淘汰的人当中工作不合格的人数之和与总人数之比。若总命中率高，则说明测验的效度高。正命中率是指用测验选出的人中合格者所占的比例。这个比例越高，测验越

32、有效。,85,在总命中率和正命中率之间，究竟采用哪一种指标要根据测验目的来定。a.当测验用于提高工作或学习效率时，应重视正命中率；b.当强调维护社会公平时，则应重视总命中率。,86,命中表,87,总命中率正命中率,88,命中率计算实例,89,一、影响测量效度的因素1测验的构成测验长度与效度的关系： r（Kx）y = K rxy /K（1- rxx +Krxx）2测验的实施过程,第三节提高测量效度的方法,90,3接受测验的被试常模团体的同质性影响到对被试测验得分的解释，进而影响到测验的效度。测验偏倚（test bias）是指用不适用于被试的标准来解释被试的测验得分，因而造成解释的偏差。4所选

33、效标的性质测量行为与所选效标的相似性越高，效度越高。测验分数与效标行为之间是否是线性关系，如果不是线性关系，求皮尔逊相关就会低估效度。效标本身的测量越可靠，效度就可能越高。,91,常用效标,92,93,5. 信度测验的信度是测量的随机误差的反映，而任何误差的增加都会降低测量的效度，所以在考察测验的信度时，一定要注意测验的信度。信度不高的测验不可能具有很高的测量效度。总之，所有与测量目的无关而又能带来误差的因素都会降低测验的效度。,94,二、提高测量效度的方法（1）精心编制测验量表，避免出现较大的系统误差（2）妥善组织测验，控制随机误差（3）创设标准的应试情境，让每个被试都能发挥正常的水平（4）选好正确的效标，定好恰当的效标测量，正确地使用有关公式,