素质测评的质量分析.ppt
《素质测评的质量分析.ppt》由会员分享,可在线阅读,更多相关《素质测评的质量分析.ppt(57页珍藏版)》请在三一办公上搜索。
1、第十二章 素质测评的质量分析,一项测评是否可靠、可信?一项测评是否准确、有用?一项测评是否公正、公平?一项测评是否经济、合理?,教学内容12-1 测评的信度 12-1-1 信度及其影响因素 12-1-2 信度的评估方法12-2 测评的效度 12-2-1 效度及其影响因素 12-2-2 效度的评估方法12-3 项目分析 12-3-1 测评的难度分析 12-3-2 测评的鉴别度分析 12-3-3 测评的公平性分析 12-3-4 测评的经济效益分析,12-1 测评的信度,信度是标准化素质测评的基本要求之一,如果测评工具的信度不理想,测量结果就无法被认为能代表应试者的一致、稳定和可靠的行为表现,就可能
2、误导对应试者的评价。,12-1-1 信度及其影响因素,如果我们用一个游标卡尺来测量一个钢管的外直径,每次测量时都难免会有一定的误差。首先,游标卡尺作为一种测量工具是有一定精度限制的,也就是说,测量工具本身存在误差。当然这种误差是必然存在的,而且误差是在一定范围中有规律的变动的,这种误差在测量工作中被称之为系统误差(systematic error)。其次,我们每一次测量都可能出现操作上的差异,或者由于不可预见的外界因素的影响,产生测量误差。这些误差是很难控制的,而且无规律可循,有时大有时小,这种误差被称为随机误差(random error)。前者在一定程度上可以控制,而后者很难控制,一个好的测
3、量工具应该不仅要有尽可能高的精确度(与系统误差相关),还能够把误差控制在一个有规律的范围以内,这样才能够得到稳定可信的测量结果。信度实际上就是对随机误差的一种度量。,1、信度的概念,信度(reliability)信度是标示测验一致性高低的统计指标。主要指测量结果的可靠性、稳定性和一致性,可以定义为测验结果不受测验情境或测验过程中无关变量影响的程度。实际上就是指测验分数不受测量误差影响的程度。可以指出测验出的个体差异在多大程度上是真正的差异,又在多大程度上是由于随机误差造成的。随机误差越大,信度就越低。反之,信度就越高。通常任何测验都存在某种程度的不一致性(同一受试者在不同时间或在不同的测验条件
4、下做同一测验)因为误差的存在,我们永远不可能完全揭示人的心理特点,只能无限接近真实分数。,所有测验都有误差,心理测验分数也不例外。如果一个人连续两天接受同一测验,或者完成同一测验被认为是等值的两个版本,如果得分相同会让人感到惊讶,如果分数有相当大的变化可能让人吃惊,但是有一点可以肯定,这是由于偶然或随机因素影响了每次测验的成绩。然而,对于儿童,如果同一测验在半年或一年之后测第二遍,分数有很大的差异是不足为奇的,因为他们的成长导致测验成绩的变化非常自然。问题将是确定有多少变化是由于成绩的随机变化引起的,又有多少可以归因于个人在这段时间内所发生的变化。,测量结果的稳定性:测验分数一致性的程度(不同
5、时间、测验条件下所得分数之间的一致性)一个人获得分数与“真实分数”之间的接近程度测量结果的一致性是否达到实际应用的程度影响稳定性的原因:什么因素造成了这种差异(误差的来源)这些效应的相对作用如何(分数的实际含意),在研究信度时,主要应考虑两方面的问题:,信度的计算:信度系数,信度指标的一般公式:测验分数=真实分数+测量误差 或者:X=T+e信度的高低通常以相关系数表示,称为信度系数(reliability coefficient)。信度系数一般是同一样本所得的两组资料的相关,因此有:测验分数方差=真实分数方差+误差分数方差 X2=T2+e2信度系数:rxx=T2/X2=T2/(T2+e2)信度
6、系数即是真实分数方差(变异数)与测验分数总方差(变异数)之比。,2、信度的作用,测验信度要能够区分出:导致一致性的因素:个体稳定的特性(测量对象)导致不一致性的因素:可能影响测验,但又与测验对象没有关系的个体和环境的特性 在素质测评中,对信度系数进行确定通常有以下作用:解释真实分数与实得分数之间的相关说明可以接受的信度水平,解释真实分数与实得分数之间的相关,信度可以解释为总的方差(标准差的平方的缩略语)中有多少比例是由真实分数的方差决定的,即测量分数的变化中有多少是真正反映了被测者分数的变化。例如:当rxx=0.90时,我们可以说,实得分数中有90%的方差是来自真实分数的变化,仅有10%是来自
7、测量的误差。信度系数的分布是从的正数范围,代表了从缺乏信度到完全可信的所有状况。思考:如果rxx=1.00表示什么?rxx=0.00表示什么?,说明可以接受的信度水平,信度的理想水平是1.00,但是实际上是达不到的。一般能力与成就测验的信度系数在0.90以上;人格、兴趣等测验的信度通常在之间。一般来说,当rxx 0.70时,可用于团体间比较;当rxx 0.85时,可用于鉴别个人。,几种心理测验的信度系数,3、信度的影响因素,受试者个体持久而泛化的特性:进行测验的一般技能水平理解测验指示语的一般能力水平进行类似测验的一般的人格特质 受试者个体持久而特殊的特性:进行某项测验(或其形式)需要的特殊的
8、技能、能力 和特质;以及稳定的反映定势;对某个测验项目内容的熟悉程度 受试者个体短时而泛化的特性:健康、疲劳、动机、情绪状态、测验自如性;温度、光亮、通风等测验外部条件,受试者个体短时而特殊的特性对特殊测验的理解,测验所需要的特殊技巧;为做测验所进行的练习;对测验项目内容的注意、记忆等的飘忽不定。影响测验过程和解释的外部因素系统改变测验条件;对测验的各种限制;干扰程度;指示语的清晰度;受试者在个性、性别、种族等与测验主试的交互作用;对测验结果的不一致或有偏差的评判。无法解释的变化(随机因素)猜测、运气,以及暂时的干扰,12-1-2 信度的评估方法,针对不同的误差来源,信度可以有不同的确定方法。
9、,1、重测信度(test-retest reliability),又称为稳定性系数,是采用重测法计算信度的方法,即用同一测验在不同时间对同一对象施测两次,两次测量分数的相关系数即为重测系数。人事测量所测查的特质中,有相当多的内容具有一定的稳定性,如人格、能力倾向等,因此,对于这些内容而言,重测信度对于衡量测量工具的质量是很重要的指标。,在日常生活中,你也许常常到市场上去买东西。如果你买了5斤瘦肉后觉得比上次少了点,没有那么重,那么你可以自己再用称称一下。如果也是5斤,那么你可能就会觉得确实有5斤。这是因为两次称得的结果完全一致,变异度为0。人的素质测评没有这么简单,因为素质本身又是无法精确定义
10、,因而我们常常把对个体测评结果的准确性检验,置于群体测评结果的相互关系之中,转化为两次位置关系的一致性分析。当同一对象的测评结果以同样的测评方式再次获得后,其顺序位置关系变异很小时,则说明测评结果比较准确。例如:在技能测评中A分数88,在全体被测者中排名第一。这是否可靠可信?我们可以再测一次,结果A分数95,还是排名第一,而且其他被测的位置顺序变化很小。这时我们可以说第一次的技能测评结果是可靠的(信度高)。,重测信度的考察对象,重测信度所考察的误差来源是时间的变化所带来的随机影响(气候、噪音的干扰、疾病、疲劳、情绪的影响等),根据重测相关系数的高低,可以得知测量结果在经过一段时间之后的稳定程度
11、。重测信度表示测量能够应用于不同时间的程度,信度越高说明测量结果受环境中日常的随机因素影响越小,测量结果越稳定、可靠。评估重测信度时,要注意重测间隔的时间,时间太短被试对测试题记忆犹新,必然会造成假性相关;时间太长,测验结果又会受应试者的身心特质改变的影响,使相关系数降低。间隔时间的长短必须根据测验的性质和目的来确定。如果希望测量结果能预测较长时间的变化,则重测间隔时间应该长一些。例如人格测验一般间隔2-6个月比较合适。,应用重测信度应注意:,重测信度一般只反映由随机因素导致的变化,而不反映被测者行为的长久变化。例如被测者智力的发展与能力的提高,不是重测信度考察的因素。这些因素导致的重测相关系
12、数的降低,不能说明测验的重测信度低。不同行为受随即误差影响不同。例如手指敏捷性就比言语理解力更容易受疲劳、环境等因素的影响。因此必须分析测量目的和了解所预测的行为。当测量的行为或特质较为稳定时,重测信度的解释才有效。只有不大容易受重复影响的测验,如感觉-运动测验或人格测验,才比较适合用重测法计算信度系数。因为被测者一旦知道答案就不容易忘记,从而造成假性相关。,2、复本信度(alternative-form reliability),又称为等值性系数,它是以两个测验复本(功能等值但题目内容不同)来测量同一对象,然后求得被测者在这两个测验上得分的相关系数。复本信度反映了两个测验复本在内容上的等值性
13、程度。复本信度考虑的是内容取样误差的影响问题,计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。,优点:能够避免重测信度的一些问题,如记忆效果、练习效应等;适用于进行长期追踪研究或调查某些干涉变量对测验成绩的影响;减少了辅导或作弊的可能性。缺点:如果测量的行为受练习的影响,复本信度只能减少而不能消除这种影响;有些测验的性质会由于重复测量而发生改变,例如某些问题解决型的测验,如果掌握了解题原则就有可能产生迁移,尤其当复本只是在题目具体内容上有改变时,这种正迁移的作用会很强;有些测验很难找到复本。,3、一致性信度Consistency Reliability,一致性信度又称为
14、同质性信度,是指一个测评活分测评中各个题目所测内容的一致性。同质性是保证测评只测量同一特质的必要条件。也就是说,评估一组测验题目内部一致性程度,对于确定测验题目是否测量了同一事物很重要。如果同质性差,则表示测评混淆了不同的测评内容,其结果就无从判断究竟是否反映了被测者的某一特质。,一致性信度的作用,重测信度和复本信度分别注重考虑测量跨时间的一致性(稳定性)和跨形式的一致性(等值性),而内部一致性信度用内部一致性系数表示,主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质,即测验内部各部分之间具有同质性(测验同一特性的各个项目的得分呈正相关)。同质性的测验,其结果的
15、解释较为明确。例如:在一个同质性的语言逻辑推理能力测验中,应试者的得分可以反映其语言逻辑推理能力的高低;而如果一个测验既包含有测查逻辑推理能力的试题,又含有测查数量分析能力的试题,那么在应试者得分低的情况下,就无法说明被测者到底哪种能力不足。,一致性信度应用实例,例如:在人格测评中,乐观情绪特质和外向特质是两个容易混淆的内容,这就要求测评设计时能够找到相应的题目把二者区分开来。再例如:在考察管理技能时,预测和决策、监督和控制等都是不太容易区分的,对题目设计的要求就相当高,否则就会把不同技能混淆,导致结论错误和用人失误。在设计测评题目时,所有测评题目都要保证只测量一种特质或内容,如果需要在一个测
16、评中测量不同内容,就应该将测评设计为几个分测评进行分别测评。例如16PF人格测评就包括16个分测评,每个分测评量表只对一种人格特质进行测评。,一致性信度的计算方法,分半信度项目折半分析,是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。通常的方法是在测验实施后将测验分为等值的两半,并分别计算每位被测者在两半测验上的得分,再求出这两个分数的相关系数。这个相关系数就代表了两半测验内容取样的一致性程度。同质性信度系数分析,是指测验内部的各题目在多大程度上考察了同一内容,即所有测验题目测量的只是单一特质或内容,表现为所有测验题目得分的一致性。,4、评分者信度(raters reliab
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 素质 测评 质量 分析
链接地址:https://www.31ppt.com/p-6192956.html