测量信度与随机误差控制.ppt

资源ID：6126608 资源大小：587.51KB 全文页数：54页
资源格式： PPT 下载积分：15金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要15金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

测量信度与随机误差控制.ppt

2023/9/26,1,第四章测量信度与随机误差控制,2023/9/26,2,学习目标：,1.什么是信度?信度与测量随机误差的关系？2.信度的统计定义？3.描述信度的指标有哪些？4.分析测验信度应注意哪些问题？5.信度的标准与作用？6.经典测量理论信度系数的估计方法。7.提高测量信度的主要方法有哪些？,2023/9/26,3,第一节信度概述,2023/9/26,4,一、信度与测量误差,1.经典测量理论的假设,式中，X为观察分数，T为一般真分数，E为随机误差分数，V为目标真分数，I为非目标真分数（系统误差）。,第一节信度的概述,X=T+ET=V+IX=V+I+E,2023/9/26,5,2.信度的定义,测量追求的初步目标：T占X的比例越大越好。测量追求的终极目标：V占X的比例越大越好。,第一节信度的概述,2023/9/26,6,当T占X的比例很大时，那么测值就会是稳定的。一般来说，稳定的测值是可靠的、可信的，因此，信度可被认为是测量结果的稳定性程度。,2023/9/26,7,2.信度的定义,第一节信度的概述,信度（reliability）是指在不同时间，使用同一测验，或者使用两个不同项目的等值测验，或在其他不同的测试条件下，对同一组被试实施两次或多次测试所得分数的一致性。,2023/9/26,8,测验信度表示测验分数中个体差异可归因于所测特质中“真实”差异的程度，以及可归因于随机误差的程度。,2023/9/26,9,二、信度的统计定义,1.经典测量理论假设的推论,第一节信度的概述,2023/9/26,10,2.信度的统计定义,定义1：信度是被试团体真分数方差与实得分数方差之比,定义2：信度是被试团体真分数与实得分数相关系数的平方,定义3：信度是一个测验X（A卷）与它的任意一个平行测验（B卷）的相关系数,第一节信度的概述,2023/9/26,11,三、描述信度的指标,1.经典测量理论的信度系数,信度系数是表示测量结果的稳定性程度的指标。记为：,第一节信度的概述,信度系数的值域：0,1,没有百分之百可靠的测量，因此，rXX=1只是理论上的值，实际当中是不会存在的。,？相关系数的值域是-1,+1，信度系数的值域：0,1，为什么？,2023/9/26,12,四、信度的作用,2.信度是测量过程中所存在的随机误差大小的反映。,第一节信度的概述,例如，我们已知高考文科试卷的总信度rXX=0.965，文科考生总分的标准差为53.42,那么，文科考试成绩的标准误为：,3.信度可以用来解释个人测验分数的意义测量标准误。,如果某生的考试成绩为495分，在置信度为0.95时，其真分数的置信区间为：,2023/9/26,13,4.信度可以帮助进行不同测验分数的比较。,第一节信度的概述,考察两个分数的差异是否可靠，是否真有差异的问题。比如，某人的物理成绩是否真的优于化学？某人的数学技能本学期是否真有进步？某人在韦氏智力量表上操作智商与言语智商的差异是否真有显著意义等。,2023/9/26,14,第一节信度的概述,差异分数的测量标准误可用如下公式求出：,式中，SEdiff是差异分数的测量标准误；rXX和rYY是两个测验各自的信度系数；SD是两测验间使用的相同的标准差。在比较分数之前，必须将两个测验分数转为具有相同量表的标准分数。,2023/9/26,15,第一节信度的概述,例如，在韦氏成人智力量表中，言语和操作分测验的信度为 0.97和0.93，而它们的智商的平均数为100,标准差为15,故言语和操作智商差数的标准误为：,因为4.741.969.29,因此，言语和操作智商相差10分时，在0.05水平上，我们说存在显著差异。若要在0.01水平上作出差异显著的结论，就要相差13分。,2023/9/26,16,研究下下节课继续,2023/9/26,17,第二节信度的种类与评估方法,详细介绍第一节中提出的各种信度估计方法的计算。,2023/9/26,18,一、重测信度,1.含义同一个测量工具在两个不同时间对同一组被试施测所得结果的一致性程度。重测信度主要考察了一个测量工具是否能够保证在不同时间测量结果的一致性，他反映了测量工具的结果受到时间间隔因素影响的大小。一般来说，重测的时间间隔越短，那么各种施测情境的变化就越小，重测信度系数就会越大。重测信度系数较大时，说明该测量工具前、后两次的测量结果比较一致。结果具有较好的跨时间上的稳定性。,第二节测验信度的种类与评估方法,2023/9/26,19,一、重测信度,2.评估方法重测信度的大小可以通过计算测量工具的重测系数（test-retest coefficient）或叫稳定性系数（coefficient of stability）来标志。具体来说，就是求取同一组被试在两个不同时间施测同一个测量工具所得结果分数的相关系数。,第二节测验信度的种类与评估方法,2023/9/26,20,一、重测信度,3.应用条件测量工具所测量的个体心理特质在时间上应该是相对稳定的。测量工具所测量的个体心理特质应该不存在明显的练习效应和遗忘效应。在两次施测间隔期间不应该进行专门的训练和培训，以保证重测信度反映的是随机因素的影响效应。,第二节测验信度的种类与评估方法,2023/9/26,21,一、重测信度,4.使用重测信度时需要注意的问题两次施测时间间隔的长短会影响重测信度系数估计值的大小，因此，在报告重测信度系数时应该报告间隔的时间长度。应该根据已有的相关研究结论考虑所测心理特质本身的稳定性程度，以确定前后两次施测时间的间隔究竟应该多长比较合适时，不应该随便选择间隔时间的长短。,第二节测验信度的种类与评估方法,2023/9/26,22,练习题,10名学生前后2次参加某心理测验，分数如下，假设总体符合正态分布，计算该测验信度,2023/9/26,23,2023/9/26,24,答案,0.789,2023/9/26,25,二、复本信度,1.含义两个平行的测验（复本测验）测量同一批被试所得结果的一致性程度。复本信度反映了由于题目的不同以及时间间隔所导致的测量误差。平行测验或复本测验指的是两个在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式和测验等其他方面都相同或相似的测验。也就是用不同的题目测量同样的内容而且其测验结果的平均值和标准差都相同的两个测验。,第二节测验信度的种类与评估方法,2023/9/26,26,二、复本信度,2.评估方法复本信度的估计过程就是计算同一批被试在两个平行的复本测验上所得分数的相关系数，也叫作等值系数（coefficient of equivalence）。测试设计：同时测试和延时测试。同时测试是在同一个时间段内进行测试，而延时测试则是在两个时间段进行测试，同时测试可能会存在作答疲劳的效应，而延时测试则可能会存在学习或培训效应。又称稳定性等值系数,第二节测验信度的种类与评估方法,2023/9/26,27,二、复本信度,3.应用条件要构造出两份或两份以上真正平行的测验;计算复本信度需要对同一批被试测试两份平行测验，这就需要掌握一个合理的时间安排。应该尽量在测试结果报告中，详尽地说明两次测试的时间间隔、测试顺序安排、测试过程中被试的有关测验经历等。,第二节测验信度的种类与评估方法,2023/9/26,28,三、内部一致性信度,1.含义内部一致性信度主要评价了测验各随机组成部分之间是否测量了相同的心理特质，因此，它反映的是题目内容的抽样一致性程度。具体估计方法主要包括分半信度评估法、库德-理查森信度评估法、克龙巴赫Alpha系数评估法。与重测信度和复本信度不同，在估计测验的内部一致性信度时，只要用同一个测验对一批被试测试一次。,第二节测验信度的种类与评估方法,2023/9/26,29,三、内部一致性信度,2.分半信度含义我们总是可以把一个测验的所有题目随机地划分成对半的两个部分，然后估计所有被试在这两个部分题目上得分的一致性程度，这样得到的测验一致性估计称为分半信度。分半信度评价了测验两个随机组成部分的题目是否测量了相同的心理特质。,第二节测验信度的种类与评估方法,2023/9/26,30,三、内部一致性信度,2.分半信度评估方法计算出被试在测验两个随机组成部分的题目上得分之间的相关系数。由于在用分半测验得分计算相关系数时，测验题量被缩短，信度系数需要通过以下这个公式对分半相关系数进行矫正而得到。为两个分半测验之间的相关系数，为完整长度测验的信度系数估计值。,第二节测验信度的种类与评估方法,2023/9/26,31,2023/9/26,32,三、内部一致性信度,2.分半信度评估方法另外一个估计分半信度系数的方法是Rulon公式，他只需要计算所有被试在两部分测验上得分之差的方差以及总分方差：式中，为完整测验的信度估计值，为被试在两部分测验上得分之差的方差，为完整测验总分方差。Rulon公式中分子方差反映了由于题目不同等条件带来的误差方差，他与总方差之比反映了误差方差在总方差中所占的比例。,第二节测验信度的种类与评估方法,2023/9/26,33,三、内部一致性信度,2.分半信度使用时需注意的问题在估计测验的分半信度时，虽然要求把一个测验的所有题目随机地划分成对半的两个部分，但是在实践中对测验分半时，为了尽量减少无关因素的影响，通常需要考虑题型、题分、题目测试先后顺序等因素的平衡问题，比如按照题目顺序奇偶分半就是一个经常选择的方法。分半信度通常是在只能施测一次或没有复本的情况下使用。其中使用斯皮尔曼布朗公式时要求全体被试在两半测验分数的变异数相等。当测验无法分成对等的两半时，无法使用。,第二节测验信度的种类与评估方法,2023/9/26,34,三、内部一致性信度,3.库德-理查森信度含义在估计分半信度时，把一个测验的题目分成两半的方式是非常多的。而每种分半方式得到的信度估计值总会存在一些差异，但我们无法知道究竟哪种分半结果所得到的信度估计值是最合适的。估计所有可能的分半信度系数的平均数，作为完整测验的内部一致性最佳估计值。,第二节测验信度的种类与评估方法,2023/9/26,35,三、内部一致性信度,3.库德-理查森信度评估方法：所有分半信度系数的平均数的估计方法。,第二节测验信度的种类与评估方法,2023/9/26,36,三、内部一致性信度,3.库德-理查森信度使用条件Kuder-Richardson信度系数的估计只能针对1、0记分题型，对于其他题型需要使用更加一般化的估计方法。K-R 21公式假设测验中所有项目的难度是相同的。Kuder-Richardson信度反映的是项目间一致性程度，他会严重地受到测验所测行为特质的同质性程度的影响。,第二节测验信度的种类与评估方法,2023/9/26,37,三、内部一致性信度,4.Cronbachs Alpha系数含义是一种比Kuder-Richardson方法更加一般化的信度估计方法，它可以针对各种记分方式的题型进行估计。,第二节测验信度的种类与评估方法,2023/9/26,38,三、内部一致性信度,4.Cronbachs Alpha系数评估方法,第二节测验信度的种类与评估方法,公式中，k是测验题目个数，是被试在题目i上得分的方差，是被试测验总分方差。,2023/9/26,39,三、内部一致性信度,4.Cronbachs Alpha系数使用条件可以估计各种记分方式的测验内部一致性信度系数，是更一般化的测验内部一致性信度系数估计方法。,第二节测验信度的种类与评估方法,2023/9/26,40,2023/9/26,41,四、评分者信度,1.含义在评价通过主观评分方式得到的分数时，我们必须了解不同的评分者在评价被试作答反应时给的分数值的一致性程度（信度）。一般的客观型题目在评分时很少出现误差，然而，对于诸如作文测验、语言类测验、以及其他的评价性测验（如人格特质评级、投射测验评分等），这些测验类型的评分过程就显得非常主观。,第二节测验信度的种类与评估方法,2023/9/26,42,四、评分者信度,2.评估方法两个评分者时：计算这两个评分者评定分数之间的相关系数。多个评价者评价同一批被试：计算和谐系数。,第二节测验信度的种类与评估方法,2023/9/26,43,研究下下节课继续,2023/9/26,44,五、信度系数及其估计方法小结,1.测试次数和测试卷份数与信度系数估计方法,第二节测验信度的种类与评估方法,2023/9/26,45,五、信度系数及其估计方法小结,2.各种信度估计方法的误差方差来源,第二节测验信度的种类与评估方法,2023/9/26,46,第三节测量的随机误差控制,2023/9/26,47,一、影响测量信度的因素,第三节测量的随机误差控制,2023/9/26,48,二、提高测验信度的常用方法,第三节测量的随机误差控制,2023/9/26,49,第四节评分者信度及评分误差的控制,2023/9/26,50,一、评分误差存在的严重性,严重到什么程度？历史教授的答案被评阅为“不及格”高考作文一幅漫画的启示，67位评阅者，6至25分都有，最高分与最低分相差19分1984年，高考作文评分调查，438位老师，4篇作文，。最高得分为41.25，最低分为20.75，标准差为2.98。1985年，对1984年的四篇作文再研究，347位老师（有部分年参加研究的老师），最高得分为42.5，最低分为24.75，标准差为3.3。,第四节评分者信度及评分误差控制,2023/9/26,51,二、评分者信度,定义：多个评分者对同一批答卷评分结果的一致性程度。估计方法：两位评分者评同一批试卷；三位或三位以上评分者评同一批试卷,第四节评分者信度及评分误差控制,2023/9/26,52,三、评分误差产生的原因,试题原因评分者原因专业知识水平不够评判能力不够个性倾向心理状态客观效应“名片”、“光环”、“对比”、“先后”环境、组织管理的原因,第四节评分者信度及评分误差控制,2023/9/26,53,四、控制评分误差的方法,控制试题作答反应方向与范围预先制订好评分细则阅卷人员要选择、要培训流水作业分因素评分组织复查要求评分者自觉防止各种客观效应的影响大规模阅卷可考虑采用统计手段控制,第四节评分者信度及评分误差控制,2023/9/26,54,提高信度的方法适当增加测验的长度,为什么增加测验的长度，会提高信度？测验长度的增加与信度的提高不是等比例的,

注意事项

本文（测量信度与随机误差控制.ppt）为本站会员（小飞机）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。