项目反应理论与自适应测验(4学时).docx
教育信息处理课程教学笔记第五讲 项目反应理论与自适应测验(4学时)一、教学目标1、能阐述经典测验理论的不足,以及项目反应理论发展和应用的背景。2、掌握项目反应理论的基本原理。能解释逻辑斯蒂模型中被试能力参数与项目参数的物理意义以及两者间的关系。 能阐述项目信息函数的定义及计算方法,会解释项目信息函数的物理意义。能运用一定的统计方法对被试能力参数和项目参数做出适当估计。能定性地表述项目反应理论的基本原理。3、掌握基于项目反应理论的计算机自适应测验的实现方法。能说出一个典型的计算机自适应测验系统的基本构成及功能。 能说明设计一个典型的计算机自适应测验系统需要解决的基本问题。学会运用自适应测验的基本流程和算法。能定性阐述自适应测验的优点。4、了解项目反应理论和自适应测验的实际应用的情况。二、教学方法与教学媒体1、教学方法:以讲授法为主,着重介绍项目反应理论的基本原理及其在自适应测验中应用的基本思路和方法。本次课结束后,让学生在课后进行自适应测验系统设计实践,并写出设计报告,然后用1-2学时组织学生就项目反应理论实际应用中的相关问题进行讨论,以培养学生的实践能力。2、教学媒体:用黑板与讲授同步地展示讲授的内容要点,用Microsoft Excel作为工具讨论项目反应模型及其相关参数的物理意义,用PowerPoint展示结束总结的内容要点和实践任务要求。三、教学重点、难点重点:项目反应模型及参数估算方法;自适应测验的施测程序及算法。难点:被试能力参数和项目参数的估算方法;项目信息函数的定义及意义。四、教学内容与过程整个教学过程分为引入、展开、结束三个阶段进行。(一) 引入阶段:首先分析经典测验的局限性,由此引出如何提高测验的精度和效率的问题,在此基础上提出自适应测验的基本思路及其理论基础,从而引出本节课的学习内容。然后以框图形式向学生预告本节课学习内容的基本结构和要求。1、经典测验的局限性及自适应测验的提出经典测验的特点是:所有被试不论能力水平高低都使用相同的测试项目进行测试。通常有两种基本类型:所有试题(项目)难度相同,即所谓“尖峰”型测验。这种情况下,当被试水平与题目难度接近时,具有较高的测验精度,两者偏离越大,测验精度越低;第二种类型为所谓“平矩”型测验,试题中有较难、难度中等、较易等不同难度的题目,因此在多数水平上能提供相对均等的测验精度,但整体精度却相对较低。从上述分析不难看出,经典测验难以很好兼顾到测验的精度和精度的跨度问题。于是人们自然想到,能否做到“因人施测”-不同能力水平的被试都能接受一组难度跟自己水平相适应的试题?被试能力参数与项目参数的关系-项目反应模型测试项目对被试能力的分辨能力-项目信息函数某次测试的整体测量精度-测试信息函数被试能力参数与项目参数的估算方法如何做到测试项目对被试能力的自适应?如何开始?如何选择下一个项目?如何结束?对不同的被试能力水平实现有效测试2、本节课的内容结构(二)展开阶段:首先介绍项目反应理论的基本原理,然后讨论一个计算机自适应测验系统的实现原理和算法。1、项目反应模型测验的实质过程:向被试呈现测试项目(试题)-被试对测试项目做出反应(应答)-根据被试反应结果判断被试能力水平。显然,被试对某个项目的反应情况不仅与被试的能力水平有关,而且还与测试项目的特性有关。那么,被试的应答、被试的能力水平、测试项目特性之间有什么样的关系呢?要回答这个问题,我们可以建立相应的数学模型来描述三者间的关系,即所谓的项目反应模型。引入相应的物理量:被试能力水平:由于参试人数一般较多,可认为被试的能力水平是连续变化的,用表示,值越大,表示被试能力水平越高。被试的应答情况:从经验可知,一个被试能否正确回答某个问题,常常带有一定的偶然性(随机性),因此引入来表示各种不同能力水平的被试对某一测验项目做出正确回答的概率。越大,回答正确的可能性越高。项目特性:常用来描述项目特性的参数主要是难度参数和区分度参数。伯恩鲍姆于1957年提出了被广泛使用的逻辑斯蒂模型。下面我们就向大家介绍这一模型。(1)二参数逻辑斯蒂模型及其参数的意义具有难度参数和区分度参数的逻辑斯蒂模型为:这一模型有何意义?其中的各个参数的意义是什么?下面我们用数值方法对这一模型进行一些讨论。 我们选,用Excel作出值在-33间的曲线,如图1所示。从图1可以看出:该项目反应曲线反映正答概率随被试能力水平的变化规律-随着被试能力水平的增加,正答概率也增加,最终趋于1,呈现指数规律变化.l 难度参数的意义图2给出了和时的两条项目反应曲线。由图2可知:难度参数高的项目需要能力水平高的被试才能做出正确应答。值越大,表示项目难度越高。当时,表明在二参数逻辑斯蒂模型中,项目难度参数在数值上等于该项目正答概率为0.5的被试能力参数值,难度参数表示了项目的困难程度。l 区分度参数的意义项目区分度参数表示了在一定难度参数的情况下,由于被试能力不同,其正答概率有多大程序的不同。显然,这种不同的程度越高,项目对于不同能力参数被试的区分能力越强。图3给出了两条难度相同区分度不同的项目反应曲线。从图3可知,越大,项目反应曲线越陡。让我们来比较一下和的两个被试在项目1和项目2中的正答率之差,前者为0.24,后者为0.91。显然区分度大的项目,正答率之差也大。这表明:区分度反映了测试项目对被试应答能力的区分程度。(2)三参数逻辑斯蒂模型在测验实践发现,被试对某项目的正确回答不一定只与其能力参数的大小有关,还可能存在由于某种推论、猜测等偶然因素而对某个项目做出正确回答,比如在多重选择题中。因此,我们再二参数模型的基础上再引入一个猜测参数,其值的大小反映了由猜测等因素而使用被作出正答的可能性。于是得到了三参数的逻辑斯蒂模型:若二参数模型以表示,三参数模型以表示,由有:上式表示被正确应答概率由两部分构成:一是基于对项目的正确理解而正答的概率;二是被试对项目不理解但由于猜测、推断而正答的概率。图4给出了二参数和三参数模型的两条项目反应曲线。从图4可以看出:当测试项目可以通过猜测等因素而作出正答的可能时,选用三参数模型比二参数模型更适宜。最后需要指出的是,以上只介绍了使用广泛的两个项目反应模型,实际上,项目反应模型有许多不同的数学模型,如考虑部分正答的项目反应模型、考虑项目难度和被试能力变化的项目模型等。实际应用中,我们需要根据模型数据拟合良度检验来选择合适的模型。2、项目信息函数和测试信息函数的定义及意义对于一个给定的项目(项目参数一定),它对不同被试的能力水平的分辨能力如何呢?或者说,被试对一个项目作答后能带给我们关于被试能力水平的信息有多少呢?被试作答一个项目的得分反映其能力水平的精度有多高呢?为了回这一问题,项目反应理论引入了一个项目信息函数。项目信息函数的定义:根据上述定义,我们可以计算出:二参数项目反应模型的项目信息函数为:.三参数模型的项目信息函数为:。为了帮助学生理解项目信息函数的意义,我们仍采用数值方法来讨论项目信息函数。(1)就某一个测试项目而言,当项目参数一定时,只是的函数,因此它可用来描述测试项目对不同能力水平的被试进行测试有有效性。经典测验中将测验的效度用于所有被试,而无论其能力水平如何。(2)当一定时,某一测试项目所能提供的信息量只取决于项目参数。图5(,b=0.921,c=0.2)表明:项目区分度参数越大,项目信息函数值也越大。图6(,b=0.921,a=2.0)表明:猜测参数越大,项目信息函数越小。图7(a=2.0,b=0.921,c=0.2)表明:同一个项目在测验高、中低水平的被试时,它所提供的信息量是不一样的。当被试能力参数接近项目难度参数时,信息函数取得极大值。事实上,只有当被试能力水平略大于项目难度时,提供的信息量最大,且测验结果的效度和信度以及被试接受测验的积极性均可大提高。这就为我们在自适应测试中选择试题提供了理论依据。 由上述分析,不难计算出信息函数为最大时的能力参数为:综上分析,我们可以看出,项目信息函数是反映试题优劣的一个综合指标。若我们假设被试参加各个项目的测试是相互独立的(不同测试项目之间没有相互影响),则当测试中包含n个项目,且每个项目j的项目信息函数为,各测试项目总的信息函数为测试信息函数:测试信息函数表示了对于各种上天堂同被试,测试整体的测量精度。信息函数的可加性表明:组成测验的各个项目的质量越高(项目信息函数越大),它所提供的信息量也越大,从而根据整个测验所获得的数据资料而估算出来的被水平也越精确、越可靠。可见,测验信息函数是反映测验有效性的一个客观而精确的指标。 3、参数估计方法测验的作用就是通过测验分数对被试的相应能力或特质水平做出有效的估计,而高质量的测验项目是做出精确估计的重要前提。因此,项目反应理论的实际应用中,我们需要根据实际的测验数据资料客观而准确地估算出项目参数和被试能力参数,为题为建设、测验编制、教学决策提供有效的数据依据。下面介绍参数估算的基本方法。参数估算的基本思路为:实测数据(被试的得分矩阵)-à选择合适的项目反应模型(因子分析确定参数个数-模型资料拟合选择最优模型)-à运用统计方法估算项目参数和被试参数(已知项目参数估算被试能力参数、项目参数和能力参数的联合参数估计)。下面以三参数逻辑斯蒂模型为例介绍两种情形下参数的估计方法-极大似然估计法。(1)被试能力参数的估计项目参数已知,由测试数据估算被试能力参数的算法:设项目反应变量=0表示答错,=1表示答对,答对概率为,答错概率为,则被试在全部项目上反应的联合概率为上式中的由项目反应模型计算,如对于三参数项目反应模型,有定义似然函数:,其取值最大时的值即为被试能力参数的估计值。即求解方程:.(2)被试能力参数与项目参数的联合最大似然估计两类参数均为未知的情况下的参数估计算法流程为:三点说明:(1)在第(3)步中,可求解等三个方程估算出项目参数。(2)通常,设定迭代结束的条件有两种:一是最后两次的估计值相关不超过给定误差;二是事先指定迭代次数。(3)能力参数估计的标准差为.(2)令项目参数为已知,利用极大似然估计法估算被试的能力参数初步值(1)设定初值: (3)以上一步估算出的能力参数为已知,利用极大似然法估算项目参数(5)项目参数和能力参数的最后一次估计值即为最终估计值(4)是否结束迭代?YN4、计算机化自适应测验的实现方法(1)题库的建设以选择型试题为例:试题数据库存的字段构成:编号、试题内容、试题答案、难度参数、区分度参数、猜测参数、被试应答信息、使用次数、出题人、审核人、录入时间、分数、答题时间等。试题库管理的基本功能:安全管理、试题录入、试题修改、试卷生成、测试记录、测试结果分析等。(2)自适应测验的基本实现方法说明:l 在第(1)步中,确定被试的能力参数初始估计值有两种策略:一是如测试前对被试的情况一无所知,则可采用参加过该测验的所有被试的平均水平作为初始估计值;二是当在测试前对被试的相关背景有所了解时,可采用同类被试的平均水平作为初始值。此值的选取对测验精度影响极小,但影响测验的效率。l 在第(2)步中,项目的选择呈现主要考虑项目的难度参数应接近(略高于)被试的能力参数。实际应用时可利用(对于三参数模型)来选择。l 在第(4)步中,可利用极大似然法对能力参数做出估计。l 在第(8)步中,决定是否终止一个被试的测试有三种策略:一是固定测验长度(不同被试的测量精度不同);二是时终止测验(测验长度较长、效率较低);三是最后两的能力参数估计值小于预定值时终止测验(测验长度常小于第二种策略)。(2)选择并呈现一个最佳的测验项目(1)确定被试能力的初始估计值(6)是否终止测试?(8)结束(3)记录并评价被试的反应情况(4)校正能力参数的估计值 (7)是最后一个被试?(5)进入下一个测验的管理结束测试NYNY(三)结束阶段:总结本讲内容,简介项目反应理论和自适应测验的发展及应用情况,指出自适应测验的优点,布置课外实践任务。1、本节课我们向大家介绍了项目反应理论的基本原理及基于项目反应理论的计算机化自适应测验的基本实现方法。在此,我们只介绍了关于此理论及应用的基本知识,若大家希望对项目反应理论及其应用有更加深入的了解,可参阅许祖慰编著的项目反应理论及其在测验中的应用(华东师范大学出版社,1992年版)。2、项目反应理论的发展和应用情况综述项目反应理论起源于上世纪30年代末40年代初,其发展过程大致可分为三个阶段:l 项目反应理论的提出(上世纪30年代末-40年代):1946年,塔克(Tucker)提出“项目反应曲线”概念(能力水平与正答概率之间的关系曲线)。l 项目反应理论的发展阶段(上世纪50-60年代):1952年,洛德(Lord)提出了正态卵形模型及其参数估计方法,并成功地用于实际测验;1957年,伯恩鲍姆(Birnbaum)提出了易于处理的逻辑斯蒂模型及相应的统计处理方法;1960年,拉什(Rasch)提出了拉什模型,后经赖特(Wright)等人的发展,1969年推出了拉什模型参数估计的计算机程序BICAL;1969年,赛麦吉玛(Samejima)提出了可用于二级评分测验、多级评分测验和连续评分测验的项目反应模型,并对这些模型进行了应用研究。l 项目反应理论的推广应用阶段(上世纪70年代至今):有效的参数估计方法及相应的实用计算机程序的开发是这阶段的研究重点。1979年召开了国际计算机化自适应测验会议。上世纪70年代以后,项目反应理论得到广泛应用,如测验设计、能力估计、测验等同化、自适应测验等。 目前,项目反应理论的研究,在理论方面主要是连续变量测验资料和多维情况下的数学模型的探索上;在实际应用方面主要集中在模型-资料拟合良度检验方法和参数估计方法的改进,以及项目反应理论在测验编制、题库建设、测验参数等值等实际问题的应用上。 项目反应理论的应用概况:国外,教育部门和工业组织用来指导测验编制以及进行与测验有关的问题的研究,特别是自适应测验受到了教育界、心理学界和军队的高度重视,应用极为广泛。 国内,起步较晚,但近年来在题库建设和测验编制方面的应用取得了进展。如1984年,北师大首先在心理测量中使用了项目反应理论。随后,上海、广东、江西等地的一批专家相继在模型-资料拟合良度检验和参数估计方法等方面开展了研究工作,并研制了实用的自适应测验系统。国家教委考试中心曾组织编写了有关项目反应理论及其应用的文献。3、自适应测验的优点与常规测验相比,自适应测验具有明显的优点:(1)它能兼顾测验的测量跨度和精度。(2)效率高。(3)具有较高的信度和效度。4、课外实践练习任务:在我系物理学专业的物理实验教学中,现在的做法是在实验前教师大约需要花30分钟左右的时间,通过检查预习报告或提问来检查学生的实验预习准备情况。这种方法存在明显的不足,如所花时间过长,影响了实验教学的时间;预习报告的检查往往难以提供关于学生预习情况的真实信息,因为存在学生根本没理解实验的原理和方法的情况下照抄实验教材的情况。也就说,现在的检测方式在效率和精度上都存在明显不足。请根据我们今天介绍的基于项目反应理论的自适应测验方法,提出一个检查学生实验预习情况的解决方案,写出相应的设计报告。要求:(1)如你认为有必要,可向我系物理专业做过实验的同学和实验教师了解相关情况。(2)解决方案的提出必须在小组内通过充分的讨论,达成一致后再撰写设计报告。(3)你所提交的报告中必须包括:背景与需求分析、系统组成与功能、系统实现的基本原理和技术路线、系统使用方法及评价等内容。(4)每个小组必须在14周前提交设计报告,并制作介绍介绍设计结果的PPT文档,用于在班上各小组间进行交流讨论。授课教师:贾正林 授课班级:04级教育技术学专业 授课地点:12教40611