IRT在量表(测验)编制上的应用.doc
《IRT在量表(测验)编制上的应用.doc》由会员分享,可在线阅读,更多相关《IRT在量表(测验)编制上的应用.doc(34页珍藏版)》请在三一办公上搜索。
1、目录前言-1第一章 试题反应理论的概念与发展-2第一节 试题反应理论的基本概念-2第二节 试题反应理论与古典测验理论的比较-2第三节 常见的IRT模式-6第四节 IRT的基本假设-13第五节 当代IRT的发展-14第六节 IRT的应用-15第二章 IRT在测验编制上的应用-19第一节 测验(量表)设计原理-19第二节 选择模式-21第三节 估计受试者程度值-22第四节 试题分析-25第五节 测验讯息量与测量标准误-28第六节 检视资料的符合性-29第七节 以IRT编制测验的实例-32前言试题反应理论(IRT)是测验领域中较新的技术,它已经被应用在教育、心理、医疗等相关领域中,如国中基本学力测验
2、、托福、GRE、GMAT考试,以及国外的一些人格量表与医学相关量表的编制。当代著名的计算机化适性测验(CAT)也必须仰赖IRT的理论与技术才能运作。本次工作坊的主要内容是以介绍IRT的概念与实务应用为主,上午的课程是先对IRT做基础概念的介绍,接着以生活品质量表与国中基本学力测验的发展为例,介绍IRT的基础应用,并有实际数据让学员上机操作,对于有量表发展需求者而言相当实用。下午是IRT的进阶课程,介绍IRT在多向度测验及计算机化适性测验上的应用,对于有兴趣发展人格量表、多元性向测验等多向度测验,或是想发展计算机化适性测验的人而言是很适合的课程。第一章、试题反应理论的概念与发展第一节 试题反应理
3、论的基本概念试题反应理论(item response theory; IRT)主要是用来描述试题特性(难度、鉴别度、猜测度)与受测者的能力(潜在特质)如何影响其答题反应的一种数学模式。最简单的IRT模式如下列公式(1)所示(Rasch, 1960):, (1)其中qj为考生j的能力,bi是试题i的难度,而Pij是受测者答对某个题目标机率。在IRT的模式中,受试者在某个题目上的答对机率是同时受到受试者能力与试题难易度所影响;而受试者在测验上的整体表现就是各题目答对机率的联合机率。藉由这个数学模式与联合机率的概念,我们就能根据受试者在各个题目上的答题反应来估计受试者的能力以及题目的难易度,并且让接
4、受不同题目的受试者其能力可以互相比较。IRT其实是许多试题反应模式的总称,当代已经有许多IRT模式分别适用在许多不同的测验情境中。常见的 IRT模式可以根据其所包含的试题参数数目来分,分为单参数的Rasch模式、二参数模式与三参数模式(Birnbaum, 1968)。也可以依据计分型态来分,分成二元计分(dicotomous)与多元计分(polytomous)模式;或是依据适用的作答方式来分,分成评定量尺(rating scale)模式、部分计分(partial credit)模式、名义量尺(nominal scale)模式等。第二节 试题反应理论与古典测验理论的比较试题反应理论与传统测验理论
5、(classical test theory; CTT)的比较见表1-1所示(Embretson & Reise, 2000; Hambleton & Swaminathan, 1986)。大致可以从模式特性、试题参数特性、能力与分数量尺特性、测量精准度与应用等几个层面来看。1.模式特性:IRT的模式是针对单一试题的作答反应所提出的数学模式,在其模式中同时考量了受试者能力与试题特性对答对机率的影响,所以它是一种直接描述作答行为的模式。此外,IRT其实是许多试题反应模式的总称,这些IRT模式是分别依据各种不同计分方式与不同作答方式的测验情境所发展出来的。表1-1 试题反应理论与传统测验理论的比较
6、试题反应理论传统测验理论模式特性1.针对单一试题的作答反应所提出的数学模式。2.现有各种不同的IRT模式,适用于不同计分方式与作答方式的测验中。1.针对测验总分所提出的数学模式。2.各种不同计分方式与作答方式的测验都使用同一套模式。试题参数特性题目特性(参数)的估计不会受到试者能力所影响。题目特性(参数)的估计会受到试者能力所影响。能力与分数量尺特性1.对受试者的能力估计不会受到题目特性所影响。2.根据IRT模式与概似函数估计受试者最有可能的程度值,有比较强的数学理论基础。3.可以直接参照题目的特性来解释分数,也可发展出一套参照标准(常模参照或标准参照)来解释分数。4.用某些IRT模式可算出等
7、距量尺。1.对受试者的能力估计会受到题目特性所影响。2.根据各题目的配分直接加总所得的分数,间接推测出受试者的程度值,较缺乏数学理论基础。3.通常需要额外发展出一套参照标准(常模参照或标准参照),才能解释测验分数的意义。4.当群体的分数完全符合常态分布时,才能转换出等距量尺。测量精准度(信度)测量精确度的评估是以题目为单位来计算再加总起来,因此受试者的测量精确度(讯息量)是随着受试者的能力以及所接受的题目特性而有所不同。测量精确度的评估是以测验为单位,因此接受同一测验的所有受试者其测量精确度(信度)都相同。应用编制测验(量表)、分数等化,编制题库、计算机化适性测验、组合测验编制测验(量表)整体
8、评估优点:具有能力估计不变性、具有题目参数估计不变性、测量精准度的概念较合理、应用层面较广。缺点:模式不易理解、能力估计与试题参数估计较麻烦,须仰赖计算机软件来分析。优点:模式简单易理解,能力与试题参数容易计算。缺点:不合理地假设不同人的测量精准度相同、应用层面较狭隘,受试者程度值会受题目特性所影响、题目参数值会被受试者特性所影响。传统测验理论则是一种针对测验总分所提出的数学模式。在传统测验理论中假设测验所得的分数是包含了真实分数与误差两个部份。如公式(2)所示:X(测得分数)=T(真实分数)+E(误差), (2)不过这个模式并未说明测验总分是如何得到的(一般都是直接对各试题的得分加总),也不
9、知道受试者答题反应与题目难易度或受试者能力关系。在传统测验理论中,不论是使用何种题型、何种计分方式或作答方式,都是使用公式(2)来描述测得分数的特性,所以是一种与作答行为无关的数学模式。2.试题参数特性试题参数是指试题的难易度、鉴别度、猜对率等用来描述试题特性的指标。在IRT中,题目参数的估计不会受到试者能力所影响。这主要是因为在IRT中已经将试题参数与受试者能力同时纳进其模式里,因此在估计其试题参数时已经考量了受试者能力的影响,因此所估计出来的试题参数不会受到受试者能力所影响。所以在IRT中估计试题参数时,受试者是否具有代表性并不是很重要,只要受试者的人数够多(单参数模式至少200人,三参数
10、模式至少1000人),程度值不会过度集中,就能够估计出稳定的试题参数。在传统测验理论中,试题参数几乎是完全决定于受试群体的能力。以难易度为例,如果受试群体的能力较高,则计算出来的试题难易度值(答对率)就变高,亦即题目变简单;如果受试群体的能力较低,则计算出来的试题难易度值(答对率)就变低,亦即题目变难。所以试题是难还是简单,完全取决于抽样时所选到的受试群体能力高低,因此样本的代表性对试题参数的估计有很重要的影响力。同样地,试题鉴别度也会明显地受到受试群体的能力分散程度所影响。3.能力与分数量尺特性在IRT中,对受试者的能力估计值也不会受到试题特性所影响,这也是因为IRT模式已经将试题参数与受试
11、者能力同时纳进其模式里,因此在估计受试者能力时已经考量了试题参数的影响,因此所估计出来的试题参数不会受到受试者能力所影响。此外,IRT的程度值是根据IRT模式与概似函数(likelihood)所估计出来的,有比较强的数学理论基础。而IRT的程度值与试题难易度值是共享同一个量尺,也就是说一个人的能力高低可以直接参照题目的难易度以及题目的描述句来解释,因此不需要参照群体就能详细地解释受试者的能力特性。最特别的是,如果使用IRT中的Rasch模式(单参数模式),则所估计出来的受试者能力值具有等距量尺的特性,亦即其能力量尺的单位距离是相同的,这可以由Rasch模式的推估证明出来(王文中,民86)。在传
12、统测验理论中,受试者的能力值是直接加总测验中各题目的得分所得。当测验的题目较难,则受试者的得分通常会比较低;当测验的题目较简单,则受试者的得分通常会比较高,意即受试者的能力高低完全决定于他所接受到的题目难易度。而这种直接将各题目的得分加总形成能力值的做法也缺乏数学理论依据,因为人的能力并不是如此单纯的根据题目的答对情形来加总,否则只要重复地让一个人作同样的题目10次,能力岂不变成10倍。此外,传统测验理论所得到的分数无法直接依题目特性来解释,需要另外建立一套参照标准(常模参照或标准参照)才有办法解释测验分数的意义。而且传统测验理论所得的分数也不具备等距量尺的特性,因此其分数严格说来并不适合进行
13、四则运算,也不适合直接拿来做t检定或因素分析等统计运算。4.测量精准度IRT的测量精准度是以讯息量(information)的概念来表示。讯息量是指某种难度的题目对某种能力的受试者的测量误差平方根的倒数。如公式(3)所示:, (3)其中I为讯息量,为测量误差。测量误差愈低,对此人的测量就愈精准,因此该题所提供的讯息量就愈高。相同题目对不同能力者而言其讯息量并不相同,因此即使是接受相同的测验,对不同能力者而言,他们的讯息量或测量误差应该是不相同的。这种测量精准度的特性较符合实际的测验情况,因为测验题目的难易度很难同时适用于各种不同能力的受试者,对高能力者而言,题目可能过于简单而测不出其能力;对低
14、能力者而言,题目可能过难而也测不出其能力;只有对中等能力者而言,题目的难易度较适当,较能精确地测出其能力。IRT的讯息量概念恰可以反映出测验对不同能力者有不同测量精准度的现象。反观传统测验理论,其测量精确度的评估是以测验为单位所计算出来的,也就是测量标准误(standard error of measurement; SEM)。我们可以经由X=T+E的概念算出测验的信度(reliability),再经由下列公式转换得来:其中为群体分数标准差,为r测验信度。由于在传统测验理论中,接受相同测验的受试者其信度都相同,因此测量标准误也被视为相同。而这样的假设显然与实际的测验情况是不符合的,因为测验中的
15、题目不见得对各种不同能力的受试者而言都适用。5.应用IRT是促进现代测验进步的重要关键,尤其是计算机化适性测验。基于IRT的单向度假定与受试者能力估计的不变性,接受不同题目的受试者其能力就可以比较,因此就能让受试者都接受适合于自己能力的题目,达到适性测验的目的。除此之外,IRT的试题参数较不受样本所影响,因此很适合用来发展题库;而IRT的能力也较不受试题参数所影响,所以也很适合用来进行能力分数的等化。另外,IRT也明确地建构出试题与测验之间的关系,因此可以直接根据测验的目的(例如希望对不同能力者的测量误差要低于多少)来选择测验题目,组成各种形式的测验。而传统测验理论的应用就比较局限在测验编制或
16、量表编制上,很难应用在上述各层面中。整体而言,IRT是属于理论架构较严谨、应用层面较广的测验理论,IRT所提来的诸多测量特性都较符合实际的测验情况;但是由于其模式较复杂不易让人理解,计算过程也较繁琐,因此尚未广泛地被大众所接受。不过随着计算机科技的进步,进行IRT分析时所需要的计算已经都可以用计算机来执行,因此也已经渐渐被应用在一些著名的大型测验中,例如国外的TOEFL、GRE测验,以及国内的国中基本学力测验等。而传统测验理论由于已经被使用许久,而且其理论概念较简单,目前现有的测验也大多以它为基础所发展出来的,因此短期内还不太容易被IRT所取代;然而它在测量特性上的一些问题以及应用层面的局限性
17、,已经让某些领域的测验(量表)编制者渐渐转向以IRT为理论基础来发展测验。相信未来IRT在测验评量领域的普及率应该会愈来愈广。第三节 常见的IRT模式由于IRT是许多试题反应模式的总称,直到现在IRT模式还在发展中。以下仅以计分的方式来分,分别介绍常见的几种IRT模式。(一)二元计分模式二元计分模式是指受试者在题目上的答题反应只有答对或答错两种。这类模式又可以根据模式中所考虑到的试题参数个数来分,分为单参数的Rasch模式(Rasch, 1986)、二参数模式与三参数模式(Birnbaum ,1968; Lord , 1952)。1. Rasch模式Rasch模式如公式(1)所示,先前已经介绍
18、过了。在Rasch模式中认为,影响受试者答对机率的试题特性主要是难易度,因此只要了解人的能力与题目的难易度,就能知道该人在某题目上的答对机率是多少。而在Rasch模式中,所有试题都被要求要具有高鉴别度(都是1.0),而受试者猜对题目标机率已经被纳入受试者能力中,而不是试题特性,因此猜对率为0。该模式最大的特色是它对试题的特性与受试者的作答反应有较严格的要求,如果都能符合这些要求,则所估计出来的能力值就能反映出受试者的真实能力,而且是等距量尺。根据Rasch模式,我们可以画出各试题的特征曲线(item characteristic curve; ICC),如图1-1所示。对同一试题而言,一个人的
19、能力愈高其答对该题的机率应该也愈高,因此这个曲线是单调递增(monotonically increasing)曲线。由于每个试题都被要求需要有相同的高鉴别度,因此每条曲线在中段的部分看起来都很接近平行,整份测验的试题特征曲线放在一起就好像是一把尺上面有许多刻度一般。其中以答对率为0.5向右划一条横线,与各试题特征曲线的交叉点,对应到能力轴上的值,被定义为该题的难易度。由此也可以看出在IRT中,能力与试题难易度被视为是被放在同一个量尺上的相对概念,因为模式中两者的数值是可以直接相减的。图1-1 Rasch模式中不同试题的特征曲线图2.二参数模式二参数模式最早是由Lord (1952)所提出,当时
20、所提出来的是常态肩型模式,之后再经Birnbaum (1968)修改成较间单的对数模式,如公式(4)所示。, (4)其中是试题i的鉴别度,其它的符号意义与公式(1)相同。在二参数模式中,与Rasch最大的不同点是题目可以被允许有不同的鉴别度,而这些不同的鉴别度会对受试者答对题目标机率有不同程度的调节性影响。这种模式与实际数据的分析结果较为接近,因为命题者所设计出来的试题很难都具有相同的高鉴别度,有些题目的鉴别度总是不符合预期,但是依然能发挥部份的测量功能。二参数模式所画出来的试题反应曲线如图1-2所示。在图1-2中,有的曲线的中段是比较陡峭的(例如a1),有的则是比较平缓的(例如a2),这些题
21、目虽然具有相同的难易度,但是随着受试者能力的提升,他们答对这两题的机率变化情形却不相同。在a1中段的区域,能力只要有些微的改变其答对率就有显著的提升;而在a2中,同样的能力改变量,其答对率的提升情形明显不如a1。图1-2 二参数模式中不同试题的特征曲线图3.三参数模式三参数模式的概念也是源自于Lord (1952)与Birnbaum (1968)。这种模式主要是针对那些可以经由猜测来答对试题的测验情况,例如选择题、是非题等。如公式(6)所示。,(5)其中是试题i的猜对率,这里要特别注意的是此猜对率是指能力极低者猜对该题的机率,随着能力的提高,答对该题的机率仍然会提升,但可以提升的机率范围仅有。
22、由于在模式中,每个题目除了有难易度与鉴别度的特征外,还有可以被猜对的可能性,因此这种模式比二参数模式更能符合实际的数据。三参数模式的试题特征曲线如图1-3所示,从图1-3可以看出试题特征曲线更具有多样性。在图形左方,各试题特征曲线与纵轴的交叉点即为该题的猜对率,也就是能力很低者答对该题的机率。在以选择题为主的测验情境中,我们经常可以发现有些试题因为诱答选项设计不佳,或是题目中有些暗示答案的线索,造成即使能力很低者也容易猜对该题(例如c1),此时就需要这类模式来找出那些题目。而三参数模式在估计受试者能力时也已经考虑了不同题目的猜对率对受试者答对机率的影响,因此所得到的能力值应该会比较符合其实际能
23、力水准。图1-4 三参数模式中不同试题的特征曲线图(二)多元计分模式多元计分是指受试者在题目上的答题结果不只有一种,而是有很多种可能性,例如:在成就测验中,经常有计算题、简答题或申论题等开放式反应的题型,根据受试者回答题目的完整性,分别给予不同的分数或等级。或是在态度量表中常见的Likert量表,将受试者在量表题目上的答题反应分成非常同意、大致同意、没意见、不太同意、非常不同意等,并分别给予15分。关于这些多元计分题的IRT模式相当多,在此仅介绍两种较常见的模式。1.部份给分模式部份计分模式(partial credit model, PCM) 是由Masters(1982)所提出来的,由于这
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IRT 量表 测验 编制 应用
链接地址:https://www.31ppt.com/p-4077537.html