心理测量学课件6第四章项目分析.ppt
第四章 项目分析 测验分数的解释与应用,第八章 测验的项目分析 项目分析包括定性分析和定量分析。定性分析包括考虑内容效度、题目编写的恰当性和有效性等;定量分析主要是指题目难度和区分度的测量。对项目进行筛选和修订,可以提高测验的信度和效度。无论是何种类型的测验,都需要进行分析。在对结果进行分析时需要解答如下问题:设定的测试时间长度是否适当?受测者是否理解指导语?施测条件是否适当?紧急意外事件的处理是否恰当?.,下面所列的问卷,是受测者完成成就测验后填写的,其目的是提供关于测验公平性的信息:测验评价表指导语:请在完成测验后填写这份表格,请您对每个项目的反应上画圆圈,并将您认为恰当的理由填写在空格处。1、Y N 测试环境(座位、温度、通风、噪音水平等)您是否满意?2、Y N 在测试之前您是否已仔细阅读了指导语?3、Y N 测验指导语是否清晰?,4、Y N 测验的格式(项目类型、项目编排、答题卡等)您是否满意?5、Y N 测验是否充分涵盖了考试指定材料?6、Y N 测验问题的难度是否适宜?7、Y N 您对参加该测试是否做了充分的准备?8、Y N 您是否学习了合适的材料?9、Y N 您认为是否答错了某些测验问题?具体是哪些?10、Y N 您是否对测验回答进行了猜测?猜测的问题有多少?具体是哪些问题?11、Y N 您是否有没作答的问题?具体是哪些问题?,12、Y N 您是否有足够的时间答完测验?13、Y N 您在完成测验后是否检查了作答的答案?14、Y N 在测验的过程中您是否有焦虑或情绪上的厌烦?15、Y N 测验是否公正?16、Y N 总的来说,这是否是一份好的测验?17、Y N 您是否观察到测试中有欺诈行为?18、Y N 您期望在此测验上获得哪个等级的成绩?,分析受测者在某个项目上的反应,功能是:1、进行项目分析的主要目的是提供测验质量或删除无效的项目。2、对于成就测验而言,是提供受测者掌握知识与否的诊断信息,看受测者是否对测验有充分的准备,是否能满足他们的期望等等。,第一节 测验的难度一、难度(difficulty)的意义难度,指项目的难易程度。在能力测验中,称为“难度”,而在非能力测验中(如人格),则指“通俗性”。两者都是指在总体中,能够正确或确切回答某项目的人数。,二、难度的计算(一)二分法记分项目的难度1通过率 P=R/N100%P代表项目的通过率,N为全体受测人数,R为通过或答对该项目的人数。以通过率来表示项目的难度,P越大,项目越容易,难度越低。,2极端分组法(上下27%)P=(PH+PL)/2P代表难度,PH和PL分布代表高分组和低分组通过率,此公式还可转换为 P=(RH+RL)/2N100%RH和RL分别代表高分组和低分组通过该题的人数,N代表每个组的人数。,例如:在100名被试中,选为高分组和低分组的被试各有27人,其中高分组有20人答对第一题,低分组有10人答对第一题,则第一题的难度为:(1)PH=20/27100%=74.1%PL=10/27100%=37%P=(74.1%+37%)/2=55.6%(2)P=(20+10)/227=55.6%,练习:一个测验项目向75名受测者施测,高水平组(测验总分中最高27)中有18名答对此项目,低水平(27)中有12名受测者答对此题目,那么此项目的难度是多少?,3、选择题的难度校正公式:,CP为校正后的通过率,P为实际得到的通过率,K为备选项目的数目。,例如:假定某题有75的被试通过,如果该题有5个备选项目,则校正后通过率实为:,(二)非二分法记分项目的难度,测试题为问答题或其他不能用二分法记分的形式时,常常对部分正确的反应也给一定分数,在这样情况下,可以先人为的确定通过每一题的分数线,再按公式计算难度:x100 为所有被试在该项目上的平均得分,Xmax为该项目的满分。,例如:一个数学题的满分为20分,全体考生在试题上所得的平均分数为15分,其难度为:P=15/200.75,三、测验难度水平的确定 效标参照测验、掌握测验:不考虑难度;选拔测验:难度=录取率;对于选择题来说,难度一般应大于猜测概率;无论是速度测验,还是难度测验,一般都应防止被试得满分,因为满分的意义是不明确的。大体而言,难度为0.50时最理想,此时项目具有最大的鉴别力。但在实际操作中,让所有项目难度都到达0.50困难很大,而且也不必要,一般只需使项目的平均难度接近0.50,而各个项目的难度在0.50 0.20之间变化。,四、难度的等距变换根据正态分布表,将难度P作为正态曲线下的面积,转换成相应的Z分数,这就是等距量表。P Y 0 Z,美国教育服务中心以 作为难度指标:=13+4ZP=.0013 Z=+3=25P=.16 Z=+1=17P=.50 Z=0=13P=.84 Z=-1=9P=.9987 Z=-3=1,五、难度对测验的影响(一)测验难度影响测验分数的分布形态 难度大,正偏态 难度低,负偏态,(二)测验难度影响测验分数的离散程度测验过难或过易,分数全距缩小,信度降低。P=0.50时最佳,第二节 测验的区分度一、区分度的意义区分度(discrimination)是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。项目的区分度是测验是否有效的“指示器”。鉴别力分析的设想基础:如果单个项目与测验测的是同11、一特性,那么我们可以预期在测验上得高分的人正确回答这一问题的概率大,而在测验上得低分的人正确回答这一问题的概率低。鉴别力分析就是在这一设想的基础上进行的。项目的鉴别力就是其对于所测量的心理特性的区分能力。鉴别力分析的一般方法:鉴别力指数、项目-总分相关、项目间相关。,二、区分度的计算(一)项目鉴别指数法1鉴别指数(index of discrimination,D)的计算D=PH-PL取值范围:-1+1D为鉴别指数,PH为高分组在某个项目上的通过率,PL为低分组在该项目上的通过率。,例如:某小学数学测验,受测者共18人,高分组和低分组若各取总人数的27,则两组各为5人,第8题高分组5人全部答对,低分组1人答对,则第8题的鉴别指数为:D5/5-1/5=0.8D值是鉴别项目测量效标有效性的指标,D越高,项目的区分度就越高,项目就越有效。如果测验只是用来考查学生对一些基本知识和技能是否掌握,则不用考虑区分度。,一个测验项目向75名受测者施测,高水平组(测验总分中最高27)中有18名答对此项目,低水平(27)中有12名受测者答对此题目,那么此项目的区分度是多少?,2极端组的划分27%规则一般情况下,取上下25%33%均可。样本少时,可以取50%注意:由于计算机的方便使用,可以上下50%作为划分高低组的标准,或者多分几组,对区分度和难度作详细分析。因为只取上下两端,只利用了一部分资料,浪费了很多信息,有可能得出错误结论。,(二)相关法(项目-总分相关)1点二列相关,是受测者总量,是答对该项目的受测者量,是通过该项目的受测者效标分数的平均数,是所有效标分数的平均数,是所有效标分数的标准差,例如:假定有30人,他们测验总分的平均数和标准差分别是75和10,如果有17名受测者答对某个项目,他们测验总分的平均分数是80,那么项目的效度是多少?,一个测验的项目答对的 记1分,答错的记0分,这时项目的分数就是一个二分变量,而测验的总分则为连续变量,如果要计算该项目的区分度,就可用点二列相关公式:,通过该项目的受测者总分的平均值,未通过该项目的受测者的总分平均值,所有值的标准差,方差的计算:,例题:下表是某学校的15名学生的总分和某项目的解答情况,计算该项目与总分的相关系数。,(三)项目特征曲线(item characteristic curve,ICC)项目特征曲线描述了效标分数不同的被试在该项目上的通过率。曲线坡度越陡,鉴别力越好,预测的误差越小。,率概的目项答回确正,1.00,0.00,0.50,低 中 高能力,鉴别力较好,低 中 高能力,鉴别力为负,鉴别力较低,难度不同的3个项目的ICC,项目特征曲线:运用图象直观地显示了随着测验者某种心理特征水平的变化,正确回答某个项目的概率是如何变化的。项目特征曲线是现代心理测量学最有影响的理论之一-项目反应理论或称潜特征理论的基础。ICC归纳了项目分析的信息,显示了心理能力水平与项目反应之间的关系。当项目-总体相关为正时,ICC的斜率也是正的;当相关接近0时,ICC斜率也接近于0;当相关为负时,ICC斜率为负。,多项选择中每个选项的ICC,三、区分度与难度的关系,难度和区分度都是针对一定团体而言的。一般来说,较难的项目对高水平被试区分度高,较易的项目对低水平被试的区分度高。,四、区分度的相对性(一)不同的计算方法,所得区分值不同 区分度有几种计算方法?(二)样本容量大小影响相关法区分度值的大小 样本越大,区分度越(三)分组标准影响鉴别指数 分组越极端,区分度越(四)被试样本的同质性程度影响区分度值的大小 样本越同质,区分度越,第三节 项目分析的特殊问题一、多重选择题的项目分析(诱答分析)对于多重选择题,除了分析难度和区分度外,还要对每个选项进行分析。下列哪一个最有可能是偏执型精神分裂症患者的次级症状:A 幻听B 瘫痪C 记忆丧失D 厌食,如果所有被试都选择某一正确的选项,说明该选项 如果没有一个被试选择某个错误选项,说明该选项 如果所有被试都选择某个错误选项,说明该选项 如果高分组被试的选择集中在两个选项上,说明该选项 如果高分组和低分组对正确选项的选择没有区别,说明该选项 如果所有被试都未回答某个题目,说明该题 如果选择各个选项的人数几乎相等,说明该题,二、速度测验的项目分析 对前面部分的测验项目,难度和区分度都 对后面部分的测验项目,难度和区分度都三、标准参照测验的项目分析在标准参照测验中,无须考虑项目的难度和区分度,只要项目的内容很重要就行。也可以通过比较教学或训练的前测和后测结果来进行项目分析,用来说明教学或训练的效果以及项目编制是否适当。,四、项目-团体的相互作用 具有不同性质(性别、种族、职业等)的团体,在测验得分上也存在差异,即同样的项目可能有不同的难度。如果测验要求对所有个体都相对“公平”,那么,就应该排除那些有利于或不利于不同性质的亚团体的项目;如果测验的目的就是为了考察不同亚团体的差异,那么,就应选择使团体差异尽可能大的题目。,五、有效性与可靠性的矛盾 同质性信度要求项目之间有高相关,各项目的难度均等;对于预测效度来说,因为效标的变异范围较大,如果项目越同质,那么效标关联效度则低;因此,效标关联效度要求各项目之间要有一定的差异,即项目之间相关低,这样才能保证测验得分与效标之间有高相关,即高的效标关联效度。因此,对于多数心理测验来说,项目之间中等程度的相关,可使二者调和,获得较为满意的(同质性)信度和(效标关联)效度。,练习:选取一名同学作为你的观察对象,要求最好是观察你不了解的同学,或者你对他既无好感也没有不好的印象。在三次或四次以上的班会或其他活动中观察他,在不引起别人注意的情况下记录他的言行。你的观察应尽量客观,观察时要对固定的和典型的行为进行观察,同时还要记录那些不常出现的行为。,体貌特征:衣着打扮、身体描述(魅力、不寻常的特征等)行为:态度和情绪(合作、开朗或保守、友好或有敌意、防御等)运动行为:积极的和消极的、身体姿势、步态、举止),在观察结束阶段,写一份23页的观察报告,在这份报告中,不要对观察对象有任何评价(如其他同学是如何谈论他的,他在大学做得如何好等之类的),你将如何描绘他的个性和特征呢?最后,检查你的观察报告,找出与那些了解被观察者也对被观察者进行观察的人同的信息。在体验过用时间取样技术进行近距离观察之后,你对客观观察作为评估人格的方法有何看法?它是否可信?是否有效?是否有用?,Click to edit company slogan.,Thank You!,