心理咨询师培训心理测量学知识.ppt
心理测量,就其广义来讲,测量是按照法则给事物指派数字。史蒂文斯(Stevens),第一节 概述,一、测量与测量量表,测量的基本特征不在于有没有仪器,而是能否把事物加以区分定义:根据一定的法则用数字对事物加以确定。测量的要素:参照点(零点)绝对零点人为设定的零点单位有确定的定义有相等的价值,3.种类类别测量 只能对事物进行分类,具有区分性等级测量 能把事物分等,具有等级或序列性等距测量 能把事物作等距的分等,具有等距 性d.比率测量 能测量事物差异的比例关系,具有 可加性,不同水平的测量使用的统计方法也不同。类别测量 次数,百分比,2,列联相关等级测量 中位数,百分位数,等级相关,秩次检验等距测量 均数,标准差,积矩相关,T检验,F检验比率测量 几何均数,等比量数,四种测量在三个维度上的表现,心理测验就是通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析的一种手段。,行为样本、标准化、客观性,二、心理测验的基本概念,心理测验就是测量一个人对测验题目所发生的反应测验项目即引起某种行为的刺激。Because任何一种测验都不可能包含要测量的行为领域的所有可能的题目,So测验题目的取样必须有代表性。,心理测验(psychological test)是了解人心理的工具:名词.,心理测量Vs.心理测验,心理测量(psychological measurement)是以测验为工具,实现了解人类心理的实践活动:动词。,测验是一种工具,测量是使用这种工具的过程。,测量的范围更广:观察、面谈、个案研究等。,1、心理测验的间接性,心理测验的特征,2、心理测验的相对性,3、心理测验的客观性,对问题情境的反应来推论他的心理特质:即从外在行为模式来推知其内在心理特征。,没有绝对零点,只有一个连续的行为序列:参照点是相对的。,测验的标准化:减少主试和被试的随意性程度,尽可能地控制和减少误差。,按照测验功能归类,智力测验:Binet-Simon智力量表、Stanford-Binet量表、Wechsler成人智力量表、Raven推理测验,三、心理测验的分类,特殊能力测验:音乐能力、运动技巧能力,成就测验:测量人的学习效果及教育培训目标实现程度:知识、理解、应用、分析、综合和评价。,人格测验:问卷法投射法(罗夏墨迹测验),(2)按照测验目的归类,描述性测验:目的在于对人的能力、性格、兴趣、知识水平等进行描述、分析,进行某种评价,以确定其性质和程度。(智力测验),诊断性测验:目的在于对人的某种心理功能或行为特征存在的问题及障碍进行侦查和诊断,以确定其性质或程度。(SCL90),提示性测验(又称预测测验):目的在于测验的结果预示被测者未来可能出现的心理倾向或能力水平。,(3)按照测验材料归类,文字测验:由文字项目组成,由文字说明做法和作出回答。(Minnesota多相人格问卷、Eysenck人格问卷、Wechsler成人智力量表中的言语量表部分),非文字测验:项目多由实物、图片、模型之类的直观材料制作组成,测验多以操作方式进行。(Rorschach墨迹测验、Raven推理测验、Wechsler成人智力量表中的操作量表部分),(4)按照测验方法归类,问卷测验:将文字组成的各种问题(项目)作为刺激呈现给被测验者,并了解、分析其应答反应的结果。,投射测验:用没有明确意义和比较模糊不清的图片、照片或填充题等构成测验项目,观察被测验者的反应特点。,操作测验:用实物的或模型的工具构成测验项目,让被测者操作,观察其完成运作的速度和特点及准确性。,(5)按照测验形式归类,个别测验:每次测验过程以一对一的形式进行,通常只选取一个被测验者作为测验的对象。一般用于临床诊断测验。,团体测验:每次测验过程中由一个或几个测验者对数量较多的被测验者同时实施测验。这种测验一般用于广泛的心理健康调查。,四、正确对待和使用心理测验,(一)错误的测验观测验万能论测验无用论某些人格测验侵犯了个人隐私,违背民主原则测验为宿命论和种族歧视提供了心理学依据心理测验即智力测验,(二)正确的测验观,心理测验是重要的心理学研究方法之一,是决策的辅助工具测力测验作为研究方法和测量工具尚不完善,正确对待和使用心理测验,测验要保密(内容,结果)测验的资格选择合适的测验不能一测定终身综合其他评价指标实事求是报告测验结果,Basic principles of science,Why bad science is still around?,Color and Personality,Matching Priority?,Blue:MoneyRed:LoveYellow:FamilyBlack:CareerGreen:HealthPink:Friend,五、心理测验的用途,人员选拔和分配心理障碍的预测和诊断在评价和咨询用于教育中心理学研究中,心理测验在心理咨询中的应用,智力测验人格测验心理评定量表,心理测验举例,测量记忆力下面将依次出现20个词语,请尽量记住所以的词语。词语呈现完毕后,请立即会议你所看到的词语并写在纸上。准备好了吗?现在开始吧!,汽车,电脑,菠萝,电灯,铅笔,桌子,树叶,小偷,教材,水杯,教室,大海,长江,中药,工作,信封,磁盘,打印,面包,工人,现在请回忆你刚才看到过的词语,并将他们写在草稿纸上。你记住了几个呢?,OK!,六、常用的心理测验,(一)能力测验(二)人格测验(三)成就测验(四)职业测验,(一)能力测验,1.中国比内测验2.韦克斯勒智力量表 3.瑞文测验,(二)人格测验,目前国内常用的人格测验主要有艾森克人格问卷、卡特尔16项人格因素量表、明尼苏达多相人格量表等。,(三)成就测验,又称教育测验、学绩测验。主要有:综合成就测验:基础教育及基本技能最低限度测验单科成就测验预测性测验,在测验领域中,19世纪80年代是高尔顿的10年,90年代是卡特尔的10年,20世纪头10年是比奈的10年。美Boring,七、心理测量发展简史,(一)中国古代的心理测量思想及实践,1.思想孔子孟子刘劭2.实践韩非(董仲舒)“左手划方,右手划圆”周岁试儿,试射科举制,3.方法谈话法和纸笔测验填空和类比情景法4.器具博弈九连环八阵图七巧板,(二)西方心理测量的早期探索和尝试,冯特 在实验中发现人与人之间 的个体差异高尔顿 为了证明人的能力是遗传而来的卡特尔 完善高尔顿的做法,提出了心理测量的重要概念闵斯特伯格 把心理测量的思想和做法用于企事业中的人才选拔,(三)科学心理测量的诞生与发展,科学心理测量的创始人是比纳(Binet)。1905年他与助手西蒙编制了第一个智力测验-比纳西蒙智力量表。1905年出版的智力测验有30道题目,侧重于测量判断,推理和理解方面,测验结果是以答对的题数,没有一个客观的分数来评价智力水平。1908年比纳对测验做了修订,把题目按年龄来分组,并以智龄来报告测验的结果。,比纳西蒙智力测验被各国翻译和修订,其中最成功的是由美国心理学家推孟修订的斯坦福比纳智力测验,这个量表不仅使内容更完善,而且还改进了评价指标,提出了智商的概念。,二十世纪四、五十年代,心理测量快速发展,测验的形式和品种也有了不断的创新:操作量表团体测验教育测验人格测验特殊能力测验,(四)心理测验在我国的早期发展,1916年比纳量表传入中国1920年廖世承和陈鹤琴在南京高等师范学校开设心理测验课。1921年廖世承和陈鹤琴合著心理测验法1922年费培杰翻译比纳西蒙量表1924年陆志韦等人修订了中国版的比纳西蒙测验1931年中国测验学会成立1932年测验创刊1936年陆志韦和吴天敏再次修订比纳西蒙智力量表。,中国早年从事心理测验的心理学家陆志韦 智力测验肖孝嵘 人格测验艾伟 学科测验张耀翔 识字测验,(五)近20年来我国心理测量和测验发展概况,测验的种类越来越齐全测验对象以儿童为主问卷测验形式居多测验越来越普及,第二节 测验的常模,一、原始分数和导出分数,原始分 按照测验手册的规定,对每一题进行评分,总加后得出了测验的原始分。原始分没有意义,因为从中并不能看出水平的高低或特征的倾向性。原始分是一种任意的分数,是测验编制者主观规定的。不同测验的原始分不能相互比较,因为它们的价值不一样。,1.对原始分数的统计处理,1)频数统计 把分数按适宜的组距分组,然后统计每组的频数。,频数分布所提供的信息也可以用分布曲线图来描绘。,频数统计的目的之一是要检验分数的分布是否呈常态形状。如果不呈常态,那就是样本不能代表全域。另外在把原始分转换为标准分的时候也有麻烦。,2)分数集中趋势的描述 以一个最有代表性的分数来表示整个团体的成绩。平均数 众数 频数最多的分数 中位数 按大小排列时最中间的分数3)标准差,导出分数,为了解释测验的结果,要按照统计学的原理把原始分转化为某一种导出分数。这种导出分数具有一定的单位,参照点和连续体,也就是通常所说的测验量表。,目的:1.指出个体在标准化样组中的位置,即参照他人来对他进行评价;2.提供可比较的量度,从而使对个体在不同测验中的分数比较成为可能。类型:百分等级 标准分数 T分数 以上统称为常模参照分数,二、标准化样组和常模,标准化样组 以一个能代表全域的样组作为测验对象,测试后所得分数经过统计,转换,最后构成了一个测验的常模。,标准化样组选择的条件 要选择一个能代表全域的样组在方法上很有讲究。心理学上有几条原则能保证获得一个标准化的样组。1.充分考虑到与测验有关的变量(年龄,性别,地区,受教育程度,职业等);2.规模要适当;3.选择合适的抽样方法,抽样方法,简单随机抽样分层抽样整群抽样,常模,常模是测验分数的总体分布形态,一般用测验分数的平均数和标准差来表示,它能对个体的分数加以解释。常模就是各种导出分数,由于这些导出分数具有相等的单位,所以它能比较各种不同的分数。常模具有相对性,只能用来解释一个测验范围内的情况。,常模有两种形式:1.发展常模 表示某一年龄心理发展的平均水平,用于衡量被试已经达到的发展水平。2.组内常模 表示具有同一身份的人的平均水平。,三、发展量表和发展性常模,发展量表表示个体按正常途径发展,其心理特征方面处于什么样的发展水平。发展常模就是把不同年龄阶段的平均表现制成常模。发展常模的分数比较粗糙,所以不能用于精确的统计处理,但它能用于某些描述,临床病理诊断和研究。发展性常模有以下几种类型:,智龄 以年龄作为尺度来衡量一个人 的智力水平年级当量 以年级平均数为参照点的 一种常模分数顺序量表 按照行为发生的一定顺序来判断发展的正常与否,四、组内常模和量表,组内常模就是把个体的分数与测验范围内的整个团体作比较,以此来确定水平的高低或能力的强弱,组内常模有各种形式。,百分量表 把测验的原始分数分成100个单位或等级。制作百分量表的最简单方法是先计算累积频率分布。按照原始分数从低到高的顺序累加,绘制出累积次数分布图,每一分数所对应的累积百分比就是该分数的百分等级。,百分量表是一种等级量表,它所使用的单位不是等距的,所以把原始分数转换成百量表是一种非线性的转换。在平均数附近的差别会被放大,而位于两端的差别却被大大缩小了。,由于是等级量表,所以百分量表的分数不能进行加减乘除的运算,许多统计方法都无法使用。其优点是易于理解,用途广。,标准分数,标准分数又称Z分数,这是等距量表中最常用的一种分数,它有等距的单位。标准分数是以平均数为参照点,标准差为单位的一种量表分数,它将原始分与平均数的距离以标准差为单位来表示。把原始分数转换成标准分数是一种线性的转换,所以转换后的分数能保持原始分数准确的数量关系和分布形态。,标准分数的优点:可以进一步运算;可比较两个不同测验的分数。标准分数的缺点:计算依据比较复杂的统计原理,难以使不懂统计的人理解;有负数,应用不便,而且单位太大;原始分如果畸变,标准分不能使分布有所改进。,标准分数的几种形式,1.一般Z分数 公式:Z分数的平均数为0,标准差为1。由于均数为0,所以Z分数会有负值。另外标准差的单位太大。,2.常态化Z分数 在原始分数非常态化的情况下,在转换为标准分数前,先把原始分转换为百分位数,而百分位数与标准分数有一个固定的关系,所以可以通过查表而获得Z分数。这样一种把非常态原始分转换为Z分数的过程称为常态化。,3.Z分数的几种转换形式 1)T分数 Z分数乘上10,再加上50,就得到T分数。公式:T=50+10z 2)Y分数 Z分数乘上100,再加上500,就得到了Y分数。美国大学入学考试(SAT)和托福考试就是使用这样的分数。公式:Y=500+100z,3)离差智商 离差智商的各分量表的计算方法为 10+3z 全量表的计算方法为 100+15z 4)标准十 公式:5.5+2z,4.标准九(标准化九级分制)把测验分数转换成只有9个分数的量表。标准九的平均分数为5,标准差为2。要把原始分数转换成这样一种量表分,只要先把原始分数转换成百分位数,然后通过查表即可获得标准九分数。-标准九分 1 2 3 4 5 6 7 8 9百分比率 4 7 12 17 20 17 12 7 4-,五、标准参照测验及其分数解释,标准参照测验与常模参照测验的不同之处在于:常模参照测验的分数反应了一个人在所属群体中的相对位置,而标准参照测验的分数标志一个人能力或知识的绝对水平。所以常模代表了某一群体的真正水平,而标准则是希望达到的目标,它有很大的人为性。标准参照测验在对测验结果进行评价时不是以常模为标准,而是根据特定的操作标准和行为领域,对个体作出是否达标或达到什么程度的判断,它不与其他人的分数比较。,(一)标准参照测验的类型:,内容参照测验 测量被试对规定范围内的内容的掌握程度。结果参照测验 如果已知测验分数与某个外部效标有关,那么可以用被试在效标上的表现直接解释测验分数。掌握参照测验 测量被试是否达到预先制定的掌握水平。,(二)标准参照测验的优点,1.有利于个人激发学习动机去努力达到目标。2.测量到个体的绝对水平,对个别教育计划的制定有参考意义。3.容易被教育工作者接受。,(三)标准参照测验的分数解释,1.内容参照分数 依据被试对某个确定的内容的掌握程度或熟练程度来解释分数。1)掌握分数 确定一个表示掌握的最低分数。2)正确百分数 正确回答测题的比例。公式:,然后以80%作为达标的标准,判断一个被试是否达标。3)标准分数 既能确定是否达标,又能评定达到哪个等级。先确定等级的数量,再确定将标准分数分成几段(范围-3-+3)。,2.结果参照分数 1)期望表 表示一个原始分数获得不同效标分数的机会有多大。期望表的制作是先对测验分数和效表分数分组,计算出测验分数与效标分数每一种组合的人数及其比例,再制成表格即可。,-标准九分数 淘汰的可能百分比-9 4%8 10%7 14%6 22%5 30%4 40%3 53%2 67%1 77%-,2)预期的效标分数 将每一个测验分数可能得到的效标分数用图或表格的形式呈现出来。,六、常模表和剖面图,常模表 把原始分数与某一种或几种量表分数的关系制成表。1.简单转换表 把原始分与一个或几个量表分列在一张表中。,2.复杂转换表 1)几个原始分数在一张表中转换成量表分,2)把同一个原始分在不同测验中的量表分列在一张表中。,把测验结果以图的形式呈现,直观地呈现分数。,二.剖面图,信度的意义1信度指实测值和真值相差的程度2信度指统计量与参数之间的接近程度3信度是指一种测验对相同的应试者再次测验时引起同样反应的程度信度系数的计算1稳定性系数2等值性系数3等值稳定性系数4内部一致性系数5评分者的信度系数,第三节 测验的信度,三、提高测验信度的方法1信度系数以多大为宜2影响信度的因素3提高测验信度的方法,请列举一些你所使用过或接触过的量表,思考:量表的作用是什么?,你如何解释下述现象?,一个很聪明的孩子,测得智商是80分一个学习很好的学生,考试成绩为60分一个人缘很好的人,人际关系测量低于常模值,量表帮助我们了解心理现象(心理特质),就像尺子帮助我们测量身高。,思考:我们如何知道我们有多高?有两个工具:尺子/秤,尺子的数据与我们的目测更一致,而秤盘的数据则与我们的目测不一致。因此,尺子是测量身高的有效工具效度。,什么材料的尺子?钢铁(热胀冷缩)涉及到一致性的问题。信度,总结:量表是我们用来了解心理特质的工具,但这个工具是有误差的。误差要控制在一个许可的范围内。,信度(reliability):测量结果的一致性和可靠性。,一、信度的概念,什么是误差?误差的种类?误差是在测量中与目的无关的变因所产生的不准确或不一致的效应。误差分为随机误差和系统误差。,SX2,ST2,一组测验分数的真实分数方差与实得分数方差的比:rxx=ST2/Sx2=1-SE2/Sx2,误差理论:一个人的测验实得分数(X)是由真分数(T)和随机误差分数(E)两部分构成,即:X T E,信度定义一,信度乃是一个被测团体真分数的变异数与实得分数的变异数之比。rXX=ST2/SX2,信度的定义二,信度乃是一个被测团体真分数与实得分数的相关系数的平方。rXX=P2TX思考:相关系数的平方?,信度的定义三,信度乃是一个测验X与它的任意一个平行测验X的相关系数。rXX=PXX,A卷:你是一个喜欢热闹的人吗?,1=绝对是 2=是 3=不一定 4=不是 5=绝对不是,B卷:你是一个喜欢安静的人吗?,1=绝对是 2=是 3=不一定 4=不是 5=绝对不是,二、信度的估计方法,(一)重测信度(Test-Retest Reliability)定义:同一量表,同一被试群体,在不同时间,两次施测,求其相关。实质:表示测验结果的稳定性。故称之为稳定性系数(Coefficient of Stability)形式:施测适当时间再施测,时间间隔的把握,间隔时间越长,稳定性系数越低。适宜时间间隔依照测验目的、性质及被试特点而定。几分钟至几年。年幼儿童,间隔要小;年长群体,间隔可大。智力测验的间隔不能太短,成就测验的间隔不能太长。一般间隔时间不超过六个月。(即不能让被试记住上一次测验的内容,又不能让其特质发生变化,或对所学知识产生遗忘),(二)复本信度(Alternate-form raliability),因为任何测验只是所有可能题目中的一份取样(行为样本),所以可编制许多平行的等值测验,叫做复本。,复本等值要符合下列条件:,各份测验测量的是同一种心理特性。各份测验具有相同的内容和形式。各份测验的题目不应重复。各份测验题目数量相等,难度和区分度大体相同。各份测验的分数分布(平均数和标准差)大致相等。复本编好后,应再测一次,以确保各份测验的等值。,定义:两个复本施测同一被试群体,求其相关。,等值性系数:同时连续施测,反映内容变异。形式:复本A最短时间复本B稳定性与等值性系数:时间间隔施测,内容变异重测信度误差形式:复本A适当时间复本B,(三)内部一致性信度(internal reliability):指测验内部所有题目间的一致性,即测的是同一种心理特质或行为,又称同质性(题目间呈高正相关)。分半法实际上就是对测验内部一致性的一个粗略估计。,因为可以根据测验得分来推论或验证某种概念或理论构思,所以同质性信度也是一种构思效度,即结构效度。,(三)内部一致性信度分半信度(Split-Half Reliability),定义:在测验没有复本且只能实施一次的情况下,可将测验项目分成对等的两半,根据被试在这两半测验中所得的分数计算相关系数,即得分半信度。计算分半信度先要对测验分半。不同的分半法可能会得到不同的信度值。,分半信度(Split-Half Reliability),为了使两半基本等值,可将项目按由易到难的顺序排列编号,然后按奇数和偶数序号将项目分半。要注意使那些性质相同、联系紧密的项目分在相同的一半,否则会使信度值偏高。由于分半信度实际上只是半个测验的信度,测验越长、项目越多,两半分数的相关就越高。因此,对长度不同的测验,要用校正公式。,分半信度求得的只是半个测验的信度,经常会低估信度,因此要加以修正斯皮尔曼-布朗(Spearman-Brown)公式:rxx=2rhh/1+rhh,分半信度注意事项,奇偶分半法:(1)如遇到有牵连的项目或一组解决同一问题的项目时,这些项目应放在同一半,否则会高估信度的值。(2)当试卷中存在任选题时,不宜采用分半法。,分半信度注意事项,(三)内部一致性信度同质性信度(Homogeneity Reliability),同质性指测验的所有题目测量的是同一种心理特质,表现为各个题目得分之间有较高的相关,相关越高则同质性越强。因素分析的思路,(1)库德-理查逊公式(Kuder-Richardson):适用于二分法记分的测验:答对一题得一分,答错无分。K-R20rkk=(K/K-1)(1-piqi/Sx2)K-R21rkk=KSx2-X(K-X)/(K-1)Sx2,内容一致性信度,(2)克伦巴赫系数(Cronbach):适用于非二分法记分的测验,即多重记分的测验。=(K/K-1)(1-Si2/Sx2),内容一致性信度,(四)评分者信度(Scorer Reliability),评分者信度是指不同评分者之间在测验结果计分上的一致性。在心理测验中,评分者信度的计算,通常是随机抽取若干份试卷,由至少两位受过训练的评分者按计分规则分别判分,然后计算它们的相关。几个评分者的评分越一致,评分者信度越高。,评分者信度(Scorer Reliability),最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。如果评分者在三人以上,而且又采用等级记分时,就需要用肯德尔和谐系数来求评分者信度。,如果是两个评分者,则采用积差相关或等级相关的方法,一般认为经过训练的成对评分者之间的一致性达0.90以上,评分才是客观的;如果是多个评分者,则采用肯德尔和谐系数(Kendall coefficient of concordance)来估计信度。,评分者信度,当rxx 0.70时,测验不能用于对个人作出评价或预测,而且不能作团体比较;当0.70 rxx 0.85 时,可用于团体比较;当rxx 0.85 时,才能用来鉴别或预测个人成绩或作为,一般能力与成就测验的信度系数常在0.90以上。,信度系数的范围,估计信度的方法与测验复本的数目以及施测次数的关系,在一般情况下,间隔施测的副本信度最低,因为很多因素有机会影响到分数。相反,校正过的分半相关,因为影响的因素少,所得的信度估计为最高。,各种信度系数相应误差变异的来源,实际上,有多少种误差来源,便有多少种估计信度的方法。一个测验哪种误差大,便应该用哪种误差估计。有时一个测验需要有几种信度系数,这样我们就把总分数的变异数分成不同的分支。,一个假想测验的误差变异来源分析,一个假想测验的误差变异来源分析,(一)测验的长度:一般说来,测验越长,信度越高。(1)测验越长,即题目越多,测验的内容取样就越可能有代表性,从而能更好地反应受测者的真实水平;(2)测验越长,被试的猜测因素影响就越小。,三、影响信度的因素,增加测验长度的效果可以用斯皮尔曼-布朗(Spearman-Brown)公式:rxx=Krhh/1+(K-1)rhhK:改变后长度与原长度之比,测验长度之修正,(二)测验的难度:难度对信度的影响只存在于某些测验中,如智力测验、成就测验等。若测验过难或过易,则被试的分数会集中在低分区或高分区。两者皆使信度样本的得分范围变窄,从而降低信度。只有当测验难度水平可以使测验分数的分布范围最大时,测验的信度才会最高,通常这个难度水平为0.50。,影响信度的因素,(三)测验的时间间隔:这一因素只对重测信度和不同时测量时的复本信度有影响,对于其余的信度来说不存在时间间隔问题。,影响信度的因素,一、效度(validity):测量的有效性,即所测量的与所要测量的心理特点之间的符合程度。,第四节 测验的效度,与目的有关的真分数在实测分数中所占的比例 实测分数=真分数+误差(随机误差)与目的 与目的 有关 无关(系统误差),一组测验中,与测量目标有关的真实分数方差与总方差之比:rxy=Sv2/Sx2,效度不是直接就可以测量到的,它是从已有的证据推理而来的。,影响效度的误差来源,1.测验题目不能反应要测量的特征.2.实施过程偏离了标准化的程序.3.被试不如实回答.,有高效度一定就有高信度,但是有高信度不一定有高效度。效度是信度的前提,只有在测量准确的前提下,才能去考察测验结果的稳定性和一致性。信度系数的平方根是效度系数的最高限度,即效度系数的最高限度是信度指数。,效度和信度的关系,(一)内容效度(content validity):根据测验题目对有关内容或行为取样的适用性,从而确定测验是否是所欲测量的行为领域的代表性取样。,二、效度的类型与估计方法,(1)专家判断法:定义好测验内容的总体范围,编制双维细目表,确定内容的具体细节各自所占的比例,由每位评判者在评定量表上作出判断。,内容效度,(2)统计分析法:计算两个评分者之间评定的一致性(评分者信度);两个测验复本上得分的相关性(复本信度);重测法也可用于内容效度的评估。,内容效度,(3)经验法:通过实践来检验效度。,内容效度,要使测验的内容效度高,必须有两个条件:内容的范围或行为总体界定明确;测验题目应该是所界定的内容范围的代表性样本。,内容效度与表面效度的区别,表面效度是指测验看起来所要测量的东西,是被试或外行看来是有效的测验.表面效度与内容效度并不总是一致的.表面效度能间接影响测验的效度,所以测验编制时也要适当关注表面效度.,提高内容效度的方法之一:编制命题的双向细目表,(二)构想效度(construct validity):测验对理论上的构想或特质的测量程度。,效度的类型与估计方法,某一智力理论的四项假设:1.智力随年龄而增长;2.智商是稳定的;3.智力与学业成绩有密切关系;4.智力受遗传的影响.,某注意力的理论,注意有如下特征:1.稳定性2.集中性3.转移性4.分配5.范围,(1)测验内法:通过测验内部结构,如测验的内容以及题目间的关系等来分析界定测验的理论构思。(系数可以推估测验所测的是单一特质还是多种特质),构想效度,(2)测验间法:通过对几个测验的比较研究,找出它们所测的共同特质,这样便可确定这些测验是否具有构想效度。,构想效度,区分效度:一个有效的测验不仅与其他测量同一构想的测验有较高的相关,而且还应与测量不同构想的测验具有较低的相关。数学推理能力测验,(3)效标关联法:根据效标分成相对照的两组,比较测验成绩,观察分析测验高分组与低分组的心理特质。,构想效度,(三)效标效度(ctiterion validity):衡量测验有效性的一个重要方法是看根据测验所做出的预测是否证实,如果一个测验的预测与将来实际发生的事情非常接近,那么这就是一个好测验。,效度的类型与估计方法,用大学入学考试来预测被试入学后的学习,如果预测准确性高,便说明这是一个好测验。在这里,被预测的行为是衡量测量是否有效的标准,简称效标。因为效标效度需要有实际证据,所以又叫实证效度。,效标效度,效标即衡量测验有效性的外在标准,通常是指我们所要预测的行为。,效标效度,(1)效标本身必须有效;(2)效标必须有较高信度,不随时间等因素而变化,即稳定可靠;(3)效标可以客观地加以测量;(4)效标测量须尽可能简单、省时、花费少。,效标效度的计算方法,1.相关法 求取测验分数与效标变量之间的相关程度,即效度系数.,1)积差相关 在两组数据都是连续变量,且两者存在线性关系时使用公式:,2)二列相关 在测验分数和效标这两个变量中一个是连续变量,另一个是二分变量时使用.公式:,例:智商与学校类型的关系p 重点中学被试百分比 66/302=0.1875q 普通中学被试百分比 286/302=0.8125 重点中学被试智商均数 114 普通中学被试智商均数 96St 总体标准差 14.53y 常态曲线下,p 所对应的纵轴高度 0.2685,3)多元相关 在测验分数和效标变量中有一个是连续变量,另一个是二分以上的变量时使用.用Juspen公式4)四格相关 在两组变量都是二分变量时使用 用皮尔逊余弦 法.,2.区分法,以被试在效标上的表现分组,然后再对两组被试在测验中的成绩用t值进行显著性差异的检验.公式:,区分法的缺点是如果样本规模大的时候,没有显著性也能算出显著性差异来,所以要配合重叠量的使用.,.以称职组的平均数为指标,看两组中超过这一平均数的人次百分比.比例越低说明差异越大,如称职组的平均数为6.05,不称职组超过此分数的有7人,称职组超过这一分数的有38人,人次比为7/38,重叠的部分为18%,差异很大.,.统计称职组中分数低于不称职组平均数的人数,和不称职组中分数高于称职组平均数的人数.然后两数相加,再除以总人数.如:称职组20人,不称职组20人,不称职组中分数超过称职组平均数的有7人,称职组中分数低于不称职组平均数的有3人,那么 有25%的重叠部分.,.算出两组人分数分布共同区域的百分率,即重叠的区域,如重叠区域越大,说明差异越小,而重叠小说明测验有效.,3.命中率,测验有效性的指标之一就是作出正确决定的比率,即决策的命中率.,(一)测验本身:测验材料必须对整个内容具有代表性;测题设计时应尽量避免容易引起误差的题型;测题难度要适中,具有较高的区分度;测验长度要恰当,三、影响效度的因素,(二)测验的实施:在测验时不遵照指导语,被试作弊,测验环境太差,评分标准不客观、记分错误等等,都会影响测验的效度。,影响信度的因素,(三)被试:被试的兴趣、动机、情绪、态度、反应心向和身体状况等都会影响反应,从而影响测验的效度。,影响信度的因素,(四)效标:效标测量的可靠性以及效标和测验分数的关系类型也会影响效度。,影响信度的因素,项目分析:根据被试的反应,对组成测验的各个题目(项目)进行分析,包括定性分析和定量分析,以帮助筛选和修订项目。,第五节 项目分析,难度就是项目的难易程度。一个项目的难度大小,除了与所测内容本身的难易程度有关以外,还与测验的编制技术和被试的知识经验有关。由于表述不清或者是因被试没学过,一个本来容易的项目可能变得较难。,一、难度,(1)是非题、判断题P=R/N100,难度的计算方法,用通过率(答对该题的人数占总人数的百分比)代表难度时:P值越大难度越小,P值越小难度越大,故有人将其称为易度。,难度的计算方法,当被试人数较多时,可以先将被试依照测验总分从高到低排列,然后将总分最高的27和最低的27的被试定为高分组和低分组,分别计算两组在某一项目上的通过率,最后计算该项目的难度:P=(PH+PL)/2,难度的计算方法,在选择题中,由于允许猜测,备选答案数目越少,机遇的作用越大,就越不能反应题目的真实难度,为平衡机遇对难度的影响,可用公式校正:CP=(KP-1)/(K-1)K:备选答案数目,(2)论述题P=X/Xmax100,难度的计算方法,(1)学业考试;检查掌握情况(2)人员选择;录取率为40,则P0.40(3)选择题;难度随机答对的概率(4)人格测验;,难度水平的确定,P0.50 正态分布P 0.50 负偏态分布,难度水平与分数的关系,区分度就是测验项目对被试心理特性的区分程度。,二、区分度,D=PH-PLD为鉴别指数,值越大,项目的区分度就越高,项目越有效。1965年,美国测验专家伊贝尔(L.Ebel)根据长期的经验提出用鉴别指数评价项目性能的标准。,(1)鉴别力指数,项目鉴别指数与评价标准,二列相关:适用于两个连续变量,但其中一个变量被人为分成两类(如高与低、及格与不及格)。rb=(Xp-Xq)/St pq/yy为标准正态曲线中p值对应的高度,查正态分布表能得到。,(2)相关法,点二列相关:适用于一个变量是连续变量,另一个变量为二分变量(如选择题对为1,错为0)的数据资料。rpb=(Xp-Xq)/St(pq)1/2,(2)相关法,相关:当两个相互关联着的变量都是真正的二分变量时,用phi系数(phi coefficient),因为它又可以运用列联表(contingency table)计算,故又称为列联系数(contingency coefficient)。r=(ad-bc)/(a+b)(a+c)(b+d)(c+d)1/2,(2)相关法,(1)r(相关)、rpb(点二列相关)和鉴别指数D偏好中等难度水平,即中等难度时这些指标最好,区分度最好。,区分度与难度的关系,(2)项目难度与鉴别指数D的关系:,区分度与难度的关系,(1)当测验用于选拔或诊断时,应较多地选择难度值接近录取率的项目。如选拔提高难度,诊断降低难度。,项目分析注意事项,(2)对于选择题来说,P值一般应大于随机作答正确的概率水平。如是非题,难度应该为0.75最合适;而对于四选一的题目,其难度约为0.63时最合适。,(3)为了使测验具有更大的鉴别力,应选择难度在0.50左右的试题比较合适。,项目分析注意事项,(4)区分度取值范围介于-11之间,假如项目得分与实际能力之间呈负相关,则区分度为负。这种情况一般很少发生,如果出现,该项目应该淘汰。,第六节 心理测验的编制,编制心理测验一般要经过以下几个步骤:确定测验的目的,制定编题计划,编辑题目,题目的试测与分析,合成测验,将测验标准化,对测验的鉴定,编写测验说明书。,一、测验的目标分析,1、测验对象2、测验用途3、测验的目标,1、测量对象,在编制测验时,应该考虑接受测验的团体的组成和特点。如年龄、智力水平、受教育程度等因素。,2、测验用途,指测验作什么用。测验有许多不同的功能,而测验的编制程序由于其目的不同而有许多变化,而且在编题时题目的范围和难度都有差异。按测验的目的分类,测验可以分为显示性测验和预测性测验。当测验的题目和希望测量的行为相似时,该测验是显示性测验;当测验是用来预测一些没有受到测量的行为时,该测验就是预测性测验。,3、测量目标,测量目标指所编测验是用来测量什么心理变量或行为特征的。测验目标必须具有操作定义,即目标要非常具体,如测量语文理解能力的目标可定为测量阅读时理解文义的能力。,测量目标,工作分析:对所预测的行为活动作具体分析。确定哪些心理特征和行为可以使要预测的活动达到成功。建立衡量被试是否成功的标准(效标)。,测量目标,对待定概念下定义下定义,发现该特质所包含的维量将通过什么行为表现出来或怎眼进行测量。例:创造力,发散思维的能力,流畅性、灵活性、独创性、详尽性,测量目标,确定测验的具体内容描述性的显示测验:确定显示的内容和技能成就测验:双向细目表(内容材料维度、行为目标维度),帮助决定选择哪些方面的题目以及各题目所占的比例。,二、制定编题计划,编题计划通常是一张双向细目表,指出测验所包含的内容和要测定的各种技能,以及对每一个内容、技能的相对重视程度。编制测验计划有两个用途:在编题阶段,测验计划指出应该写多少和写哪些种类的题目;题目编好后可将题目的实际分布情况与测验计划对照,以确定测验题目是否恰当地代表了所要测量的领域,核对重要方面的内容是否有遗漏。在记分时可按表中百分比确定每类题目的分数。,小学高年级自然常识测验的编制计划(双向细目表),三、测题的编写,1.收集有关资料,一个测验的好坏和测验材料的选择适当与否有密切关系。因此,在收集材料时,应该尽量将资料收集齐全,这样测验的内容就不会偏颇,而且能提高行为样本的代表性。比如在编制人格测验时,收集的材料应该包括:人格的主要理论,用于描述人格的术语,临床观察的资料,以及其他人格调查表的题目等。另外,材料要有普遍性,所选择的材料对测验对象要尽可能公平,即受测者都有相等的学习机会。如,在编制智力测验时要尽量避免特殊知识经验和文化水平的影响。,2.命题的一般原则,内容方面避免贪多而乱出题目;题目的格式要不被人误解。文字方面使用准确的当代语言,避免使用生僻的字句或词汇;语句简明扼要一句话说明一个概念,尽量少使用双重否定句,命题的一般原则,理解方面测题的内容不能超出被试团体的知识和能力范围.内容取样要有代表性,符合测验计划的内容,比例适