心理与教育测量考试版.doc

上传人：laozhun

文档编号：4108647

上传时间：2023-04-04

格式：DOC

页数：8

大小：39.50KB

《心理与教育测量考试版.doc》由会员分享，可在线阅读，更多相关《心理与教育测量考试版.doc（8页珍藏版）》请在三一办公上搜索。

1、心理与教育测量考试版1. 测量就是依据一定的法则使用量具对事物的特征进行定量描述的过程。测量的基本要素：参照物分为绝对参照物（以绝对的零点作为测量的起点），相对参照物（以人为确定的零点为测量的起点）。相对参照点只能进行加减运算，而不能进行乘除运算，因为两个值之间没有倍数关系。测量的单位，要有确定的意义，即对同一单位，所有人的理解都是相同的；要有相等的价值。2. 量表是能够使事物的特征数量化的数字的连续体，有一定参照点和单位。分为命名量表（只是用数字代表事物或用数字对事物进行分类，数字只是事物的符号，而没有任何数量的意义，不能作常用的数量化分析，不能进行代数运算。又细分为名称量表，类别量表）顺序

2、量表（不仅能够指代事物类别，而且能够表明不同类别的大小，等级或事物具有某种特征的程度。这种按照事物的大小，等级，程度而排列数字的量表叫顺序量表。既没有相等的单位，也没有绝对的零点，换言之，既不能表示事物特征的真正的数量，也不表示绝对的数值，不能进行代数运算。）等距量表（不仅能够指代事物的类别，等级，而且具有相等的单位。数字是一个真正的数量，这个数量中各个部分的单位是相等的，可以进行加减运算。没有绝对的零点，不能进行乘除运算）比率量表（具有类别，等级，等距的特征外，还具有绝对的零点，不仅可以知道测量对象之间相差的程度，还可以知道它们之间的比例。）3. 心理与教育测量：依据一定的心理学和教育学理论

3、，使用测验对人的心理特质和教育成就进行定量描述的过程。特征：间接性（行为推论心理）；相对性（平均水平为标准）；客观性（对外在行为的客观测量，不以人的主观意志转移，可重复）4. 心理测验：对行为样本的客观的和标准化的测量。基本要素：行为样本（一组能够代表行为总体，并且借此有效推论所欲测量心理特征的行为）标准化（心理测验质量最关键的保证，测验的一致性程度，是对随机误差控制的过程。具备条件：A测验内容的标准化；B施测条件的标准化相同的测验情境，相同的指导语，相同的测验时限；C评分规则的标准化；D测验常模的标准化。）客观化（各环节不受主观支配，可重复）难度或应答率信度和效度（最基本的指标，最重要的指标

4、）5. 心理测量与心理测验的比较：相同点-都是对人心理活动量化的过程；不同的测量的含义更广泛，包含测验；心理测验具体的测验活动，具体的测验工具。6. 心理与教育测验的种类：按测量对象分为智力测验（斯坦福比内量表，韦克斯勒智力量表，瑞文推理测验），能力倾向测验（在测量个人的潜在才能，预测个人的能力发展倾向。分为一般能力倾向测验，测量个人多方面的潜能；特殊能力强项测验，测量个人的特殊潜在能力），成就测验（旨在测验接受教育后的学业成就，分为学科成就测验，综合成就测验），人格测验（分为自陈人格问卷，如明尼苏达多相人格调查表，16PF，艾森克人格问卷；投射测验，如罗夏克墨迹测验，主题统觉测验）按测量方式

5、分为个别测验（以个别对象作为被试的测验，能准确全面评估特征，但耗时长）和团体测验（以一群人作为被试的测验，效率高，信度效度差一点）。团体测验可用于个别测量，但个别测量不能用于团体测量。按测验内容形式分为文字纸笔测验（呈现符号等刺激，但容易受被试文化背景的影响，降低测验的效度）和非文字操作测验（操作性，通过操作完成，适用于文盲，不同民族文化的人）按测验功能分为成就测验与预测测验；难度测验与速度测验；描述测验与诊断测验按评价所参照的标准分为常模参照测验，与常模比较；目标参照测验，与绝对标准比较；潜力参照测验，与自身潜力比较。7. 心理与教育测验的功能：理论研究功能（收集研究资料，建立和检验理论驾驶

6、，实验分组。共性与个别差异性）；实际应用功能（选拔人才，人员安置，心理诊断，描述评价，心理咨询）8. 心理测量的历史：思想源泉：孔子；历史A萌芽阶段19世纪末20世纪初，奠基者高尔顿（发明测量仪器；应用评定量表，问卷法，自由联想法的先驱；扩充了百分位法，创造了简单的相关系数的计算方法，皮尔逊继承和发展为积差相关公式），卡特尔（心理测验与测量首次提出心理测验的术语）B产生阶段-比内（第一个智力测验量表，1905年）C发展阶段-智力测验的发展推孟（采用比率智商表示智力水平的高低）；陆军甲乙种测验，团体测验，前者文字测验，后者非文字测验；斯皮尔曼（首先运用因素分析方法研究智力结构，提出智力结构的“二

7、因素理论”）；韦克斯勒儿童，成人，幼儿智力量表。能力倾向测验的发展。成就测验的发展桑代克（第一个标准化的教育成就测验，教育测验的鼻祖）凯利，鲁奇和推孟第一个成套成就测验“斯坦福成就测验”。人格测验的发展。9. 我国心理测验发展：1917年，樊炳清首先向国人介绍了比内西蒙智力量表；1931年成立了中国测验学会。10. 心理特质：一个人身上所特有的相对稳定的行为方式为人的心理特质。心理特质的可测性：心理特质行为总体行为样本测验分数心理特质。11. 测量误差：在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。种类：随机误差（由与测量目的无关，偶然因素引起的而不易控制的误

8、差）；系统误差（由与测量目的无关的变因引起的一种恒定而有规律的效应，稳定存在每一次测量中），系统误差只影响测量的准确性，不影响稳定性，而随机误差既影响稳定性又影响准确性。抽样误差：抽样要有代表性，抽样方法是随机抽样，机械抽样（进行排序，隔一定距离按一个），分层抽样（考虑总体和亚团体及标准差，异质，若亚团体s小，则差异小，则抽取个数少）12. 测量误差来源：测量工具（通常是一套以测验问卷为核心的刺激反应系统，通常称为量表。测题内容，数量，类型，指导语，时间）被测对象（动机，练习效应，生理变化）施测过程（环境变化，主试特点，评分程序）13. 真分数：反映被试某种心理特质真正水平的数值称为该特质的真

9、分数，即测量中不存在随机误差时的值。把实测的分数称为观察分数。数学模型：X观察分数=T真分数+E随机误差。假设公理：若一个人的某种心理特质可以用平行测验反复测量足够多次，则其观察分数的平均值会接近于真分数。真分数和误差分数之间的相关为零。即（T，E）=0各平行测验上的误差分数之间相关为零，（E1，E2）=0。说明E是随机误差，没有包含系统误差在内，说明E是服从均值为零的正态分布的随机变量。根据CTT模型和假设，推导出SX2=ST2+SE2。只涉及随机误差的变异，系统误差的变异包括在真分数的变异之中，即真分数可以分为与测量目的有关的变异SV2和与测量目的无关的变异SL2，即ST2=SV2+SL2

10、，则SX2=SV2+SL2+SE2。这就是说，一次测验中，一个团体的实测分数之间的变异性是由与测量目的有关的变异数SV2，稳定的但出自无关来源的变异数SL2和测量误差的变异数SE2决定的。不足：X观察分数=T真分数+E随机误差本身存在不足；样本的影响测验难度，效度，信度，区分度对不同样本的影响；平行测验是不是真的平行。14. 信度：用同一个测验对同一组被试施测2次所得结果的一致性程度。条件特质本身的稳定性；无练习效应。信度是一个被测团体的真分数的变异数与实得分数的变异数之比；信度是一个被试团体的真分数与实得分数的相关系数的平方；信度是一个测验X（A卷）与它的任意一个“平行测验”（B卷）的相关系

11、数。信度的作用：信度是测量过程中所存在的随机误差大小的反映；信度可以用来解释个人测验分数的意义；信度可以帮助进行不同测验分数的比较。15. 重测信度：用同一个量表对同一组被试施测两次所得结果的一致性程度，大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数，信度值较大，说明两次测量结果比较一致。条件：特质本身的稳定性；遗忘和练习的效果基本上相互抵消；在两次施测的间隔期内，被试在索要测查的心理特质方面没有获得更多的学习和训练。16. 复本信度：两个平行的测验测量同一批被试所得结果的一致性程度，大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。如果两个复本测验同时连续施测，称这

12、复本信度为等值性系数，大小反映两个复本测验的题目差别所带来的变异情况。如果两个复本测验是相距一段时间两次施测，称为稳定性与等值性系数，是对信度最严格的检验，其值最低。在实际工作中，为抵消施测的顺序效应，一般可以随机选出一半被试先做A卷后做B卷，则另一半被试先做B卷再做A卷。条件：首先构造出两份或两份以上真正平行的测验（即AB卷），平行测验就是那种用不同的题目测量相同的内容而且其测验结果的平均值和标准差都相同的两个测验，严格的平行测验很难构造出来。其次被试要有条件接受两个测验，取决于经费，时间等。另外，被试在第二测验时仍会受到练习和记忆等因素的影响，一些解题的策略等技能技巧也会产生迁移效应。对于

13、稳定性与等值性系数，在报告结果时，也应报告两次施测的间隔，以及在此间隔内被试的有关经历。17. 分半信度：一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。在只有一个测验且施测一次时使用。条件：只能在施测一次或没有复本的情况下使用，而且使用斯皮尔曼-布朗公式时要求全体被试在两半测验上的得分的变异数相等。当一个测验无法分成对等的两半时，分半信度不宜使用。分半的方法-奇偶性，难度，内容。同一个测验通常有多个分半信度。18. 同质性信度：也叫内部一致性系数，是指测验内部所有题目间的一致性程度，一致性含义分为所有题目测的都是同一种心理特质，所有题目得分之间都具有较高的正相关。一句话，同

14、质性信度就是一个测验所测内容或特质的相同程度。测量单一特质是同质性高的必要条件，非充分条件，同质性高是测验测得单一特质的充分条件。使用范围：克隆巴赫系数a=K（K-1）1-（Si2）Sx2。Si2表示所有被试在第i题上的分数变异，K是题目数，Sx2是测验总分的变异。a值大，必有测量信度高，a值小，却不能断定测量信度不高。a值的计算步骤：按一定要求抽取n个被试的试卷，首先算出这几个人测验总分的方差Sx2；这几个人在每一题上都会有一个得分，分别求出这几个人在每道题上得分的方差Si2，并求Si2值；按公式求出a值。19. 评分者信度：多个评分者给同一批人的答卷进行评分的一致性程度。计算详见P5420

15、. 影响信度的主要因素：被试方面主试者方面施测情境方面测量工具方面两次施测的间隔时间。详见P56.课堂讲述是从随机误差，估计方法，样本的角度来看。21. 效度：一个测验或量表实际能测出其所要测的心理特质的程度。特点：相对性，连续性，间接性（体现在评价中）。信度是效度的必要但不充分条件。效度受信度制约。22. 内容效度：一个测验测到的内容与所要测量的内容之间的吻合程度，就是去确定该测验在多大程度上代表了所要测量的行为领域。主要应用于成就测验，也适合某些用于选拔和分类的职业测验，不适合能力倾向测验和人格测验。使用时，要避免与表面效度混淆，表面效度是外行人对某个测验从表面看好像是测某种心理特质的一种

16、现象。最佳行为测验往往表面效度高，其他测验希望表面效度低。确定方法：逻辑分析法（请专家对测验题目与原定内容范围的吻合程度作出判断）-明确预测内容的范围，包括知识范围和能力要求，有代表性。具体详细；确定每个题目所测的内容，并与测验编制者所列的双向细目表对照，逐题比较自己的分类与制卷者的分类，并做记录；制订评定量表，考察题目对所定义的内容范围的覆盖率，判断题目难度与能力要求之间的差异，还要考察各种题目数量和分数的比例以及题目形式对内容的适当性等，对整个测验的有效性作出总的评价。克隆巴赫：从同一教学内容总体重抽取两套独立的平行测验，用这两个测验来测同一批被试，求其相关，相关低，两个测验中至少有一个缺

17、乏内容效度，若相关高，则测验可能有较高的内容效度，除非两个测验取样偏向同一个方面。再测法：在被试学习某种知识之前作一次测验，在学过该知识后再作同样的测验。23. 结构效度：一个测验实际测到所要测量的理论结构和特质的程度，或者说是测验分数能够说明心理学理论的某种结构或特质的程度。构想或结构是指心理学理论所涉及到的抽象而属假设性的概念或特质。主要用于智力测验，人格测验。确定方法：根据理论假设，并把这一假设分解成一些细小的纲目，以解释被试在测验上的表现；依据理论框架，推演出有关测验成绩的假设；用逻辑的和实证的方法来验证假设。估计还可以用的方法：测验内部寻找证据法，首先考察内容效度，其次分析被试的答题

18、过程，再次计算同质性信度，测验同质只是结构效度高的必要条件，被试的反应；测验之间寻找证据法，首先考察新编测验与某个已知的能有效测量相同特质的旧测验之间的相关，即相容效度法；其次考察新编测验与某个已知的能有效测量不同特质的旧测验之间的相关，即区分效度法；再次通过因素分析的方法来了解测验的结构效度，原理是通过对一组测验进行因素分析，找出影响测验的共同因素，每个测验在共同因素上的负荷量，即测验与各因素的相关就是测验的因素效度，测验分数总变异中来自有关因素的比例就是该测验结构效度的指标。考察测验的实证效度法：一根据效标把人分为两类，考察得分的差异；其二根据测验得分把人分为高分组和低分组，考察这两组人在

19、所测特质方面是否确有差异。多种特质多种方法矩阵法：实质是相容效度和区分效度法的综合运用，原理是若用所中极不相同的方法测量同一种特质相关很高，则说明测量效度较高。P66图解24. 实证效度:一个测验对处于特定情境中的个体的行为进行估计的有效性，也就是说一个测验是否有效，应该以实践的效果来作为检验标准。被估计的行为是检验测验效度的标准，简称效标。实证效度也称效标关联效度。实证效度可以分为同时效度（效标资料与测验成绩同时取得，用于诊断现状）和预测效度（效标是测验结束后，经过一段时间才获得的，预测某个个体将来的行为）。确定方法：明确观念效度确定效标测量考察测验分数与效标测量的关系。其他估计方法：相关法

20、（计算测验分数与效标测量的相关系数）区分法（测验结果能否反映不同效标的差异，看不同效标的被试在测验结果上是不是有显著差异。被试接受测验后，让他们工作一段时间，再根据工作成绩效标测量的好坏分为两组，再回过头来分析这两组被试原先接受测验的分数差异，若这两组人的测验分数差异显著，则说明该测验有较高的效度）命中率（当用测验做取舍决策时，决策的正命中率和总命中率是测验有效性的较好指标。总命中率是指根据测验选出的人当中工作合格的人数，以及根据测验淘汰的人当中工作不合格的人数之和与总人数之比。若总命中率高，则测验效度高，这种测验在区别合格与不合格方面是有效的。正命中率是指用测验选出的人中合格者所占的比例，比

21、例越高，测验越有效）测验不合格，实际合格，漏报d两者都合格，击中a两者都不合格c测验合格，实际不合格，虚报b总命中率=（a+c）/(a+b+c+d);正命中率=a/（a+b）25. 影响测量效度的因素：测验的构成；测验的实施过程；接受测验的被试；所选效标的性质；测量的信度。26. 测验的难度：难度是测验项目的难易程度。计算：二分法记分项目的难度a通过率P项目难度=R答对通过该项目的人数N全体被试数，通过人数越多，P越大，难度越小，所以P值也称为容易度。b极端分组法，当被试人数较多时，可以先将被试依照测验总分从高到低排列，分成三组，总分最高的27%被试称为高分组NH。总分最低的27%被试称为低分

22、组NL，分别计算高分组和低分组的通过率，然后求项目的难度P=(PH+PL)/2或P=1/2(RH/NH+RL/NL)，PH，PL分别表示高分组和低分组的通过率，RH，RL分别表示高分组和低分组通过该项目的人数，NH，NL分别代表高分组和低分组的人数。非二分法记分项目的难度P=被试在某一项目上的平均得分除以该项目的满分。校正公式P=（KP-1）/（K-1），去除猜测正确的可能性。K个选项，n样本容量，P=np，n等于np（通过，包括做对和猜对）+nq（猜错）。Cp=np/n27. 难度对测验的影响：难度影响测验分数的分布形态（难度较大，正偏态；难度较小，负偏态；难度中等，正态）；测验难度影响测验

23、分数的离散程度（当难度集中在0.50附近时，分数的分布范围较广，方差较大，信度较高，难度最佳）。影响难度的有题目本身和样本的选择。28. 区分度：测验项目对被试心理品质水平差异的区分能力。也就是说在该项目上水平高的被试的得分高，水平低的被试得分低。是评价项目质量，筛选项目的主要指标与依据。必须指出：评价测验项目区分度高低依赖于对被试水平的准确测量，通常称为效标分数，测验项目区分度的效标分数更多的是用测验总分，称为内部效标。区分度D的取值范围介于-1.00至+1.00之间，通常D为正值，称作积极区分，D为负值，称作消极区分，D为0是无区分作用。具有积极区分的项目，D值越大，区分效果越好。29.

24、区分度的计算：A项目鉴别指数法：当效标成绩为连续变量时，可以从分数分布的两端各选择27%的被试分别计算出每道题目上各自的通过率，两者之差就是鉴别度指数D，即D=Ph-Pl，其中Ph，Pl分别为高分组和低分组在该项目上的通过率。当D=1.00时，表明高分组全部通过，低分组全部失败，D=-1.00时，低分组全部通过，高分组全部失败。如果两组通过率相等，则D=0。B极端组的划分：一般情况下，根据效标成绩或测验总分将被试排队，取27%的高分端被试组成高分组，另外27%的低分端组成低分组，其余46%不作分析。使用该方法计算方便，但是浪费了很多信息，统计结果准确性略差。当项目与效标之间是直线关系时，对准确

25、性影响不大。相关法：即以项目分数与效标分数或测验总分的相关作为项目区分度的指标，相关越高，项目区分度越高。A点二列相关，适用于项目是0，1记分或二分变量，而效标或测验总分是连续变量的数量资料。计算见P80；B二列相关，适用于连续的测量变量，其中一个变量因为某种原因被人为分成两类。计算见P81；C相关，适用于两个变量是二点分配的资料，即两个变量都是二分名义变量，不要求变量呈正态分布，计算见P82；D积差相关，对于论文式测验题目，得分具有连续性，被试团体较大，可以认为项目分数服从正态分布，可将项目得分与效标分数求积差相关系数以得到项目的区分度。方差法，方差越大，区分度越高。30. 影响区分度的因素

26、：测验题目本身的质量；测验难度P84；样本性质（同质性，异质性）P292。31. 编制心理与教育测验的基本程序：确定测验目的；制订编题计划；编辑测验项目；预测与项目分析；合成测验；测验标准化；鉴定测验；编写测验说明书。32. 确定测验目的：对象；目标；用途。33. 制定编题计划：双向细目表P155全面而具代表性的测验内容，不致使测题偏离应测的范围；对各个内容点的相对重视程度，通常用百分比来标明。编题计划的用途：编题计划指明了应该编哪方面的测验项目以及编多少个项目；记分时可按计划中百分比确定每类测验项目的分数标准。34. 编辑测验项目：原则-题目符合测验目的；题目要有代表性；难度要控制，尽量呈正

27、态分布，总体难度在0.5左右；语言简明扼要，意义明确；各题之间互相独立；题目内容要符合被试的知识水平和理解能力；尽量避免涉及社会禁忌及个人隐私；编制题目数量要多于所需题目数量。其中心理测验中重复的题是为了测谎。注意事项：选项（人格测验中2-3个，是否；是否不确定；成就智力能力测验中选项尽可能多，一般4-5个）；使用单选题；每一个选项在形式上要保持一致性；选项要互相独立。35. 预测与项目分析：预测：目的在于获得被试对测验项目作何反应的资料，既能提供那些题目意义不清，容易引起误解等质的信息，又能提供测验项目优劣的量的指标。问题预测对象应取自将来正式测验时准备施用的群体，虽然人数不必太多，但要具有

28、代表性；预测的情境应力求同正式测验的情境一致；预测的时限可以适当延长，以便每一受测者都能将题目做完；施测者应对受测者的反应加以记录，如在同一时限内，受测者所完成的题数，以及受测者反映的题意不清之处等，以便修改项目时参考。项目分析：质的分析，测验题目专家分析和被试访谈；量的分析，被试的反应，项目的难度和区分度等量化指标。36. 合成测验：把经过预测以后证明有价值的项目排成有组织的测验，要解决的问题有测验项目的选择（指标测验的性质，即要选择那些能够测量所要测量的东西的项目；项目的难度，选择多大难度的项目并无固定的标准，选拔性测验要求难度大些，考察性测验要求难度不可太高，人格测验则不要求难度；项目的

29、区分度，一般来说，项目的区分度越高越好，对于选拔性测验尤为如此），测验项目的编排（A并列直进式，将整个测验按测验项目材料的性质归为若干分测验，对于同一分测验的测验项目，则依其难度由易到难排列；B混合螺旋式，先将各类测验项目依难度分为若干不同的层次，再将不同性质的测验项目予以组合，作交叉式的排列，其难度则渐次升进。优点受测者对各类测验项目循序作答，从而维持作答的兴趣）编制复本（条件：各份测验测量的是同一种心理特质；各份测验具有相同的内容和形式；各份测验不应有重复的项目；各份测验项目数目相等，并且有大体相同的难度和区分度）37. 测验标准化：标准化是指测验的编制，施测，评分以及解释测验分数的程度的

30、一致性，具体地说，测验标准化包括测验内容，标准化的首要前提，是对所有受测者施测相同的或等值的题目，测验内容不同，所测得的结果无法比较。施测过程，标准化的第二个条件是所有受测者必须在相同的条件下施测。包括：相同的测验情境；相同的指导语，包括向受测者说明测验的目的，以便消除受测者的顾虑，向受测者说明如何对测验项目反应；相同的测验时限，一般采用尝试法，即通过预测来决定。测验评分，评分的客观性意味着两个或两个以上的评分者对同一份测验试卷的评定的一致的。只有当评分是客观的时候才能将分数的差异归于受测者本身的差异，但要做到完全客观的评分是较困难的，一般来说，不同评分者之间的一致性达到90%以上，便可认为评

31、分是客观的。测验分数的解释38. 鉴定测验：信度效度测验量表与常模39. 编写测验说明书：本测验的目的与功用；本测验的理论依据；测验内容及实施测验的方法，包括何种测验，内容分为几部分，每部分有多少测验项目，如何作答；测验的标准答案和评分方法；关于测验的信度，效度资料的说明；常模表，即如何依据常模解释测验结果。40. 测验的实施：涉及的问题-如何实施测验才能保证测验分数尽可能少受施测过程的影响；如何解释测验分数才能保证受测者的心理不受负面影响。41. 测验的实施过程：施测前的准备工作：知情同意，熟悉测验；。指导语，通常包括对测验目的的说明和对题目反应方式的解释，直接影响受测者反应的态度和方式，主

32、要作用是使受试者按正确形式对题目作出反应。测验方式：团体测验，更容易导致指导语不清楚，计时易产生困难，易出现不可控伊苏，被试间干扰，增加主试，至少2-3名测验焦虑，是指被试因接受测验而产生的一种忧虑和紧张情绪，会影响测验结果的真实性。主试有时可以利用保证测验结果绝对保密或鼓励被试等方法来消除测验焦虑。能力与测验焦虑成负相关，亦即能力越高的人，测验焦虑越低；抱负水平与焦虑成正相关，也即越渴望得高分，测验焦虑越高；竞争性测验的测验焦虑高，经常接受测验的人焦虑低一些；轻微的测验焦虑会增进测验效果，但焦虑太高或毫无测验焦虑，则会降低测验效果。实测测验时，主试的以下4种态度使被试产生过度的焦虑，尽可能避

33、免：以测验来威胁被试，以使被试循规蹈矩；警告被试一定要尽力，因为“这项测验很重要”；告诉被试答题要快，才能在规定的时间内答完；恐吓被试说“如果测验失败，会有严重的不良后果”。与受测者建立良好的协调关系：良好的协调关系指的是施测者设法努力引起受测者对测验的兴趣，取得他的合作，以保证他能够按照标准测验指导语行事。评分技术：评分者要非常熟悉评分准则；避免评分偏差，晕轮效应，首因效应，趋中效应，对比效应；认真仔细。42. 测验分数的解释：了解测验的性质与功能；参考其他的预测源，如被试测试时心理生理状态；区间；异常得分的解释。如何将测验分数的意义告诉受测者：使用当事人所理解的语言；要保证当事人知道这个测

34、验测量或预测什么，不需要做详细的技术性解释；如果分数是以常模为参考的，就要使当事人知道他是和什么团体在进行比较；要使当事人认识到分数只是一个估计；要使当事人知道如何运用他的分数；要考虑测验分数讲给受测者带来什么影响；测验结果应向无关的人员保密；对低分者的解释应谨慎小心；报告测验分数时应设法了解当事人的心理感受，并采取适当的措施加以引导。解释完分数后宜鼓励当事人表达对测验结果的感受，如发现当事人对分数有误解或不良态度，应立即配以咨询，予以适当的引导，以免给当事人造成自卑心理或其他不良影响。43. 原始分数：被试在接受测验后，根据测验的记分标准，对照被试的反应所计算出的测验分数叫做原始分数。导出分

35、数就是在原始分数转换的基础上，按照一定的规则，经过统计处理后获得的具有一定参考点和单位，且可以相互比较的分数。常用的导出分数有百分等级，标准分数，T分数等。44. 百分等级分数：在一个群体的测验分数中，得分低于这个分数的人数的百分比，用PR来表示百分等级，取值越大，成绩越优秀。计算：未分组分数资料，求一个原始分数的百分等级，可先将被试团体的全体原始分数从大到小排序，然后用公式PR=100-（100R-50）N，PR为百分等级，R为排名顺序的序号，N为被试总人数。分组分数资料，P95。对百分等级分数的评价，百分等级不受原始分数分布状态的影响，即使分数分配不是正态，也不会改变百分等级常模的解释能力

36、。是一种顺序量表，不具有可加性。缺点单位不等，尤其是在分配的两个极端；只具有顺序性，而无法说明不同被试之间分数差异的数量；相对于特定的被试团体而言的，解释不能离开特定的参照团体。45. 标准分数：一种具有相等单位的量数，称作Z分数，以Z表示。它将原始分数与团体的平均数之差除以标准差所得的商数，是以标准差为单位度量原始分数离开其平均数的分数之上多少个标准差，或是在平均数之下多少个标准差。它是一个抽象值，不受原始测量单位的影响，并可接受进一步的统计处理。计算公式见P97。评估：Z分数是以一批分数的平均数为参照点，以标准差为单位的等距量表，不仅具有可比性，也具有可加性，由符号与绝对值两部分构成，正负

37、符号表示原始分数在平均数之上或之下，绝对值表示原始分数与平均数的距离。重要性质：实际上只是对原始分数X所作的一个线性变换，所以Z分数与原始分数X的分布形态相同，若原始分数不服从正态分数，转换成Z分数后，其分布仍然非正态。任何一组原始分数转换为Z分数以后均有Z=0，Sz=1，所以可以利用Z分数对不同测验分数进行比较，如果原始分数属正态分布或接近正态，则Z分数的范围大致在-3.00到+3.00之间。正态化的标准分数：首先将每个原始分数转换为百分等级，然后使用正态分布表，将对应的百分等级直接看成是正态分布曲线下的面积值，找出所对应的Z值（偏差值），这种方式所得到的分数叫做正态化的标准分数。46. T

38、分数：T分数实际上是由标准分数直接转换而来。计算：T=10Z+50。其他形式：P99，47. 标准九分数：将原始分数分为几部分的标准分数系统。若原始分数服从正态分布，它是以0.5个标准差为单位，将正态曲线下的横轴分为九段，最高一端为九分，最低一端为一分，中间一段为5分，除两端外，每段均有半个标准差宽。在正态分布下，每个标准九分所占的位置与包含的备份比如P100.如果原始分数分布不是正态的，只要将原始分数转换为百分等级就可以了。48. 几种导出分数间的相互关系：P10149. 分数合成的种类，由基本测验项目组成一个分测验或一个测验；由几个分测验上的得分组成合成分数；由几个测验的得分组合，获得合成

39、分数或合成测验。方法：临床诊断（直觉合成）；加权求和合成；多重回归；多重划分。50. 常模：常模团体是由具有某种共同特征的人所组成的一个群体，或是该群体的一个样本。制定常模的过程：确定测验将用于哪一个群体；更新常模；对常模团体进行施测，并获得团体成员的测验分数及分数分布；确定常模分数类型，制作常模分数转换表，即常模量表，同时给出抽取常模团体的书面说明，以及常模分数的解释指南等。51. 几种主要的常模参照分数：发展量表：明确指出个人按正常途径发展的心理特征处在什么样的发展水平。A心理年龄（智龄，一个儿童在年龄量表上所得的分数，就是最能代表他的智力水平的年龄，叫做智龄。年龄量表的要素：一组可区分不

40、同年龄组的题目；一个常模团体，该团体是由各个年龄的被试所组成的具有代表性的样本；常模表，即一个表明答对哪些题目或得多少分就该归入哪个年龄的对照表。优点-易于理解和解释，并可以与同年龄团体做直接比较，但必须注意智商的单位不是保持恒定的，而且随着年龄的增长而缩小）B年级当量（即将被试的测验成绩与某一年级的学生的平均分数做比较，而说成相当于某一年级水平。单位通常为10个月间隔。缺点教育的内容在各个年级上是不同的，因此年级常模只适用于一般课程，而且必须是在各年级间有系统改变，不适合某些高年级只学一两年的课程，并且各年级的内容，教学速度都不一样，所以年级单位是不相等的；年级当量的解释比较困难；年级常模经

41、常被误用为标准。常模与标准不同，标准常指所希望达到的标准，常模是代表群体的次数分布）商数：A教育商数（EQ是教育年龄EA与实际年龄CA之比，所谓教育年龄是指某岁儿童所取得的平均教育成绩。智力与学业成就两者不等价。）B成就商数（AQ是将一个学生的教育成就与智力做比较，即教育年龄与智力年龄MA之比。不仅可以用来评价学生的努力程度，还可以用来评价教师的教学效果与质量。成就商数低，说明该生不努力，所获得的成就与智力不相称，如果学生的平均教龄低于智龄，说明教学存在问题，未取得应有的效果。缺点首先智力与学业成就两者只是中等程度的相关，智力较好，且刻苦努力，并不是就一定能获得好成就；其次到目前为止，任何一种

42、智力测量都不能保证百分之百的可靠，教育测验同样如此，而且使用两个不可靠的分数的比率则更不可靠。52. 呈现常模资料的方法：转化表：又称常模表，是一种最简单，最基本且最常用的呈现常模资料的方法，由原始分数，相应的导出分数和对常模团体的有关具体描述三个要素构成。A简单转化表，将单项测验的原始分数转化为一种或几种导出分数。解释分数注意：只能将分数与表中所描述的常模团体做比较，要和其他常模团体比较，则需其他的常模表；在没有效度资料时，转化表只能将原始分数转换为另一种分数，而不能做任何推论，即使有效度资料，效标行为也只能从常模资料推论来的。B复杂转化表，将包括几个分测验，或几种常模的原始分数与导出分数的对应关系呈现在一张转化表上，注意各分测验的资料必须来自同一个常模团体，否则不能直接比较。此表可以提供的信息：一方面表示不同团体的导出分数，测验使用者可以将一个人的分数与几个有关常模团体比较，另一方面，允许对不同团体做比较，但在解释时必须主义各个团体的测验分数必须在同样的情况下，即条件一致时，否则不便解释）剖析图：把一套测验中几个分测验分数同图表表示出来。可以很直观看出被试在各个分测验中的表现及其相应的位置，要求各个分测验必须是同一个常模团体。