《《学能考试命题》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《学能考试命题》PPT课件.ppt(102页珍藏版)》请在三一办公上搜索。
1、PISA对学能考试命题的启示,陆璟 副研究员上海市教育科学研究院普教所副所长PISA中国上海项目组秘书长2013年3月20日,主要内容,PISA的基本题型PISA试题提交要求PISA试题质量审查PISA测评框架特点PISA评分标准PISA精熟度水平划分和量表构建,常模参照和标准参照测验,指解释结果的方法常模参照:说明个体的表现与其他人相比如何。(例如,全班共35名学生,他是第3名)标准参照:用具体的表现属于说明了个体可以做到什么,而不提其他人的表现。同一个测试可以同时用两种参照来解释。例如,共有25道列方程解应用题,她答对了20题,成绩超过班级中90%的学生。PISA既给出常模参照的分数,又对
2、达到某个水平的学生能够做什么给出标准参照的描述。,1.PISA的基本题型,2.PISA试题提交要求:文本,基本要求:按单元提交,包括引导文本和一组题目,通常要求6-8题。考虑翻译的需要。有押韵要求的句子就不适合用作PISA试题,幽默也很难翻译。考虑引导文本和题目的真实性。要符合15岁学生的生活经验,能引起15岁学生的兴趣。,选择文本,好的文本内容丰富有趣有适当挑战性,不太难也不太容易不故意设置人为的挑战可以提出检索信息方面的问题不同国家的学生有比较公平的接触机会,不好的文本引起不适的感觉:海啸、车祸、暴力、性、种族歧视、吸毒、语言不恰当对学生的要求过高或过低:依靠深奥的知识、或大多数学生都知道
3、的常识,PISA的特别要求:符合框架分布,必须要有文字部分,要能够翻译、真实性、文化折衷、时效长、版权清楚。,2.PISA试题提交要求:问题,对一般水平的学生来说,每个小题的答题时间不超过2分钟,完成每个单元的时间不超过10分钟,要避免需要花大量时间才能解决的问题。问题的指向要明确。对于要求完成的任务,问题要尽可能清晰、直接。例如,要问“文章中的信息支持这个观点吗?”,而不要问“这个观点能得到文章中的信息支持吗?”要避免15岁学生不知道不熟悉的词汇,也避免使用生僻的人名。例如一些澳大利亚学生看见“Nina”可能不知道是什么意思,但如果换成“Sue”就知道是人名了。考虑评分的需要,开放题的指向不
4、能太宽泛。避免这类问题:“想象一下故事的主角会是什么样子的,描述该角色一天的典型生活。”,体现框架要求,不考生僻词、语言形式上的技巧体现文本的核心内容,避免为考而考、过于注重细节问题要明确,简洁,不要用否定方式提,不要故意设陷阱,避免模糊用语,设计问题,选择题每道题目都要考察一个重要的内容题目指向明确,题干中呈现清楚定义的、单一的问题用简单清晰的语言表述题干,表述完整,避免选项中重复相同的内容例如,在客观性测验中,客观这个词A.指确定学习成果的方法B.指选择测验内容的方法C.指呈现问题的方法D.指对答案评分的方法改为:在客观性测验中,客观这个词指_的方法,只要有可能,就用肯定的形式表述题干要保
5、证只有一个正确答案或明显是最好的答案要有似是而非的干扰项,对未未掌握者有迷惑性,反映学生常见的错误理解。干扰项的复杂性要与正确的选项差不多。各个备选项在形式上相似,在意义上不交叉重复,避免在形式上给学生提供线索,比如说句子长度,包含绝对用词(从不,只有),或限定词(有时、可能)确保每道题目独立于测验中的其他题目,即使最简单的试题,也包含了理解的要求,点评 问题中有两个词语可以帮助找到文本中的相关部分“本特汉森”和“舌头”。此外,“本特汉森”出现在最后一段的开头部分,是很突出的位置。这一段还出现了“舌头”,给出了更精确的线索,使学生能够在准确的位置找到所要求的信息。这两个词在文中都只出现了一次,
6、所以读者在匹配问题和文本相关部分的时候,不需要处理任何干扰信息。这道题目的难度位于最低的精熟度水平,1b级,这是PISA 2009最容易的阅读试题之一,不过读者也需要最低水平的推断,就是要理解最后一句话中的“它”指的是舌头。即使是最低的1b级水平,也需要有能够超越字面解码的能力。因此1b级水平的学生也能表现出一定程度的理解能力,表现出与PISA对阅读的定义相符合的行为。在在2008年试测中,上海有98.61%的学生在这道题上得到满分,OECD国家有97.00%的学生得到满分。,开放题指向清晰,要避免导向笼统的、表面化的回答。例如:请举出文章中的两个例子来说明阅读理解题必须要应用理解能力才能回答
7、,回答要能够归到框架类别中,反映与框架相关的结果。问题的答案必须在阅读材料中寻找,在没有阅读材料的情况下无法回答评分标准要包含明确的题旨,要对每一类评分标准有概括的描述,要提供每一类评分标准的学生回答样例,PISA阅读开放题要求学生运用阅读知识,而不是写作知识、记忆知识等其他知识。开放题考查的内容要与文本有关,体现学生对文本内容的理解。单元2 流行感冒问题2.2 我们司以讨论一篇文章的内容(它说些什么)。我们可以讨论一篇文章的风格(它的表达手法)。麦思妮想将这篇通告的风格写成较亲切和有鼓励性。你认为她成功吗?请仔细地根据版面编排、写作风格、图画或其它图像来解释答案。单元3 涂鸦问题3.3 你同
8、意哪一封信的论点?请参照两封信件内容,并用自己的文字解释作答。问题3.4 我们可以讨论一封信件叙述的事情(它的内容)。我们可以讨论一封信件的写作手法(它的风格)。不论你同意哪个作者的论点,你认为哪一封信写得比较好?请根据其中一封信或者两封信的写作手法来解释作答。,单元5 国际计划问题5.2 在1996 年,埃塞俄比亚是世界上最贫穷的国家之一,参考这点和图表数据,你认为可能有什么原因使国际计划在埃塞俄比亚和在其它国家的活动比例有所分别?单元8 礼物问题8.7 有两个人看完礼物这篇故事后谈论他们的内容,以下是某部分的对话:说话者1.我认为故事女主角实在太狠心和残忍了;说话者2.为什么你这样说,我觉
9、得她很有同情心呢。请从故事中找出证据,支撑两个人的观点。,以下开放题有什么问题?2006年上海中考题:你读过“韩柳欧苏”的作品吗?请写出其中一位文豪和它的一篇作品。2007年上海中考题:选择文中最触动你的一个场景,写一段80字左右的感想。2008年上海中考题:姑娘们为国旗所付出的努力,哪一点最令你感动?说说它对你的成长有什么启示?,考虑试题的难度分布。PISA试题要能够测量出不同水平学生的阅读能力,所以在命题时要考虑到影响试题难度的因素(参见下表),使得题目能够覆盖广泛的难度范围。试题提交指南还给出了不同难度等级试题的描述和例子。命题必须符合框架的要求。PISA阅读素养测评框架明确了测评阅读素
10、养的各个维度:文本形式、文体类型、认知方面和情境,规定了各类题目所占的比例,还对结果报告的量表进行了讨论。每个单元都要填报一张试题提交表,按题目所属领域的测评框架分类标明每道题目对应的类别。,2.PISA试题提交要求:结构,影响阅读试题难度的因素,PISA 2009阅读试题提交表,PISA2012数学试题提交表,每个问题后面都要附上对这个问题的难度估计,使用符号、形式化和技术型的语言和运算,表征,问题解决和策略性思维,模型化,交流,推理和论证,PISA2006科学试题提交表,3.PISA试题质量审查,对每一个试题作出评价相关阅读材料是否包括在国家(地区)的课程中,与“为生活做准备”的相关性,学
11、生对测试内容感兴趣程度,所提供的情境或背景的真实性,测试文本或题目有没有文化上敏感性,翻译问题,题旨和评分问题,选用优先性题旨和评分问题:例举中国历史上一个“以弱胜强”的事例,并做简要分析。测试学生阅读理解能力的题目,实际上测试了学生对历史事实的记忆力和写作能力。,根据试测数据分析每一个试题的特性试题相对难度比较试题区分度(点二列相关)试题与项目反应理论模型的拟合度(MNSQ)试题功能差异分析评分者信度,试题相对难度比较,点二列相关结果判断,33,MNSQ取值的接受范围是,每道试题的核查表,评分者信度,IRR 1.7就看作评分存在不一致性,试题整体结构分析:在情境、认知过程、知识内容、题型等方
12、面符合PISA测评理论框架的结构分布个人情境30%,公共情境30%,教育情境25%,职业情境15%访问和检索25%,整合和解释50%,反思和评价25%连续文本60%,非连续文本30%,混合文本5%,多重文本5%客观题62%,主观题38%,4.PISA测评框架,背景/情境知识/内容能力/认知过程态度/参与度,PISA怎样测评阅读素养,38,PISA怎样测评数学素养,39,问题背景,表达,数学问题,运用,数学结果,现实结果,评价,解释,背景个人的公共的教育或职业的科学的,内容数量变化和关系空间和图形不确定性,过程,PISA怎样测评科学素养,40,个人、社会、全球,识别科学议题科学地解释现象运用科学
13、证据,科学知识关于科学的知识,兴趣对科学探究的支持责任感,情境问题所涉及的生活背景,41,阅读情境维度,42,大阅读,把阅读作为学习的工具选材丰富,覆盖各种生活情境在我们的教材中不常见的:产品说明书,公益广告、通知通告、启示、会议文书、调查报告日常生活细节:邮局价格表、使用火车票 查询交通线路、产品说明书重视认知性阅读,PISA阅读测评特点,43,阅读单元缩略名称一览,个人的:伊索寓言、衬衫、影评、木偶娃娃、图书简介、守财奴、那西赛斯、伽利略、戏如人生、巧克力和健康、饼干公共的:麻醉的蜘蛛、犀牛、电话、睡眠、手机安全性、献血通告、道路、痤疮、包裹邮寄教育的:家务、交流生、南极、刷牙、世界上的语
14、言、气球、孩子的未来、公平贸易、尘螨、墨西哥湾职业的:职位申请表、验光师、职位空缺、暑期工作、远程办公、职场生存、办公易,科学情境与应用领域,45,科学单元缩略名称一览,个人的:匙子、奶、塑料时代、太阳能板、抗生素、户外烹饪社会的:有用的振动、野生燕麦、塑料时代、企鹅岛、牛奶中的细菌、绿色公园、森林火灾、消化实验、气囊全球的:地球温度、太阳能板、不同的气候、恐龙的灭绝,个人情境-个人日常活动教育或职业情境-学校生活或工作情境公共情境-范围更广的社区科学情境-对技术过程、理论情境或明确的数学问题的理解,数学情境,47,数学单元缩略名称一览,个人的:居室场景、交通、抛掷硬币、电脑游戏公共的:跑道、
15、彩票、跳水、瓷砖排列、围栏、现金取款、电话费率、缆车教育的或职业的:砖块、容器、管道、跑步时间、标签科学的:人口金字塔、温度计蟋蟀、停车、数字核对、二氧化碳、第三条边,能力:解决问题的认知过程,49,数学化过程,50,现实世界,数学世界,一个真实情境,一个实际模型,一个数学模型,数学答案,实际结果,理解,构造并简化情境,将该问题转化为数学问题处理,阐释数学答案,运用相关的数学工具解决该问题,确认结果,数学样题:心率,基于对健康的考虑,人应该限制体力消耗。比如在运动中,心率不能超过某一特定数值。在过去的很多年中,医生建议一个人的心率最大值与其年龄的关系应该用以下公式来表示:心率最大值=220-年
16、龄。最新研究表明这个公式需要稍微修改一下,新公式为:心率最大值=208-0.7年龄 问这两个公式的差别以及它们怎样影响心率最大值的计算结果。资料来源:Assessing Scientific,Reading and Mathematical Literacy,p.74-76,第一步:理解现实问题:不能跑得太快,医生推荐了心率最大值第二步,按数学概念来梳理问题(建立现实模型),找出心率最大值和年龄的关系第三步:把现实模型转化为数学模型:y=220-x,y=208-0.7x第四步:解决数学问题:比较两条趋势线,相交在(40,180)。第五步:弄清楚结论的现实意义。40岁时相同,小于40岁时旧公式算
17、出的值更大,例如0岁,大于40岁时新公式算出的值更大,例如100岁,知识:学科内容领域,52,阅读非连续文本样题:手机安全性,1.SAR(特定吸收率)是一个测量数值,表示在使用移动电话时身体吸收的电磁辐射量。,文字与图表并存第一种,阅读材料是文字的,考题用图表,有时包括干扰图,以此检验对文字的理解是否准确第二种,阅读材料以图表为主,或图加上少量文字,问题是文字的,此检验对文字的理解是否准确第三种,阅读材料是图表和文字相结合的。考查并行处理多种信息的能力,非连续文本测试内容,57,数学数量量表样题,情境:公共的,数学变化和关系量表样题,情境:个人的过程:运用数学概念、事实、程序和推理,数学空间和
18、图形量表样题,情境:个人的过程:应用数学概念、事实、程序和推理,数学不确定性量表样题,情境:公共的过程:解释、应用和评价数学结果,评分:1 答案提供了有效的论证。有效论证可以从及格的学生数,极端值造成的不成比例的影响,或者高分学生数等方面进行。,情境:教育的,过程:解释、应用和评价数学结果,对于数学知识本身而言,学生没有问题。从深度和广度上,我们的学生接触到的题目绝对超过PISA测试的要求。但是从题目的背景看,有些情境学生没有接触过,不熟悉。PISA题目中涉及的数都是实际的数,有大数值,也有小数值,重视学生的数感,对生活中一些基本数据的数量级要有认识,要有估算能力。PISA题目中有时出现很多数
19、,不需要算,只要找出规律,而我们的统计知识偏重计算从题目上看,教育首先是培养公民。所以,从这个角度上看,他们的题目就不会那么难,不会那么深。这些题目,生活背景很真实,命题思路与我们不一样。是从真实的世界中发现数学问题。而我们的思路是从数学体系中延伸出来的“包装题”,高中数学题就两种:出租车和纳税,PISA数学试题与我们试题的差异,67,请思考这道题目有什么问题:一个长7.2米,宽5.4米的房间,需要铺地砖,每块地砖的大小是30 x30厘米,请问需要多少地砖?,一个真实的例子,68,科学样题:衣服,一组英国科学家正在研制“智能”衣服,以帮助残疾儿童“说话”。这些儿童穿上由特殊电子布料连接上语言合
20、成器所制成的背心,只要轻拍接触感应器式的材料,就能让人明白他们的意思。这种材料由普通布料和一种能导电的含碳纤维的灵巧网丝组成。当布料受压,通过导电材料的信号会被转化,电脑晶片能够找出导电来源,然后,启动相连的电子仪器。这个电子仪器只有两个火柴盒般大小。其中一位科学家说:“这项发明的聪明之处,在于如何编织布料,并怎样通过它传递信号。而且这种导电网丝可以编织在现成的布料上,别人并不会看到它的存在。”这种材料可以用水清洗而不会损坏、可以包裹东西,或者揉成一团。该名科学家又说,这种材料可以廉价大量生产。,衣服 问题1 文章中所说的情况,哪一样可以在实验室里通过科学探究来测试?请就每项圈出“是”或者“否
21、”。满分:依次为:是,是,是,否。题型:复合式选择题能力:识别科学议题知识类别:科学探究(关于科学的知识)应用领域:科学技术前沿 情境:社会的 难度:567分,OECD国家得满分的学生比例:47.9%,点评,本题要求学生识别与检验某种有关衣服说法相联系的变化及测量的变量。它还涉及评价是否存在一种技术可以量化所测量的变量,以及是否能够控制其他变量。这个过程需要准确地用于四种所说的情况。“智能衣服”议题属于“科学技术前沿”类别,并且是一个公共议题,指出是残疾儿童的需要,因而情境是社会的。应用的科学技能关注研究的本质,因而本题位于“科学探究”类别。本题需要识别变化和测量的变量,并正确评价实施测量和控
22、制变量中涉及什么,因而本题位于水平4。,衣服 问题2 若要测试布料是否导电,你需要用以下哪一种实验室仪器?伏特表光箱千分尺音量计题型:选择题能力:科学地解释现象知识类别:技术系统(科学的知识)应用领域:科学技术前沿 情境:个人的 难度:399分,OECD国家得满分的学生比例:79.4%,点评,衣服问题2中,学生只要能够回忆起哪件实验室仪器可以用来检测布料的导电性。该问题只要求学生将电流与电流圈所用的设备相联系,即回忆起一个简单的科学事实。因此,本题位于水平1位于科学地解释现象能力量表的最下方。因为本题强调的是技术设备,因此在应用领域上属于“技术系统”类别。,科学样题-转基因农作物,74,玉米被
23、种植在全国各地的200处田地。为什么科学家们使用了多于一处的田地?A 这样可让很多农民尝试新的GM玉米。B 为了察看他们能种植出多少GM玉米。C 为了尽可能用GM玉米来覆盖最多的土地。D 为了包含玉米的各种不同生长条件。评分满分:D 为了包含玉米的各种不同生长条件。题型:选择题能力:识别科学议题知识类别:“科学探究”(关于科学的知识)应用领域:“科学技术前沿”情境:社会的 难度:421,(OECD国家)正确答案的比例:73.6%,75,5.PISA试题评分标准,评分指导体现客观性,包括评分代码类别、评分原则的描述、学生回答样例来自于学生的真实回答以体现对学生能力的最佳估计为基本原则,如果不符合
24、评分指导中描述的分类,答案的文笔不管多么优美,富有创意,也只能拿部分分数或0。例如涂鸦问题3.4,要求就文章的内容作出评论。满分代码1:参照其中一封,或全部两封信件的内容,以解释观点。指出作者的大致场(即同意或同意),或详细指出她的论点。对作者论点的诠释必须合。可以以原文的有关内容为基本加以改写,但能全部或大抄录原文,而没有任何修改或增减。我同意嘉嘉的意见,涂鸦是违法的,是破坏公物 嘉嘉。因为我反对涂鸦【最基本答案】小雅。我觉得向涂鸦艺术家罚款,然后复制他们的设计以赚取百万元,是虚伪的做法。两人的意见我大致上都同意。在公众地方涂污墙壁是合法,但应给予他们机会在另一个地方创作。,5.1 客观的评
25、分指导,零分代码0:支持个人意见的依据只局限于直接引述原文(有或没有引号)。嘉嘉。因为我同意创作本来是值得欣赏的,但创作的方式应该为社会带来额外的开支 嘉嘉。为甚么要损坏青人的声誉?或:答案充分或意思含糊。小雅。因为我觉得嘉嘉的信件没有依据支持她的论点(小雅把她的论点与广告作比较)【根据论证的方法或特点来作答】嘉嘉,因为她解释较详细【根据论证的方法或特点来作答】我同意嘉嘉的说法【没有依据支持意见】我同意嘉嘉的意见。因为我相信她的说法【没有依据支持意见】两者皆同意,因为我明白嘉嘉的依据何在,但小雅也对【没有依据支持意见】或:对文章的解足,或答案合或与问题无关。我比较同意嘉嘉的说话,小雅好像太肯定
26、自己的想法 我同意嘉嘉的意见,因为她认为有些人富有天分【错误诠释嘉嘉的论点】代码9:没有作答,开发命题框架试题提交专家研讨1学生访谈或座谈小规模先导性测试(small scale pre-pilot)专家研讨2专家研讨3先导性测试(pilot)专家组REG,MEG,SEG,TEG,项目负责人NPM评审筛选试题用于试测试测(Field trial)筛选试题用于正式测试(Main Study),5.2 命题过程中搜集学生答案作为评分依据,80,我的文章成了高考题,而我却不会做周劼人 午后,一个国内部的哥们来取件的时候忽然神经兮兮地凑过来问我:“劼人,你是不是写过一个文章,叫寂静钱钟书?”“你的文章
27、是福建省2009年高考的阅读题!真难!”我坐在电脑前,开始做用我的文章出的高考题。选择题,5选2,我只答对了一个。而另外一个被我认为说出了我这个作者内心最真实意图的选项,竟然是“错”的。两个问答题,出题老师比我更好得理解了我写的文章的意思,把我写作时根本没有像到的内涵都表达出来了,将我的文章进一步“做大、做强、做好”了。我的文章在出题老师这种高超的二次加工艺术中,就变成能“代表先进文化”的了。很好很强大。做完题目,我对了对答案,除了第一个选择题,我拿了1分外,其余全错。如果说韩寒不会做自己文章出的高考题,那是因为他没上过大学,文化不够的话。那我只能说我要回清华一头撞死,愧对母校对我四年的培养了
28、。我的文章成了高考题,而我却不会做,81,问题:12.下列对作品的分析和概括,不正确的两项是(5分)A文章写路人对清华师生祭奠钱钟书先生的好奇,突出了他人对钱钟书的不了解。他人之所以不了解,是因为钱钟书清高孤傲,拒绝了一切媒体的采访。B.不能被“赦”回京,继续留在干校,钱钟书夫妇依然平静。对于希望能够埋头读书、潜心治学的钱钟书来说,干校生活的缺憾只是“没有书”。C.钱钟书先生作为世人公认的大师,他的人生本可轰轰烈烈而不“寂静”,但他从不想侧身大师之列,没有修筑名列的“围城”将自己“围”住。D题目“寂静钱钟书”,意味着文章要围绕各种人的“静”来写。如,写清华师生10年后纪念钱钟书先生,虽没有出现
29、“静”字,但也暗示了“静”。E文章报道了清华师生的祭奠活动,写了钱钟书先生给人们带来的好奇、惊叹和崇敬,展现了他的大师风范和完整人格,给人以启迪。13.文章倒数第二段加点词语“格调”的内涵丰富,请简要分析。(4分)14.文章的结尾说:“这个时代再也没有了钱钟书,但,是不是也因为这个时代不再寂静?”请结合全文,深究时代的“寂静”与产生钱钟书这样的大师之间的关系。(6分),高考阅读开放题的评分标准是由命题教师拟定的。2009 年福建高考语文改卷领导组成员之一、福建师大附中教研室主任杨建成老师在谈到寂静的钱钟书最后一题时说我当时也认为答案给得不够理,想命题者都从文本出发,只能就文本进行解读,答案出来
30、也就是10 天左右。虽然在高考正式阅卷前,先由专家组已经抽调部分试卷进行批阅,然后挑出典型试卷作为标准卷,从中逃出一些学生答案的示例,编制评分细则,便于打分时参考,但是,由于基本的评分要点是命题教师拟定的,所以根本的视角还是从教师出发的。因此,文章的作者质疑:“我不知道,拿我文章考出来的学生的能力是什么?”“(分数的差距)不是因为学生个体(能力)差异,而是看你在不在高考框架里、用不用高考话语体系说话。”,命题教师拟定评分标准所带来的问题,5.3 PISA开放题编码的基本原则,PISA:对学生答题能力做出最佳估计错别字和语法问题回答形式不符合要求冗余的答题内容用“满分”,“零分”和“部分分数”来
31、取代“正确”以及“非正确”评分者是对答案进行分类编码(code)而不是打分(score),6.PISA精熟度水平划分和量表构建,常模参照测验和标准参照测验指解释结果的方法常模参照:说明个体的表现与其他人相比如何。(例如,全班共35名学生,他是第3名)标准参照:用具体的表现属于说明了个体可以做到什么,而不提其他人的表现。同一个测试可以同时用两种参照来解释。例如,共有25道列方程解应用题,她答对了20题,成绩超过班级中90%的学生。PISA既给出常模参照的分数,又对达到某个水平的学生能够做什么给出标准参照的描述。,资料来源:美Norman E.Gronlund&C.Keith Wauch著,杨涛,
32、边玉芳译学业成就评测(第9版).教育科学出版社,2011.第25页.有删改。,成就测验两种基本方式的概括比较,学生在某个测试中表现出来的相对能力可以通过他们答对的题目比例予以估计,而测试题目的相对难度则可以通过答对题目的人数比例予以估计。这两个过程的结果是得到一系列估计值,形成一个同时反映题目难度和对应的学生能力的连续量表。,6.1 试题难度和能力水平的关系,试题难度和能力水平的关系,6.2 为了更好地对结果加以解释,题目的难度和学生的能力非分为对应的几个精熟度水平,设定答对概率为62%,带宽为0.8个logits的情况,处于某一级水平顶端的学生答对该水平最难试题的概率是62%,答对该水平最容
33、易试题的概率为78%,在一个全部由该水平试题构成的测验中平均能答对70%。处于某一级水平底端的学生答对该水平最难试题的概率是42%,答对该水平最容易试题的概率为62%,在一个全部由该水平试题构成的测验中平均能答对52%。,PISA划分水平的几条原则除了最高和最低水平外,各级水平之间的带宽必须相等。处于某个水平带的学生在全部有这一水平的试题构成的测验中可以答对至少50%的题目。水平带之间的分界点是人为设置的参照点。取决于设定的回答可能性和带宽。最低等级水平下面要设定一个更低的分界点,在这个点下面的学生能力是不能可靠地描述出来的。而最高等级水平的上端是开放的。,(1)确定主要测试领域的分量表哪一种
34、分类更有意义,哪一种分类对于反馈和指导实践更有用,哪一种分类能使测量学特性更可靠。(2)把试题和所属量表对应起来(3)判定每道试题的技能水平专家对每道试题都会作详尽分析,特别是对于那些含有部分得分的试题,甚至还将每一类得分代码都与测评框架相应分量表中的能力定义关联起来,从而识别和描述每一类得分所要求达到的知识和技能水平。在这一阶段,专家们要反复商量和讨论,初稿要流转审阅,一步步改进。(4)分析试测数据,得到题目难度与学生能力相对应的连续分布,6.3 构建主要测评领域的分量表,(5)将专家判定的认知要求(第3步)与统计分析(第4步)结合起来,进一步明确每一题的每一类评分代码对知识和技能的要求,给
35、出相关维度的知识和技能的层次排序(6)用正式测试数据修改和完善上述界定(7)效度分析一种方法是向专家(如教师或学科专家组成员)提供有关材料,让他们判断PISA试题与所描述的能力要求之间的对应关系;第二种方法是,通过各国项目负责人把各个描述量表发放到各个参与国家,广泛征求意见。,PISA主要领域的分量表,6.4 建构量表精熟度水平的描述,由专家组对位于每个水平的题目的认知要求进行仔细的讨论和研究,做出对该水平试题主要特点的描述。根据其中各个分量表试题的特点,还可以做出分量表的各个水平的描述。,阅读素养量表精熟度水平描述建构过程示例(反思与评价试题:1a级水平),该水平描述:在文本和生活常识之间建
36、立简单联系,R091Q07B请解释为什么选择这个地方摆放新书。,(略),对分数的意义做出具体解释,避免不同人对分数理解的不一致性,2级水平(407分,480分)2级水平的学生能答出的试题例如,查找满足多种条件的信息,围绕一个单一的特征进行比较或对比,即使是在信息不明显的情况下也能理解文本中指定的某个部分的含义,并且在文本和个人经验之间建立起联系。2级水平是学生将来能有效地参与社会生活所需要的最基本的精熟度水平。对加拿大青少年PISA 2000数据的追踪研究表明,低于2级水平的学生中,60%以上的人直到21岁仍未能接受高中后教育。上海有95.9%的学生达到了2级及2级以上水平,OECD平均为81
37、.2%。这一比例达到90%以上的共有4个国家和地区,除上海外,还有韩国(94.2%)、芬兰(91.9%)、中国香港(91.7%)。,达到某个精熟度水平的学生会做什么?,2级水平的样题:戏如人生问题4(474)气球问题3.1(449)献血通告问题8(438)气球问题6(411),2级水平的“访问和检索”试题要求读者查找一条或多条信息,这些信息可能需要推断,并且可能需要满足多种条件。“整合和解释”方面,有的题目要求学生确定文章的主要观点,理解关系,或者解释文章某个限定部分的意义,有时信息不明显、读者必须做出低层次的推论,有些题目要根据文本的某个单一特点进行比较或对比。“反思和评价”方面,要求学生通过利用个人经验和看法,在文本或外部知识之间做比较或做一些联系。,难度处于某个精熟度水平的题目是怎样的?,比较和借鉴,102,框架:制定情境、知识、能力、参与度等多维度评价框架,严格按框架命题,不因人而异命题:引入真实情境,题旨明确;运用题目特征分析筛选高质量的试题,建立题库评分:以评价理解能力和思考能力为核心,根据试测学生的回答确定客观的编码标准量表:区分学生能力水平,对分数做出有意义的解释,
链接地址:https://www.31ppt.com/p-5632422.html