新课程标准下考试改革与评价的几个问题.ppt
《新课程标准下考试改革与评价的几个问题.ppt》由会员分享,可在线阅读,更多相关《新课程标准下考试改革与评价的几个问题.ppt(142页珍藏版)》请在三一办公上搜索。
1、新课程标准下考试改革与评价的几个问题,陕西师范大学 刘新平,新课改始于2004年(广东,山东,海南,宁夏)2007年陕西开始,几年来,新课改在批评与责难声中蹒跚前进。2001年1月,美国总统布什推出“一个都不能少”,2004年获得连任,有人称,是成功的教育改革使布什战胜了大比分高于他的克里,小布什承继了老布什的“绝招”,老布什曾标榜他是一个教育总统(等值研究),尽管媒体对中国新课改批评多于赞扬(如教育理论学者主持课改,教材不适应,等)但新课改方向不会变,近年来为了挽救众多小“范进”,也有“老范进”,许多中学教师辛辛苦苦进行“新课改”,但考试形式及评价制度不改,这些努力是徒劳的。“轰轰烈烈搞课改
2、,扎扎实实抓应试”,在中学普遍存在,因而对高考不实施“刮骨去毒”式的“关公”疗法,新课改最终流于形式。河南一位中学校长曾问杨学为(原教育部考试中心主任)高考已经走进了死胡同,你怎样看?杨反问:有更好的办法吗?他答:没有,故而很多人认为高考改革没有出路。,2007年3月“两会”上,宁波人大代表范谊教授议案关于废除高考,创新高校招生制度引起了轩然大波。他认为:高考使我国教育迷失了方向,失去了教育的本性和灵魂。使儿童失去了天真,幻想,热情和能力;使青年套上了思维的枷锁,扼杀了对生活的热爱和创造冲动。只能对规定的知识反复记忆和辨析,使我们的民族习惯于接受和模仿。这是一种悲哀。作家舒云发表了长篇报告文字
3、高考殇指出:一些人认为,“高考是地狱”,是“悬在中小学头上的剑”认为高考“偷”走了中小学生的健康,“偷”走了中国人的创造力,主张将高考送进坟墓。,与范谊看法相佐,出席两会的原教育部副部长张保庆接受媒体采访时说:废除高考将天下大乱,在没有找到更好,更公平办法之前不能废除,该阶段只能以国家统考选拔人才。范谊看法表明:现行应试正在摧残儿童好奇心,造成普遍厌学。张保庆观点表明:今天社会缺乏诚信的背景下,取消统考会使公平公正受到伤害。现行高考最不合理的是高中教师没有发言权他们对学生最了解(3年),那么如何改革现行模式:一种是有人提出以高中校内成绩作为招生的主要依据,以统考作为这种成绩的参照点,使统考成绩
4、完全与考生脱钩。,这种方案的特征:以长期“形成性评价”取代“一次性终结评价”,以笔试和面试结合,因为学生口头表达,应变能力很难笔试,而统考中面试不好操作,故应由中学教师参与,另一特点是将非智力因素融与评价之中,有利于高校招到一些潜质好的学生,(因为忽视非智力因素,这是中国大学与世界一流大学的重要差距,如比尔盖茨,达尔文,钱仲书,毛泽东等伟人)今天,新课改自2001年启动已经历8个年头,许多人正在逐步接受,中学许多老师真心认同新课改,但是面对残酷的“高考”甚至“中考”,他们又不得不“扎扎实实抓应试”。教育部基教司朱慕菊司长曾说:“要用新课改来冲击高考,来逼迫高考改革”,但愿能收到实效,否则中学生
5、“厌学”,不久的将来,老师们“厌教”,恐怕就不可避免了。课改与高考是什么关系?父子关系还是兄弟关系?课改与高考是合还是分?众说纷云。,展望明年陕西新高考:学业水平考试,综合素质评定,闭卷统一考试。这种模式中的前二是软还是硬,硬到何种程度,底线是多少,耐人寻味。近年来关于高考改革的研究和讨论甚多,主要集中在考试环节的“统分之争”与录取环节的“刚柔之辨”方面。所谓“统”者,即强调应坚持统一考试;所谓“分”者。即主张分区、分省或分校考试。所“谓”刚者,即强调录取中要有硬性指标;所谓“柔”者,即强调录取中要有适度弹性。,首先,在考试环节上的改革应遵循统分结合原则,也就是坚持和完善统一高考的的基础由,慎
6、重推进分层、分类与分校考试的改革与试验。客观、冷静地分析我国高考改革的历程,不难发现,现行的统一高考制度仍具有一定的合理性;统一组织命题能够集中优势进行系统的命题设计,保证了高质量的考试题目和国家对考试的规范管理,使考试具有较高的科学性与权威性;统一考试在相当程度上摒弃了权力,出身和人际关系等因素对公平竞争的干扰。能够得到社会较高的认可,在一定程度上体现了客观性和公正性;统一考试作为一种大规模的考试,标准和要求统一、组织严密、简洁高效,具有很强的操作性与较大的效益性。但统一高考的弊端如考试功能的片面化、考试内容的教材化、考试方式的单一化等。不仅极大地影响了高校对人才的有效选拔,而且在一定程度上
7、误导了学生的学习目的,抑制了学生的个性发展,阻碍了学生的创新思维。因此,必须通过改革考试内容、丰富考试形式、增加考试次数及提高考试效度等措施来革除现行高考制度中的不合理成分。,我国已进入高等教育大众化阶段(高等教育毛入学率已由1999年前的14%左右到现在的24%左右,发达省份已达到30%),高等教育大众化必然要求高等教育形式的多样化,而多样化的高等教育在选择新生时也必须有多样化的要求。传统的大一统考试是让多类型的高校通过单一类型的考试来选择不同的学生,其效度并必然受到质疑。实行分层、分类型考试,亦即让同层瘩同类型的高校来组织相应的统考,应该是提高考试的效度与效益的一条较为现实的路径。近年来兴
8、起的高校自主考试更值得肯定和鼓励,它对于促进学生的个性发展与潜能开发,对于落实高校的办学自主权和实现对学生的有效选拔,对于促进整个教育体系的全面开放和素质教育的全面实施,都有着极为重要的意义。但分类与分校考试只能是统一考试的必要补充,因此在试行之初必须特别慎重。如果盲目推行。就会适得其反。从我国当前情况看。社会对高校自主考试的公平性、科学性与效率性都存在着较多的疑虑。这就需要高校在获得考试自主权的同时,更要增强自己的责任感,大胆改革,稳步推,进,依法治考,阳光操作,妥善处理好选拔效率与考试公平、主观评价与客观成绩、灵活多样与简便易行等矛盾,不断增进社会的理解度。提高社会的信任度,使自主考试与统
9、一考试相互补充、相得益彰。正确地发挥其社会导向功能。其次,在录取环节的改革上应遵循刚柔相济原则,也就是高校招生既要有刚性指标,又要不拘一格。现行的高考录取制度之所以能得到社会广泛认可,除了它具有激励学生学习、促进社会流动、有效选拔人才等正面效应外。最重要的原因就在于它在录取中坚持了刚性指标。强调程序规范,能让老百姓感到公平。感到放心。尤其在社会诚信度不太高的情况下,一旦失去刚性的指标。就很容易使高考异化。诚然,凡事都具两面性。传统录取制度的最大“缺陷”也就在于刚性有余而弹性不足:“以分定取舍”不能正确衡量一个考生的全面素质;“高考定终身”,难免不发生“漏才”现象。,高校自主招生是扩大高校自主权
10、、深化高校录取制度改革的重要举措。也是对选拔优秀创新人才的新探索。它体现的是更高层次上的人文关怀,实现的是更高层次上的社会公平。高校自主招生是高考制度改革的必由之路,但不是唯一之路。要走好这条路,当务之急是要正确理解“不拘一格”。不拘一格的前提是先要有“格”。这个“格”主要是指考生必须具有“德智体美劳”全面发展的综合素质。为了保证不出“格”,必须强调考生的高考成绩应达到基本要求不能过分偏科;无论是统一考试还是自主考试,都应加强对考生的核心知识、学习能力与综合素质的考核。录取中的不拘一格主要体现为三个“不拘泥”:一是不拘泥于单一的评价尺度高考分数,要注重考生高中阶段的学习、文体、社会实践等活动记
11、录及其成果等的调查材料,要对考生进行多元评价;二是不拘泥于单一的选拔方法笔试,要运用多种方法考察学生的各种能力、兴趣特长与发展潜力;三是不拘泥于某一次的考试高考,应适当弱化高考成绩在决定考生是否录取时所占的权重,提高已获得一定认可程度的各种考试的综合成绩的权重。,一、高考试题试卷分析的主要质量指标 1高考:常模参照性考试 2信度(可信性,一致性)测验的信度是指测验结果的可靠性或可靠程度。可靠性是指对同一组对象进行两次相同测量所得结果的一致性和稳定性程度。,一、信度的定义 测量学中,信度可定义为真分数方差与实得分数方差的比率,即(1)这表明,真分数方差 在实得分数方差 中所占的比重越大,则信度
12、就越高。由于 是未知数,所以根据误差方程 可将公式(1)改写为(2)而 和 都可以从一组实得分数中计算出来,所以(2)式更有实际意,从公式(1)或(2)看出,若真分数T与实得分X接近时,和 也会接近,而误差 及 就会很小,此时信度就会增大。可见,信度是实测值与真值之间差距大小的量度。测验信度越高,误差就越小,测验的结果也越可靠。理想情况下,误差为零时,信度达到最大值;当信度很低,甚至降为零时,表明测验分数中充满误差,它比不测验还糟。信度的值在(01)之间,称为信度系数。当 为0.950.99时,测验可靠性很高,但不常见;为0.90.94是通常能得到的最好结果;为0.80.9也比较好;为0.70
13、.79尚可使用,在0.7以下,表明误差太大,该测验不能使用。,二、信度系数的计算 实际工作中,通过对测验结果的一致性程度来计算信度的,主要有三种:稳定性系数、等值性系数和内在一致性系数。1、稳定性系数(再测信度)用同一个测验,对同一组考生前后两次进行测验,两次测验分数的相关系数为再测信度.因为它能反映两次测验结果的一致性和稳定程度,也称稳定系数。其计算公式为:(3)式中X1和X2为同一考生两次的测验分数,为两次测验的平均分数,S1和S2为两次测验的标准差,N为考生人数。,再测信度的计算在使用时,两次测验之间的时间间隔要适宜,相隔时间不要太短,也不宜太长。再测法适用于速度测验而不适用于难度测验,
14、同时要提高考生的积极性,使他们认真负责的参加每次测验。2、等值性系数(复本信度)两个等值但具体内容不同的测验,在最短时距内,对相同考生分两次测验所得分数的相关系数即为复本信度,计算公式与(7.1.3)相同。所谓等值是指测验在题型、题数、难易、时限以及题目内容和形式等方面相同或相似。3、内部一致性系数 内部一致性系数是同一个测验的两部分得分的相关系数,有两种计算方法:分半信度 分半法是按正常的程序实施测验,然后将全部试题分成相等的两半(通常采用奇偶分半法),根据各人在这两半测验的分数计算其相关系数。由于这样求得的只是半个测验的信度,因此要用斯皮尔曼-布朗(Spearman-Brown)公式较正,
15、校正公式为:(4)式中 为两半测验的相关系数,为整个测验的信度值。,例1 若10名学生奇数题得分与偶数题分如下表所示,试求这份整体试卷的分半信度。,解:由上表可求得,于是再由公式(4)得,库-理信度系数公式 库德(Kuder)、理查逊(Richardson)和克朗巴赫(Cronbach)因不满意半分法,从方差分析的角度提出了以试题统计量为转移的信度求法,可避免任意两半分的误差。他们提出的适用于客观题试卷的一系列公式,较为常用的是KR20公式:(7)式中n是测题数,Pi是第i题的答对率(难度指数),为第i题的答错率,显然,为所取样本中考生总分的方差。此外,因,从而使括号中的值不等于1,故乘以修正
16、系数 以使信度估计值不致偏小。,例2 某省年度教育自学考试英语泛读试卷由100题组成,每题答对得1分,不答或答错得0分,现分层按比例抽取50份试卷,并规定奇号题得分为,偶号题分得为,列表如下(表7.1),试用库理公式计算信度。表1 英语泛读50份试卷的奇偶题得分,解:先计算样本中考生的总分方差,再逐题计算 后求和,第1题有43人答对,答对率:则答错率,于是 所有题的。然后由库-理公式得 库-理还提出另一公式,用来计算同质性信度时,不需要逐题计算通过率,该公式为 公式:(8)其中 为测验总分的平均数。,克朗巴赫公式 克朗巴赫提出了论文式测验的信度公式(系数),其基本想法是以每题得分的方差 来代替
17、:(10)式中n为测题数,为所取样本的总分方差,为样本的第 题得分方差。例3 某校写作试卷由三题组成,样本容量为100,算得总分标准差,第一、二、三题的得分标准差 为,求该测验的信度。解:根据克朗巴赫公式可算得信度为系数法能编成程序由电子计算机求得结果。,4、评分者的信度 当测验是论文式试题时,不同评分者对同一试卷的评分结果不相同,因为此时误差主要来自评分者的差异。主要计算公式为:(1)式中K为评分者人数,N为评分的试卷数,是第 题等级和。,例4 有6位教师各自评阅五篇作文,每位教师给每篇作文都评了等级,并列入下表,向6位评分者所评等级的一致性如何?,解:代入公式(11),注意,则,三、提高测
18、验信度的途径 1、适当增加题量:增加样本容量,减小抽样误差,使信度增高。加长测验后的信度计算公式为:(18)式中 为原测验的信度,为加长的倍数,为加长 倍后的信度。例6 原来由6道题组成的测验,其信度,现在要求信度提高到,需要加长到多少试题?解:由(8)式得 加长后的题数=原长。,2、用标准化考试:尽量减少各环节的测验误差,特别是提高命题质量,试题难度中等,区分度要大.3、消除考生焦虑情绪:充分作好考前指导,试卷编排应由易到难,以利稳定考生情绪使其智能得到正常发挥。4、测验内容具有同质性:不要在一个测验中按排许多性质不同的内容,这样会降低一致性,影响信度,3.效度(有效性,准确性),效度是指测
19、验结果的有效性或正确性,所谓有效性,是指一种测验能够正确地测量出它所要测量的特性或功能的程度。一、效度的定义 测量学中,效度被定义为有效分数方差与实得分数方差之比,即:(1)由误差方程 可知,当随机误差足够小而且不变时,系统误差方差越小,则有效分数方差就越大;亦即有效分数方差在实得分数方差中所占的比重越大,也就是说效度也就越高。效度要解决两个问题:本测验的测量目标是什么;本测验对于所要测量的目标能测到什么程度。公式(1)对效度的定义告诉我们,只有当有效分数方差在实得分数方差中所占的比重越大,那么,达到测验目标的程度也就越大,因而效度也就越高。效度的取值为。,二、效度的估算 1、内容效度 内容效
20、度是指测验内容对所要测验的全部内容的取样代表性程度。一个测验具备良好的内容效度应满足两个条件:测验内容范围要明确,对学生成绩测验来说,就是试题要符合教材内容和教学大纲,试题不应该超出确定的范围。试题应是已界定的内容范围的代表性样本,它应该覆盖所测验内容的主要方面,并使各部分题目所占比例适当。确定内容效度的常用的方法是由专家对试题及所涉及的范围进行符合性判断。内容效度适合于评价学业成绩测验和职业选拔测验,对目标参照测验更为重要,因为在目标参照测验中,我们主要关心的是考生在一定范围内的知识技能掌握得如何。,2、效标关联效度 效标关联效度是指测验分数与作为效标的另一独立测验结果之间的一致性程度,一般
21、是用本测验分数与效标测验结果之间的相关系数表示。所谓效标,是用来检测效度的参照标准,效标关联效度可分为以下两种:同时效度:是一种测验的结果与另一大约同时获得的测验结果(即效标)之间的一致程度,并用两个测验结果的相关系数来估算,同时效度常用于标准化测验的建立。例如,用教师自编的测验施测之后,让考生短期内很快再参加一次被公认是标准化的测验,如果两次考试成绩的相关系数很高,则可以认为教师编制的测验也是标准化测验。例1 取10名考生参加摸底考试与全区统一考试的成绩记录于表7.3中,求摸底考试的效标关联效度。,表3,解:我们把区考试成绩作为效标,求它与摸底考试分数的积差相关系数:若用等级相关系数公式计算
22、,应先由表3中的数据按等级列表,然后计算:效标效度系数 一般应在0.4以上。,预测效度:是指某一测验结果与另一将来获得的测验结果之间的相关程度。在这里,效标的建立远在测验之后,目的在于说明某一测验的结果是否具有预测未来另一测验结果的功能。例2 假定高中英语考试和大学入学英语考试的平均分数分别为92.57和64.18,标准差分别为21.01和11.13,两次考试间的相关系数为0.68,如果某生在高中英语考试中得分为114,那么他在大学入学英语考试中可能得多少分?解:这种问题可以用回归方程来解决,设 为预测的效标分数;和 分别为效标分数与测验分数的标准差;分别为效标分数与测验分数的平均数;为测验所
23、得分数,则回归方程如下:(3)将本例中数据代入上式得:所以,这位学生在大学入学英语考试中可能得74分。,4.难度(难易程度),一、难度及其计算 难度是衡量试题与试卷难易程度的指标,通常可以用如下方法计算难度:1、客观性试题的难度计算 难度指数:对于采用二分法记分的题目,难度以通过率来表示:(1)式中 为题目的通过率,为答对或通过该题目的人数,为全体考生。此时 值越大,难度越小;值越小,难度越大。极端分组法:当被试人数很多时,用通过率计算难度很麻烦,可以将被试依照总分从高到低排列,然后将总分最高的27%和最低的27%的被试分别定为高分组和低分组,分别计算两组的通过率,然后用下式计算该题难度:(3
24、)式中 和 分别为高分组与低分组的通过率。,2、主观性试题的难度计算 难度指数:设 为所有考生在某一试题上的平均分,为该题的满分,则(4)上式适用于论述题、问答题和计算题等非二分法记分的题目。极端分组法:当被试人数很多时,主观性试题可采用下式计算难度:(5)式中 为高分组所得的总分;为低分组所得总分,和 分别为该题的最高和最低得分,为考生总人数的25%。,3、难度的测前估算 首先了解影响试题难度的因素:熟悉程度:如果试题与课本中的例题、习题相近,学生熟悉试题内容,难度 就高。信息数量:如果试题中的信息量大,学生要不止一次地阅读才能把握内容,增大了困难。题目结构:题目类型、知识综合程度、计算复杂
25、程度等,影响难度。变化动态:迷惑干扰大的,问题灵活易引起错误,增加困难。其次把上述四个因素分成三个等级:1表示小,2表示中等,3表示大。最后估算难度:先估计试题各因素的等级并作为各因素的点数,累加各因素的点数;然后,参照表7.5估计试题的难度:,4、试卷的难度 是指一份试卷的总体难易程度,用下式计算:(6)式中 是试卷的满分值,和 分别为第 道题的难度和满分值,是试卷题目的总数。试卷难度与平均分数之间满足如下关系:(7)也可以认为试卷难度等于试卷平均分 与试卷满分之比,即:(8)由上式可知,试卷的难度并不等于各试题难度的平均值。我们也可以把难度 转换成正态量 来处理,先查正态分布表,由各题的难
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 新课程 标准 考试 改革 评价 几个问题

链接地址:https://www.31ppt.com/p-5577205.html