书签分享收藏举报版权申诉 / 142

立即下载加入VIP免费专享

当前位置：首页 > 建筑/施工/环境 > 农业报告 > 新课程标准下考试改革与评价的几个问题.ppt

新课程标准下考试改革与评价的几个问题.ppt

上传人：sccc

文档编号：5577205

上传时间：2023-07-30

格式：PPT

页数：142

大小：581.54KB

《新课程标准下考试改革与评价的几个问题.ppt》由会员分享，可在线阅读，更多相关《新课程标准下考试改革与评价的几个问题.ppt（142页珍藏版）》请在三一办公上搜索。

1、新课程标准下考试改革与评价的几个问题,陕西师范大学刘新平,新课改始于2004年（广东，山东，海南，宁夏）2007年陕西开始，几年来，新课改在批评与责难声中蹒跚前进。2001年1月，美国总统布什推出“一个都不能少”，2004年获得连任，有人称，是成功的教育改革使布什战胜了大比分高于他的克里，小布什承继了老布什的“绝招”，老布什曾标榜他是一个教育总统（等值研究），尽管媒体对中国新课改批评多于赞扬（如教育理论学者主持课改，教材不适应，等）但新课改方向不会变，近年来为了挽救众多小“范进”，也有“老范进”，许多中学教师辛辛苦苦进行“新课改”，但考试形式及评价制度不改，这些努力是徒劳的。“轰轰烈烈搞课改

2、，扎扎实实抓应试”，在中学普遍存在，因而对高考不实施“刮骨去毒”式的“关公”疗法，新课改最终流于形式。河南一位中学校长曾问杨学为（原教育部考试中心主任）高考已经走进了死胡同，你怎样看？杨反问：有更好的办法吗？他答：没有，故而很多人认为高考改革没有出路。,2007年3月“两会”上，宁波人大代表范谊教授议案关于废除高考，创新高校招生制度引起了轩然大波。他认为：高考使我国教育迷失了方向，失去了教育的本性和灵魂。使儿童失去了天真，幻想，热情和能力；使青年套上了思维的枷锁，扼杀了对生活的热爱和创造冲动。只能对规定的知识反复记忆和辨析，使我们的民族习惯于接受和模仿。这是一种悲哀。作家舒云发表了长篇报告文字

3、高考殇指出：一些人认为，“高考是地狱”，是“悬在中小学头上的剑”认为高考“偷”走了中小学生的健康，“偷”走了中国人的创造力，主张将高考送进坟墓。,与范谊看法相佐，出席两会的原教育部副部长张保庆接受媒体采访时说：废除高考将天下大乱，在没有找到更好，更公平办法之前不能废除，该阶段只能以国家统考选拔人才。范谊看法表明：现行应试正在摧残儿童好奇心，造成普遍厌学。张保庆观点表明：今天社会缺乏诚信的背景下，取消统考会使公平公正受到伤害。现行高考最不合理的是高中教师没有发言权他们对学生最了解（3年），那么如何改革现行模式：一种是有人提出以高中校内成绩作为招生的主要依据，以统考作为这种成绩的参照点，使统考成绩

4、完全与考生脱钩。,这种方案的特征：以长期“形成性评价”取代“一次性终结评价”，以笔试和面试结合，因为学生口头表达，应变能力很难笔试，而统考中面试不好操作，故应由中学教师参与，另一特点是将非智力因素融与评价之中，有利于高校招到一些潜质好的学生，（因为忽视非智力因素，这是中国大学与世界一流大学的重要差距，如比尔盖茨，达尔文，钱仲书，毛泽东等伟人）今天，新课改自2001年启动已经历8个年头，许多人正在逐步接受，中学许多老师真心认同新课改，但是面对残酷的“高考”甚至“中考”，他们又不得不“扎扎实实抓应试”。教育部基教司朱慕菊司长曾说：“要用新课改来冲击高考，来逼迫高考改革”，但愿能收到实效，否则中学生

5、“厌学”，不久的将来，老师们“厌教”，恐怕就不可避免了。课改与高考是什么关系？父子关系还是兄弟关系？课改与高考是合还是分？众说纷云。,展望明年陕西新高考：学业水平考试，综合素质评定，闭卷统一考试。这种模式中的前二是软还是硬，硬到何种程度，底线是多少，耐人寻味。近年来关于高考改革的研究和讨论甚多，主要集中在考试环节的“统分之争”与录取环节的“刚柔之辨”方面。所谓“统”者，即强调应坚持统一考试；所谓“分”者。即主张分区、分省或分校考试。所“谓”刚者，即强调录取中要有硬性指标；所谓“柔”者，即强调录取中要有适度弹性。,首先，在考试环节上的改革应遵循统分结合原则，也就是坚持和完善统一高考的的基础由，慎

6、重推进分层、分类与分校考试的改革与试验。客观、冷静地分析我国高考改革的历程，不难发现，现行的统一高考制度仍具有一定的合理性；统一组织命题能够集中优势进行系统的命题设计，保证了高质量的考试题目和国家对考试的规范管理，使考试具有较高的科学性与权威性；统一考试在相当程度上摒弃了权力，出身和人际关系等因素对公平竞争的干扰。能够得到社会较高的认可，在一定程度上体现了客观性和公正性；统一考试作为一种大规模的考试，标准和要求统一、组织严密、简洁高效，具有很强的操作性与较大的效益性。但统一高考的弊端如考试功能的片面化、考试内容的教材化、考试方式的单一化等。不仅极大地影响了高校对人才的有效选拔，而且在一定程度上

7、误导了学生的学习目的，抑制了学生的个性发展，阻碍了学生的创新思维。因此，必须通过改革考试内容、丰富考试形式、增加考试次数及提高考试效度等措施来革除现行高考制度中的不合理成分。,我国已进入高等教育大众化阶段（高等教育毛入学率已由1999年前的14%左右到现在的24%左右，发达省份已达到30%），高等教育大众化必然要求高等教育形式的多样化，而多样化的高等教育在选择新生时也必须有多样化的要求。传统的大一统考试是让多类型的高校通过单一类型的考试来选择不同的学生，其效度并必然受到质疑。实行分层、分类型考试，亦即让同层瘩同类型的高校来组织相应的统考，应该是提高考试的效度与效益的一条较为现实的路径。近年来兴

8、起的高校自主考试更值得肯定和鼓励，它对于促进学生的个性发展与潜能开发，对于落实高校的办学自主权和实现对学生的有效选拔，对于促进整个教育体系的全面开放和素质教育的全面实施，都有着极为重要的意义。但分类与分校考试只能是统一考试的必要补充，因此在试行之初必须特别慎重。如果盲目推行。就会适得其反。从我国当前情况看。社会对高校自主考试的公平性、科学性与效率性都存在着较多的疑虑。这就需要高校在获得考试自主权的同时，更要增强自己的责任感，大胆改革，稳步推,进，依法治考，阳光操作，妥善处理好选拔效率与考试公平、主观评价与客观成绩、灵活多样与简便易行等矛盾，不断增进社会的理解度。提高社会的信任度，使自主考试与统

9、一考试相互补充、相得益彰。正确地发挥其社会导向功能。其次，在录取环节的改革上应遵循刚柔相济原则，也就是高校招生既要有刚性指标，又要不拘一格。现行的高考录取制度之所以能得到社会广泛认可，除了它具有激励学生学习、促进社会流动、有效选拔人才等正面效应外。最重要的原因就在于它在录取中坚持了刚性指标。强调程序规范，能让老百姓感到公平。感到放心。尤其在社会诚信度不太高的情况下，一旦失去刚性的指标。就很容易使高考异化。诚然，凡事都具两面性。传统录取制度的最大“缺陷”也就在于刚性有余而弹性不足：“以分定取舍”不能正确衡量一个考生的全面素质；“高考定终身”，难免不发生“漏才”现象。,高校自主招生是扩大高校自主权

10、、深化高校录取制度改革的重要举措。也是对选拔优秀创新人才的新探索。它体现的是更高层次上的人文关怀，实现的是更高层次上的社会公平。高校自主招生是高考制度改革的必由之路，但不是唯一之路。要走好这条路，当务之急是要正确理解“不拘一格”。不拘一格的前提是先要有“格”。这个“格”主要是指考生必须具有“德智体美劳”全面发展的综合素质。为了保证不出“格”，必须强调考生的高考成绩应达到基本要求不能过分偏科；无论是统一考试还是自主考试，都应加强对考生的核心知识、学习能力与综合素质的考核。录取中的不拘一格主要体现为三个“不拘泥”：一是不拘泥于单一的评价尺度高考分数，要注重考生高中阶段的学习、文体、社会实践等活动记

11、录及其成果等的调查材料，要对考生进行多元评价；二是不拘泥于单一的选拔方法笔试，要运用多种方法考察学生的各种能力、兴趣特长与发展潜力；三是不拘泥于某一次的考试高考，应适当弱化高考成绩在决定考生是否录取时所占的权重，提高已获得一定认可程度的各种考试的综合成绩的权重。,一、高考试题试卷分析的主要质量指标 1高考：常模参照性考试 2信度（可信性，一致性）测验的信度是指测验结果的可靠性或可靠程度。可靠性是指对同一组对象进行两次相同测量所得结果的一致性和稳定性程度。,一、信度的定义测量学中，信度可定义为真分数方差与实得分数方差的比率，即（1）这表明，真分数方差在实得分数方差中所占的比重越大，则信度

12、就越高。由于是未知数，所以根据误差方程可将公式（1）改写为(2)而和都可以从一组实得分数中计算出来，所以（2）式更有实际意,从公式（1）或（2）看出，若真分数T与实得分X接近时，和也会接近，而误差及就会很小，此时信度就会增大。可见，信度是实测值与真值之间差距大小的量度。测验信度越高，误差就越小，测验的结果也越可靠。理想情况下，误差为零时，信度达到最大值；当信度很低，甚至降为零时，表明测验分数中充满误差，它比不测验还糟。信度的值在（01）之间，称为信度系数。当为0.950.99时，测验可靠性很高，但不常见；为0.90.94是通常能得到的最好结果；为0.80.9也比较好；为0.70

13、.79尚可使用，在0.7以下，表明误差太大，该测验不能使用。,二、信度系数的计算实际工作中，通过对测验结果的一致性程度来计算信度的，主要有三种：稳定性系数、等值性系数和内在一致性系数。1、稳定性系数（再测信度）用同一个测验，对同一组考生前后两次进行测验，两次测验分数的相关系数为再测信度.因为它能反映两次测验结果的一致性和稳定程度，也称稳定系数。其计算公式为：（3）式中X1和X2为同一考生两次的测验分数，为两次测验的平均分数，S1和S2为两次测验的标准差，N为考生人数。,再测信度的计算在使用时，两次测验之间的时间间隔要适宜，相隔时间不要太短，也不宜太长。再测法适用于速度测验而不适用于难度测验，

14、同时要提高考生的积极性，使他们认真负责的参加每次测验。2、等值性系数（复本信度）两个等值但具体内容不同的测验，在最短时距内，对相同考生分两次测验所得分数的相关系数即为复本信度，计算公式与（7.1.3）相同。所谓等值是指测验在题型、题数、难易、时限以及题目内容和形式等方面相同或相似。3、内部一致性系数内部一致性系数是同一个测验的两部分得分的相关系数，有两种计算方法：分半信度分半法是按正常的程序实施测验，然后将全部试题分成相等的两半（通常采用奇偶分半法），根据各人在这两半测验的分数计算其相关系数。由于这样求得的只是半个测验的信度，因此要用斯皮尔曼-布朗（Spearman-Brown）公式较正，

15、校正公式为：（4）式中为两半测验的相关系数，为整个测验的信度值。,例1 若10名学生奇数题得分与偶数题分如下表所示，试求这份整体试卷的分半信度。,解：由上表可求得,于是再由公式(4)得,库-理信度系数公式库德（Kuder）、理查逊（Richardson）和克朗巴赫（Cronbach）因不满意半分法，从方差分析的角度提出了以试题统计量为转移的信度求法，可避免任意两半分的误差。他们提出的适用于客观题试卷的一系列公式，较为常用的是KR20公式：(7)式中n是测题数，Pi是第i题的答对率（难度指数），为第i题的答错率，显然，为所取样本中考生总分的方差。此外，因,从而使括号中的值不等于1，故乘以修正

16、系数以使信度估计值不致偏小。,例2 某省年度教育自学考试英语泛读试卷由100题组成，每题答对得1分，不答或答错得0分，现分层按比例抽取50份试卷，并规定奇号题得分为，偶号题分得为，列表如下(表7.1)，试用库理公式计算信度。表1 英语泛读50份试卷的奇偶题得分,解：先计算样本中考生的总分方差，再逐题计算后求和，第1题有43人答对，答对率：则答错率,于是所有题的。然后由库-理公式得库-理还提出另一公式，用来计算同质性信度时，不需要逐题计算通过率，该公式为公式：(8)其中为测验总分的平均数。,克朗巴赫公式克朗巴赫提出了论文式测验的信度公式（系数），其基本想法是以每题得分的方差来代替

17、：(10)式中n为测题数，为所取样本的总分方差，为样本的第题得分方差。例3 某校写作试卷由三题组成，样本容量为100，算得总分标准差，第一、二、三题的得分标准差为，求该测验的信度。解：根据克朗巴赫公式可算得信度为系数法能编成程序由电子计算机求得结果。,4、评分者的信度当测验是论文式试题时，不同评分者对同一试卷的评分结果不相同，因为此时误差主要来自评分者的差异。主要计算公式为：(1)式中K为评分者人数，N为评分的试卷数，是第题等级和。,例4 有6位教师各自评阅五篇作文，每位教师给每篇作文都评了等级，并列入下表，向6位评分者所评等级的一致性如何？,解：代入公式(11)，注意，则,三、提高测

18、验信度的途径 1、适当增加题量：增加样本容量，减小抽样误差，使信度增高。加长测验后的信度计算公式为：(18)式中为原测验的信度，为加长的倍数，为加长倍后的信度。例6 原来由6道题组成的测验，其信度，现在要求信度提高到，需要加长到多少试题？解：由(8)式得加长后的题数=原长。,2、用标准化考试：尽量减少各环节的测验误差，特别是提高命题质量，试题难度中等，区分度要大.3、消除考生焦虑情绪：充分作好考前指导，试卷编排应由易到难，以利稳定考生情绪使其智能得到正常发挥。4、测验内容具有同质性：不要在一个测验中按排许多性质不同的内容，这样会降低一致性，影响信度,3.效度（有效性，准确性),效度是指测

19、验结果的有效性或正确性，所谓有效性，是指一种测验能够正确地测量出它所要测量的特性或功能的程度。一、效度的定义测量学中，效度被定义为有效分数方差与实得分数方差之比，即：(1)由误差方程可知，当随机误差足够小而且不变时，系统误差方差越小，则有效分数方差就越大；亦即有效分数方差在实得分数方差中所占的比重越大，也就是说效度也就越高。效度要解决两个问题：本测验的测量目标是什么；本测验对于所要测量的目标能测到什么程度。公式（1）对效度的定义告诉我们，只有当有效分数方差在实得分数方差中所占的比重越大，那么，达到测验目标的程度也就越大，因而效度也就越高。效度的取值为。,二、效度的估算 1、内容效度内容效

20、度是指测验内容对所要测验的全部内容的取样代表性程度。一个测验具备良好的内容效度应满足两个条件：测验内容范围要明确，对学生成绩测验来说，就是试题要符合教材内容和教学大纲，试题不应该超出确定的范围。试题应是已界定的内容范围的代表性样本，它应该覆盖所测验内容的主要方面，并使各部分题目所占比例适当。确定内容效度的常用的方法是由专家对试题及所涉及的范围进行符合性判断。内容效度适合于评价学业成绩测验和职业选拔测验，对目标参照测验更为重要，因为在目标参照测验中，我们主要关心的是考生在一定范围内的知识技能掌握得如何。,2、效标关联效度效标关联效度是指测验分数与作为效标的另一独立测验结果之间的一致性程度，一般

21、是用本测验分数与效标测验结果之间的相关系数表示。所谓效标，是用来检测效度的参照标准，效标关联效度可分为以下两种：同时效度：是一种测验的结果与另一大约同时获得的测验结果（即效标）之间的一致程度，并用两个测验结果的相关系数来估算，同时效度常用于标准化测验的建立。例如，用教师自编的测验施测之后，让考生短期内很快再参加一次被公认是标准化的测验，如果两次考试成绩的相关系数很高，则可以认为教师编制的测验也是标准化测验。例1 取10名考生参加摸底考试与全区统一考试的成绩记录于表7.3中，求摸底考试的效标关联效度。,表3,解：我们把区考试成绩作为效标，求它与摸底考试分数的积差相关系数：若用等级相关系数公式计算

22、，应先由表3中的数据按等级列表，然后计算：效标效度系数一般应在0.4以上。,预测效度：是指某一测验结果与另一将来获得的测验结果之间的相关程度。在这里，效标的建立远在测验之后，目的在于说明某一测验的结果是否具有预测未来另一测验结果的功能。例2 假定高中英语考试和大学入学英语考试的平均分数分别为92.57和64.18，标准差分别为21.01和11.13，两次考试间的相关系数为0.68，如果某生在高中英语考试中得分为114，那么他在大学入学英语考试中可能得多少分？解:这种问题可以用回归方程来解决,设为预测的效标分数；和分别为效标分数与测验分数的标准差；分别为效标分数与测验分数的平均数；为测验所

23、得分数，则回归方程如下：（3）将本例中数据代入上式得：所以，这位学生在大学入学英语考试中可能得74分。,4.难度（难易程度）,一、难度及其计算难度是衡量试题与试卷难易程度的指标，通常可以用如下方法计算难度：1、客观性试题的难度计算难度指数：对于采用二分法记分的题目，难度以通过率来表示：(1)式中为题目的通过率，为答对或通过该题目的人数，为全体考生。此时值越大，难度越小；值越小，难度越大。极端分组法：当被试人数很多时，用通过率计算难度很麻烦，可以将被试依照总分从高到低排列，然后将总分最高的27%和最低的27%的被试分别定为高分组和低分组，分别计算两组的通过率，然后用下式计算该题难度：(3

24、)式中和分别为高分组与低分组的通过率。,2、主观性试题的难度计算难度指数：设为所有考生在某一试题上的平均分，为该题的满分，则(4)上式适用于论述题、问答题和计算题等非二分法记分的题目。极端分组法：当被试人数很多时，主观性试题可采用下式计算难度：(5)式中为高分组所得的总分；为低分组所得总分，和分别为该题的最高和最低得分，为考生总人数的25%。,3、难度的测前估算首先了解影响试题难度的因素：熟悉程度：如果试题与课本中的例题、习题相近，学生熟悉试题内容，难度就高。信息数量：如果试题中的信息量大，学生要不止一次地阅读才能把握内容，增大了困难。题目结构：题目类型、知识综合程度、计算复杂

25、程度等，影响难度。变化动态：迷惑干扰大的，问题灵活易引起错误，增加困难。其次把上述四个因素分成三个等级：1表示小，2表示中等，3表示大。最后估算难度：先估计试题各因素的等级并作为各因素的点数，累加各因素的点数；然后，参照表7.5估计试题的难度：,4、试卷的难度是指一份试卷的总体难易程度，用下式计算：(6)式中是试卷的满分值，和分别为第道题的难度和满分值，是试卷题目的总数。试卷难度与平均分数之间满足如下关系：(7)也可以认为试卷难度等于试卷平均分与试卷满分之比，即：(8)由上式可知，试卷的难度并不等于各试题难度的平均值。我们也可以把难度转换成正态量来处理，先查正态分布表，由各题的难

26、度查出对应的正态量，则试卷的平均值为：。再查正态分布表，由值求出试卷的难度。,5.区分度（鉴别力大小）,一、区分度及其计算区分度是测验试题对考生实际水平的区分程度，区分度的取值范围介于-1.00和+1.00之间。下面介绍几种主要的计算方法：1、极端分组法客观性试题的区分度计算公式为：(1),其中分别为高、低分组的通过率。美国测量专家伊贝尔(L.Ebel)把称为鉴别指数，它对评价题目性能的标准如表7所示：,表 7,主观性试题的区分度计算公式为：(2)式中为高分组总分，为低分组总分，为该题最高分，为该题最低分，为考生总人数的25%。2、相关法相关法是以某试题的得分与效标分数的相关

27、系数作为该题的区分度指标。一般情况下，效标分数不易得到，则以测验总分代替，求试题得分与该测验总分的相关系数。相关越高，则试题区分度越高。由于总分是连续变量，而试题得分有连续变量和二分变量的不同情况，所以求相关系数可分以下几种情况：,积差相关当试题得分与测验总分都属连续变量时，可以采用积差相关法计算区分度，其公式为：（3）式中为考生某题得分，为考生测验总分；为考生总数。,二列相关二列相关适用于两个连续变量，但其中有一个被人为分为两个类别，其公式为：（4）（5）,式中为考生答对某题的平均分，为考生答错某题的平均分；和分别为全体考生测验得分的平均数和标准差；为答对组人数与总人数之比，为答错

28、人数与总人数之比；而且；为与交界处正态曲线的高度。计算二列相关时，要求二分变量的分布在连续测量时必须是正态分布。对连续变量的分布，虽不要求是正态，但必须是单峰而且要对称。点二列相关点二列相关适用于一个变量为连续变量，另一个为二分变量的情况，其公式为：(7)(8)式中符号意义与前面二列相关公式相同。,相关如果测验的两组变量都是二分变量，则可用相关计算相关系数，并不要求变量呈正态分布。其公式为：,(9),表9 四格表,3、试卷区分度的计算试卷区分度是指试卷总体对学生水平的区分程度，计算公式为：(11)其中为第道题的区分度，为试卷的区分度,试卷区分度与标准差有如下关系：(12)其中为

29、标准差，、为回归系数。二、区分度对测验的影响 1、区分度与难度的关系我们从方差来看试题区分度和难度和关系。对于以1或0评分的是非性选择题来说，某题的难度即该题上所通过的人数比率：,某题对个受试者施测时，答对分数的总和则为,答对分数的平方和应为将上述结果代入方差的计算公式，则有或。,2、区分度与信度的关系一个良好的测验，信度必须要高。艾伯（R.L.Ebel）的研究表明，整个测验中各试题的区分度D值的平均数越高，测验的信度就越高。信度是随区分度的提高而增长的，且信度增长的速度比区分度增长还快，所以，要想使得测验信度达到理想的值，提高各试题区分度是一个好的途径。但是，也必须指出，区分度的大小应

30、根据测验的性质和目的而定，对于以选拔和比较为目的的常模参照测验，区分度越大越好，它便于选拔和比较，而对于以考察被试对知识掌握情况为目的的目标参照测验，区分度已没有多大意义不必过多考虑。,1.考试的标准化,凡是符合现代教育测量学对测验作出的科学性、客观性要求，并对各个环节的误差作了严格控制的各种考试都可称为标准化考试。一、传统考试与标准化考试 1、传统考试及其弊端传统考试是从科举制发展起来的主观性、经验性考试方法，由主讲教师根据教学内容和自己的教学经验出几道或十几道试题让学生作答，然后按评分标准、答案情况评定分数。传统考试存在如下弊端：命题的科学性难以保证；试题的难度水平难以保持稳定；题型单调

31、，知识覆盖面窄，易导致猜题押宝、死记硬背；缺乏有效的办法保证评分质量、评分误差大；主观题难以使用电子计算机阅卷，使大型考试的评卷工作费时费力。,二、高考设计的基本结构,2、标准化考试的特征标准化考试是一种具有统一标准的、按照系统的科学程序组织并对误差做了严格控制的考试。二、标准化考试的主要环节 1、试卷命题的标准化根据考试的目的、性质，对命题提出以下原则性要求：对知识与能力的要求；对重点非重点内容之关系的处理；命题的覆盖面，各种题型的比例；对难度、区分度的要求；对整个试卷信度、效度的要求等。（详见下章）。,2、考试实施的标准化标准化考试对考试的实施手续与条件给予严格控制，以保证施测条件与

32、手续的客观化和公平性，排除考场环境与各种偶然因素对考试真实成绩的影响。3、阅卷评分的标准化评分是标准化考试的重要环节，要求客观、准确。采用大量的选择题等客观性试题，可消除由评卷者的主观因素带来的评分误差；对于主观性试题，采取措施对评分的平等性进行控制。4、分数组合与解释的标准化阅卷评分所得的分数叫原始分数，将它按一定的原理和方法进行转化即可得导出分数，常用的导出分数有标准分、T分数、C分数等,2.考试的设计,考试设计的任务：要确定考试目标、制定考试大纲和考试蓝图（双向细目表），再由大纲和蓝图编写或征集试题，最后编制试卷。对考试设计的基本要求：要使测验具良好的可靠性、有效性和实用性。一、考试目

33、标的分类 1956年，美国心理学家布卢姆(B.B.Bloom)提出一种教育目标分类方法，把人的认知水平从简单到复杂分为如下六个层次：1、识记（Knowledge）：是对所学具体事实、材料或理论观念的再认识或回忆。2、领会（Comprehension）：指抓住材料意义的能力，或对知识的意义进行初步理解的能力。3、应用（Application）：指将学过的材料（规则、方法、概念、原理、定理等）用到具体情境中去解决问题的能力。4、分析（Analgsis）：指把材料分解成各个组成部分，弄清各部分相互关系及其构成方式的能力。,5、综合（Synthesis）：综合指将某些因素或部分组合成整体的能力，是与分

34、析互逆的能力。6、评价（Evaliation）：指根据一定目的对材料的价值作出判断的能力。二、考试大纲的制定考试大纲是指导考试的纲领性文件，是制订命题双向细目表的原则依据，是教学大纲的具体化，但又不能等同于教学大纲和复习大纲。具体地说，考试大纲应主要规定：1、考试的目的：即本次考试要解决的问题。2、考查的目标和内容：根据学科特点，确定本次考试的目标层次及知识内容。3、考试的方式：即闭卷还是开卷，笔试还是口试等。4、题型：即主观题型或客观题型。5、评分与计分的方法。考试大纲要经学科专家共同拟定，报教育主管部门批准后公布，目的是使广大考生和学校都能明确考试的方向和要求，都向同一目标努力，利于减少

35、随机误差而测出考生的实际水平，此外，考试大纲还能对平时教学起到参照和促进作用。,三、双向细目表及其要素双向细目表是根据考试大纲对考查的目标与内容的规定而制定出来的考试蓝图，它实质上是考查目标与考查内容的联列表，是进行科学命题的具体依据。双向细目表的制定要考虑三个要素：1、考查目标：一般都是参照布卢姆的认知领域教育目标的层次分类原则，并结合本学科的具体特点来进行制定。2、考查内容：指教学内容的大、中、小三类知识单元，其大知识单元在考试大纲中公布，中知识单元作为制定双向细目表的依据，小知识单元则在命题时作抽样之用。3、考查目标和考查内容的比例：确定比例的依据有：各个知识单元在整个学科领域中的重要

36、性；分配给各知识单元的教学时数的比重；需要着重考虑的知识与能力项目等。表1 硫、硫酸总结性考试命题双向表,表2 初中平面几何15章命题双向细目表,可以看出，双向细目表的三要素实际上就是两个维度和一个配分，亦即应该编哪些内容哪种水平的题目、各编多少以及每类试题各占分数的具体分配和确定。四、试题设计 1、确定题型和题量试题的类型可分为两大类：即客观性试题与主观性试题，前者也称为供答型题，后者也叫做自由反映型试题，这两种试题各有所长和所短，应将二者结合起来使用。一般地说，选择题型时，要依据目的性原则、经济性原则和适用性原则，即要依据考试目的、内容和目标灵活采用不同类型试题，在同一考试中类型不宜太多

37、。一次考试的总题量以多少为宜，这取决于多种因素，要综合各方面的要求，正确确定题量。此外，还要考虑考生年龄和能力水平。据测算，一般学生回答一道简单事实性选择题或是非题大约需要3045秒；回答比较复杂的选择题则需75100秒，这些数据也可供确定总题量时参考。试卷总题数确定之后，就可以依据双向细目表中规定的目标和内容的百分比来确定蓝图中每一网格的试题数目，若试卷总题数目为n，而某一目标和内容的百分比为15%，则该项的试题数为n15%。,2、确定试题难度和区分度试题难度和区分度在经典测量理论中，是由考试结果的统计计算而得到，在编制测验时还是未知的，因此，只能用测前估算的方法或根据教师的经验来确定。难

38、度和区分度的选择首先应考虑不同性质和不同目的的考试有不同的值;其次，难度与考查目标层次有关，对于简单目标，如记忆、了解等的难度要小一些，对于考查复杂目标，如综合、探究等的难度要大一些；再次，试题难度与题型也有关，不同类型试题的恰当难度可见表5，这些数据可供编制测验时参考。3、拟定试题根据蓝图的要求拟定试题，可以是教师自编的，也可以是从试题集或题库中挑选的，但是，都必须保证内容的正确性，不能出现任何科学性和知识性的错误，同时，试题取样必须有代表性。因为，试题实际上是所要考核内容的一个样本，如果它的代表性不强，必然产生较大的抽样误差，从而降低测验的信度和效度，考试也就失去了本身的意义和作用。,表

39、5 不同类型试题的恰当难度,教师必须对本门课程有深入了解，对本学科有较高造诣，有丰富教学经验，才能编写出高水平试题。平时要多收集有关试题资料，并掌握试题编拟技巧。,五、试卷的编制试卷编制是指将拟定的试题进行科学搭配，最后组织成一个完整试卷的过程。1、将收集的试题进行认真检查。2、对试题进行编排的原则是：将测验认知目标相同的试题编排在一起，将同一类型的试题编排在一起；由易到难编排试题。3、要编写答题说明：一般包括的内容有：测验的目的；测验的时间限制；回答试题的方法；记分的方法等。4、确定分值：试卷编好后，还要确定每一试题的满分值以多大为宜，这就是试题赋分问题。试题赋分时应考虑：考核内容在知识体

40、系中的地位；掌握目标层次要求；试题难度和解题所需时间；分数组合时方便等。一般情况下，同一大题中的每个小题，赋予相同分值，这样可以简化题分组合成总分过程中的手续。同时，对于主观性试题，还要考虑分步给分问题。,三、高考试卷难度的总体设计与误差控制我国目前高校录取新生主要依据高考成绩，这就进一步加大了社会各方面对高考试卷难度的关注程度。又由于我国绝大多数省市的高考成绩报告制度采用原始分表示，这就使得式卷难度的设计与控制问题更为突出。1影响高考难度设计的社会因素历年高考，考生、家长、教师对高考命题质量的第一反应即试卷的难度如何？而影响难度的社会因素有以下几点：,（1）一般要求命题人员应根据学生解题

41、过程反映的心理特征来确定试题的难度，过难则导致学生的心理负担加重故而学科试卷中过难题目的命题相当谨慎。（2）要求命题人员应结合当前中学教学实际，即应试在相当一段时间内影响仍存在，故在有利于素质教育的前提下，应注重中学复习应考的导向性，即不要过于注重追求难度，否则会加重考生备考负担。（3）每年高考试卷难度波动不宜过大，否则会带来考生志愿填报产生偏差，因为人们对各批次录取分数线已有了基本心理认同，故要求命题难度每年应保持相对稳定。,2影响高考试卷难度的技术因素难度系数值越小试卷难度越大（1）由于学科特点，题型特点不同，其误差大小也不同，一般文科类及主观题特别是开放题其估计误差偏大，而理科类，客

42、观题其估计误差较小。（2）阅卷以机器阅卷一般不会产生明显误差，而主观题误差较大。3试卷难度的设计高考改革既要坚持有利于高校选拔人才，也要坚持有利于中学实施素质教育。所以，高考命题的难度设计要从教育测量技术的角度考虑，也要从社会角度考虑；既要满足高校选拔新生的需要，也要充分考虑对中学教育教学的影响。,（1）难度系数一般高考，试题相对难度应调控在使考生成绩接近正态分布，如数学满分150分，则群体的平均分应控制在半满分位置即75分左右，标准差应控制在1/6满分位附近，即25分左右，整卷难度系数要求在0.5左右，才能保证较大区分性以达到选拔目的，当然随录取率的增大，应加以调整，难度素数应相应增大。

43、全国高考平均录取率近几年已超过50%，2006、2007年达到56%，故要求命题人员应调整难度，适当降低难度。,教育部考试中心主任戴家干2007年6月26日在教育部的新闻发布会上表示，虽然今年北京市一本线上升幅度较大，但今年的分数并不会影响录取，这样的分数可能更利于考试本身的区分度。目前我国高考试题的难易程度控制在0.55至0.65之间，今后几年这个难度系数也不会有变化。高考的目的主要是为高校选择新生提供决策依据。上海教育考试院雷新勇博士认为：分数线应该尽量远离考试的平均分。在第一批本科招生人数或投档人数将近30%，本科招生人数略微超过50%左右时，难度系数在0.55至0.6左右比较合适。如果

44、难度系数偏小，虽然分数线的信度比较高，但可能会加重考生的复习负担，也可能会导向学校加重下一届考生的学习负担；如果过高，第二批本科分数线的可靠性也会明显降低。,另外，从录取工作实际看，越是高端大学竞争越激烈，对于考生成绩区分的程度也就相对越高。一批录取的高校中还有985工程院校、211工程院校之分，层次比较分明，相应对考生成绩的区分要求也是越到高分端区分程度要求越好。二批高校一般是以地方院校为主，学校之间的差异性没有一批院校明显，学生填报志愿时更倾向于专业的选择。显然，对报考二批院校的考生成绩的区分就没有对报考一批院校考生成绩的区分要求高。近几年数学学科随着录取比率变化，难度系数一般保持在60

45、%左右或偏下，符合陕西情况。,（2）试卷的难度结构高考试卷难度结构应注重综合性及全面性。首先是要设计好文、理科的录取分数线，主要是二本录取分数线。根据经验，每年高考考生的能力分布和上一年相比不会发生大的变化，因此可以假定上一年录取分数线和高考平均分的差值今年也不会发生大的变化，这样就可以根据所设计的录取分析线推算今年的高考文、理科平均分的设计值。由于目前录取工作多数仍采取志愿优先的规则，第一志愿填报的是否恰当至关重要，因此，录取分数线应尽量保持相对的稳定，即使准备作出调整，也要循序渐进。,其二是根据文、理平均分的设计值考虑各学科的平均分设计值。一般来说，各学科试卷的度难应大体一致但也要兼顾各

46、科自身的特点。例如，语文一般放在第一科来考，相对其他学科而言，语文的区分度不太高，标准差一般在12至17之间，命题也不宜太难，难度系数一般应大于0.6。由于学科特点，数学易于区分不同能力层次的学生，难度系数一般应小于0.6。报考理科的考生要数倍于报考文科的考生，因此，对理科考生的区分程度就要求更好一些，,其三是设计好各学科试卷内部的难度结构。高考试卷应以中等难度试题为主，易、中、难试题的比例一般为3:5:2。一般试题难度参数分布的峰值可以略高于考生能力参数分布的峰值，因为这样，在试题难度平均值附近的试题数目相对较多，而考生的能力分布一般也是在平均值附近较多，为了提高考试对人数最多的中间部分考生

47、的区分能力，中间难度的试题略多是合理的。,其四是应设计好难度坡度。一般来说应由易到难排列。其目的是为了使考生产生良好的心理效应，适应考试环境，很快进入考试状态。再者就是设计好分值高的难题的坡度，难题应体现“切入容易深入难”，难度层层递进。这样的设计，即使是比较难的题，多数考生也可以拿到一定的分值。特别是数学实行分项给分，更能体现这一设计要求。,4试卷难度的整体结构准确把握命题标准和要求是关键。由于高考的选拔功能，故由教育部考试中心制定的普通高等学校招生全国统一考试大纲是高考命题的纲领性文件，考试大纲对高考的性质、能力要求、内容、形式以及试卷结构作出了说明，这是高考命题的标准和依据，必须按照考

48、试大纲的要求进行命题。同时也要考虑到中学使用教材的情况。此外，一些省市还制定了考试说明，提供了考试形式与试卷结构、参考试卷和参考答案等，这也是本省市自行命题的依据。高考命题应把握标准性原则，确保试题内容与学科测量目标相一致。,高考命题应严格按照考试大纲和考试说明规定的考试范围和考核要求设计命题蓝图、编制试题。考查的知识内容不超出考试大纲所规定的范畴，考查的能力要求不超出“考试大纲”所规定的能力层次和目标要求，试卷结构、组卷方式、基本题型题量、综合科目中各学科比例、试题难度分布等应以考试大纲或考试说明为依据。,四、关于高考改革与评价恢复高考三十年来，国家通过颁布一系列政策推行高考改革，特别是2

49、0世纪90年代后，高考制度进入了改革的密集期。招生规模上，1999年推行扩招政策高等教育毛入学率由20世纪末的10.5%增长到2005年的21%。为了适应考生数量不断增加的录取形势，节约招生成本，保证招生录取的公平，广西、天津等地率先试行网上录取方式。目前，各省、自治区、直辖市招生已全部实现计算机网络化，全国招生网上录取系统逐渐建立。同时，为了减轻高考“共性过多、个性太少”的负面影响，国家不断推进招考的多元化改革，部分重点高校参与了自主选拔录取试点，由单纯采用统考成绩的单一录取转变为自主选拔与统考成绩录取相结合的多元化考试和多渠道招生模式。,此外，为了加强对高考科目、内容及形式的指导，促进高考

50、命题的科学性，国家从20世纪80年代开始推进标准化考试，改变过去完全采用经验型考试的命题方式，对组考、命题、评分等各个流程进行更为科学的管理。在考试科目上，实行的“3+X”改革，使得部分考生和高校有一定的选择权。其间，命题改革成为高考内容改革的核心，90年代末的改革提出将高考命题立意由“知识立意”逐渐向“能力立意”过渡，淡化陈述性知识的考查，突出考查考生利用已有学科知识分析和解决问题的能力。同时，为了适应各地基础教育的发展水平，促进素质教育的开展，分解全国统一命题的安全压力，改变命题组织形式，由全国统一命题转为为“统一考试，分省自行命题”。,总之，与三十年前相比高考制度已发生了巨大的变化，目前