基于测评学视角的期末试卷命制与评价公平性研究——兼论2026年高校综合评价改革背景下期末考试的功能重塑

四季读书网 2026-05-01 00:21:42 5 0

一、问题的提出：统考与自主命题的张力及综评改革的倒逼效应

（一）统考与自主命题并存的现实困境

当前我国基础教育阶段的期末考试呈现出复杂的双重结构：一方面，各省市积极推进市级或区级统一考试（统考），试图通过统一标准实现教育质量的横向比较；另一方面，大量地市、区县乃至学校仍保留自主命题权，形成"统考为主、自主命题为辅"的混合格局。这种格局在带来灵活性的同时，也产生了显著的测评学问题。

首要问题在于试卷难度的系统性差异。由于各地市教育资源分布不均、生源质量参差不齐，自主命题往往难以摆脱"地方保护"或"本校本位"的命题倾向。优质学校为维持区分度，倾向于提高试卷的综合难度与思维深度；而普通学校则可能因担心及格率过低而降低难度底线。这种差异导致同一学生在不同地市的期末考试中可能获得截然不同的分数表现，分数的横向可比性严重受损。

其次是评分标准的主观性偏差。统考通常配备详尽的评分细则与多级复核机制，而自主命题的评分往往由本校教师完成，存在"熟人效应"与"情感加分"的潜在风险。更严重的是，不同地市对作文、实验设计、论述题等主观题的评分宽严尺度差异巨大，同一水平的答卷在不同地区可能相差十余分。

《学业水平考试命题方法与应用——指向核心素养的评价》

📖 核心目录（精简版）

第一部分：测验的基本概况

1. 测验、测量与评价的概念与发展 2. 教育评价基本理论（布卢姆目标分类等） 3. 测验框架与命题蓝图设计

第二部分：测验的编制

4. 题目类型与命题原则 5. 建构反应试题（主观题）的编制与评分 6. 表现性评定与档案袋评价

第三部分：测验质量的评价

7. 测验信度、效度与质量分析 8. 高级思维能力测评（PISA等工具介绍）

第四部分：测验结果的应用

9. 基于测验结果的教学改进 10. 核心素养导向评价的未来趋势

✨ 推荐语

这是一本连接教育测量理论与实践的“命题操作手册”，它跳出了传统应试思维，将核心素养评价落地为可执行的命题技术。从测验蓝图的顶层设计，到主观题评分细则的打磨，再到表现性评价的创新应用，每一章都为一线教师和命题工作者提供了清晰的行动路径。

（二）2026年综合评价改革对期末考试的重新定义

2026年高校综合评价招生政策发生深刻调整，对期末考试的参考价值提出了全新要求。根据教育部《关于做好2026年普通高等学校部分特殊类型招生工作的通知》及各省实施细则，本轮改革呈现三大核心特征：

第一，高考成绩权重显著提升。 以江苏省为例，南京信息工程大学、南京工业大学等高校将高考成绩占比从70%提升至80%，南京师范大学更是从70%大幅提升至85%。昆山杜克大学从"5-4-1"模式调整为"6-4"模式，高考成绩权重由50%提升至60%。这意味着高校对考生高中阶段学业水平的评估更加依赖过程性数据，期末考试成绩在综合素质档案中的权重相应提高。

第二，校测形式由面试向笔试转型。 南京信息工程大学、南京工业大学、南京林业大学等多所高校将校测从面试改为笔试，强调标准化程度高、评分客观性强、便于横向比较的优势。笔试化趋势使得高校更加关注考生纸笔测试的稳定性与规范性，而这恰恰是期末考试能够提供的核心证据。

第三，竞赛导向全面淡化。 五大学科竞赛获奖不再是报考的必要或优先条件，取而代之的是对综合素质、学业成绩、创新潜质的综合考察。这一变化打破了"竞赛独大"的评价格局，使得日常学业表现——特别是期末考试的稳定输出——成为衡量学生学术能力的关键指标。

在此背景下，期末考试不再仅仅是教学反馈工具，而是逐渐演变为高校招生录取的重要参考依据。期末考试成绩的公平性、可比性与科学性直接关系到综合评价招生的公信力，也影响到教育机会的均衡分配。

二、测评学视域下期末考试问题的理论归因

（一）经典测量理论（CTT）的局限与误用

经典测量理论假设真分数模型：X=T+E，即观测分数等于真分数与随机误差之和。然而，在自主命题实践中，这一模型面临严峻挑战。首先，不同地市的期末考试缺乏统一的"真分数"参照系，各地命题的构念（construct）界定存在差异。例如，某市数学期末考侧重运算速度与准确率，而另一市则强调建模能力与数学思维，两者测量的并非同一能力维度。

其次，CTT中的难度（P值）与区分度（D值）指标具有样本依赖性。同一套试卷在不同生源群体中可能呈现截然不同的统计特征。优质学校群体中的"中等难度"试题（P=0.5），在普通学校群体中可能变为"高难度"试题（P=0.3），导致能力估计产生系统性偏差。

（二）项目反应理论（IRT）的适用性障碍

项目反应理论通过项目特征曲线（ICC）将考生能力（θ）与答对概率建立数学联系，具有样本无关性的理论优势。然而，IRT在期末考试中的应用面临现实障碍：一是参数估计需要大样本支撑（通常要求N>1000），而多数地市统考样本量不足；二是模型假设（如单维性、局部独立性）在实际命题中难以严格满足；三是IRT对题库建设要求极高，需要经过严格试测与参数等值，这对于每学期一次的期末考试而言成本过高。

（三）评分公平性的社会建构困境

评分并非纯粹的技术行为，而是嵌入特定社会文化情境中的实践活动。不同地区的教育文化、评价传统、利益博弈深刻影响着评分标准的制定与执行。例如，在"唯分数论"压力较大的地区，教师可能通过"放水"维持表面上的教学成效；而在竞争激烈的重点中学，教师则可能刻意压低分数以制造区分度。这种社会建构性使得技术层面的标准化努力往往事倍功半。

三、从测评学角度调节期末考试问题的路径设计

（一）建立区域联考的等值处理机制

1. 共同题锚定法（Common-item Non-equivalent Groups Design）

针对各地市自主命题导致的分数不可比问题，可借鉴高考标准化改革经验，引入测验等值（test equating）技术。具体操作如下：在各地市期末试卷中嵌入15%-20%的共同题（anchor items），这些题目由省级或市级教研机构统一命制，经过严格试测与参数标定。考试结束后，利用共同题作为桥梁，将各地市的分数转换到同一量尺上。

等值方法可选择线性等值（Linear Equating）或等百分位等值（Equipercentile Equating）。前者假设两个群体的能力分布形状相同，适用于样本量较大的情况；后者不依赖分布假设，通过匹配百分位点实现等值，更适用于小样本情境。等值后的分数可进一步转换为标准分（Z分数或T分数），消除难度差异带来的不公平。

2. 标准分转换体系的构建

标准分转换是消除难度差异的有效手段。具体公式为：Z=(Xi-X̄)/S，其中Xi为原始分，X̄为群体均值，S为标准差。为便于理解，可进一步转换为T分数：T=500+100Z（高考常用）或T=70+10Z（学业水平考试常用）。

标准分的核心优势在于：第一，具有等值性，不同试卷的标准分可以直接比较；第二，呈正态分布，便于等级划分与比例控制；第三，反映相对位置，避免"分分计较"的焦虑。例如，某考生甲在A市期末考中原始分85分（该市均值80，标准差10），其Z=0.5，T=550；考生乙在B市期末考中原始分90分（该市均值95，标准差8），其Z=-0.625，T=437.5。显然，甲的实际能力水平高于乙，但原始分却更低，标准分转换揭示了真实的相对位置。

（二）实施分级分类的命题质量控制

1. 双向细目表（Two-way Specification Table）的刚性约束

高质量试卷的首要前提是科学的命题规划。双向细目表将考查内容（知识维度）与考查目标（能力维度）进行矩阵化分解，确保试卷结构的合理性。以高中数学为例，内容维度可分解为：预备知识（5%）、函数（25%）、几何与代数（25%）、概率与统计（20%）、数学建模与数学探究活动（15%）、跨学科综合（10%）；目标维度可分解为：了解（20%）、理解（30%）、掌握（35%）、运用（15%）。

命题团队须严格依据细目表选题，避免"知识点遗漏"或"能力考查失衡"。细目表应提前公示，接受教师、学生与教研部门的监督，确保"教—学—考"一致性。

2. 四度指标的量化监控

试卷质量需通过难度（P）、区分度（D）、信度（α）与效度四项核心指标进行量化评估：

指标	定义与计算方式	期末考试要求	功能
难度(P)	P=答对人数/总人数（客观题）；P=平均分/满分（主观题）	整卷0.50-0.60；单题0.3-0.7；易:中:难≈3:5:2	调控试题可解性，过易或过难均会降低区分效度
区分度(D)	D=PH-PL（27%高分组通过率-27%低分组通过率）	D≥0.3合格；D≥0.4优秀	反映试题对不同能力考生的鉴别力
信度(α)	Cronbach's α系数（内部一致性指标）	α≥0.8合格；α≥0.9优秀	保障分数稳定性与可重复性
效度	内容效度（课标覆盖率）、结构效度（素养匹配度）	核心知识点覆盖率≥85%；素养导向试题占比≥60%	确保考查内容与培养目标一致

3. 命题团队的多元化构成

命题团队应突破"本校教师单一来源"的局限，建立"高校专家+教研员+一线名师+测量学专家"的多元协作机制。高校专家负责把握学科前沿与学术规范；教研员负责统筹课标要求与区域学情；一线名师负责贴近教学实际与学生认知特点；测量学专家负责提供技术支撑与质量监控。特别需要强调的是，应避免重点高中教师垄断命题权，因其长期面对优质生源，容易命制"超纲拔高"型试题，忽视普通学生的实际水平。

（三）推行主观题评分的标准化改革

1. 评分细则的精细化开发

主观题评分细则应达到"可独立操作"的精细程度，明确每一分值的得分点与扣分点。以语文作文为例，可从内容（立意、材料、情感）、表达（结构、语言、文体）、发展等级（深刻、丰富、文采、创新）三个维度设定评分标准，每个维度再细化为3-5个层级，配以典型样卷作为参照。评分细则应在正式阅卷前进行试评与修订，确保不同评分员的理解一致性。

2. 双评+仲裁机制的全面落地

借鉴高考"四评制"经验，期末考试主观题应实行双评制度。当两位评分员分差超过阈值（如作文分差超过5分）时，自动触发第三位专家仲裁。仲裁机制不仅是对评分误差的纠正，更是对评分员主观偏差的约束。有条件的地区可引入网上阅卷系统，实现评分过程的全程留痕与实时监控。

3. 评分员培训与一致性检验

正式阅卷前，须组织评分员进行集中培训，统一评分尺度。培训内容包括：评分细则解读、典型样卷讨论、试评与校准。试评阶段可计算评分员间一致性系数（如Kappa系数），Kappa<0.6表明一致性不足，需重新培训或调整细则。阅卷过程中，应定期插入"监控卷"（已确定分数的标准卷），检验评分员的稳定性，发现系统偏差及时纠正。

（四）构建过程性评价与终结性评价的协同机制

1. 期末考试的功能再定位

期末考试不应被简单等同于"小高考"，而应回归其诊断性、反馈性与发展性的本质功能。温儒敏教授指出，期中、期末考试不是选拔性的，更多是为了检测与评价学生学习的现有水平，发现学习中存在的问题及其原因。因此，期末试卷应体现"教—学—考"一致性，主要内容应出自本学期教学内容，直接出自课本的内容不得少于15%，与教材相关的考查比例应达到70%以上。

2. 多元评价数据的整合应用

在综合评价改革背景下，期末考试成绩应与过程性评价数据（课堂表现、作业质量、项目学习、实践活动）形成互补。具体而言，期末考试成绩可占学业评价总权重的60%-70%，过程性评价占30%-40%。过程性评价采用表现性评价（performance assessment）方式，关注学生在真实情境中的问题解决能力、合作能力与创新能力，弥补纸笔测试在测量高阶能力方面的局限。

3. 成长档案袋（Portfolio）的制度化建设

为高校综评招生提供充分证据，应建立学生学业成长档案袋，系统收集高中阶段的关键性学习成果：期末考试成绩（含标准分与原始分）、代表性作业与作品、研究性学习报告、社会实践记录、学科竞赛与科创活动证明等。档案袋评价强调纵向比较而非横向排名，关注学生的进步幅度与成长轨迹，这与综合评价招生"选拔综合素质优秀、具备创新潜质人才"的目标高度契合。

四、高质量期末试卷命制的技术规范与操作流程

（一）命题准备阶段：三维定位与需求分析

1. 学业质量标准对标

命题首要任务是精准对标《普通高中课程方案》及各学科课程标准中的学业质量标准。以语文学科为例，需明确必修课程与选择性必修课程的不同要求：必修侧重基础性与共同性，考查语言建构与运用、思维发展与提升等核心素养的基础水平；选择性必修侧重差异性与选择性，考查文化传承与理解、审美鉴赏与创造等核心素养的发展水平。命题须避免"必修内容选择性考"或"选择性内容必修化"的错位现象。

2. 学情调研与难度预判

命题前须进行系统的学情调研，包括：本学期教学进度与重点难点分析、学生平时作业与测验的错误率统计、往届同期期末考试的数据分析（难度、区分度、得分率分布）。基于调研数据，运用项目反应理论进行难度预判，对新颖题型或创新情境题进行小规模试测（pilot test），收集认知过程数据（如答题时间、错误选项选择率），优化题目设计。

3. 试卷结构的科学设计

试卷结构应体现"大开口、小出口"的测评学理念。以数学为例，全卷可分为三个层次：基础层（60%）——考查基本概念、公式、定理的直接应用，确保绝大多数学生能够入手；综合层（30%）——考查知识的融会贯通与方法的灵活选择，体现学科核心素养；创新层（10%）——设置开放性、探究性问题，考查批判性思维与创新能力。三个层次形成梯度，既保障基本得分率，又实现有效区分。

（二）试题编制阶段：从素材到成题的技术转化

1. 情境创设的真实性原则

新高考命题强调"无情境不命题"，期末考试应积极跟进。情境创设须遵循真实性（authenticity）原则：或取材于社会热点（如人工智能伦理、碳中和路径），或取材于科技前沿（如量子计算、基因编辑），或取材于传统文化（如非遗传承、古籍整理）。情境应与考查目标深度融合，避免"穿靴戴帽"式的虚假情境。例如，物理试题以"新能源汽车电池回收工艺"为情境，考查能量转化、电化学原理与环保意识，实现知识、能力、素养的三维统整。

2. 选项设计的干扰性策略

选择题的干扰项（distractor）设计是测量学的重要技术。有效干扰项应具备以下特征：与正确答案在形式上相似（如数值相近、表述类似），在内容上反映典型错误（如概念混淆、公式误用），在逻辑上具有迷惑性（如似是而非的推理）。干扰项的选取率应呈现合理分布：高能力群体集中于正确选项，低能力群体分散于各干扰项。若某干扰项无人选择，说明其缺乏干扰效力，应予修改。

3. 解答题的阶梯式设问

解答题应采用"阶梯式"设问策略，降低入门门槛，提升思维深度。第一问通常为基础性设问，考查核心知识点的直接应用，确保多数学生能够得分；第二问为综合性设问，要求知识迁移与方法整合，体现学科思维品质；第三问为开放性或探究性设问，允许不同解法路径，鼓励创新思维。各问之间应形成逻辑递进关系，前一问的结论可作为后一问的条件，引导学生逐步深入。

（三）试卷审核阶段：多轮校验与质量把关

1. 科学性审查

组建审题专家组，对每道试题进行科学性审查。审查要点包括：题目表述是否准确无歧义、数据是否自洽、图形是否规范、答案是否唯一、评分标准是否可操作。对于原创题，须特别谨慎，应经过多位命题教师独立解答与交叉验证，必要时进行实验验证或数值模拟。近年来各地高考中出现的"问题试题"警示我们，原创题的科学性审查容不得丝毫马虎。

2. 公平性审查

公平性审查关注试题是否存在性别、地域、文化、经济背景的偏向。例如，以"滑雪运动"为情境的试题可能对南方学生不利；以"西餐礼仪"为背景的语言题可能对农村学生不公。审查应确保所有考生在面对试题时具有同等的背景知识起点，避免因生活经验差异导致的能力测量偏差。

3. 预估难度与实测难度的校准

命题团队应对每道试题进行难度预估（expert judgment），形成预估难度矩阵。考试结束后，将实测难度与预估难度进行对比分析，计算预估偏差（|P实测-P预估|）。若偏差超过0.1，应反思命题经验，调整后续命题策略。长期积累预估数据，可建立"命题专家—难度感知"的校准曲线，提升命题团队的专业判断力。

（四）考试实施与考后分析阶段：闭环管理与持续改进

1. 标准化施测

考试实施应遵循标准化原则：统一考试时间、考场环境、作答规范、材料发放。特别要加强对特殊考生（如残疾考生、突发疾病考生）的合理便利安排，确保施测条件的一致性。标准化施测是控制测量误差的重要环节，任何实施偏差都可能导致分数解释的失真。

2. 数据驱动的质量分析

考试结束后，须进行系统的数据统计分析。核心指标包括：全卷描述性统计（均值、标准差、偏度、峰度）、难度与区分度分布、信度系数、选项分析（选择题各选项选择率）、主观题得分分布、各知识点得分率。通过分析，识别"异常试题"（如负区分度题、超纲题、歧义题），为后续命题提供改进依据。

3. 反馈报告的精准生成

基于测量数据，生成三级反馈报告：学校层面（整体学业水平、教学薄弱环节）、班级层面（知识点掌握情况、能力维度短板）、学生层面（个性化诊断、学习建议）。反馈报告应避免简单的分数排名，而是提供基于测量学的精准诊断，指导教学改进与学习调整。

五、高考评价改革公平性的期末映射与制度保障

（一）期末考试公平性的三重维度

1. 程序公平（Procedural Fairness）

程序公平关注考试制度与过程的公正性。具体包括：命题程序是否公开透明（细目表公示、审题专家回避制度）、施测程序是否统一规范（考场编排、监考培训、作弊防范）、评分程序是否客观一致（双评仲裁、评分监控、成绩复核）。程序公平是结果公平的前提，任何程序瑕疵都可能引发对考试公信力的质疑。

2. 分配公平（Distributive Fairness）

分配公平关注考试结果的利益分配合理性。在综合评价招生中，期末考试成绩作为综合素质档案的组成部分，直接影响考生的初审资格与最终录取。因此，必须确保不同地区、不同学校、不同家庭背景的学生在期末考试中具有平等的机会结构。这要求命题须考虑教育薄弱地区的实际水平，避免因题目过难导致"马太效应"；同时要求评分须控制"放水"现象，避免因标准过宽导致"虚假公平"。

3. 互动公平（Interactional Fairness）

互动公平关注考试过程中人际对待的公正性。包括：教师对学生的期望是否平等（避免"标签效应"）、反馈信息是否及时充分（避免"黑箱操作"）、申诉渠道是否畅通有效（允许成绩复核与异议处理）。互动公平虽属微观层面，但对学生的心理感受与学业认同具有深远影响。

（二）制度保障体系的构建

1. 省级统筹与分级管理的协同

建议建立"省级统筹标准、市级组织实施、学校参与配合"的三级管理机制。省级教育行政部门负责制定命题质量规范、开发共同题库、组织等值研究、培训命题专家；市级教研机构负责具体命题实施、质量监控、数据分析；学校负责学情调研、试测配合、考后反馈。三级分工既保障标准的统一性，又尊重地方的差异性。

2. 命题资质认证与动态考核

建立命题教师资质认证制度，将命题能力纳入教师专业发展体系。认证内容涵盖：测量学基础、课程标准解读、试题编制技术、数据分析方法。获得资质的命题教师实行任期制与动态考核，对出现科学性错误、公平性问题的命题团队实行"一票否决"，强化命题责任。

3. 考试信息公开与社会监督

推进期末考试信息的适度公开：命题细目表考前公示、考试数据考后发布、质量分析报告年度公开。建立由家长代表、高校招生人员、教育测量专家、媒体记者组成的考试监督委员会，对命题、施测、评分全流程进行监督。信息公开与社会监督是防范权力寻租、维护考试公平的重要屏障。

（三）技术赋能下的公平提升

1. 智能题库系统的建设

运用人工智能技术建设区域性智能题库，实现试题的自动分类、难度预估、等值标定与智能组卷。题库中的每道试题须标注多维标签：知识点、能力维度、核心素养、情境类型、难度参数、区分度参数、使用记录。智能组卷算法可依据细目表要求，自动匹配最优试题组合，减少人为因素的干扰。

2. 自适应测验（CAT）的探索

在条件成熟的地区，可探索计算机自适应测验（Computerized Adaptive Testing）在期末考试中的应用。CAT依据项目反应理论，根据考生实时作答情况动态调整试题难度，实现"因人施测"。其优势在于：测量精度高（用较少题目即可达到传统测验的精度）、公平性强（不同能力考生面对不同难度试卷，避免"过难挫败"或"过易 ceiling effect"）、安全性好（每位考生试卷不同，降低作弊风险）。

3. 区块链技术的诚信保障

探索将区块链技术应用于成绩管理与档案存证。学生的期末考试成绩、过程性评价数据、综合素质档案上链存储，确保数据不可篡改、全程可追溯。在综合评价招生中，高校可直接调取链上数据，减少材料造假空间，提升评价的可信度。

六、结语：在守正与创新中迈向高质量的期末评价

2026年高校综合评价改革的深入推进，使期末考试从"教学附属品"跃升为"招生关键证据"。这一转变既带来挑战，也孕育机遇。从测评学视角审视，期末考试的现存问题——难度差异、标准不一、公平存疑——本质上是测量工具专业化程度不足的体现。解决这些问题，需要回归教育测量的科学本源，在经典测量理论与现代测量技术之间寻求平衡，在统一标准与地方特色之间把握尺度，在选拔功能与诊断功能之间明确定位。

高质量期末试卷的命制，是一项融合学科专业、测量技术、教育伦理的复杂工程。它要求命题者既精通课程标准与学科前沿，又掌握难度控制与区分度优化技术；既善于创设真实情境与开放问题，又坚守科学性与公平性底线。更重要的是，它需要制度层面的系统保障：从命题资质认证到等值处理机制，从双评仲裁制度到信息公开监督，从技术赋能升级到伦理规范约束。

高考评价改革的公平性，不仅体现在高考考场内的"一考定终身"，更体现在高中三年每一次期末考试的科学性与公正性。唯有将期末考试纳入高质量评价体系，才能真正实现"过程公平"与"结果公平"的统一，才能让综合评价招生成为打破"唯分数论"、选拔创新人才的有效途径，才能最终回应人民群众对公平而有质量教育的深切期待。这既是测评学的专业使命，也是教育评价改革的时代担当。

参考文献与引用说明：（略）

基于测评学视角的期末试卷命制与评价公平性研究——兼论2026年高校综合评价改革背景下期末考试的功能重塑第1张

本文地址： https://sjds.net/669162.html

文章来源：四季读书网