AI命题可否用于高考与中考:原则、特征与发展趋势的综合审视
摘要
随着生成式人工智能技术的突破性发展,AI命题(Automated Item Generation, AIG)已从实验室走向教育实践前沿。本文立足国家教育考试的根本属性,系统分析高考、中考命题的基本原则与制度要求,深入剖析AI命题的技术特征与能力边界,并结合社会发展趋势与国内外研究文献,对AI命题在高利害考试中的应用前景进行客观评价。研究表明:在当前及可预见的未来,AI命题尚不具备直接用于高考、中考等高风险选拔性考试的条件;但在学业水平合格性考试、题库建设、命题辅助与质量检测等环节,AI技术具有显著的赋能价值。推进AI命题应用需遵循"人机协同、辅助为主、安全可控"的原则,在坚守教育公平底线的前提下,审慎探索技术赋能路径。
关键词:人工智能命题;高考;中考;教育公平;高利害考试;命题质量
学业水平考试命题方法与应用:指向核心素养的评价图书目录
第一部分 测验的基本概况
第一章 测验、测量与评价 测验、测量与评价的概念辨析 测验的类型与功能 测验的理念与原则 测验的发展趋势
第二章 教育评价基本理论
布卢姆教育目标分类学 学习结果的结构分类学 教育评价理论的实践应用
第二部分 测验的编制
第三章 测验框架与蓝图设计
测验设计的核心逻辑 测验方案的制定方法 命题蓝图的编制技术
第四章 题目类型及命题一般原则
常见题目类型解析 命题的基本原则与规范
第五章 选择反应试题
选择题、判断题等题型的命题技巧 选项设计与干扰项设置
第六章 建构反应试题
建构反应试题的概念与类型 编制的基本原则与评分标准
第七章 表现性评定
表现性评定的内涵与特征 表现性评定的类别与实施 评分规则与质量保障
第三部分 测验质量的评价
第八章 测验质量分析
信度、效度的概念与检验方法 难度、区分度的计算与应用
第九章 测验结果的应用
分数解读与教学改进 评价结果的反馈与应用
第四部分 核心素养测评前沿
第十章 高级思维能力测评
高级思维能力的内涵界定 PISA等国际测评工具借鉴 本土化一致性分析工具开发
第十一章 档案袋评价与跨学科评价
档案袋评价的设计与实施 跨学科核心素养的测评路径
张咏梅
背景:2003年毕业于北京师范大学心理学院基础心理学专业,获博士学位。
研究方向:深耕教育测量与评价领域二十余年。
专长:专注于大规模教育评价、教育考试的理论与应用研究,以及教育测验工具的设计、开发与高级数据分析。
代表作:已出版《表现性评定的理论与实践研究》《大规模学业成就调查的开发与应用》等专著。
一、引言:技术浪潮下的命题变革之问
2024年,中国生成式人工智能产品用户规模已达2.3亿人,占整体人口的16.4%。以大语言模型为代表的AI技术正以前所未有的速度渗透教育测评领域,从智能组卷、自动评分到个性化诊断,技术赋能的边界不断拓展。在此背景下,一个关乎千万考生前途命运的核心问题浮出水面:AI命题能否直接用于高考与中考?
高考与中考作为国家教育考试体系的核心构成,承担着人才选拔、教育导向与社会公平维护的多重功能。其命题质量不仅关系到个体发展的机会公平,更直接影响国家人才选拔的效度与信度。因此,对AI命题适用性的讨论,不能仅停留在技术可行性层面,而必须回归教育考试的本质属性,从命题原则、技术特征、社会风险与发展趋势等多维度进行综合审视。
本文试图构建一个系统性的分析框架:首先梳理中高考命题的基本原则与制度逻辑,剖析AI命题的技术特征与内在局限,审视社会发展趋势对命题工作的新要求,在人机协同的视角下提出审慎的应用路径建议。
二、中高考命题的基本原则与制度逻辑
(一)高考命题:国家意志与科学测量的双重约束
普通高等学校招生全国统一考试(高考)是我国最具社会影响力的高利害考试。其命题工作遵循一套严密的制度规范,体现国家意志、教育规律与测量科学的有机统一。
1. 科学性原则:测量理论的刚性约束
高考命题必须以教育测量学理论为基础,确保试题具有明确的考核目标、合理的难度分布、良好的区分效度与稳定的信度指标。教育部教育考试院明确要求,高考试题需"素材、考查方式正确,难度、测量指标合理",试卷整体质量需保证"内容分布、能力结构、难易程度、考试效果符合预期要求"。科学性原则要求命题团队不仅具备深厚的学科知识,还需掌握项目反应理论(IRT)、经典测量理论(CTT)等专业技术,能够对试题进行多维度的量化评估。
2. 公平性原则:社会正义的底线守护
公平性是高考命题的首要原则。命题需确保不因考生的"性别、地域、种族、民族、宗教信仰等因素使考试结果产生偏差"。这一原则要求命题团队具有广泛的代表性,需涵盖不同地区、不同类型学校的教育专家;要求试题素材避免地域偏见、文化歧视与阶层暗示;要求难度设置兼顾城乡差异与区域教育不均衡的现实。公平性不仅是技术问题,更是政治问题与社会问题,需要命题者具备高度的价值敏感性与社会责任感。
3. 保密性原则:国家安全的制度屏障
高考命题实行严格的封闭式管理。命题人员需签署保密协议,在命题期间与外界完全隔绝,没收通讯设备,实行专人看护。命题地点严格保密,试卷印刷通常在监狱等封闭场所进行。保密制度设计之严密,源于高考试题一旦泄露将造成无法挽回的社会信任危机。2013年完成建设的高考国家题库,虽实现了40倍量的库存储备,但其核心功能仍聚焦于命题安全与质量稳定,而非替代人工命题。
4. 导向性原则:立德树人的价值引领
高考命题承担着"引导教学、服务选才"的双重功能。近年来,命题改革强调"立德树人",注重考查学生的"正确价值观、必备品格和关键能力"。试题需体现中华优秀传统文化、革命文化与社会主义先进文化,需反映科技前沿与社会发展,需引导学生形成批判性思维与创新意识。这种价值引领功能要求命题者具备高度的政治素养与文化自觉,能够精准把握国家教育方针与时代精神。
(二)中考命题:省级统筹与质量均衡的实践挑战
初中学业水平考试(中考)具有"两考合一"的功能定位,既是初中毕业认定依据,也是高中阶段学校招生录取标准。随着省级统一命题改革的推进,中考命题面临新的制度环境与技术要求。
1. 省级统一命题的质量标准
根据《教育部关于加强初中学业水平考试命题工作的意见》(教基〔2019〕15号),中考命题需"严格依据课程标准命题,严禁超标命题,严禁与奥赛内容挂钩,不出偏题、怪题"。省级统一命题要求建立科学的命题质量评估机制,包括命题人员培训、试题审查流程、试卷难度监控与考试效果分析。2024年起,多个省份推进中考省级统一命题,对命题队伍的专业化建设提出了更高要求。
2. 命题队伍建设的现实困境
与高考相比,中考命题队伍的专业化程度相对薄弱。省级教育考试机构在承担统一命题任务后,普遍反映"命题和组织考试方面的负担显著增加"
。部分地区缺乏足够的命题专家储备,导致试题质量参差不齐。这一现实困境为技术赋能提供了需求空间,但也对技术应用的安全性提出了更严格的约束——在命题能力本就不足的情况下,盲目引入AI命题可能放大系统性风险。
3. "双减"背景下的命题导向
《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》明确要求"坚持以学定考,进一步提升中考命题质量"。中考命题需减少死记硬背与机械记忆,增加综合性、开放性、应用性、探究性试题比例,注重考查学生综合运用知识解决实际问题的能力。这种命题导向的转变,要求命题者深入理解课程标准与教学改革方向,而非简单依赖技术生成试题。
三、AI命题的技术特征与能力边界
(一)AI命题的技术原理与发展现状
AI命题主要依托自然语言处理(NLP)、知识图谱与深度学习技术,通过训练语言模型生成符合特定要求的试题。当前技术路径主要包括模板填充式生成、基于知识图谱的语义推理生成,以及基于大语言模型的开放式生成三种模式。
1. 模板化生成:结构化试题的高效产出
模板化生成通过预设试题结构(如题干、选项、答案),利用算法填充变量内容,适用于数学计算题、语言语法题等结构化程度高的题型。该技术成熟度高,生成效率显著,但灵活性不足,难以应对需要深度情境创设与思维考查的综合性试题。
2. 知识图谱驱动:学科内容的系统化覆盖
基于知识图谱的命题系统能够映射学科知识点间的逻辑关系,生成覆盖特定知识网络的试题组合。中国科学技术大学、西安交通大学等机构在此领域进行了深入研究。该技术有助于确保试题内容的全面性与结构性,但对知识图谱的完备性要求极高,且难以处理跨学科、情境化的新型试题。
3. 大语言模型生成:通用能力的突破性展现
以GPT-4、DeepSeek、文心一言等为代表的大语言模型,展现出强大的文本生成能力。在特定提示工程(Prompt Engineering)引导下,可生成具有一定逻辑性与情境性的试题素材。第九届教育考试与评价研讨会(SEEE2025)已将"DEEPSEEK在考试命题素材生成中的应用"列为重点议题,表明该技术已进入教育考试界的关注视野。
(二)AI命题的核心优势
1. 效率提升:规模化生产的显著优势
AI命题最直观的优势在于效率。研究表明,自动试题生成(AIG)在建立认知模型后,可批量产出大量试题,显著缩短题库建设周期。在大规模在线智慧考试体系中,AI辅助已实现"实时组卷、智能出题",将大规模组考周期从传统1个月压缩至3天以内。对于学业水平合格性考试等低利害考试,AI命题可有效缓解命题资源不足的困境。
2. 个性化适配:差异化需求的精准响应
基于学习者历史数据,AI可动态调整试题难度与考查角度,实现"千人千面"的个性化测评。自适应考试(Computerized Adaptive Testing, CAT)技术已在部分国际测评中得到应用,能够根据考生实时表现调整后续试题,提高测量精度与考试体验。
3. 质量监控:多维指标的量化分析
AI可对生成试题进行多维度质量检测,包括难度预估、区分度分析、选项干扰度评估等。通过机器学习算法,系统能够识别低效或有争议的试题,辅助命题者进行优化调整。这种数据驱动的质量监控,为命题决策提供了客观依据。
(三)AI命题的内在局限与风险
尽管AI命题展现出诸多技术优势,但其在高利害考试中的应用面临根本性局限,这些局限源于技术本质、数据基础与价值判断三个层面。
1. 算法偏见:公平性的结构性威胁
算法偏见是AI命题最核心的伦理风险。生成式人工智能的决策过程涉及海量数据、复杂参数与深层网络结构,其输出可能反映训练数据中存在的社会偏见、文化偏见与地域偏见。研究表明,若训练样本中一线城市学生样本过多、偏远山区样本过少,模型可能产生系统性不公平决策。在高考、中考这类直接关系社会阶层流动的考试中,任何算法偏见都将被无限放大,造成难以弥补的社会正义损害。
更严峻的是,偏见往往以隐蔽形式存在。复旦大学龚群教授指出,生成式人工智能存在"黑箱"困境,其决策过程难以解释与审计。当AI生成的试题出现价值偏向时,命题者可能难以察觉,考生更无从申诉。这种"看不见的歧视"比显性不公更具破坏性。
2. 价值对齐:政治安全与意识形态风险
高考、中考命题具有鲜明的价值导向功能,需体现国家意志、文化自信与社会主义核心价值观。AI模型训练数据来源于互联网,其内容生态复杂多元,难以确保与我国教育方针的精准对齐。负责四六级考试设计的金艳教授明确指出:"用AI命题时,价值观所体现的意识形态领域方面的问题,或者说政治敏感的问题,能不能得到有效的关注?这是我们目前在自动命题方面比较大的担忧。"
试题素材的政治性、思想性审查需要高度的政治敏感性与文化判断力,这是当前AI技术无法替代的人类能力。一旦AI生成的试题出现政治性错误、历史虚无主义倾向或文化偏见,将引发严重的意识形态安全事件。
3. 测量效度:构念表征的窄化危机
教育测量学强调,试题必须有效测量其声称测量的构念(Construct Validity)。然而,现有研究表明,AI生成的试题在测量属性上存在显著局限。一项针对60项自动试题生成研究的系统综述发现,仅有10项研究提及"效度",8项提及"信度",多数研究忽视了生成试题的测量学属性。这意味着大量AI生成试题可能"过于简单,不需要高阶认知思维即可回答",无法满足高考、中考对关键能力与学科素养的考查要求。
此外,AI评分系统已被证实存在"构念窄化"问题——即系统倾向于捕捉表面语言特征(如词汇复杂度、句子长度),而非深层的学科思维与推理能力。在希腊大学的一项研究中,AI评分与人类评分的一致性(ICC=0.406)远低于人类评分者间一致性(ICC=0.884),且AI系统持续高估低水平作品、低估高水平作品,压缩分数分布,削弱区分效度。这种效度缺陷在高利害考试中是不可接受的。
4. 原创性与安全性:保密制度的潜在冲击
高考、中考命题要求试题原创或经过彻底改造,避免与市面辅导资料重复。AI生成内容基于对训练数据的概率性重组,其"原创性"边界模糊,存在与现有试题高度相似的风险。更严重的是,若使用商业AI模型进行命题,试题数据可能被用于模型训练,导致"数据投毒"与信息泄露。金艳教授强调:"如果利用了AI的技术比如说大语言模型,那命题素材是不是会被运用于模型训练,是否可以得到安全性的保障?"这一问题直击高利害考试保密制度的命脉。
5. 可解释性缺失:信任机制的根本障碍
教育考试的社会公信力建立在透明、可解释的基础之上。考生、家长与社会公众需要理解"为什么这样命题""评分依据是什么"。然而,深度学习模型的"黑箱"特性使AI决策难以解释。当考生对AI生成的试题或评分结果提出质疑时,考试机构难以提供令人信服的解释,这将严重侵蚀考试制度的合法性基础。Prometric公司在评估报告中指出:"AI决策过程中的透明度有助于在考生和利益相关者之间建立信任",但当前技术远未达到这一要求。
四、社会发展趋势对命题工作的新要求
(一)教育公平:从机会公平到过程公平的演进
在全面建设社会主义现代化国家的进程中,教育公平被赋予更高权重。高考、中考改革持续推进,旨在打破"唯分数论",建立多元评价体系。这一趋势要求命题工作更加关注试题对不同群体学生的公平性,包括城乡学生、不同民族学生、特殊教育需求学生等。AI命题若不能有效解决算法偏见与数据代表性问题,将与教育公平的价值追求背道而驰。
(二)核心素养:从知识考查到能力立意的转型
《中国高考评价体系》明确提出"一核四层四翼"的考查要求,强调对"核心价值、学科素养、关键能力、必备知识"的综合考查。中考试题也逐步从知识立意转向素养立意,增加开放性、探究性、综合性试题。这种转型要求命题者具备深厚的教育理论素养与教学实践经验,能够创设真实情境、设计复杂任务、制定多维评分标准。AI目前在情境创设的真实性、任务设计的层次性、评分标准的适切性等方面,尚无法达到人类专家水平。
(三)技术赋能:从替代人工到增强智能的范式转换
社会发展趋势并非排斥技术应用,而是要求技术遵循教育规律。教育部教育考试院提出的国家题库建设目标,正是"完成题库由试题的存储库向全流程、多功能、信息化、智能型的题库系统的转变"。这一转型强调技术对命题工作的"赋能"而非"替代",通过智能检索、质量分析、难度预测等功能,提升人工命题的效率与精度。
浙江省在中考命题改革中明确提出"逐步探索人机融合的中考命题新方式",并计划"开发建立命题质量智能评估系统,实现基于数据分析的多主体评估和智能评估"。这一路径体现了"人机协同"的理性取向:AI负责数据处理与初步筛选,人类专家负责价值判断与最终决策。
(四)安全治理:从被动应对到主动防控的体系构建
随着《生成式人工智能服务管理暂行办法》等法规的出台,AI应用的安全治理进入法治化轨道。教育考试领域对数据安全、算法透明、伦理审查的要求日益严格。高考、中考命题涉及国家教育主权与意识形态安全,其技术应用的合规门槛远高于一般领域。任何技术引入都必须通过严格的安全评估与伦理审查,确保"工具理性"服从"价值理性"。
五、AI命题在高利害考试中的应用前景:分层分类的审慎路径
基于上述分析,本文认为AI命题在高考、中考中的应用应遵循"分层分类、辅助为主、安全可控"的原则,根据考试类型、功能定位与风险等级,采取差异化的应用策略。
(一)高中学业水平合格性考试:有限度的试点应用
学业水平合格性考试以确保学生达到课程标准基本要求为主要目标,其利害性相对较低,命题压力较大。教育部教育考试院研究人员指出,对于此类考试,"试题自动生成可能提供了一种非常有前景的解决方式,可以从根本上减轻各级考试机构的命题负担"。
在此类考试中,可探索AI辅助命题的试点应用:利用AI生成基础题、客观题,人工进行审核与改编;利用AI进行题库扩充与难度分级,人工进行质量把关;利用AI分析考试数据,为命题改进提供反馈。但即便如此,仍需建立严格的人工审核机制与质量评估体系,确保AI生成试题的测量效度与内容安全。
(二)高考、中考选拔性考试:当前不宜直接应用
对于高考、中考等高利害选拔性考试,"试题自动生成技术在可以预见的将来应用可能性很小"。这一判断基于以下不可逾越的约束:
第一,公平性约束不可突破。 算法偏见的隐蔽性与系统性,使其难以通过技术手段完全消除。在高利害考试中,任何微小的不公平都将被社会放大审视,引发信任危机。
第二,安全性约束不可妥协。 高考试题的保密要求与AI模型的数据安全机制存在根本冲突。使用商业AI模型命题,等同于将国家教育考试核心数据暴露于不可控的技术平台。
第三,价值性约束不可替代。 命题的价值引领功能需要高度的政治判断力、文化敏感性与教育智慧,这是AI目前及未来较长时期内无法具备的能力。
第四,效度约束不可降低。 高考、中考对试题的测量学品质要求极高,需经过多轮专家审查、试测分析与质量评估。AI生成试题在构念表征、难度控制、区分效度等方面,尚无法达到高利害考试的标准。
(三)命题辅助环节:全面赋能的技术空间
尽管AI不宜直接生成高利害考试试题,但其在命题辅助环节具有广阔的应用空间:
1. 素材搜集与情境创设: 利用AI检索、整合社会热点、科技前沿、文化传承等命题素材,为人工命题提供资源支持。AI可快速处理海量信息,辅助命题者发现适切的素材线索,但最终的情境创设与价值判断仍需人类完成。
2. 题库管理与质量监控: 利用AI进行题库的分类标注、难度预测、等值分析与安全监控。教育部考试中心已建成"40倍量库存"的高考国家题库,AI技术可进一步提升题库管理的智能化水平,实现试题的精准检索与动态维护。
3. 试卷分析与反馈改进: 利用AI分析考试数据,识别试题的功能表现,诊断命题偏差,为后续命题提供数据支持。这种"考后智能分析"不涉及试题生成,风险可控,价值显著。
4. 命题培训与知识管理: 利用AI构建命题知识库,记录命题经验、典型案例与质量规律,辅助新命题人员快速成长。这种"知识传承"功能有助于缓解命题队伍建设的现实困境。
六、结论与建议
AI命题技术正处于快速发展期,其在提升效率、个性化适配与数据分析方面展现出巨大潜力。然而,技术潜能不等于应用现实。高考、中考作为国家教育制度的核心构件,其命题工作承载着维护社会公平、选拔创新人才、引领教育改革的多重使命。在技术成熟度、制度安全性与价值契合度尚未达到要求之前,AI命题不宜直接进入高利害考试的试题生成环节。
本文提出以下政策建议:
第一,坚守底线,明确禁区。 国家教育考试主管部门应明确划定AI命题的应用边界,禁止在高利害选拔性考试中直接使用AI生成试题,将技术应用限定在辅助环节与低利害考试中。
第二,标准先行,规范引导。 制定教育考试AI应用的技术标准与伦理规范,建立算法审查、数据安全、质量评估的制度体系。参照《生成式人工智能服务管理暂行办法》,建立教育考试AI应用的专项审批机制。
第三,人机协同,优势互补。 推进"人机融合"的命题模式,发挥AI在数据处理、效率提升方面的优势,强化人类专家在价值判断、质量把关方面的核心作用。建立"AI辅助—人工决策—多重审核"的工作流程。
第四,研究储备,审慎试点。 支持高校与考试机构开展AI命题的基础研究,重点攻克算法偏见消除、价值对齐、效度验证等关键技术难题。在学业水平合格性考试等低风险场景中开展受控试点,积累实证经验。
第五,能力建设,队伍为本。 加强命题人员的技术素养培训,使其具备理解、监督与驾驭AI工具的能力。命题队伍的专业化建设始终是保障命题质量的根本,技术赋能不能替代人的主体性。
总之,AI命题是一把双刃剑。在技术狂飙突进的时代,教育考试工作者更需保持清醒的价值理性:技术应当服务于人的发展,而非支配人的命运;效率应当服从于公平,而非侵蚀公平的底线。高考与中考命题,关乎千万学子的梦想与国家的未来,其变革必须审慎、稳健、以人为本。AI可以而且应该成为命题工作的得力助手,但命题的灵魂——对教育的深刻理解、对公平的坚定守护、对价值的自觉引领——永远属于人类。
参考文献
[1] 中国互联网络信息中心. 生成式人工智能应用发展报告(2024)[R]. 2024.
[2] 教育部教育考试院. 中国高考评价体系[S]. 2019.
[3] 教育部. 关于加强初中学业水平考试命题工作的意见(教基〔2019〕15号)[Z]. 2019.
[4] 王蕾. 人工智能生成内容技术在教育考试中应用探析[J]. 中国考试, 2024.
[5] 刘艳丰. 人工智能赋能教育考试的研究综述与应用实践[J]. 高科技与产业化, 2025.
[6] 金艳. 人工智能在语言测评中的应用及伦理问题探讨[C]. 英国文化教育协会考试研讨会, 2024.
[7] 龚群. 生成式人工智能的伦理风险与治理体系[J]. 复旦学报, 2025.
[8] Gierl, M. J., et al. A review of automatic item generation techniques for educational purposes[J]. Educational Measurement: Issues and Practice, 2024.
[9] Sayin, A., & Gierl, M. J. Using GPT-3.5 for automatic item generation in high-stakes examinations[J]. Journal of Educational Measurement, 2024.
[10] Christou, N. Harnessing Generative AI for Assessment Item Development: Comparing AI-Generated and Human-Authored Items[J]. International Journal of Selection and Assessment, 2025.
