从自评问卷到AR伦理困境,AI素养测评正在经历一场静悄悄的革命
“老师,AI素养以后会不会像体育、实验一样计入中考总分?”这不是学生的杞人忧天。2025年国家义务教育质量监测已经开展了AI素养的专项调研,《中小学人工智能通识教育指南(2025年版)》也对各学段学生应达到的AI素养水平作出了明确界定。
一线教师普遍感到困惑:AI素养到底包含哪些方面?它不像数学、语文那样有清晰的考试大纲,怎么测评?用问卷让学生自己填“你觉得自己AI水平怎么样”,似乎不太靠谱;用选择题考“什么是机器学习”,又好像测不出真实能力。
北京师范大学的王烨晖、周欢、杨佳奇三位学者,对国内外AI素养测评的研究进展与未来方向做了系统梳理。这篇文章虽然面向教育评价研究者,但对一线教师理解“AI素养到底怎么评”非常有帮助。下面把核心内容拆开来讲。
一、AI素养不是“会用AI”,它是一个多维度的复杂结构
早期人们对AI素养的理解比较简单:会用AI工具、了解AI的基本概念。但今天的研究者普遍认为,AI素养已经扩展为一个包含多个维度的综合能力结构。
目前学界比较认可的框架是“KSAVE”模型——知识、技能、态度、价值观与伦理。在此基础上,国内最新政策文件特别强调了“AI思维”的重要性。《中小学人工智能通识教育指南(2025年版)》明确将AI素养定位为知识、技能、思维与价值观四位一体的有机融合。
综合来看,当前AI素养测评框架普遍包含以下五个维度:
知识维度:对AI相关事实和陈述性知识的理解。比如“什么是机器学习”“AI有哪些常见应用场景”。
技能维度:在真实情境中运用与整合AI知识的能力。比如“能用某个AI工具解决一个具体问题”。
思维维度:使用AI技术、适应智能社会过程中应具备的思维模式与方法论。这包括批判性评估AI输出的能力、创造性思考如何改进或应用AI的能力等。这是近年来的一个重要转向——AI素养的培养重点,正从单纯的技能训练转向思维品质的提升。
态度维度:学生关注AI的发展趋势,具备学习和使用AI技术的意愿与习惯,以及使用AI的自我效能感、价值认同等。
伦理维度:在理解、应用、评估AI技术时,具备责任感,并尊重他人的权利与义务。例如,能判断AI应用中的隐私风险、公平性问题等。
这五个维度相互关联,共同构成了AI素养的完整图景。简单说:一个具备AI素养的学生,不是会“玩”AI工具,而是能理解AI的原理与局限,能批判性地评估AI的输出,能创造性地运用AI解决问题,并且在使用过程中有伦理意识。
二、传统测评方式为什么不够?
目前对学生AI素养的测评,主流方式还是两种:自评量表和知识测验。
自评量表就是让学生自己勾选“我对AI很了解”“我能熟练使用AI工具”等选项。这种方法方便快捷,适合大规模施测。但问题也很明显:结果受学生自我认知水平的制约,而且很容易受到“社会期望效应”的影响——学生可能会选“我应该会”而不是“我真的会”。
知识测验就是用选择题、填空题考AI概念和原理。这种方法能提供相对客观的分数,减少主观偏差。但局限也很突出:考的是记忆和理解,很难测出学生在真实情境中综合运用AI的能力,更难以反映学生的过程性思维。
打个比方:一个学生能在选择题里答对“机器学习的三要素”,但给他一个真实问题让他用AI去解决,他可能完全不知道从哪里下手。这正是AI素养测评面临的核心困境。
为了突破这些局限,研究者开始借助新兴技术,开发更具互动性和实践性的新型测评工具。
三、三种新型测评方式,各有亮点与难点
1️⃣ 项目式评估:让学生在“做项目”中展示AI素养
项目式评估要求学生在真实或仿真的问题情境中,应用知识与技能完成一个综合性项目,并通过最终成果来展示自己的掌握程度。
典型案例:Williams等面向中学生开发的“与AI共舞”课程。学生需要结合手势、面部及身体识别等交互式AI功能模块,开发一个可运行的AI项目,并围绕现实生活中的健康识别、教育工具、情绪反馈与垃圾分类等问题提出解决方案。最终作品不仅包括可运行演示的AI程序,还必须配套完成“利益相关者影响分析”——分析各方对项目收益与潜在风险的关切。
怎么评:研究者制定了包含技术设计、伦理设计与项目实现三大维度的评分量表,由两位评分者独立打分。
优点:实践导向强,能够反映学生将AI知识迁移到真实问题情境中的能力。
难点:开放式任务导致学生作品差异大,评分难度高,评分者对评分标准的理解可能不一致,影响评价的客观性。
对教学的启示:在常规教学中可以尝试小型的“微项目”——比如让学生用AI工具为一则校园新闻配图,并说明选择理由和伦理考量。规模不需要太大,关键是让学生经历“用AI解决问题”的完整过程。
2️⃣ 人机交互测评:看学生怎么跟AI“对话”
人机交互测评关注人类与AI模型之间的互动过程与结果。研究者设计人机协作任务,观察学生在真实情境中如何理解、调用并反思AI,从而评估其AI素养。
典型案例:Li等基于三项原则(不良结构性、真实性、有限经验性)设计了两个情境任务:“是否建立全国统一的电子病历平台”(社会议题)和“为一位近视患者选择治疗方式”(科学决策)。两项任务均为开放式问题,没有固定答案。学生在限定时间内与指定AI工具展开对话,获取信息、形成独立判断,并评估AI回答内容的相关性、可信度与逻辑性。每位学生需提交与AI的完整互动对话记录及最终任务回答。
怎么评:通过分析学生与AI的互动行为(提问质量、信息筛选能力、批判性评估能力等)来评估其人机交互能力。
优点:互动性强,能真实反映学生在问题解决过程中的批判性思维和协作能力。
难点:测评效果受AI模型自身性能和学生交互经验的双重影响。不同文化语料训练的AI可能带有文化偏向;低龄学生可能在有效提问方面存在困难。
对教学的启示:可以在课堂上设计“人机辩论”环节。给一个议题,让学生先独立判断,然后向AI提问获取信息,再对比自己与AI的差异,最后反思“我为什么同意/不同意AI的观点”。这个过程本身就是AI素养的训练。
3️⃣ 增强现实评估:在虚拟情境中做“道德抉择”
近年来,研究者开始尝试利用增强现实(AR)技术模拟真实的生活场景,让学生在沉浸式操作中自然展现AI素养,尤其是伦理决策能力。
典型案例:Lin等设计的自动驾驶汽车刹车故障情境:一辆搭载三名乘客的自动驾驶汽车突然刹车失灵。如果选择左转,车辆将驶入人行道,撞死闯红灯的行人;如果选择直行,车辆将撞上前方路障,导致车内三名乘客全部死亡。学生在此模拟情境中扮演司机角色,需在保护车内乘客与避免撞击行人之间做出伦理抉择。
怎么评:研究者采用滞后序列分析对学生行为进行编码与分析,评估学生在价值冲突情境中展现出的道德推理能力。
优点:沉浸感强,生态效度高;可以结合语音、视频、行为轨迹等多模态数据动态评估学生的问题解决过程;尤其适合测评AI伦理等难以用传统纸笔测试测量的维度。
难点:技术门槛高,开发成本大,目前仍处于探索阶段。
对教学的启示:即便没有AR设备,也可以在课堂上用“情境文字描述+角色扮演”的方式模拟类似的伦理困境。关键在于设计出有真实冲突的“两难情境”,让学生在辨析中暴露和提升自己的伦理判断能力。
四、当前AI素养测评面临的挑战
尽管新型测评方式已经展现出良好的潜力,但要真正推广落地,还有不少难题需要解决。
挑战一:测评框架不统一,学段之间缺乏衔接
不同研究者提出的测评框架在维度划分和指标界定上存在差异。有的把高阶思维设为独立维度,有的则归入技能维度;“态度”维度是否应纳入框架目前也有争议。
更关键的是,现有框架在不同学段之间缺乏系统性设计。小学、初中、高中各自为政,难以持续跟踪学生AI素养发展的全过程。这与《指南》强调的“分层递进、螺旋上升”理念存在脱节。
挑战二:测评任务“一刀切”,难以个性化适应
目前的新型测评在任务设计上普遍采用固定的难度和情境,无法根据学生表现进行自适应调整。同时,AI技术迭代快,测评任务必须不断更新——但更新太快会导致工具周期短、难以推广;更新太慢又会使测评内容脱离实际应用。
挑战三:测评环境不均衡,可能加剧“数字鸿沟”
新型AI素养测评高度依赖硬件设备和网络环境。边远地区教育基础设施相对薄弱,网络延迟或设备卡顿可能直接影响学生作答。此外,学生操作经验的差异也会影响结果——平时接触信息化设备少的学生,在测评中还要花额外的认知资源去适应陌生系统。
挑战四:伦理规范滞后,隐私保护成隐忧
新型测评往往涉及对学生行为、表情、语音等多模态数据的采集,隐私泄露风险加大。同时,AI工具可能因训练数据存在偏差而输出涉及文化、种族、性别等方面的不良信息。“算法黑箱”使决策过程缺乏透明度,目前尚无明确规范约束研究者可在何种程度上依据算法生成的数据对学生的能力做出判断。
五、未来往哪走?四个方向
针对上述挑战,研究者提出了四个发展方向。
方向一:构建“结构稳定、与时俱进”的测评框架
所谓“结构稳定”,是指测评框架围绕知识、技能、思维、态度、伦理五大核心维度展开,不因具体技术的更替而频繁变动。所谓“与时俱进”,是依托信息技术采集学生在真实学习场景中的操作日志、交互路径等过程性数据,通过行为分析挖掘可量化的表现指标,推动测评体系动态更新。
在学段衔接上,需加强小学、初中、高中之间的纵向设计,确保核心维度保持一致性与发展性,形成“学段内统一、学段间连贯”的测评框架体系。
方向二:设计“精准灵活、动态适应”的测评任务
借助新兴技术,未来测评可以在采集多模态数据的基础上,为每位学习者构建精准的个体画像,根据学生当前能力水平动态匹配难度适宜的任务,避免因任务过难或过易而影响效度。
测评任务在设计之初就应注重扩展性与可更新性,能够随着技术演进及时调整内容。在新兴技术赋能下,AI素养测评有望从传统模式转型为深度融合于教学全过程的“教—学—评”一体化课堂模式。
方向三:提供“公平包容、持续优化”的测评环境
测评环境的构建需特别关注教育资源薄弱地区,配备稳定可靠的设备与网络。系统设计应在任务引导、界面交互与反馈方式上进行优化,采用清晰直观的导航路径,减轻学生的认知负荷。同时需定期收集弱势学生群体的使用反馈,对测评环境进行针对性优化,逐步缩小“数字鸿沟”对测评公平性的影响。
方向四:健全“规范有序、过程透明”的伦理体系
需设立伦理审查制度,在测评工具开发前期进行伦理检测,确立内容准入与数据安全的规范标准,引入追踪备案机制,确保工具来源可追溯。出台专门的法律法规,明确数据采集与使用的边界,确保只收集与测评目标直接相关的数据。
应用于测评时所产生的判断与结论应当具备可解释性。输出结果须附有简明清晰的说明,以便教师理解其逻辑并评估其合理性。教育者应能对AI输出的内容进行核对或提出调整建议,减少因算法和模型偏差导致的评价误判。
写在最后
AI素养测评,不是要不要做的问题,而是怎么做好的问题。它既不能靠一张自评问卷“蒙混过关”,也不能变成“AI知识竞赛”——背几个概念、刷几道选择题就完事。
真正的AI素养,是学生在真实情境中用AI解决问题的能力,是批判性评估AI输出的批判性思维,是面对伦理两难时做出负责任判断的价值立场。这些能力,只有在精心设计的互动性任务中才能被“看见”和“测出”。
对一线教师而言,与其焦虑“将来怎么考”,不如从现在开始尝试:让学生用AI工具完成一个小项目,并让他们解释“为什么选择这个工具”“AI生成的答案可信吗”“有没有更好的提问方式”。这些课堂实践,本身就是素养培养的过程,也是将来应对新型测评最好的准备。
你所在的学校或班级,有没有尝试过AI素养相关的教学或评价活动?遇到过什么困难?或者有什么好用的方法?欢迎在评论区聊聊。
👇 如果觉得这篇文章对你有用,点个赞,转发给更多正在关注AI教育的同行。
【图文】芸芸博士
【参考文献】




