■引子
最近利用业余时间写了几篇公众号小文章,文中提到本人创建的“高考真题大数据语料库(1977-2025)”,不少老师对此很好奇,问我为何能那么早就开始做真题大数据研究。其实这段经历要从上世纪90年代在学校教书时说起——严格说来,当时并没有想做什么研究,最初只是源于一名普通英语老师最朴素的想法:让好题目能被好好留存。
■从第一台电脑说起
上世纪90年代,当大家还在用钢板刻蜡纸的时候,我就花“血本”买了人生第一台组装的286电脑(现在的年轻人估计都不一定知道286是啥意思),成了当时同行里最早“触电”的英语老师。当时买这台电脑时,我所在的小县城还只有两家小打字店,电脑在那时还是相当稀奇的“高科技”。谁也想不到,这台开机要等三分钟的机器,会成为后来我搭建“高考真题大数据语料库”的起点。
第一次用电脑录入高考题时,连打字都得对着字根表敲。记得那时一道完形填空题有25个空,要让选项上下对齐是一件很麻烦的事,得在DOS系统的文本框里反复调整格式。那台电脑不仅配置低,性能、质量和稳定性也远不如现在的电脑。更关键的是,它没有硬盘,启动电脑得用一张专门的“启动盘”,所有资料都存在软盘里。可软盘比较容易坏,常常会毫无征兆就提示:Date error reading drive A;General failure error reading drive A;Sector not found reading drive A: Abort, Retry, Fail? 等,所以每次录入资料,都得用好几张软盘来备份,并且要定期进行“安检”;一旦有一张软盘坏了,就得赶紧检查其他备份盘是否完好,并根据情况补充备份。那时每一张软盘都是数据的“诺亚方舟”,对它们不敢有丝毫马虎。直到后来换了有硬盘的电脑,这些数据的保存才算让人安心些。可惜后来从老家调到长沙工作时,把那些软盘都扔了——当时的电脑早就装了硬盘,电脑连软驱都没有了,留着软盘也没用,那会儿也没想到该留几张作纪念。
■买第一台电脑的目的并不单纯
其实我买第一台电脑的初衷,并不完全是为了整理高考题,而是因为当时喜欢给报社、杂志社投稿。大家都知道,投稿很难“百发百中”:有时候辛辛苦苦写篇稿子,从草稿到正稿要反反复复抄好几遍,如果投出去没被采用,就得修改后再抄一遍,换一家报社或杂志社“碰运气”。当年喜欢投稿的朋友,应该都有过类似的经历。所以我当时就想,要是用电脑打字就不一样了——录入一次就能反复修改,改好后直接打印出来,比手写的稿子更清晰、整洁,编辑看着也舒服,“命中率”说不定能更高——其实这才是我买第一台电脑的真正原因。
但有了电脑之后,我发现用它备课、整理资料也很方便。那时同事们写教案都用“备课本”,而我的“备课本”则是一叠打印出来的A4纸,虽然没按学校的统一要求使用“备课本”,但我的教案经常被学校评为优秀教案——估计当时的学校领导也更喜欢这种清晰、整洁的教案吧。
■回归正题:“高考真题大数据语料库”的建库与思考
1.先说说对原始真题的收集与整理
最初收集、整理高考真题,想法特别简单:就是想把手上攒的高考题录入电脑,整理清楚,校对无误,当成备课和写稿的素材,免得每次用的时候都要重新录入,说白了就是图省事。但慢慢就养成了习惯:不仅把买电脑前的历年高考题都集齐录入,而且每年新高考题一出来,我都会赶紧找来录进电脑。
那时候的国家教委(即现在的教育部)还不像现在这样,每年都会出版《高考试题分析》,当时也没有互联网。获取高考真题的途径只有两个:一是找登有高考题的报纸、杂志,二是买收录了高考题的图书。可不管是报纸、杂志还是图书,当时的校对都不如现在严谨,有时候会出现排版错误。为了核对真题的准确性,我会通过各种渠道买不同版本的真题资料,遇到可能有编校错误的地方,就对照多个版本反复核实。来看看我从书柜最顶层翻出来的这些“老古董”吧!

我从1997年开始收集国家教委考试中心编辑的《高考试题分析》(由高等教育出版社出版),此后真题的收集和整理工作就变得方便和简单了,因为《高考试题分析》比起原来某些报社、杂志社、出版社出版的真题正确性更高,很少有什么编校错误。我把最早几年的《高考试题分析》拍张照片给大家看看,估计没有多少老师还保存有这样的“宝贝”吧。

原来的《高考试题分析》一直由高等教育出版社出版,近几年才换成语文出版社。新版本不仅开本变大了,内容也更详细:最早是按文理科分册出版,现在已经改成单科成册了。

2.再说说高考真题对高考复习的重要性
很多人认为,考过的高考题不可能再考,对复习没有指导作用,于是总盯着那些所谓的“原创题”“名校题”“名师题”让学生来做。其实这是个特别害人的误解。你用脚后跟想一下都知道,对于要参加高考的同学来说,还有什么题会比高考真题更好呢?
我们评价一道题好不好,标准是什么?其实就是真题!如果一道题的命题风格、考点设置、设问方式与高考题高度契合,我们就说它出得好;反之,要是和高考题不搭边,那这道题还算好吗?即使它是所谓的“原创题”“名校题”“名师题”,也不能算好题,你说是不是?说到底,真题就是衡量模拟题好坏的“标尺”。即便真题也有不尽完美的地方,它也要比市面上普通的模拟题好N倍。你如果硬要说这个“标尺”不好,那是你的评价逻辑出了问题!
如果你非要撇开好好的真题不用,专找一些所谓的“原创题”“名校题”“名师题”来让学生做,到最后你的学生高考没有考好,你只能用一句“学生们没有发挥好”来安慰自己,同时也用它来忽悠学生!殊不知,是老师自己把学生带到沟里去了。君不见,每年高考过后,总会听到有老师说“今年的高考题出得不好”,你知道说这话的老师,言外之意是什么吗?我想大概率就是:他教的内容高考没有考,高考考的内容他没有教。
关于研究真题的重要性,这里引用原教育部考试中心命题中心主任刘芃先生的一个观点。他在《刘芃考试文集》中的《教你应试》一文里提到:“与其大量做题,不如抽出时间认真研究往年的试题。社会上流传的复习题往往粗制滥造,不得要领,不分良莠地抓着就做,最容易产生误导。往年的试题是精雕细磨的产物,它反映了对考试内容的深思熟虑、对设问和答案的准确拿捏、对学生水平的客观判断。研究这些试题,就如同和试题的制作者对话。”——这话说得很直白了吧!研究高考试题,就如同和高考试题的制作者对话!

3. 最后说说对高考真题的具体研究方法
研究高考的人很多,方法也各不相同,简单来说可以分为两类:一类是宏观层面的研究,比如高考命题改革的整体趋势、各学科核心素养在考试中的体现、不同省份试卷的难易度与差异、高考评价体系对教学的导向作用等;另一类是微观层面的研究,比如单道真题的考点拆解与能力考查维度分析、某一知识点在历年真题中的考查共性、对应这些共性所需掌握的核心知识、解决同类问题的共性方法与技巧等。我们的研究主要侧重后者。
我个人觉得,研究高考重点要做好两件事:一是搞清楚高考是如何命题的,二是找到高考题的考点共性和考查规律。
先说说高考是如何命题的。大家可能听说过(或在网上见过)高考命题的场景:每年四五月份,一群专家(通常是大学教授、中学在职教师和学科教学研究者)会被召集到一个封闭的地方,与外界完全隔离,独立完成命题——这就是所谓的“入闱”命题,也叫会议任务型命题。以这种方式命题,通常是在命题组长的带领下,由学科秘书协调各命题专家进行命题,包括学习相关文件、研究考试大纲(或课程标准)、查阅相关资料、寻找命题素材、编制高考试题、拟写参考答案、内部试测难度等。但这种纯会议任务型的命题方式估计至少是10年甚至20年前的事了。
随着科学技术的发展,尤其是近几年人工智能的进步和各国考试题库的建设,我国也开始研发自己的考试题库——国家题库。综观我国教育考试的国家题库建设,自2006年教育部考试中心正式启动“国家教育考试题库建设工程”暨国家题库1.0以来,我国的题库建设已走过了近20年历程并取得了飞速的发展,我国教育考试的国家题库也从1.0版(2006-2014)走向2.0版(2014年之后),现正向智慧题库建设迈进。
作为统筹全国教育考试命题与管理的核心机构,教育部考试中心(即现在的教育部教育考试院)专门设有“题库建设与管理处”。这个处室的专家团队,在《中国考试》《清华大学教育研究》等核心期刊上发表过不少关于题库建设的专业论文,有兴趣的老师可以找来看看(限于篇幅,下面截图只是文章的标题和开头部分,想深入学习的朋友,可找到相关杂志学习全文):






我在今年的4月23日发过一篇《从国家题库建设看高考命题的考点共性》的公众号文章(有兴趣的网友可以去看看),许多媒体和公众号都转发了。我在文中分享了自己对国家题库建设相关论文学习后的心得,同时也引用了教育部考试中心题库中心一些专家老师的观点。比如教育部考试中心高升老师撰写的《对B类题库建设中若干问题的思考》(原载《中国考试》2008年第2期)提到:如何保证为数多达数十套且命制于不同时期、出自不同命题者的试卷在各方面的平衡方法主要有两条。第一,设置基准卷;第二,编制详尽的“命题细则”。(本文作者注:A类题库指“题库”,B类题库指“卷库”,两者有一定差别,特此说明)

你看,高考命题其实是有“基准卷”和“命题细则”的。什么是“基准卷”?高升老师接着解释道:所谓基准卷,是指经过命题组再三推敲和权衡,认为其难度等各方面的指标符合要求、可以作为命制其他试卷时的参照基准的试卷。基准卷一旦确定,在相当长的时间内不再轻易更动,以后每次命题均以该卷为准绳。

原来命题人不仅要依据“基准卷”命题,而且“基准卷”在很长时间内不会轻易改动——这就导致很多高考题虽然形式不同,但考点高度一致。比如在2015-2024的10年间,高考英语语法填空考查人称代词变形容词性物主代词的题目有10道,其中7道都是考查it变为its。虽然每年的句子语境不一样,但核心考点始终没变——这就是我们常说的“考点共性”或“考查规律”。
至于怎么找到高考题的考点共性和考查规律,官方文件肯定不会直白地告诉你。但你可以想想:既然高考命题要依据“基准卷”和“命题细则”,那命制出来的试题,必然会充分体现这两者的要求吧?顺着这个思路,只要我们大面积研究往年高考试题,把每道题拆解到具体考查细节,再对这些细节“合并同类项”,提炼出反复出现的共性特征——这不就是“考点共性”或“考查规律”吗?
这就是我们这么多年研究高考真题的核心理念,而支撑这项研究的关键,就是覆盖1977-2025年的“高考真题大数据语料库”,以及与之配套的“三位一体”系统(标签系统、编码系统、检索系统)。大家最近在本公众号看到的小文章,相关数据和素材都来自这个语料库。
回望这段从20世纪90年代开始的“真题建库”之旅,其实从来没有什么“宏伟蓝图”——最初不过是一名普通英语老师“留存好题目”的朴素心愿,是为了备课省事、投稿方便的现实需求。可偏偏是这份“不刻意”,从一台286电脑开始,凭着一份份真题的不断积累,慢慢建成了这个覆盖近半个世纪的“高考真题大数据语料库”,还慢慢完善了与之配套的“三位一体”系统。如今再回想,那些曾反复调整格式的完形填空、小心翼翼备份的软盘数据、逐字核对的真题细节,都成了挖掘考点共性、把握考查规律的“铺路石”。
这么多年研究高考真题,我最深刻的一点心得就是:与其让学生盲目刷题,不如引导他们真正吃透高考真题(尤其要通过历年真题大数据梳理出真题的考点共性)——这些真题是经过命题专家精雕细琢且承载着“基准卷”与“命题细则”要求的真正好题!小小心得,与各位教育同行共勉。
注:
1.文中关于国家题库的相关理解,仅为本人学习专家论文后形成的个人心得,若有不妥,恳请大家批评指正。您若想深入了解国家题库的专业内容,建议直接查阅相关论文原文(据我所知,刊载此类论文的刊物主要有《中国考试》《清华大学教育研究》《中国培训》等),以获取更权威、全面的信息。
2.本文作者对高考真题大数据研究有浓厚兴趣,欢迎有相同爱好的朋友添加作者微信(zzx-exam),或关注微信公众号“周贞雄大数据备考”,一起交流探讨,共同进步。