南昌市中考一模结束了,那么,中考也就不远了。
这段时间,我把前年干过的一件事,又干了一遍。只不过,这一次,用上了AI Agent,方便了很多,也有了一点新发现。
故事是这样的。
去年我做了一件可能有点轴的事。
我把部编版初中语文教材里所有的文言文,一篇一篇复制下来,校对成纯文本,然后用Python跑了个字频统计,发现了点好玩的事情,于是写成了一篇文章文言文不再难懂:数据分析帮你找到学习捷径。后来,我还分析了一下2014年-2023年的江西省中考语文真题的文言文字频,和教材对比,也有点收获,写了篇文章对10年江西中考的文言文真题进行的统计后,我发现了这些规律
今年,我又把2014年到2025年整整12年江西中考语文真题的文言文部分,也全部扒下来跑了一遍。
你问我这一次两次的搞统计,图啥?
因为我有一个疑问,这个疑问在我脑子里转了很久,而且我觉得不只是我,很多语文老师、很多学生、很多家长,可能都有这个疑问,但没人去验证。
学习文言文,最重要的是词汇,特别是要掌握常用词。但是,初中文言文,到底要掌握哪些常用的字词?
这个问题听起来简单,但你仔细想想,官方有答案吗?市面上有答案吗?
《文言必备120词》《文言必备140词》,各种版本满天飞。但我一直有个困惑,这些词到底是怎么选出来的?凭什么选这120个而不是那120个?有没有人真的拿数据验证过?
我没找到。所以我决定自己来。
说真的,做数据分析最难的不是写代码,是准备数据。前年,我找了老半天,也没找到一份现成的、干净的文言文纯文本。多数文档里夹着注释、翻译、赏析,删起来能把人逼疯。
实在找不到,只能自己手动一篇一篇整理。
一篇一篇校对,一个字一个字核对。好在,终于把两份数据都准备好了。
去年用新教材,好在文言文没变,不用重复造轮子,原来的数据可以继续用。真题的文本,我也只需要在原来的基础上加2篇。
简单,轻松搞定。
教材文言文一共14337个字,涉及2170个不同的汉字。中考文言文一共2683个字,涉及879个不同的汉字。
然后,AI启动,几分钟后,结果出来了。

AI做事就是快!
我盯着屏幕看了很久。
因为有些发现,真的挺有意思的。
比如,我们从小背「之乎者也」,说这四个字是文言文的标志,出现频率极高。
但数据告诉我们的是另一回事。
「之」确实一骑绝尘,348次,遥遥领先,是第二名的将近1.4倍。这个没什么争议。
但排在第二的不是「乎」,是「不」,250次。
然后是「也」,156次。
「人」,156次。
「而」,155次。
「者」,137次。
“之”“也”“者”出现的频次都超过了100,那么“乎”呢?
30次。
说实话我看到这个数字的时候愣了一下。30次,在教材文言文14000多个字里面,占比才0.2%。这跟「之」的2.4%比起来,差了十倍不止。
所以如果真的按频率排序,「之乎者也」应该改成「之也不人而者乎」。
当然没人会这么念,但这个事实本身就挺有意思的。我们一直以为的常识,未必经得起数据的检验。
然后我注意到一个更有意思的事。
出现频率最高的前10个字里面,虚词占了7个。
之、也、而、者、其、以、为。
全是虚词。
这7个虚词的总出现次数,占了前10名总频次的75%以上。也就是说,你读文言文的时候,每遇到10个高频字,就有7个半是虚词。

所以,虽然虚词和实词相比,数量少,在文言文中的占比也不高,虚词好像没有实际意义,就以为虚词不重要。
不要忘了,虚词决定了句子的结构、逻辑和语气。搞不懂虚词,你就搞不懂文言文。
这不是什么高深的语言学理论,就是赤裸裸的数据事实。
所以如果你是学生,或者你是老师,文言文词汇积累的重心应该放在哪,数据已经替你回答了。
虚词,是第一优先级。
这可能有点反常识,但事实就是如此。
分析完教材数据,我心里还有一个问题没解决。中考考的文言文,跟课本到底有多大关系?
江西中考的文言文阅读,考的都是课外文本,从来没考过课本原文。
但是,文本是课外的就等于字词是课外的吗?
为了搞清楚这件事,我又花了一波功夫,搜集了12年的中考真题,跑了一遍字频统计。
结果出来之后,我自己都有点惊讶。

中考文言文一共涉及879个不同的汉字。教材文言文涉及2170个不同的汉字。这两个集合的交集有多大?
735个字,匹配率83.6%。
也就是说,中考文言文里出现的字,超过近八成,都在课本里出现过。
但我觉得这个数字还不足以说明全部问题。因为那144个「仅中考出现」的字里面,到底有多少是真正影响理解的实词?
我一个一个点开去看。
燧,9次。人名,萧燧。
祖,5次。人名,谢仁祖。
季,5次。人名,季布。
哙,4次。人名,樊哙。
贸,4次。2024年真题「贸贸焉远而求之」,轻率之意。
逋,3次。逃亡。
索,3次。2025年真题「草泥行郭索」。
特,3次。特别。
崛,3次。2024年真题「幽特构崛」。
孝,3次。孝道。
绍,3次。人名,姓氏。
辀,3次。车辕,2025年真题「钩辀格磔」。
适,3次。到……去。
构,3次。构造。
僻,2次。偏僻。
肘,2次。手肘。
齿,2次。年龄。
磔,2次。裂开,2025年真题。
谱,2次。
桧,2次。人名,秦桧。
羽,2次。人名,项羽。
财,2次。钱财。
饬,2次。整饬。
推,2次。推荐、推举。
术,2次。方法、技术。
注,2次。注释。
漕,2次。漕运。
员,2次。人数、名额。
粮,2次。漕粮。
诘,2次。追问。
闱,2次。科场。
肩,2次。肩膀。
樊,2次。人名,樊哙。
垢,2次。污垢。
蟹,2次。2025年真题「蟹之郭索」。
党,2次。集团、亲族。
严,2次。人名,严州。
巡,2次。人名,许远字巡。
让,4次。谦让、责备。
看完之后我松了一口气。
绝大多数都是人名、地名、谥号、官职名这类专有名词。这些字你就算不认识,只要能判断出它是个人名或者地名,对理解文意几乎没有影响。
而哪些生僻的字词,试卷上都给了注释。
真正需要关注的课外实词,只有那么几个。
「让」,谦让、责备。2016年和2018年考过。
「僻」,偏僻。2017年和2023年考过。
「党」,集团、亲族、袒护。2015年和2023年考过。
「推」,推荐、推举。2015年和2022年考过。
「适」,到……去。出现过3次。
「员」,人数、名额。2015年考过。
「贸」,轻率。2024年真题「贸贸焉」。
就这些,一只手都数得过来。
我又做了一件事。我把教材里出现频率最高的30个实词,一个一个去查它们在中考里有没有出现过。

30个里面,29个都有,覆盖率96.7%。
唯一一个没出现的是「水」字。这个也好理解,因为中考文言文选的大多是人物传记,山水类文本出现得少。我专门在中考真题文本里搜了一遍,确实一个「水」字都没有。
到这一步,结论已经很清晰了。
中考文言文虽然考的是课外文本,但它的字词,几乎全部是课内的。
匹配度超过90%!
这个结论说明了什么?
掌握了课本上的字词,中考文言文也就掌握得八九不离十。
坦率地讲,我觉得这个结论的分量,比任何一本教辅书都重。
因为它不是拍脑袋说的,是拿12年的真题数据,一个字一个字跑出来的。
回到最开始那个问题。
初中文言文到底要掌握哪些字词?
现在我可以给出一个有数据支撑的回答了。
第一,虚词必须重视。
以往,我们学文言文,实词重视得多,虚词关注得少。这很好理解,因为实词是句子的核心,句子的意思主要由实词来决定。试卷上词语解释题,也主要是考实词。
重实词,轻虚词。这是很多人的共识。
但这其实是一个误区。
你看,「之、其、而、以、为、于」这六个核心虚词,在教材里出现了将近1000次,在中考里出现了将近220次。我们根本无法忽略虚词的存在。
虚词,是文言文的语法骨架,是实词的粘合剂。
研究古汉语的大佬王力先生就多次强调:中学生学不好文言文,很大程度上是因为没有掌握虚词的用法;实词可以通过查字典解决,而虚词的语法作用和语气表达,必须通过系统学习才能掌握。
具体来说,「之」可以作结构助词(的)、取消句子独立性、宾语前置标志、定语后置标志,还可以作代词(他、它)和动词(到、往)。一个「之」字,五种用法,每种都要会。
「其」可以作代词(他、它、他们、那里)、语气词(反问、推测)、连词。三种用法,在中考里反复出现。
「而」主要作连词,表并列、递进、转折、修饰,四种关系要分清。
「以」可以作介词(用、拿、把、依据)、连词(相当于「来」)、动词(认为)。三种用法,真题反复出现。
「为」可以作动词(做、当、变成)、介词(被、对)、连词。三种用法,有实有虚。
「于」主要作介词,在、对、到、从、比。五种用法都不难,但容易混淆。
第二,高频实词要吃透常用义。
「不、人、有、曰、子、一、无、山、中、天、下、日、行、知、大、此、我、是、得、军、可、君、时、来、欲、然」,这些是教材里出现频率最高的实词,也是中考里反复出现的字。
但注意,不需要掌握每个词的所有义项。
考试只考常用义。
比如「党」,可以表示「古代的一种居民组织,五百家为一党」,这个义项在中学阶段完全没有必要掌握。如果它出现在考试试卷上,一定会以注释的形式直接给出。
所以,初中文言文学习的重点应该是常用词的常用义。
把精力集中在刀刃上。
第三,课外实词不用焦虑。
真正需要关注的课外实词只有「让、僻、党、推、适、贸」这几个。一只手都数得过来。
而且这些词的考频也很低,大部分只在两年的真题里出现过。就算没掌握,考试的时候根据上下文猜一猜,大概率也能猜对。
第四,立足课本就够了。

现在市面上很多模拟题,选材和题目在往偏、难、怪的方向走。我看到有些模拟卷里的文言文,选的都是特别生僻的文本,出的都是特别刁钻的词义。
说实话,这种题做多了,除了打击学生的信心,让学生对文言文产生严重的畏难情绪之外,没有任何好处。
初中阶段的要求是阅读浅易的文言文。掌握课本上出现的常用词,就足够了。
如果在模拟卷里遇到从来没见过的词,学有余力可以作为积累,否则,力有不逮的,忽略就行。
我突然想起了以前做数据分析的时候学到一个概念,叫帕累托法则,也就是我们常说的二八定律。
80%的效果,来自20%的原因。
文言文学习也是一样。80%的阅读理解能力,来自对20%核心字词的掌握。
这20%的核心字词是什么?数据已经告诉我们了。
就是那些在课本里反复出现、在中考里高频考查的字。
掌握它们,文言文就没那么难了。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。