一张试卷好不好,就看这四个“度”——普通人的考试命题指南

四季读书网 2026-04-04 11:26:29 14 0

如果咱不是老师，也不是命题人，可能从来不会想这些问题。但咱从小到大考过那么多试，咱们有没有好奇过：凭什么有的试卷大家都说“出得好”，有的却被骂“太变态”？

其实，每一张试卷(假设满分为100分)背后，命题人手里都握着四把尺子——难度、区分度、信度、效度。今天咱不讲那些让人头疼的专业术语，就用大白话聊聊这四个“度”到底是啥，跟咱普通人有啥关系。

一、难度：这道题“卡不卡人”？

难度说白了就是题目的“卡人程度”。越多人做对，难度越低；越少人做对，难度越高。

怎么理解？

想象一下，咱全班考数学，一道满分10分的题全班平均分9分，那这道题就属于“送分题”；如果仅有2个人做对其余人全部做错，那就是“变态难”的压轴题。

难度跟得分率有关，得分率越高，说明难度越低，反之亦然。

跟咱们有啥关系？

如果咱家孩子平时成绩中上等，拿到一张卷子发现从头难到尾，一道题都下不了手——那大概率是出题人没控制好难度，咱也不要过多担心。反过来，如果一张卷子大家都考了95分以上，那也说明不了什么，因为太简单了，根本看不出谁学得好谁学得差，咱也不要沾沾自喜。

一张合理的试卷，应该是大部分题中等难度，再配几道简单的和几道难的。这样中等生能拿到基础分，尖子生也有发挥空间，例如7:2:1的比例。

二、区分度：能不能把“学霸”和“学渣”分开？

区分度这词听着文绉绉的，其实就是看这道题能不能把好学生和差学生区分开，题目在多大程度上能体现学生的能力差异。

怎么理解？

好学生做对的、差学生做错的题，区分度就高。大家全对或者全错的题，区分度就是零。

举个例子，某次考试最后一道大题(计算推理题)，全班前三名都做对了，后十名全没做出来，中间层的得分也是呈阶梯状——这道题的区分度就很高，命题质量就很有水平。反过来，如果一道题全班都做对了，那这道题虽然简单，但没起到“筛选”的作用；同样，一道题全班没一个做对全部得0分，那这道题特别难，也起不到“筛选”的作用。

跟咱们有啥关系？

区分度关系到考试的公平性。咱想想，如果一道题学霸和学渣都做不对，那这道题对学霸公平吗？同样，如果一道题大家全对，那对学渣来说其实也不公平——因为人家本来想靠这道题缩小差距，结果没机会。所以考试题目过度简单或过度难，都是不好的题目，应该淘汰。

区分度高的考试，才能真正反映出不同能力群体的学生的真实水平。

三、信度：这次考完，下次再考还一样吗？

信度说的是考试结果的稳定性，也就是可靠性。用咱老百姓的话讲：同一个学生，今天考和明天考，分数应该差不多；换一套难度相当的卷子，排名也应该差不多。

怎么理解？

就像咱站在体重秤上，早上称119斤，晚上121斤，两次差距很少，这个秤就是“信度高”的。如果早上称100斤晚上称170斤，两次差距巨大咱肯定怀疑秤坏了。考试也是一样，如果同一拨学生考相同内容在间隔不长时间内考两次，分数差别特别大，那这次考试就是“信度低”的。

跟咱们有啥关系？

信度低意味着什么？意味着考试成绩可能“靠不住”。咱这次考得好，可能不是因为学得好，而是运气好——正好碰到了复习过的题；下次考砸了，可能也不是水平不行，而是状态不好或者题目“不对路”。

所以那些重要的考试，比如中考、高考，都会反复打磨试卷，确保信度足够高。因为这种考试的结果，关系到一个学生未来的走向，不能儿戏。

四、效度：考的真是你想考的吗？

效度是这四个里面最“根本”的一个。它问的是：咱考的，是不是咱想考的东西，也就是结果是不是准确的？

怎么理解？

这个最好理解了，假如咱体重120斤，结果某个秤称的是180斤，则称出的结果与实际值差距较大，表明这个秤就是无效的；同样另一个秤称出是121斤，则称出的结果跟实际值相差很小，则表明这个秤是有效的、准确的。咱明明想考学生的数学计算能力，结果出了一道题，题目是个超级长的应用题，咱光读懂题就要五分钟——最后咱不是算不出来，而是没读懂题目在说啥。那这道题考的是数学还是阅读理解？这就是效度出了问题：咱测量的东西，跟咱本来想测量的东西，不是一回事。

跟咱们有啥关系？

效度低的考试，最让人憋屈。咱有没有遇到过这种情况：平时学得挺扎实，一到考试就傻眼——不是因为不会，而是因为题目“绕”得太厉害，或者考的净是些边边角角的东西或偏题、刁怪题。

比如英语考试，如果大部分题目都在考语法术语(什么是定语从句、什么是虚拟语气)，而不是考咱能不能看懂文章、能不能开口说话，那这个考试就是效度有问题。它考的是“关于英语的知识”，而不是“英语能力”本身。

五、这四个度怎么配合？

说句实在话，这四个度没法都做到完美，命题人也不是神仙，也得权衡。

难度和区分度是一对冤家。太难的题和太简单的题，区分度都不高。只有中等难度的题，才能把不同水平的人区分开。所以一张卷子如果全是难题或者全是简单题，都不是好事。有时候命题时真的难以事先预测，尤其高厉害的考试如高考，还要考虑各地猜题、押题的情况，还真不能怪罪于命题老师。

信度和效度也有讲究。信度是效度的前提——如果考试结果不稳定，今天高明天低，那它肯定测不准。但信度高不一定效度高，有可能咱考得很稳定，但稳定的考偏了(比如数学考试稳定地考成了“背公式大赛”)，那信度再高也没用。

六、作为普通人，咱怎么看一张试卷？

咱只是个普通家长、学生，或者偶尔关注教育的读者，怎么判断一张试卷好不好？

第一，看分数分布。全班都考了90多分，或者全班都不及格，都不是好现象。前者说明卷子太简单，后者说明太难。正常的分布应该是“橄榄形”——中间分数多、两头少(即统计学上的正态分布)，但说实话，命题老师也很难呀，高厉害考试有时很难做到分数中间多，两头少的分布。

第二，看排名是否稳定。如果咱家孩子平时学得不错，某次考试突然掉到倒数，或者平时一般的突然冲进前三，那可能不是水平变了，而是卷子本身信度有问题。

第三，看“学考是否一致”。平时学的和考的，是不是对得上？如果课堂上讲的都是A，考试考的全是B，那这个考试效度就有问题。

写在最后

难度、区分度、信度、效度，这四个字听起来像是专业人士才关心的事。但仔细想想，它们其实问的是四个特别朴素的问题：

·难度：这道题对咱学生来说是不是“刚刚好”？

·区分度：这道题能不能把“学神”、“真学霸”、“伪学霸”、“中等生”、“学渣”揪出来？

·信度：这次考完，换个时间再考，结果还一样吗？

·效度：确定考的是咱想考的东西吗？

下次咱们再拿到一张试卷，或者听到别人讨论某次考试“好不好”的时候，不妨用这四把尺子量一量——你会发现，咱看考试的眼界，可能一下子就变了。另外特别说明一下：1.难度、区分度、信度、效度都是针对全体考生，而不是部分考生，例如不能某地市中考抽取某一个班来谈这些指标；2.难度、区分度既可以针对题目、也可以针对整张试卷；信度、效度仅针对整张试卷。

本文地址： https://sjds.net/612993.html

文章来源：四季读书网