如果咱不是老师,也不是命题人,可能从来不会想这些问题。但咱从小到大考过那么多试,咱们有没有好奇过:凭什么有的试卷大家都说“出得好”,有的却被骂“太变态”?
其实,每一张试卷(假设满分为100分)背后,命题人手里都握着四把尺子——难度、区分度、信度、效度。今天咱不讲那些让人头疼的专业术语,就用大白话聊聊这四个“度”到底是啥,跟咱普通人有啥关系。
一、难度:这道题“卡不卡人”?
难度说白了就是题目的“卡人程度”。越多人做对,难度越低;越少人做对,难度越高。
怎么理解?
想象一下,咱全班考数学,一道满分10分的题全班平均分9分,那这道题就属于“送分题”;如果仅有2个人做对其余人全部做错,那就是“变态难”的压轴题。
难度跟得分率有关,得分率越高,说明难度越低,反之亦然。
跟咱们有啥关系?
如果咱家孩子平时成绩中上等,拿到一张卷子发现从头难到尾,一道题都下不了手——那大概率是出题人没控制好难度,咱也不要过多担心。反过来,如果一张卷子大家都考了95分以上,那也说明不了什么,因为太简单了,根本看不出谁学得好谁学得差,咱也不要沾沾自喜。
一张合理的试卷,应该是大部分题中等难度,再配几道简单的和几道难的。这样中等生能拿到基础分,尖子生也有发挥空间,例如7:2:1的比例。
二、区分度:能不能把“学霸”和“学渣”分开?
区分度这词听着文绉绉的,其实就是看这道题能不能把好学生和差学生区分开,题目在多大程度上能体现学生的能力差异。
怎么理解?
好学生做对的、差学生做错的题,区分度就高。大家全对或者全错的题,区分度就是零。
举个例子,某次考试最后一道大题(计算推理题),全班前三名都做对了,后十名全没做出来,中间层的得分也是呈阶梯状——这道题的区分度就很高,命题质量就很有水平。反过来,如果一道题全班都做对了,那这道题虽然简单,但没起到“筛选”的作用;同样,一道题全班没一个做对全部得0分,那这道题特别难,也起不到“筛选”的作用。
跟咱们有啥关系?
区分度关系到考试的公平性。咱想想,如果一道题学霸和学渣都做不对,那这道题对学霸公平吗?同样,如果一道题大家全对,那对学渣来说其实也不公平——因为人家本来想靠这道题缩小差距,结果没机会。所以考试题目过度简单或过度难,都是不好的题目,应该淘汰。
区分度高的考试,才能真正反映出不同能力群体的学生的真实水平。
三、信度:这次考完,下次再考还一样吗?
信度说的是考试结果的稳定性,也就是可靠性。用咱老百姓的话讲:同一个学生,今天考和明天考,分数应该差不多;换一套难度相当的卷子,排名也应该差不多。
怎么理解?
就像咱站在体重秤上,早上称119斤,晚上121斤,两次差距很少,这个秤就是“信度高”的。如果早上称100斤晚上称170斤,两次差距巨大咱肯定怀疑秤坏了。考试也是一样,如果同一拨学生考相同内容在间隔不长时间内考两次,分数差别特别大,那这次考试就是“信度低”的。
跟咱们有啥关系?
信度低意味着什么?意味着考试成绩可能“靠不住”。咱这次考得好,可能不是因为学得好,而是运气好——正好碰到了复习过的题;下次考砸了,可能也不是水平不行,而是状态不好或者题目“不对路”。
所以那些重要的考试,比如中考、高考,都会反复打磨试卷,确保信度足够高。因为这种考试的结果,关系到一个学生未来的走向,不能儿戏。
四、效度:考的真是你想考的吗?
效度是这四个里面最“根本”的一个。它问的是:咱考的,是不是咱想考的东西,也就是结果是不是准确的?
怎么理解?
这个最好理解了,假如咱体重120斤,结果某个秤称的是180斤,则称出的结果与实际值差距较大,表明这个秤就是无效的;同样另一个秤称出是121斤,则称出的结果跟实际值相差很小,则表明这个秤是有效的、准确的。咱明明想考学生的数学计算能力,结果出了一道题,题目是个超级长的应用题,咱光读懂题就要五分钟——最后咱不是算不出来,而是没读懂题目在说啥。那这道题考的是数学还是阅读理解?这就是效度出了问题:咱测量的东西,跟咱本来想测量的东西,不是一回事。
跟咱们有啥关系?
效度低的考试,最让人憋屈。咱有没有遇到过这种情况:平时学得挺扎实,一到考试就傻眼——不是因为不会,而是因为题目“绕”得太厉害,或者考的净是些边边角角的东西或偏题、刁怪题。
比如英语考试,如果大部分题目都在考语法术语(什么是定语从句、什么是虚拟语气),而不是考咱能不能看懂文章、能不能开口说话,那这个考试就是效度有问题。它考的是“关于英语的知识”,而不是“英语能力”本身。
五、这四个度怎么配合?
说句实在话,这四个度没法都做到完美,命题人也不是神仙,也得权衡。
难度和区分度是一对冤家。太难的题和太简单的题,区分度都不高。只有中等难度的题,才能把不同水平的人区分开。所以一张卷子如果全是难题或者全是简单题,都不是好事。有时候命题时真的难以事先预测,尤其高厉害的考试如高考,还要考虑各地猜题、押题的情况,还真不能怪罪于命题老师。
信度和效度也有讲究。信度是效度的前提——如果考试结果不稳定,今天高明天低,那它肯定测不准。但信度高不一定效度高,有可能咱考得很稳定,但稳定的考偏了(比如数学考试稳定地考成了“背公式大赛”),那信度再高也没用。
六、作为普通人,咱怎么看一张试卷?
咱只是个普通家长、学生,或者偶尔关注教育的读者,怎么判断一张试卷好不好?
第一,看分数分布。全班都考了90多分,或者全班都不及格,都不是好现象。前者说明卷子太简单,后者说明太难。正常的分布应该是“橄榄形”——中间分数多、两头少(即统计学上的正态分布),但说实话,命题老师也很难呀,高厉害考试有时很难做到分数中间多,两头少的分布。
第二,看排名是否稳定。如果咱家孩子平时学得不错,某次考试突然掉到倒数,或者平时一般的突然冲进前三,那可能不是水平变了,而是卷子本身信度有问题。
第三,看“学考是否一致”。平时学的和考的,是不是对得上?如果课堂上讲的都是A,考试考的全是B,那这个考试效度就有问题。
写在最后
难度、区分度、信度、效度,这四个字听起来像是专业人士才关心的事。但仔细想想,它们其实问的是四个特别朴素的问题:
·难度:这道题对咱学生来说是不是“刚刚好”?
·区分度:这道题能不能把“学神”、“真学霸”、“伪学霸”、“中等生”、“学渣”揪出来?
·信度:这次考完,换个时间再考,结果还一样吗?
·效度:确定考的是咱想考的东西吗?
下次咱们再拿到一张试卷,或者听到别人讨论某次考试“好不好”的时候,不妨用这四把尺子量一量——你会发现,咱看考试的眼界,可能一下子就变了。另外特别说明一下:1.难度、区分度、信度、效度都是针对全体考生,而不是部分考生,例如不能某地市中考抽取某一个班来谈这些指标;2.难度、区分度既可以针对题目、也可以针对整张试卷;信度、效度仅针对整张试卷。