
这两天有点兴奋,脑子里一直在想,AI到底还能帮我实际干点啥。借助新发布的 GPT-5.5模型,现在的 Codex真的强得有点离谱,一直在给我惊喜。
这两天主要做了两件事:一个是昨天用 Codex改完了期中试卷;另一个是我做了一个微信小程序(老师换课用的手动课表)。给两个老师看了一下,他们还挺期待的,现在就等工信部审批结果了。
今天先说第一个事。
用 AI 改卷这件事

其实这次期中考试,我们科学科组本来就尝试了一下用 AI系统改卷,这也是第一次正式用这种方式。以前也见过类似的技术,AI模型其实早就有了。
我简单看了一下这套系统,说实话还是挺复杂的。对于老师来说,有些关键功能反而不太好找。
像选择题这种 ABC 的,其实根本不需要 AI,二十年前的答题卡就能解决。真正需要 AI 的,是主观题和填空题。
问题也就出在这里。
有些孩子的字比较潦草,或者涂了又写,甚至没写在横线上;还有一些表达不太完整,但大概能看出意思。像这种情况,平时我人工改卷是会给分的。
但我看了一下系统里的 AI 判分——真的有点“无情判官”的感觉,稍微不对就直接 0分。
我也不太确定,是模型能力问题,还是评分标准设置得太严格。

我开始“带着 AI 干活”
后来我就有个想法:干脆让我的 Codex 自己去改。
我让它用 browser use 的 skill,一步一步带着它操作。
第一步,是让它登录阅卷网站,然后根据我的指令,慢慢点到人工批阅的页面。接着,我开始教它评分标准,比如:
多写不扣分 少写扣部分分 尽量更有人情味
先让它批一个学生,我觉得 OK 了,再让它在系统里改分。
然后是第二个学生,再到一次性 10个学生。
前期其实主要就是在“磨评分标准”。

从“一个一个改”到“一个班一个班改”

标准确定之后,我就让它去想怎么提速。
它的操作我看了一下,还挺有意思的:先把学生的扫描卷子下载下来 → 自己判分 → 再回写到系统后台。
这一步之后,它基本就不需要在界面上点来点去了,速度一下子就上来了。
我又一步步放权:
一个题目 → 一个班 一个班 → 四个班
理论上,它已经可以一次性改完整个年级了。
但我还是有点不放心,怕数据量太大出问题,所以让它按“一个班一个班”来。
它还挺聪明的,自己加了一步回查复核,相当于每个班都改了两遍,有点像一个认真负责的助教。

AI 也会“走弯路”

最后两个大题,我让它试了一下同时批改。
结果这里它犯了个挺典型的错误——“看起来更方便,但其实更慢”。
它为了方便查看,把每个学生的两道题合成一张图片,再一起批改。
我本来预估 40分钟能搞完,结果它整整干了2个多小时……
结束之后我让它复盘,它也承认问题出在“合并图片”这一步,说以后不应该这么做。
这一点还挺有意思的——AI 虽然很强,但在路径选择上,其实我们还是可以帮它优化的。

一点最近的感受

最近脑子是真的有点“发热”。
总在想,能不能借助 agent多做点事情,把一些原本很费时间的工作重新拆一遍。
以前总说 AI 革命“要来了”,但这两天的感觉更像是——它其实已经开始了。
对普通人来说,这个阶段可能最重要的,不是技术多深,而是:你有没有去想,有没有去试。
敢想、敢做、敢折腾,可能比什么都重要。