出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑

四季读书网 2026-06-18 15:11:28 2 0

最近看世界杯，刷到 GLM-5.2 开源的消息。

朋友圈都在转 Code Arena 排行榜——GLM 排第一，社群和各个社区都是一片“国产之光”。

但老实说，我对刷榜已经没感觉了，就想看看到底行不行。

对于我这种Codex、Claude Code 20x会员的男人，对 GPT5.5、Opus 4.8 什么水平有数。既然你说能打——行，我出两道真题，看看到底啥水准！

第一题考记性：把我攒了大半年的整个Skill体系甩进去，让它审计。第二题考手艺：给它真实世界杯数据，让它做一个夺冠推演器网站。

题一：60 个 skill 甩进去，看谁记得住

说出来有点丢人。

我这个知识库攒了大半年，60 多个自己写的 skill。选题、写稿、发公众号、视频提取、私董会、PPT……自以为搭了条挺像样的内容流水线，但做多了之后真的好乱，哪个 skill 跟哪个功能重了、哪两个触发词会打架、哪个早就没用了，我自己都记不清。

每次开始都先得问下Agent，“我那个用来做某件事的skill具体是叫什么来着？”

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第1张图片-四季读书网

所以我就想让三个模型都跑一跑，帮我把所有的skill都读出来，然后画出整个系统架构，找出有冲突和重复的部分，最后再生成一个HTML的看板。

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第2张图片-四季读书网

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第3张图片-四季读书网

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第4张图片-四季读书网

（从左到右：GPT、Opus、Zcode的GLM-5.2）

这活逼着模型必须把整个系统装进脑子里。3 号 skill 和 58 号 skill 撞了车，你只读了前 20 个是发现不了的。

三个跑下来的数据：

	Opus 4.8	GLM-5.2	Codex
上下文峰值	34.1万 / 1M	22.7万 / 1M	15.7万 / 25.8万
覆盖 skill 数	34（只深读自建）	64（最多）	61
找出冲突	9 组	9 对	31 对（最多）
触发压缩	无	无	无
读取策略	全塞进单一上下文	直读约 40 个 + 子代理摘要其余	分批抽取

这里最让我意外的就是Codex可能是受限于上下文窗口只有258K的限制，它自己承认做了偷懒：

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第5张图片-四季读书网

难怪我发现Codex，居然只消耗了最少的token。真的是因为长度不足进行了取巧。

我让它们凭记忆默写最早读的、中间的、最后读的 skill，都答得上来。

Opus也说自己有遗忘的地方：

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第6张图片-四季读书网

GLM5.2也有：

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第7张图片-四季读书网

相对来说，Opus4.8和智谱GLM5.2 的1M上下文，确实是对于整体的记忆有很大的提升！

然后我们来看下他们各自生成的HTML看板，要我说，Codex是真的丑-，-

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第8张图片-四季读书网

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第9张图片-四季读书网

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第10张图片-四季读书网

GLM-5.2还挖出了一个其他两个模型都没有发现的bug：

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第11张图片-四季读书网

甚至比Opus给的优化建议还要具体：

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第12张图片-四季读书网

Codex的最差：

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第13张图片-四季读书网

题二：世界杯预测冠军

世界杯最近这么火，那咱们就干脆出一道和世界杯有关的题吧。

首先，现在已经是世界杯进行时了，所以我希望根据具体的当前的比赛结果来预测世界杯冠军。

从维基百科扒了截至 6 月 17 日的全部战绩——德国 7-1 血洗库拉索、挪威靠哈兰德 4-1、西班牙闷平佛得角、阿根廷 3-0。48 队当前积分、FIFA 实力值，生成成一份 JSON。

加上下面的提示词，给到三个模型：做一个夺冠推演器网站。淘汰赛对阵树 SVG 画，蒙特卡洛模拟跑一万次算夺冠概率，小组排名按 FIFA 多级规则来。

同一份数据、同一份执行方案，三个模型各跑各的：

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第14张图片-四季读书网

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第15张图片-四季读书网

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第16张图片-四季读书网

从左到右，Codec、Claude Code、Zcode的GLM-5.2

先说 Opus。打开那一瞬间就知道它赢了。

首页 6 个数据卡，夺冠概率 Top 8 加载即跑满，每支队配国旗。对阵树 SVG 画了肘形连接线，点任何一支队高亮夺冠之路，右上角挂着“最可能冠军：阿根廷”的徽章。

最让我服的还是过程——它自己起浏览器跑了一遍，发现两个 bug，自己改完又测，最后零控制台报错。这种“写完自己验收”的习惯，目前没模型能打得过。当然代价是它读得最重，上下文吃到 20 万。

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第17张图片-四季读书网

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第18张图片-四季读书网

然后打开 GLM。

我有点“诶？”。

暗色配青绿，干净、克制，一眼就不是糊弄的。同样正确的 32 强赛制，胜者高亮带比分、败者灰掉。蒙特卡洛 0.34 秒跑完一万次。H 组四队全 1 分，它能按净胜球正确排序——tiebreaker 写对了。

它比 Opus 差在哪？没配国旗、对阵树没连接线、概率条要手动点一下才出。

而且它只吃了 7.2 万 token——Opus 的三分之一。同样的活，最省。

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第19张图片-四季读书网

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第20张图片-四季读书网

Codex 有个巧思我挺喜欢：对阵树每场标了双方晋级胜率（墨西哥 49.3% vs 韩国 50.7%），三个里独一份。

但它偷了个懒——淘汰赛只做了 16 强。2026 年是 48 队新赛制，应该是 32 强。结构上就矮了一截。它自己在 README 里也坦白了，算是诚实。

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第21张图片-四季读书网

夺冠概率，GPT和GLM5.2的比较接近，都是25%左右，Opus只给了17%：

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第22张图片-四季读书网

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第23张图片-四季读书网

出了两道真题考 GLM-5.2,Opus 4.8 和GPT 5.5 陪跑-第24张图片-四季读书网

最后，我开了个新的session，让Opus4.8逐个打开浏览器，五个维度打分（基础完整 15%、核心算法 35%、数据准确 15%、视觉 20%、交互 15%）：

	Opus 4.8	GLM-5.2	Codex
五维总分	96	91	82
淘汰赛赛制	正确 32 强	正确 32 强	偷懒做了 16 强
上下文峰值	20.2万 / 1M	7.2万 / 1M	9.1万 / 258k
自我验证	自开浏览器测 + 修了 2 个 bug	Node 逻辑测试	浏览器自测
设计观感	暗色最精致（连线+国旗）	暗色干净克制	浅色，没那么 premium

跑完说几句实话

这件事给我最大的感受，是GLM5.2真的可以和GPT5.5、Opus4.8打的有来有回，我也在各种社群里看到大家的溢美之词，非常夸张。

还让我意外的是：能做到这个水平的，居然是一个开源模型。MIT 协议，谁都能拿去用。价格是 Opus/GPT的零头，Coding Plan 直接能跑。

在两类完全不同的真实任务上——一个压长上下文，一个压Coding——它都追到了闭源旗舰的水平。不是说超越了，是真的在同一水平线了！

所以你问我该用谁？你会用谁呢？

本文地址： https://sjds.net/756900.html

文章来源：四季读书网