最近看世界杯,刷到 GLM-5.2 开源的消息。
朋友圈都在转 Code Arena 排行榜——GLM 排第一,社群和各个社区都是一片“国产之光”。
但老实说,我对刷榜已经没感觉了,就想看看到底行不行。
对于我这种Codex、Claude Code 20x会员的男人,对 GPT5.5、Opus 4.8 什么水平有数。既然你说能打——行,我出两道真题,看看到底啥水准!
第一题考记性:把我攒了大半年的整个Skill体系甩进去,让它审计。第二题考手艺:给它真实世界杯数据,让它做一个夺冠推演器网站。
题一:60 个 skill 甩进去,看谁记得住
说出来有点丢人。
我这个知识库攒了大半年,60 多个自己写的 skill。选题、写稿、发公众号、视频提取、私董会、PPT……自以为搭了条挺像样的内容流水线,但做多了之后真的好乱,哪个 skill 跟哪个功能重了、哪两个触发词会打架、哪个早就没用了,我自己都记不清。
每次开始都先得问下Agent,“我那个用来做某件事的skill具体是叫什么来着?”

所以我就想让三个模型都跑一跑,帮我把所有的skill都读出来,然后画出整个系统架构,找出有冲突和重复的部分,最后再生成一个HTML的看板。



(从左到右:GPT、Opus、Zcode的GLM-5.2)
这活逼着模型必须把整个系统装进脑子里。3 号 skill 和 58 号 skill 撞了车,你只读了前 20 个是发现不了的。
三个跑下来的数据:
| Opus 4.8 | GLM-5.2 | Codex | |
| 上下文峰值 | 34.1万 / 1M | 22.7万 / 1M | 15.7万 / 25.8万 |
| 覆盖 skill 数 | 34(只深读自建) | 64(最多) | 61 |
| 找出冲突 | 9 组 | 9 对 | 31 对(最多) |
| 触发压缩 | 无 | 无 | 无 |
| 读取策略 | 全塞进单一上下文 | 直读约 40 个 + 子代理摘要其余 | 分批抽取 |
这里最让我意外的就是Codex可能是受限于上下文窗口只有258K的限制,它自己承认做了偷懒:

难怪我发现Codex,居然只消耗了最少的token。真的是因为长度不足进行了取巧。
我让它们凭记忆默写最早读的、中间的、最后读的 skill,都答得上来。
Opus也说自己有遗忘的地方:

GLM5.2也有:

相对来说,Opus4.8和智谱GLM5.2 的1M上下文,确实是对于整体的记忆有很大的提升!
然后我们来看下他们各自生成的HTML看板,要我说,Codex是真的丑-,-



GLM-5.2还挖出了一个其他两个模型都没有发现的bug:

甚至比Opus给的优化建议还要具体:

Codex的最差:

题二:世界杯预测冠军
世界杯最近这么火,那咱们就干脆出一道和世界杯有关的题吧。
首先,现在已经是世界杯进行时了,所以我希望根据具体的当前的比赛结果来预测世界杯冠军。
从维基百科扒了截至 6 月 17 日的全部战绩——德国 7-1 血洗库拉索、挪威靠哈兰德 4-1、西班牙闷平佛得角、阿根廷 3-0。48 队当前积分、FIFA 实力值,生成成一份 JSON。
加上下面的提示词,给到三个模型:做一个夺冠推演器网站。淘汰赛对阵树 SVG 画,蒙特卡洛模拟跑一万次算夺冠概率,小组排名按 FIFA 多级规则来。
同一份数据、同一份执行方案,三个模型各跑各的:



从左到右,Codec、Claude Code、Zcode的GLM-5.2
先说 Opus。打开那一瞬间就知道它赢了。
首页 6 个数据卡,夺冠概率 Top 8 加载即跑满,每支队配国旗。对阵树 SVG 画了肘形连接线,点任何一支队高亮夺冠之路,右上角挂着“最可能冠军:阿根廷”的徽章。
最让我服的还是过程——它自己起浏览器跑了一遍,发现两个 bug,自己改完又测,最后零控制台报错。这种“写完自己验收”的习惯,目前没模型能打得过。当然代价是它读得最重,上下文吃到 20 万。


然后打开 GLM。
我有点“诶?”。
暗色配青绿,干净、克制,一眼就不是糊弄的。同样正确的 32 强赛制,胜者高亮带比分、败者灰掉。蒙特卡洛 0.34 秒跑完一万次。H 组四队全 1 分,它能按净胜球正确排序——tiebreaker 写对了。
它比 Opus 差在哪?没配国旗、对阵树没连接线、概率条要手动点一下才出。
而且它只吃了 7.2 万 token——Opus 的三分之一。同样的活,最省。


Codex 有个巧思我挺喜欢:对阵树每场标了双方晋级胜率(墨西哥 49.3% vs 韩国 50.7%),三个里独一份。
但它偷了个懒——淘汰赛只做了 16 强。2026 年是 48 队新赛制,应该是 32 强。结构上就矮了一截。它自己在 README 里也坦白了,算是诚实。

夺冠概率,GPT和GLM5.2的比较接近,都是25%左右,Opus只给了17%:



最后,我开了个新的session,让Opus4.8逐个打开浏览器,五个维度打分(基础完整 15%、核心算法 35%、数据准确 15%、视觉 20%、交互 15%):
| Opus 4.8 | GLM-5.2 | Codex | |
| 五维总分 | 96 | 91 | 82 |
| 淘汰赛赛制 | 正确 32 强 | 正确 32 强 | 偷懒做了 16 强 |
| 上下文峰值 | 20.2万 / 1M | 7.2万 / 1M | 9.1万 / 258k |
| 自我验证 | 自开浏览器测 + 修了 2 个 bug | Node 逻辑测试 | 浏览器自测 |
| 设计观感 | 暗色最精致(连线+国旗) | 暗色干净克制 | 浅色,没那么 premium |
跑完说几句实话
这件事给我最大的感受,是GLM5.2真的可以和GPT5.5、Opus4.8打的有来有回,我也在各种社群里看到大家的溢美之词,非常夸张。
还让我意外的是:能做到这个水平的,居然是一个开源模型。MIT 协议,谁都能拿去用。价格是 Opus/GPT的零头,Coding Plan 直接能跑。
在两类完全不同的真实任务上——一个压长上下文,一个压Coding——它都追到了闭源旗舰的水平。不是说超越了,是真的在同一水平线了!
所以你问我该用谁?你会用谁呢?