拿儿子的期中考试题去测DeepSeek V4

四季读书网 2026-04-26 23:32:18 6 0

周五，DeepSeek V4 终于姗姗来迟。DeepSeek 官方对自己的评价颇高，称“DeepSeek-V4-Pro 性能比肩顶级闭源模型”，并拥有“世界顶级的推理性能”。又说“”在数学、STEM 及竞赛型代码的评测中，DeepSeek-V4-Pro 超越了当前所有已公开的开源模型，取得了足以比肩世界顶级闭源模型的优异成绩“”。

对于一般性问题，不同模型之间的性能差异在用户“体感”上并不明显；只有在处理编程、数学推理等复杂问题时，它们之间的差距才会真正显现。在编程领域，权威大模型评比网站 arena.ai 将 DeepSeek-V4-Pro-thinking 排在第 14 位，紧随 GPT-5.4-high 之后，但落后于国内的智谱 GLM-5.1（第 5 名）和阿里 Qwen-3.6-plus（第 10 名）。

今天我突发奇想，用一道儿子期中考试的数学题来测试一下 DeepSeek-V4-Pro。这道题具有一定的推理难度，DeepSeek-V4-Pro-thinking 思考了 543 秒（约 9 分钟）并给出了正确答案。相比之下，GPT-5.4-high 仅用时 4 分 4 秒便回答正确，思考速度明显更快。作为对比，我同时测试了豆包的思考模式，遗憾的是，它在思考 9 分钟后仍未能得出结果，并放弃了进一步的思考。

从这个小实验来看，DeepSeek-V4 在数学推理方面的表现确实远强于国内的豆包，且已经非常接近国外领先的 OpenAI GPT-5.4。当然，这仅仅是基于一道初中数学题的个案测试，并非普适性的测试结果。

客观来讲，这道数学题只是中等难度而已，我本人大概花了1分钟多一点就解出来了，但AI动辄花4分钟、9分钟，说明在思考的速度方面并不一定比人类强。

#DeepSeek V4 #GPT 5.4 #豆包 #数学推理