拿儿子的期中考试题去测DeepSeek V4
周五,DeepSeek V4 终于姗姗来迟。DeepSeek 官方对自己的评价颇高,称“DeepSeek-V4-Pro 性能比肩顶级闭源模型”,并拥有“世界顶级的推理性能”。又说“”在数学、STEM 及竞赛型代码的评测中,DeepSeek-V4-Pro 超越了当前所有已公开的开源模型,取得了足以比肩世界顶级闭源模型的优异成绩“”。
对于一般性问题,不同模型之间的性能差异在用户“体感”上并不明显;只有在处理编程、数学推理等复杂问题时,它们之间的差距才会真正显现。在编程领域,权威大模型评比网站 arena.ai 将 DeepSeek-V4-Pro-thinking 排在第 14 位,紧随 GPT-5.4-high 之后,但落后于国内的智谱 GLM-5.1(第 5 名)和阿里 Qwen-3.6-plus(第 10 名)。
今天我突发奇想,用一道儿子期中考试的数学题来测试一下 DeepSeek-V4-Pro。这道题具有一定的推理难度,DeepSeek-V4-Pro-thinking 思考了 543 秒(约 9 分钟)并给出了正确答案。相比之下,GPT-5.4-high 仅用时 4 分 4 秒便回答正确,思考速度明显更快。作为对比,我同时测试了豆包的思考模式,遗憾的是,它在思考 9 分钟后仍未能得出结果,并放弃了进一步的思考。
从这个小实验来看,DeepSeek-V4 在数学推理方面的表现确实远强于国内的豆包,且已经非常接近国外领先的 OpenAI GPT-5.4。当然,这仅仅是基于一道初中数学题的个案测试,并非普适性的测试结果。
客观来讲, 这道数学题只是中等难度而已,我本人大概花了1分钟多一点就解出来了, 但AI动辄花4分钟、9分钟,说明在思考的速度方面并不一定比人类强。
#DeepSeek V4 #GPT 5.4 #豆包 #数学推理