DeepseekV4的回归试卷:不用英伟达,也能跑万亿参数

四季读书网 3 0
DeepseekV4的回归试卷:不用英伟达,也能跑万亿参数

年初就在盼着去年封神的DeepSeek,今天V4它来了!

DeepseekV4的回归试卷:不用英伟达,也能跑万亿参数 第1张

1

先说跟的一个数字:100万。

V3.2的上下文窗口是128K token,4直接拉到100万翻了将近8倍。

100万token大约等于80万字中文,拿来做参照:刘慈欣的《三体》三部曲加起来大概88万字,一次性丢进去,还剩点余量。

DeepseekV4的回归试卷:不用英伟达,也能跑万亿参数 第2张

这改变的不是「能读多长的文章」,而是工作方式。

以前用大模型处理长文档,核心工作量是「怎么把大象分成小块装进冰箱」,现在冰箱变成了仓库。

但仓库大不等于找东西快 DeepSeek自己公布的数据显示,V4在100万token长度下的检索准确率MRCR 1M拿了83.5分,Claude Opus 4.6是92.9。能装了,找得准不准还有差距。

同样的显卡和显存,能扛的请求量翻了好几倍。

2

DeepSeek一直在编程这条线上死磕,V4交出了目前最好的答卷。

Codeforces竞赛评分3206而GPT-5.4是3168,这是开源模型第一次在竞赛级编程上站到了闭源模型前面。

SWE-bench Verified修真实GitHub issue的测试V4-Pro拿了80.6,Claude Opus 4.6是80.8,两者咬在一起。

这些数字放在一年前,任何一个开源模型都摸不到边。

DeepseekV4的回归试卷:不用英伟达,也能跑万亿参数 第3张

但V4的短板也很明显:

HLE测试和世界知识检索SimpleQA这两项V4分别只拿37.7和57.9。

论写代码它是尖子生,但百科知识这方面它还得补课。

如果说Claude是全科学霸,V4更像是理科偏科生,数学和编程拿满分,历史地理还在及格线晃。

3

V4这次上了两个模型,Pro和Flash。

V4-Pro1.6万亿总参数,每次推理激活49B,适合干复杂推理的任务。产品端叫「专家模式」,支持深度思考和搜索。

V4-Flash284B总参数,激活13B轻快便宜。产品端叫「快速模式」,日常聊天和简单任务用这个。

DeepseekV4的回归试卷:不用英伟达,也能跑万亿参数 第4张

API价格是V4最有杀伤力的部分。

Pro输出token 0.28/百万。Claude Opus 4.6的输出价格是$75/百万,Pro便宜了20倍,Flash便宜了260倍。

如果你在跑批量任务、做自动化流程、搞内容生产线,这个价差会直接砍掉你的成本。

论性能跟闭源第一梯队咬在一起,论价格差了一到两个数量级。

这是DeepSeek一贯的打法:用价格把护城河里的水抽干。

4

V4从R1之后隔了这么久,不是因为模型没训好。

根据多家媒体报道,DeepSeek在过去一年多里做了一件极其吃力的事:

把整个技术底座从英伟达CUDA框架迁移到华为昇腾CANN架构,V4完全运行在华为芯片上。

DeepSeek没给英伟达和AMD提前适配的机会,早期访问权限只开放给了华为和寒武纪。

最后的结果就是V4在昇腾上的推理速度比初期版本提升了35倍,部署成本大约是英伟达方案的三分之一。

黄仁勋在最近的采访里直说了,如果前沿模型能在国产芯片上跑出竞争力,英伟达的生态护城河会被动摇。

DeepseekV4的回归试卷:不用英伟达,也能跑万亿参数 第5张

对普通用户来说,你打开DeepSeek网页或者调API,感知不到背后跑的是哪家芯片。

但这件事的长期影响比V4模型本身可能更大:

它给AI产业链打了一个样板,证明万亿参数模型可以不依赖英伟达。

5

V4选在GPT-5.5发布的同一天上线。一个开源免费,一个闭源付费。同日发布,新闻周期对半分。

DeepseekV4的回归试卷:不用英伟达,也能跑万亿参数 第6张

V4的官方措辞很克制,叫Preview预览版。

如果说R1是DeepSeek对全世界喊的那一嗓子,V4更像是它低着头做完一道难题之后,把卷子默默翻过来放在桌上。

这份试卷的名字的名字叫:不用英伟达,也能跑万亿参数。

至于考试成绩单,阅卷人还在路上。

抱歉,评论功能暂时关闭!