DeepseekV4的回归试卷:不用英伟达,也能跑万亿参数

四季读书网 2026-04-24 17:56:36 10 0

年初就在盼着去年封神的DeepSeek，今天V4它来了！

先说跟的一个数字：100万。

V3.2的上下文窗口是128K token，4直接拉到100万翻了将近8倍。

100万token大约等于80万字中文，拿来做参照：刘慈欣的《三体》三部曲加起来大概88万字，一次性丢进去，还剩点余量。

这改变的不是「能读多长的文章」，而是工作方式。

以前用大模型处理长文档，核心工作量是「怎么把大象分成小块装进冰箱」，现在冰箱变成了仓库。

但仓库大不等于找东西快 DeepSeek自己公布的数据显示，V4在100万token长度下的检索准确率MRCR 1M拿了83.5分，Claude Opus 4.6是92.9。能装了，找得准不准还有差距。

同样的显卡和显存，能扛的请求量翻了好几倍。

DeepSeek一直在编程这条线上死磕，V4交出了目前最好的答卷。

Codeforces竞赛评分3206而GPT-5.4是3168，这是开源模型第一次在竞赛级编程上站到了闭源模型前面。

SWE-bench Verified修真实GitHub issue的测试V4-Pro拿了80.6，Claude Opus 4.6是80.8，两者咬在一起。

这些数字放在一年前，任何一个开源模型都摸不到边。

但V4的短板也很明显：

HLE测试和世界知识检索SimpleQA这两项V4分别只拿37.7和57.9。

论写代码它是尖子生，但百科知识这方面它还得补课。

如果说Claude是全科学霸，V4更像是理科偏科生，数学和编程拿满分，历史地理还在及格线晃。

V4这次上了两个模型，Pro和Flash。

V4-Pro1.6万亿总参数，每次推理激活49B，适合干复杂推理的任务。产品端叫「专家模式」，支持深度思考和搜索。

V4-Flash284B总参数，激活13B轻快便宜。产品端叫「快速模式」，日常聊天和简单任务用这个。

API价格是V4最有杀伤力的部分。

Pro输出token 0.28/百万。Claude Opus 4.6的输出价格是$75/百万，Pro便宜了20倍，Flash便宜了260倍。

如果你在跑批量任务、做自动化流程、搞内容生产线，这个价差会直接砍掉你的成本。

论性能跟闭源第一梯队咬在一起，论价格差了一到两个数量级。

这是DeepSeek一贯的打法：用价格把护城河里的水抽干。

V4从R1之后隔了这么久，不是因为模型没训好。

根据多家媒体报道，DeepSeek在过去一年多里做了一件极其吃力的事：

把整个技术底座从英伟达CUDA框架迁移到华为昇腾CANN架构，V4完全运行在华为芯片上。

DeepSeek没给英伟达和AMD提前适配的机会，早期访问权限只开放给了华为和寒武纪。

最后的结果就是V4在昇腾上的推理速度比初期版本提升了35倍，部署成本大约是英伟达方案的三分之一。

黄仁勋在最近的采访里直说了，如果前沿模型能在国产芯片上跑出竞争力，英伟达的生态护城河会被动摇。

对普通用户来说，你打开DeepSeek网页或者调API，感知不到背后跑的是哪家芯片。

但这件事的长期影响比V4模型本身可能更大：

它给AI产业链打了一个样板，证明万亿参数模型可以不依赖英伟达。

V4选在GPT-5.5发布的同一天上线。一个开源免费，一个闭源付费。同日发布，新闻周期对半分。

V4的官方措辞很克制，叫Preview预览版。

如果说R1是DeepSeek对全世界喊的那一嗓子，V4更像是它低着头做完一道难题之后，把卷子默默翻过来放在桌上。

这份试卷的名字的名字叫：不用英伟达，也能跑万亿参数。

至于考试成绩单，阅卷人还在路上。

本文地址： https://sjds.net/654778.html

文章来源：四季读书网