DeepSeek，整整落后了8个月…-虎嗅网

本文来自微信公众号：特大号，作者：小黑羊

就在DeepSeek V4发布后，美国官方AI评测与标准机构CAISI给出了一份评估报告。

根据评测结果，DeepSeek已经落后美国顶尖闭源模型8个月。

这张图很能说明问题，横轴上模型发布时间表，纵轴是模型能力评分。

可以看到刚刚发布的DeepSeek V4 Pro的整体能力，仅仅相当于去年8月发布的GPT5的水平。

更扎心的是模型迭代的曲线的斜率，美模明显更陡峭一点，这说明差距被拉大了。

那么，DeepSeek主要输在哪里了呢？

这张评分表一目了然。

DeepSeek在数学、自然科学、常规代码能力上，跟GPT、Claude们不分伯仲，但是在网络安全、复杂工程、抽象推理等层面大幅落后。

所以，DeepSeek更有点像「小镇做题家」：理科特别强、刷题很猛、写代码也不错，但是到了复杂实战的场景，就可能露怯。

而对于企业级场景，无论coding还是智能体，想要真正落地，极度依赖复杂软件工程能力和抽象推理能力。

当然还有网络安全能力，非常强调实战，这方面，DeepSeek短板相当明显。

这些差距，原因是多方面的↓

首先，不得不承认，咱们的训练算力和硬件生态确实存在代差。

像数学能力可以通过高质量合成数据和强化学习快速拉升，好比刷题，黄冈密卷多来点，老师辅导认真点，容易搞定。

但复杂工程、安全、智能体任务不仅要训练模型，还要构造大量真实环境、自动评测沙盒等等，好比实战，已经脱离了课堂和教室，这些更烧算力、烧工程资源。

第二，缺少高质量实战数据。

数学、竞赛题、科学问答的数据相对容易标准化。

但安全和复杂软件工程不一样，需要大量真实仓库、issue、依赖环境、漏洞链、调试过程。这种真实工作轨迹数据的积累，我们还差得很远。

第三，成也MoE，败也MoE。

MoE模型带来了很多好处，比如性价比，但针对高度连续、长链路、跨领域任务，会面临更大的挑战，稳定性不足。

从某种程度上讲，稠密模型能力会更强，但选择MoE也是跟第一条息息相关，毕竟我们太缺算力。

第四，开源是一把双刃剑。

闭源模型的好处是我是个黑盒，可以把推理成本、系统复杂度、模型组合、工具链、检索系统、隐藏推理策略都藏在API后面。

没准你提安全需求的时候，闭源模型背后有个真人白帽子大神在人肉服务呢。

，但黑盒子里面后面可能藏着各种不为人知的组合技，比如多模型路由、工具执行器、安全过滤器等等。）

但DeepSeek这种开源权重模型，几乎就是打明牌，我展示的能力基本上就是「裸模型能力」，没法像闭源模型那样，把大量奇技淫巧包进去。

所以，这就导致在智能体、安全、复杂工程任务上，闭源黑箱子天然占便宜。

写在最后的两点↓

第一，不必过于在意这份报告的结论，要考虑立场和背景。

CAISI的评测更美式叙事一点，侧重Cyber、软件工程、抽象推理这些领域。

如果换个维度，看中文场景、企业私有化部署、低成本推理、国产硬件适配、开源生态价值等等，DeepSeek就会优势立现。

第二，别只盯着DeepSeek，现在能代表东方力量的国产模型，已经可以组团作战了。

过去一年，DeepSeek是一面旗帜，是所有人的目光焦点，扛着「国产模型不能输、开源模型不能输」的重任，压力太大了。

但从今年起，DeepSeek肩上的这份重担可以卸下了，一大波国产力量已经开始接棒，共同扛起这份重任。

Kimi2.6、GLM5.1、Mimo2.5、Minimax2.7、Qwen3.6…

从DeepSeek的一枝独秀，到现在的百花齐放，中国开源模型你方唱罢我登场，各领风骚三五天。

而且，这波齐射与2024年的百模大战不同，这一波洗牌剩下来的模型，个个都挺能打，无论实战还是口碑，都不输DeepSeek。

比如在Artificial Analysis模型性能总榜单中，DeepSeek V4 Pro仅仅排在国产开源模型的第四位，Kimi k2.6、Mimo-V2.5、Qwen3.6都排在它前面。

同样，再看另一份LmArena的Coding模型榜单，DeepSeek V4 Pro仅仅排在总榜第15名。

国产模型里面GLM-5.1（第5）、Kimi-k2.6（第7）、小米2.5 Pro（第11）、Qwen3.6-Plus（第12）表现都更好。

这让我想起DeepSeek V4发布时，他们在公告结尾引用荀子的那句话↓

「不诱于誉，不恐于诽，率道而行，端然正己。」

当DeepSeek走下神坛的时候，也恰恰是国产模型各自破局、集体向前的时候。

静水流深待磅礴！

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

DeepSeek，整整落后了8个月…

那么，DeepSeek主要输在哪里了呢？

这些差距，原因是多方面的↓

写在最后的两点↓

大 家 都 在 搜

大家都在搜