扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
根据CAISI评测,DeepSeek V4 Pro整体能力相当于8个月前发布的GPT5,在网络安全、复杂工程等实战领域存在短板,但中文场景、低成本推理等方面优势明显。国产模型正从一枝独秀走向百花齐放。 ## DeepSeek的技术差距 1. **整体落后8个月**:刚刚发布的DeepSeek V4 Pro的整体能力,仅相当于去年8月发布的GPT5的水平,且美国模型迭代曲线的斜率更陡峭,差距有拉大的趋势。 2. **“小镇做题家”式短板**:DeepSeek在数学、自然科学、常规代码能力上与顶尖模型不分伯仲,但在网络安全、复杂工程、抽象推理等实战层面大幅落后,影响企业级场景的落地。 ## 落后原因深度剖析 1. **算力与硬件生态代差**:复杂工程、安全任务需要构造真实环境和评测沙盒,极度消耗算力和工程资源,而这正是我们所面临的瓶颈。 2. **缺乏高质量实战数据**:网络安全和复杂软件工程需要大量真实工作轨迹数据(如仓库、漏洞链),这类数据的积累我们仍有很大差距。 3. **MoE模型的利弊**:MoE模型虽具性价比,但在处理高度连续、长链路任务时稳定性不足;选择MoE本身也与算力限制相关。 4. **开源模式的明牌劣势**:开源模型展示的是“裸模型能力”,而闭源模型可将复杂的推理策略、工具链等“组合技”隐藏在API之后,在智能体等任务上天然占优。 ## 视角转换与国产模型新格局 1. **评测标准的立场差异**:CAISI评测侧重美式叙事,若考量中文场景、企业私有化部署、低成本推理及国产硬件适配等维度,DeepSeek的优势将立即显现。 2. **从一枝独秀到百花齐放**:DeepSeek已不再是唯一焦点,Kimi、GLM、Mimo、Minimax、Qwen等国产模型纷纷崛起,在多项榜单中表现优异,共同扛起国产大模型的重任。
2026-05-02 16:11

DeepSeek,整整落后了8个月…

本文来自微信公众号: 特大号 ,作者:小黑羊


就在DeepSeek V4发布后,美国官方AI评测与标准机构CAISI给出了一份评估报告。


根据评测结果,DeepSeek已经落后美国顶尖闭源模型8个月。


这张图很能说明问题,横轴上模型发布时间表,纵轴是模型能力评分。


可以看到刚刚发布的DeepSeek V4 Pro的整体能力,仅仅相当于去年8月发布的GPT5的水平。


更扎心的是模型迭代的曲线的斜率,美模明显更陡峭一点,这说明差距被拉大了。


那么,DeepSeek主要输在哪里了呢?


这张评分表一目了然。


DeepSeek在数学、自然科学、常规代码能力上,跟GPT、Claude们不分伯仲,但是在网络安全、复杂工程、抽象推理等层面大幅落后。



所以,DeepSeek更有点像「小镇做题家」:理科特别强、刷题很猛、写代码也不错,但是到了复杂实战的场景,就可能露怯。


而对于企业级场景,无论coding还是智能体,想要真正落地,极度依赖复杂软件工程能力和抽象推理能力。


当然还有网络安全能力,非常强调实战,这方面,DeepSeek短板相当明显。


这些差距,原因是多方面的↓


首先,不得不承认,咱们的训练算力和硬件生态确实存在代差。


像数学能力可以通过高质量合成数据和强化学习快速拉升,好比刷题,黄冈密卷多来点,老师辅导认真点,容易搞定。


但复杂工程、安全、智能体任务不仅要训练模型,还要构造大量真实环境、自动评测沙盒等等,好比实战,已经脱离了课堂和教室,这些更烧算力、烧工程资源。


第二,缺少高质量实战数据。


数学、竞赛题、科学问答的数据相对容易标准化。


但安全和复杂软件工程不一样,需要大量真实仓库、issue、依赖环境、漏洞链、调试过程。这种真实工作轨迹数据的积累,我们还差得很远。


第三,成也MoE,败也MoE。


MoE模型带来了很多好处,比如性价比,但针对高度连续、长链路、跨领域任务,会面临更大的挑战,稳定性不足。


从某种程度上讲,稠密模型能力会更强,但选择MoE也是跟第一条息息相关,毕竟我们太缺算力。


第四,开源是一把双刃剑。


闭源模型的好处是我是个黑盒,可以把推理成本、系统复杂度、模型组合、工具链、检索系统、隐藏推理策略都藏在API后面。


没准你提安全需求的时候,闭源模型背后有个真人白帽子大神在人肉服务呢。


,但黑盒子里面后面可能藏着各种不为人知的组合技,比如多模型路由、工具执行器、安全过滤器等等。)


但DeepSeek这种开源权重模型,几乎就是打明牌,我展示的能力基本上就是「裸模型能力」,没法像闭源模型那样,把大量奇技淫巧包进去。


所以,这就导致在智能体、安全、复杂工程任务上,闭源黑箱子天然占便宜。


写在最后的两点↓


第一,不必过于在意这份报告的结论,要考虑立场和背景。


CAISI的评测更美式叙事一点,侧重Cyber、软件工程、抽象推理这些领域。


如果换个维度,看中文场景、企业私有化部署、低成本推理、国产硬件适配、开源生态价值等等,DeepSeek就会优势立现。


第二,别只盯着DeepSeek,现在能代表东方力量的国产模型,已经可以组团作战了。


过去一年,DeepSeek是一面旗帜,是所有人的目光焦点,扛着「国产模型不能输、开源模型不能输」的重任,压力太大了。


但从今年起,DeepSeek肩上的这份重担可以卸下了,一大波国产力量已经开始接棒,共同扛起这份重任。


Kimi2.6、GLM5.1、Mimo2.5、Minimax2.7、Qwen3.6…


从DeepSeek的一枝独秀,到现在的百花齐放,中国开源模型你方唱罢我登场,各领风骚三五天。


而且,这波齐射与2024年的百模大战不同,这一波洗牌剩下来的模型,个个都挺能打,无论实战还是口碑,都不输DeepSeek。


比如在Artificial Analysis模型性能总榜单中,DeepSeek V4 Pro仅仅排在国产开源模型的第四位,Kimi k2.6、Mimo-V2.5、Qwen3.6都排在它前面。



同样,再看另一份LmArena的Coding模型榜单,DeepSeek V4 Pro仅仅排在总榜第15名。


国产模型里面GLM-5.1(第5)、Kimi-k2.6(第7)、小米2.5 Pro(第11)、Qwen3.6-Plus(第12)表现都更好。



这让我想起DeepSeek V4发布时,他们在公告结尾引用荀子的那句话↓


「不诱于誉,不恐于诽,率道而行,端然正己。」


当DeepSeek走下神坛的时候,也恰恰是国产模型各自破局、集体向前的时候。


静水流深待磅礴!

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

大 家 都 在 搜