扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2025-03-25 16:13

DeepSeek低调宣称小更新,结果用2折价格达到R1水平

本文作者:流大古,编辑:大饼,题图来自:AI生成

文章摘要
DeepSeek发布V3-0324模型,虽称小更新但性能显著提升,代码生成能力接近Claude 3.7 Sonnet,成本仅为R1的1/5。模型采用MoE架构,支持4-bit量化运行,开源许可更开放。实测显示其前端开发、物理模拟表现优异,性价比碾压竞品,可能成为R2模型的前置版本,推动行业格局变化。

• 💰性价比突破:成本仅R1的1/5,Claude成本是其33倍,实现顶级性能低价化

• 🚀代码能力跃升:KCORES得分超Claude普通版,生成800行无错前端代码

• 🔓开源再升级:采用MIT许可,允许商用及模型蒸馏,开放度超越前代

• ⚙️架构革新:MoE结构激活370亿参数,支持4-bit量化在消费级设备运行

• 🎾物理模拟优势:弹跳小球测试表现优于R1,正确遵循重力原理生成流畅动画

• 🌍行业冲击波:开源高性能模型对闭源商业产品施压,或成R2发布前哨战

昨晚,DeepSeek 无预警发布 DeepSeek-V3-0324 模型,此次更新虽被官方低调地称为“小版本迭代”,但实测表现远超预期。


该模型尤其在代码生成、前端开发等方面显著提升,甚至部分能力比肩 Claude 3.7 Sonnet,引发全球 AI 社区热议。


在大模型竞技场测试 KCORES 中,DeepSeek-V3-0324 代码能力得分 328.3 分,超越普通版 Claude 3.7 Sonnet( 322.3 分 ),接近 Claude 3.7 Sonnet 的思维链版本( 334.8分 )



在 Aider LLM Leaderboard 排行榜中,DeepSeek-V3-0324 在多语言基准测试中得分为 55%,比 V3 有显著提升,比 R1 略低一些。在非思考/推理模型中,它排名第二,仅次于 Claude Sonnet 3.7 。



测试数据还表明,在表现良好的模型中,DeepSeek-V3-0324 花费是最低的,比 R1 还低很多,只需大约 1/5,拥有高到令人发指的性价比。


另外,Claude Sonnet 3.7 Thinking 的花费是 DeepSeek-V3-0324 的 33 倍, o1 是 DeepSeek-V3-0324 的 167 倍。



目前在 DeepSeek 官网,只需要关闭 “ 深度思考 ” 选项即可使用新模型。


Hugging Face 上也提供了开源下载,下载地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main



DeepSeek-V3-0324 包含 685B 参数,较前代 V3 小幅增加,采用 MoE( 专家混合 )架构,激活参数 370 亿。网友实测 DeepSeek-V3-0324 支持 4-bit 量化,可在 512GB M3 Ultra Mac上以 20+ token/s 速度运行,磁盘占用仅352GB。 新模型采用与 DeepSeek-R1 相同的MIT许可,允许自由修改、商用及模型蒸馏,比上一版 V3 更开放。


从测评结果来看,DeepSeek-V3-0324 前端开发表现突出,媲美顶级商业模型。


X 博主 Deepanshu Sharma 仅用简单提示词(“用 HTML/CSS/JS 制作现代化登录页面”),就能让新版 V3 一键生成 800+ 行代码,且无错误运行,效果媲美 Claude 3.7 Sonnet 。




在经典弹跳小球测试中,DeepSeek V3-0324 不仅比 R1 表现更好,博主 Deepanshu Sharma 还认为它生成了最流畅的动作。




在测试中 o3-mini 最初表现看起来不错,但并没有正确遵循物理原理,尤其是在视频中间,球对重力没有做出正确的反应。


Deepanshu Sharma 评价 DeepSeek V3-0324 “ 表现得像唯一排名第一的非推理模型 ”。


据 X 网友 karminski-牙医介绍,在升级版的 20 小球物理模拟测试中,DeepSeek V3-0324 相比 V3 也表现更优。




而新版 V3 与头部推理模型的比较情况如下:



在火星任务测试中,DeepSeek-V3-0324 提升巨大,星球、图例渲染正确,发射和返回的窗口计算也有很大进步。


结合 UI 设计和物理模拟,X 网友 Parul Pandey 还用 DeepSeek-V3-0324 生成了一个可交互物理模拟界面,通过 AnyChat 使用 DeepSeek-V3-0324 模拟水分子。


实际运行中,可以通过温度滑块提升温度,让分子呈现越来越快的前进和碰撞反弹运动。


提示词:创建一个交互式模拟,显示水分子形成和断裂氢键的过程,同时显示温度滑块。




对于本次升级的技术难度,有 Reddit 网友 pigeon57434 给出了比较中立的解读:不用太惊叹本次 V3 升级的幅度,因为 RL ( 强化学习,Reinforcement Learning )潜力极大。以 QwQ-32B 为例,尽管它实际上小了 20 倍,但它在某些方面的表现几乎与 R1 一样好,甚至比 R1 更好。它能那么强,只是因为扩展推理模型还有很大空间,甚至不需要新的基础模型。我敢打赌,使用更复杂的技术,可以轻松获得基于 DeepSeek-V2.5 的推理模型来击败 R1,更不用说这个新版本的 V3 了。



总的来说,这样的免费+高性能的组合将对 OpenAI、Anthropic 等闭源商业模型形成越来越大的压力。


DeepSeek 此次更新再次证明开源模型的爆发力,不仅技术指标逼近顶级商业AI,更以低成本、高自由度推动行业变革。


可以合理推测,此次更新有可能是R2的前置版本,类似去年 V3(24.12.16)→R1(25.01.20)的发布节奏,或许几周内我们可能迎来更强的推理模型 R2。


随着 R2 的临近,全球 AI 竞争格局或将迎来新一轮洗牌。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
频道:

支持一下

赞赏

0人已赞赏

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: