扫码打开虎嗅APP
本文来自微信公众号: AGENT橘 ,作者:AGENT橘
DeepSeek上一次让全世界瞩目,还是在去年的春节前发布V3和R1。
这一年多,圈子里反复问同一个问题:DeepSeek什么时候发新模型?
每次有风吹草动就一群人转发,每次都是误报,甚至还有一些公司等不及了开始公开喊话。
DeepSeek俨然已经成为大模型开源社区的精神图腾。
4月24日,DeepSeek V4开源。屠龙少年终于回来了。
它一发布,全球开发者几小时内就开始部署、微调、评测,连我们的程序员都自发地连夜接入到ColaOS。
但和去年V3发布的时候比,今天的大模型的开源社区已经变得更加繁荣,Qwen、Kimi、GLM、MiniMax,在过去的一年里都在疯狂地迭代和开源。
就在V4发布的同一周,Kimi K2.6也刚开源,两者有很多相似之处,同样是万亿参数,32B激活,同样是在Coding和Agent能力方面已经逼近海外旗舰模型。
在很多朋友的测试中,V4似乎还存在不少的bug,可能和新上线部署未调试完成有关,总体口碑K2.6的整体效果比V4要更好一些,同时支持多模态,不需要再衔接一个图片处理模型,方便了很多。
有趣的是,K2.6用了DeepSeek开源的MLA注意力机制,把KV Cache压缩率做到93%以上的架构,已经从DeepSeek的原创变成了业界标准。
V4用了Muon优化器。这个优化器最早是独立研究者提出的,月之暗面团队做了关键改进,在万亿参数规模上验证了稳定性,预训练全程零Loss Spike。

因为开源,技术自然流动。
相比美国那边A社和OpenAI都在闭源中互卷,开源生态里是一副和谐促进的景象。
前天跟朋友吃饭才知道,DeepSeek最新估值是400多亿美金,并不是之前传闻的100亿。
100亿对于DeepSeek的价值来说,确实也太少了。
看看其他的几家模型公司,已经上市的,智谱500亿美金估值,MiniMax 300亿美金估值。
即将在港股上市的Kimi现在大约200亿美金估值。
朋友们开玩笑说,错过了MiniMax和智谱,不能再错过Kimi,都等着打新。
我们再看看海外,OpenAI 8500亿美金估值,Anthropic甚至达到了离谱的一兆美金估值。
中国这几家大模型公司的价格,只不过是个零头而已。
这中间的差异是20-50倍,远远超过一个汇率。
到底是美国贵了,还是中国便宜了呢?
两边的市场自有各自的道理。
美国那边的估值里有太多叙事溢价和IPO预期,但中国这边也确实被低估了。当模型能力已经逼近甚至持平海外旗舰,当开源让全球开发者都在用你的模型,20-50倍的估值差距,显然无法持续。
说到美国那边,不得不聊几句我最近的担忧。
Anthropic现在的状态确实很猛,Claude Code的能力有目共睹,产品发布速度也极快。但他们的价值观让人有点害怕,那种"只有我们能定义模型安全"的傲慢姿态,背后是对控制权的执念。
OpenAI这边,虽然以前大家调侃它是ClosedAI,但比起Anthropic的封闭姿态都显得要好一些了。
只是"好一些",还远远不够。
通向AGI的大模型技术,如果由两家闭源模型公司垄断,那将是全人类的最大的风险。
模型必须开源开放,世界才有美好的未来。
还有一件不能忽略的事,就是国产芯片的适配。
现在国内缺卡现象太严重了,最近各家的Coding Plan都在纷纷涨价。
万亿大模型适配国产卡,是关乎整个生态能不能真正普及的问题。
DeepSeek、Kimi等模型都在积极地做昇腾适配,这件事的意义甚至比模型的指标进步意义更大。
三年前,中国的大模型公司大多还未成立。
三年后,万亿参数的模型纷纷发布并开源。
屠龙少年,终于归来,不过这次,不止一位。