2026-06-16 17:13

Redis 之父为DeepSeek 抱不平:美国AI 圈又为“蒸馏”吵起来了

author_path 极客邦科技InfoQ
头图

本文来自微信公众号: InfoQ ,作者:Tina,原文标题:《Redis 之父为 DeepSeek 抱不平:美国 AI 圈又为“蒸馏”吵起来了》


2026年6月15日,Redis之父Salvatore Sanfilippo,也就是antirez,在X上发了一串推文,情绪罕见地激烈:


“中国模型之所以强大,绝不是因为它们对美国模型进行‘蒸馏’(distillation)。通过API进行模型蒸馏是不可能的。如果有人告诉你相反的情况,那说明他们根本不懂机器学习。”


推文瞬间引爆了X网友们的敏感神经,于是一场争论又开始了。



因为他这番话,针对的正是过去一年美国AI圈很流行的一种说法:DeepSeek、Qwen、Kimi这些中国模型进步这么快,都是靠用API去“套”美国顶级模型的回答,再拿这些回答来训练自己。


就在antirez发推的前两天,Anthropic针对外国用户,在全球范围内暂停了其前沿模型Mythos和Fable 5的访问。这一极端举措无疑将“模型蒸馏”的讨论推向了新的高度。


而Redis之父,这位在技术圈德高望重的意大利程序员直接站出来说“你们搞错了”。


Redis之父的“不可能三角”


昨天晚上,antirez连续发了一长串推文,反驳“API蒸馏”的说法。他认为首先是“API给出的数据不够”,要蒸馏一个模型,需要访问海量的、带有完整logits的请求,包括思维链的所有中间输出。但通过公开API,你只能拿到最终的文本结果(相当于看了一眼答案,反推推导过程)。


其次是数学上不成立,这就像在一个极其复杂的曲面上看到几个点,却妄想重现整个曲面。


再次是能力来源需要明确的信息路径。预训练需要数万亿token,RL需要探索的奖励信号,完整的logit从o1之后就不再提供——那所谓“蒸馏”的信息通道到底在哪里?


antirez还特别提到DeepSeek。DeepSeek已经把自己怎么做预训练、怎么做SFT、怎么做RL管线讲出来了,社区里也有人复现出了一部分结果。既然有公开方法,也有可验证的结果,为什么大家宁愿相信“它一定是蒸馏出来的”这种猜测,也不愿相信它真的有能力训练大模型?


以下是antirez全部推文的翻译:


第一,真正的蒸馏需要访问极其大量的请求,而且这些请求必须带有完整的logits,包括生成思维链时的logits。但现在这些思维链通常已经被总结过了,你根本拿不到完整过程。


第二,通过API调用来蒸馏模型,就像你只看到了一个极其复杂曲面上的几个点,却还想把整个复杂曲面复原出来。从数学上讲,这简直是科幻。


第三,DeepSeek在R1论文里做的那些蒸馏,确实提升了目标模型的能力。但那些目标模型本来就已经在大量token上预训练过,只是没有接受过“思考”训练而已。潜在能力本来就在那里。即便如此,这些蒸馏出来的模型也谈不上特别强。


第四,你真正能做的,是为强化学习流程获取一些高质量信号。这确实有点用,但并不是决定性的。首先,你得有一套真正跑得起来的RL流程,而真正的工程能力也就在这里。


第五,就算你已经拿到了模型,蒸馏仍然很难。现在有很多中国前沿模型是公开可用的,可许多实验室,包括欧洲的一些实验室,仍然做不出和它们对齐的模型。


第六,DeepSeek已经公开了他们如何搭建预训练、SFT和RL管线的细节。这些结果甚至已经被复现了。为什么你们更愿意相信那些跟风瞎扯的论调,却不愿意相信那些可复现、可获得的结果?他们已经证明了自己能把大模型训练好。


第七,如果还有人坚持这种机器学习上的荒谬说法,你就问他:你声称模型从某个来源学到了某种能力,那请你把信息路径拿出来。预训练?那需要数万亿token。强化学习加验证器?也没有。那需要来自探索过程的奖励信号。完整logits?那是老师模型的完整分布,而从o1或类似模型开始,这些东西根本就不给你。那么,信息通道到底是什么?


最后他总结道:“别再重复这种胡话了。哪怕你的个人简介里写着‘AI专家’,你也只是在向全世界证明你根本不懂机器学习。”


但这种表态很快也把火烧到了antirez自己身上,推文评论区简直惨不忍睹。有网友说,antirez明显违反了推特的“第一性原则”:你不能表扬中国模型,永远,否则反对者就会像潮水一样把你淹没!



有人甚至直接在评论区质问他:“谁付钱让你发这个?”



包括他在内的一些网友,是用“指令微调”来反驳antirez:API输出当然能训练模型,Alpaca和Vicuna就是早期例子。Alpaca使用OpenAI text-davinci-003生成的5.2万条指令数据微调LLaMA 7B;Vicuna则使用ShareGPT上用户分享的ChatGPT对话微调LLaMA。


但这是实现黑盒蒸馏的操作手段之一:你不需要拿到模型的logits或内部概率分布,只需要通过API收集大量的(指令,输出)对,就能拿去训练自己的模型。


而antirez从头到尾说的“蒸馏”,指的是经典知识蒸馏(白盒蒸馏),需要拿到教师模型的完整logits和内部概率分布。他反复强调“full logits”“完整思维链”,指向的就是这个技术范式。在这个定义下,API确实给不了这些东西。


“蒸馏”这个词被刻意武器化了


还有一些网友引用Anthropic的报告作为自己结论的支撑。那份报告指出DeepSeek和Moonshot AI等实验室进行过大规模查询,很可能就是在收集训练数据。


但这份报告本身就有很大问题。我们曾专门拆解过:Anthropic指控DeepSeek的约15万次交互属于“异常规模”。但一个普通AI聊天工具日均交互约16万次,按Anthropic的标准,任何正常产品一天就能“偷走”全部能力。另一个对比是技术评测产生的大量交互。以SWE-bench为例,两千多个任务、每个任务调用几十次工具,一轮测试就接近12万次。反复调参跑多轮,突破百万次是常态。这些交互完全可以来自正当的评测流程,而非所谓的“蒸馏攻击”。



不过还有两位业界专家不赞成antirez对“蒸馏”的定义。


一位是Redwood Research的首席科学家Ryan Greenblatt,他认为antirez的帖子“在事实层面明显错误”,点赞数这么高很离谱,应该加上Community Note。


Ryan的主要意见是,antirez至少采用了一个在大语言模型语境下并不标准的“蒸馏”定义。他还补充说,只用不算很多的轨迹来蒸馏RL是很容易证明的,而且已经在很多地方被证明过,这明显和antirez这个讨论串的说法相矛盾。


但Ryan反驳的是antirez对“蒸馏”的狭义定义,本身并不涉及DeepSeek能力来源。



另一位是AI2研究员Nathan Lambert,也是刚刚结束中国行的美国学者之一。


Nathan认为,蒸馏本来是一种通用的后训练技术,但他们却用这个词来指代一个更具体的问题:破解API,或者说让API越狱。另外,蒸馏确实有用,但如果是按预期付费使用API,“哪怕这违反了服务条款,我也不会太同情前沿实验室因此推动政策行动”。




最关键的一点是,“蒸馏”已经成为了一个“道德术语”。假如真存在“以较少的投资迎头赶上竞争对手”的情况,那么这些企业就会想办法从道德上重新定义这个行为,以维护自身利益。


所以,“通过训练已经解出来的问题来提升模型”这个说法,听起来不够有煽动性。我们需要一个更恶意的词,比如“蒸馏攻击”。


“蒸馏”这个词很好,因为它会让人联想到私酒和20世纪20年代禁酒令时期那种地下交易的氛围。“攻击”这个词也很好,因为只有坏人才会攻击。于是,你就利用这样一个事实:过去人们把一种技术叫作“蒸馏”,也就是在能够访问大模型内部信息的前提下,用大模型来教小模型;然后你再给它加上“攻击”两个字,让它听起来更邪恶。


Nathan进一步表示,如果中国模型算是被“蒸馏”出来的,那么Cursor对Kimi的微调,以及任何在其他模型输出上训练的模型,也都该算“蒸馏”——更何况如今大多数人类输出本身已有模型辅助。


也正因如此,Nathan明确说,他不会把“在其他模型输出上训练”称为“蒸馏”,而主张叫它“基于模型输出的训练”或其他不带道德色彩的说法。他同时坦言,当前大语言模型的存在本就源于对版权法颇具争议的处理方式,只不过事后因其社会价值而被正当化;但我们绝不能让某些商业利益方,把自己的利益诉求包装成道德框架。


工程师文化,才是真正的答案


就在这场论战爆发前三周,Linux Foundation AI&Data的CTO Matt White和Nathan Lambert各写了一篇文章,讲述他们为期八天的中国之行。他们的答案出奇一致,他们看到的中国AI实验室,不是一个躲在美国API后面抄答案的生态。


Matt White写到,中国AI实验室普遍年轻、精简。他遇到的中国AI研究员平均年龄在25岁左右。研究员和工程师不太热衷个人品牌,更关心模型能不能真的变强。开源在许多实验室里不是宣传策略,而是默认选项。问题往往不是“要不要开源”,而是“哪些部分开源、什么时候开源”。


他对DeepSeek的描述尤其值得注意,“如果说有一个实验室在整个中国AI生态中获得普遍尊重,那就是DeepSeek”。他访问的几乎每一家实验室都会提到DeepSeek的创新,尤其是GRPO算法和它们在推理训练上的独特方法。这种尊重不是嫉妒,而是对“改变了游戏规则的人”的认可。


Nathan Lambert则在文章中写道,中国的LLM社区“感觉更像一个生态系统,而不是相互争斗的部落”。许多实验室都尊重DeepSeek,认为它“拥有极佳的研究品味和执行力”。


这些AI实验室已经拥有世界级的预训练、RL和后训练能力。DeepSeek公布的GRPO、Muon优化器、VERL框架,都被全球实验室采纳。今天构建最好的大模型,越来越依赖整条技术栈上的细致工作:数据、架构细节、RL算法实现、评测、推理系统,每一个环节都可能带来提升。


从技术能力上,这已经足够说明中国实验室根本不需要靠蒸馏来追赶。中国实验室之所以追得快,很大程度上不是因为某个神秘捷径,而是因为这些团队非常适合做这种密集、复杂、需要大量非光鲜工作的工程优化。


这正好解释了为什么“蒸馏论”不足以解释DeepSeek,也是antirez最不满的地方。


而且antirez不只是一个旁观者。不久前,他还亲自围绕DeepSeek做过推理工程,开源了DS4项目。这个项目是一个专门面向DeepSeek V4 Flash的本地推理引擎,优先为该模型优化,也支持在高内存机器上运行DeepSeek V4 PRO。



也就是说,他真正摸过模型部署的底层问题:模型架构、MoE、长上下文、KV cache、硬件适配、量化、推理效率。对于一个系统程序员来说,一个模型到底只是靠输出样本堆出来的壳,还是背后有真实的架构和工程含量,感受会非常直接。


所以,总结来说,这场争吵最大的分歧在于“蒸馏”的定义。但问题的关键早已超出了技术范畴。真正让antirez发声的,是舆论场中一种根深蒂固的预设——只要是中国团队的进步,就必然来自某种“非正当手段”。这种预设无视了中国实验室在算力受限下做出的架构创新、算法突破和开源贡献,把所有进步都归因于“抄袭”。


参考链接:


https://x.com/antirez/status/2066516853497684342


https://www.interconnects.ai/p/notes-from-inside-chinas-ai-labs


https://huggingface.co/blog/matthew-d-white/ai-in-china

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。