扫码打开虎嗅APP
本文来自微信公众号: Z Finance ,作者:ZF编辑部,原文标题:《深度|Lex Fridman 5 万字播客开年实录: 2000美元 AI 月费背后,藏着最后一张阶层跨越的门票》
DeepSeek时刻
Friedman:接下来的对话将全面探讨人工智能的前沿现状,包括过去一年AI领域激动人心的技术突破与进展,以及对未来一年发展趋势的展望。虽然部分内容涉及深奥的技术细节,但我们将确保在不牺牲深度的前提下,让非专业领域的听众也能理解。本期节目非常荣幸能邀请到AI社区备受推崇的两位专家:Sebastian Raschka和Nathan Lambert。他们既是卓越的机器学习研究员和工程师,也是极具影响力的传播者、教育者、作家及活跃的社交媒体博主。
Sebastian撰写的两本书籍——《从零开始构建大语言模型》与《从零开始构建推理模型》,无论是对初学者还是专家都极具参考价值。在机器学习领域,深刻理解事物的最佳途径莫过于从零开始亲手构建。Nathan目前担任Allen Institute for AI的Post-training负责人,并撰写了关于Reinforcement Learning from Human Feedback(RLHF)的权威著作。二位在Substack等平台均经营着高质量的专栏,Sebastian在YouTube设有课程,Nathan则拥有自己的播客,非常值得关注。
观察当前AI发展的视角之一是所谓的“DeepSeek时刻”。2025年1月,中国公司DeepSeek发布了DeepSeekR1,其以极低的计算成本实现了顶尖的性能水平,令业界震惊。自此以后,AI领域的科研与产品竞争全面加速。首先探讨一个尖锐的问题:谁在这场竞争中占据领先地位?从全球视野来看,是中国企业还是美国企业更胜一筹?Sebastian,你对此有何看法?
Sebastian:“领先”是一个内涵广泛的术语。就“DeepSeek时刻”而言,DeepSeek通过发布开源模型,无疑赢得了开源模型开发群体的支持。竞争的胜负应从不同时间维度审视:短期、明年以及未来十年。在2026年的今天,可以确定没有任何一家公司能垄断某项技术。这主要是因为研究人员在不同实验室和公司之间频繁流动,技术扩散极快。
因此,技术获取层面不会出现单一的赢家。真正的差异化因素将在于预算规模和硬件资源的限制,核心思想很难被私有化垄断,但实现这些思想所需的资源各不相同,目前尚未看到“赢家通吃”的局面出现。
Friedman:你的观点是什么?
Nathan:各家实验室的投入方向各异。明确一下当前的时间节点:目前市场对Anthropic发布的ClaudeOpus4.5模型表现出极高的关注。过去几周我一直在使用该模型进行开发,其热度甚至已趋于一种文化现象。这种热度的演变非常有趣。回顾几个月前,Google发布Gemini3时,其市场营销和初期的震撼力极强,曾被视为Google夺回AI架构优势的关键时刻。然而,随着11月底ClaudeOpus4.5的问世,尽管Gemini3依然是一款我仍在使用的优秀模型,但其产品差异化优势正在缩小,相关讨论度也显著下降。
我同意Sebastian的观点,即创意空间是流动的。但在企业文化层面,Anthropic以重注代码能力著称,目前其ClaudeCode产品表现出色。即便核心创意可以自由流动,但研发效能和组织文化往往会成为瓶颈。Anthropic目前展现出的组织稳定性是一种优势。另一方面,中国的技术实力不容小觑,其拥有的研究实验室远不止DeepSeek一家。DeepSeek在中国引发的浪潮,正如ChatGPT最初在美国引发的聊天机器人热潮一样,目前中国有大量科技公司正在发布极具竞争力的Open-weight前沿模型。
在某种程度上,DeepSeek作为中国顶尖开源模型厂商的地位正面临智谱及其GLM模型、MiniMax以及Kimi的强力挑战,后两者在近几个月的表现尤为亮眼。2025年DeepSeek的出现是一个关键的叙事转折点,它为更多中国公司发布优秀的Open-weight模型提供了平台和契机。如果这种商业模式轨迹持续下去,美国科技公司现有的模式可能会面临风险。不过目前的情况是,美国用户普遍愿意为AI软件付费,而中国及全球其他地区的软件付费意愿历史表现较低。
Friedman:DeepSeek等模型因其Open-weight属性深受用户青睐。中国科技公司还会坚持发布Open-weight模型多久?
Nathan:预计这种趋势还会持续几年,目前在美国,这类模型尚无清晰的商业模式。我长期关注开源模型研究,一些中国公司已经意识到,由于安全考量,许多美国及其他地区的IT企业不会订阅中国公司的API。
这些公司通过发布Open-weight模型,可以有效渗透并参与到美国快速增长的AI消费市场。这是一个非常务实且有效的策略,此外,政府也可能意识到这有助于提升国际影响力,从而提供政策激励以维持这一态势。尽管模型研发耗资巨大,未来可能会出现行业整合,但在2026年,预计Open-weight模型开发者的数量将超过2025年,其中许多优秀的参与者都来自中国。
Friedman:Sebastian,你有什么补充吗?
Sebastian:关于你提到的DeepSeek可能失去领先地位,我们必须考虑到,目前它仍保持微弱领先。其他公司的进步并非因为DeepSeek停滞不前,而是它们借鉴了DeepSeek的核心思路。例如Kimi采用了类似的架构进行训练,这种“跳跃式发展”会导致在特定时间点,拥有最新模型的公司表现更佳。这再次印证了目前不存在绝对的赢家,竞争呈现出动态更替的特点:一方发布新技术,另一方随即跟进并迭代。通常情况下,最新的模型往往就是性能最强的模型。
Nathan:各家企业的驱动力截然不同,DeepSeek极其神秘,而像MiniMax或ZhipuAI这样的初创公司,甚至已经提交了IPO申请。这些公司正致力于赢取西方市场的认可,并开展了大量推广工作。由于DeepSeek是由对冲基金(幻方量化)背景创立的,目前尚不明确这些市场动机是否会改变其模型开发的思路。我们并不完全清楚他们使用这些模型的具体用途,也不确定他们是否在意这些外部因素。
Friedman:DeepSeek在沟通上确实很保守,其技术报告对模型原理的描述并不透明。但在Open-weight方面,他们依然保持着开放。谈到ClaudeOpus4.5的热度,我们必须区分:一部分热度仅限于社交媒体X的信息茧房,而另一部分则来自真实的活跃用户群。ChatGPT和Gemini显然更侧重于服务那些只想解决日常生活问题的庞大用户基础。因此,编程领域的热度可能无法完全代表实际的大规模应用情况。
Sebastian:用户的使用习惯具有惯性,正如你所言,品牌认可度至关重要。ChatGPT问世已久,用户已经形成了“肌肉记忆”,其推广模式如同飞轮般自我驱动。LLM的个性化定制也是一个关键点,例如ChatGPT的记忆功能。用户可能订购个人版处理私事,但由于工作与生活的界限,在职业场景下可能无法直接沿用。
企业可能会限制员工在工作中使用个人账户。这就引出了一个有趣的现象:用户可能会同时拥有多个订阅。例如,一个订阅专门用于处理纯粹的代码任务,不涉及个人图像或兴趣爱好,完全服务于工作;而另一个则用于个人生活。未来,这种多场景、多订阅的使用模式将成为主流。
模型的现在与未来
Friedman:哪个模型赢得了2025年,而谁又将问鼎2026年?
Nathan:在消费级聊天机器人的语境下,这本质上是关于“你是否愿意押注Gemini能超越ChatGPT”的问题。直觉告诉我,这是一场极具风险的赌局,因为OpenAI拥有极强的先发优势。尽管2025年的发展势头更倾向于Gemini,但考虑到Google是从较低的起点出发的。值得赞赏的是,Google能够在组织架构调整的混乱中成功推进该项目。
然而,看空OpenAI并非易事。尽管其内部运营常显混乱,但他们在产品交付方面表现卓越。个人对GPT-5的评价褒贬不一,但它确实通过核心的Router(路由)功能为公司节省了大量成本,使得大多数用户不再过度消耗其GPU资源。因此,很难将我个人喜好的模型功能与真正面向大众市场的产品完全剥离。
Friedman:关于2026年,谁会胜出?
Nathan:尽管风险很高,我仍预测Gemini会继续拉近与ChatGPT的差距。当两家公司都在极大规模的体量下运作时,Google的规模优势将得以体现,他们更有能力将研究与产品线进行有效分离。外界常听闻OpenAI内部运营混乱,且带有浓厚的追逐高影响力目标的初创公司文化。而在软件和企业端,Anthropic已经多次证明了其成功的潜力。当然,GoogleCloud拥有丰富的产品线,建立Gemini的品牌影响力对其至关重要。随着GoogleCloud业务的持续推进,其在生态系统中的角色将变得愈发复杂,因为它更多是在基础设施层面与Azure和AWS竞争,而非单纯的模型提供方。
Friedman:所以在基础设施层面,GPU资源能提供核心优势吗?
Nathan:很大程度上是的。NVIDIA芯片的利润率极高,而Google具备从底层硬件到顶尖软件栈的全栈开发能力,无需支付这部分高额利润,且在数据中心建设上拥有先发优势。鉴于硬件采购周期长且成本利润极高,Google在基础设施层面拥有深厚的历史优势。即便会出现新的范式,那也更有可能来自OpenAI。他们的研究部门屡次证明了将全新研究构想转化为实际产品的能力,例如DeepResearch、Samara以及o1推理模型。这些定义行业方向的成果大都出自OpenAI,这也是其作为组织的核心竞争力。因此,很难低估OpenAI。预计今年的重点将围绕“规模化”以及优化模型中那些易于改进的“低垂果实”。
Friedman:显然,智能水平与响应速度之间存在权衡。这正是GPT-5试图在后台解决的问题。普通大众究竟更看重极致的智能,还是更看重响应速度?
Sebastian:这种多样性很有必要,或者说应该提供切换选项。以我个人的使用体验为例,大多数情况下我只想快速查询信息,这时我会使用ChatGPT快速提问并获取结果。对于大多数日常任务,现在的自动模式表现良好,用户无需手动指定是否开启思考模型。但有时我确实需要专业模式。比如当我有写好的内容需要深度核查时,我会要求ChatGPT进行全面检查:参考文献是否准确?逻辑是否严密?是否存在格式错误或图表编号错误?这类任务我并不追求即时反馈,我可以先去处理其他事情,晚饭后再回来查看结果。这种选项至关重要,如果每一个查询都要被迫等待10到30分钟,那将令人难以忍受。
Nathan:听到你还在使用Router模式和非思考模型,我感到非常惊讶。我的反应是,你怎么受得了?我已经重度使用ChatGPT很长时间了,甚至从未碰过GPT-5的非思考版本。非思考模型的语气及其产生错误的倾向是硬伤。其错误率明显更高。这种转变源于OpenAI发布O3模型时,那是第一个能进行深度搜索、寻找多方来源并完成集成的模型。自那以后我就养成了习惯。现在无论是处理工作还是查询信息,我只使用GPT5.2Thinking或Pro模式。比如在查阅论文或代码引用时,我会同时开启五个Pro查询,每个查询分别针对特定的论文反馈或公式推导。
Sebastian:我有一个有趣的例子,说明了有时确实需要极致的响应速度。在参加这次播客录制前,我正准备出门,家里的一台本地GPU正在运行一个长期的RL实验。通常出门前我会拔掉不用的电器插头以防万一。结果我误拔了GPU的电源。当时我妻子已经在车里等我了,情况非常紧急。我当时需要尽快写一个Bash脚本来重新运行不同的实验和评估任务。虽然我熟悉Bash接口和终端操作,但我当时没时间思考,我只需要系统在10秒内给我正确的命令。
Friedman:这场景确实很有趣,那你最后用了什么?
Sebastian:我用了响应最快的非思考模型,它立刻给出了串联不同脚本的Bash命令,包括将输出重定向到日志文件的指令。在那种匆忙的情况下,这帮了大忙。虽然我本可以自己想出来,但当时真的没时间。
Friedman:在车里等着、必须马上出发、还得插回GPU电源并生成脚本——这听起来像电影情节,真希望当时有录像。
Nathan:对于快速查询,我会选择使用Gemini。我会将Thinking模型用于处理所有信息类任务,而将Gemini用于处理那些有时也可以通过Google搜索到的快速、简单的事务。Gemini在解释事物方面表现出色,其知识库背景深厚,且Gemini应用最近的体验显著提升,非常适合这类场景。
至于代码编写或任何形式的哲学讨论,我会使用ClaudeOpus4.5,并且始终开启ExtendedThinking。事实上,ExtendedThinking和Inference-timeScaling只是让模型变得更加聪明的一种方式。这些前沿功能的进展至关重要,因为你永远不知道它们会解锁哪些新的使用案例。
此外,有时我会使用Grok获取实时信息,或者在AITwitter上发现有趣的内容时,用它进行深入挖掘。值得一提的是,Grok4发布后,其Pro变体版本表现极其出色,给我留下了深刻印象。尽管如此,由于长期使用ChatGPT形成的习惯,我经常会下意识地打开ChatGPT应用。总而言之,我会根据需求切换使用多种不同的工具。
Friedman:我也确实会使用Grok4的Heavy模式进行调试,特别是那些其他模型无法解决的高难度Debug任务,它是目前表现最好的工具。不过,你说ChatGPT是最好的界面,这很有趣。对我而言,Gemini才是更好的界面。可能是因为我非常认可它在“大海捞针”(NeedleinaHaystack)测试中的表现。如果我需要寻找非常具体的信息,并确保模型能够完整追踪上下文中的所有细节,Gemini始终是我的首选。
有趣的是,如果某个模型在某一天的特定查询或提示中赢得了用户的青睐,用户就会觉得这个模型更好,并会坚持使用一段时间,直到它再次做出某些愚蠢的反应为止。这就像一种“阈值效应”:当模型展现出某种智慧,你会爱上它;但当它表现不佳时,你又会立刻转向Claude或ChatGPT。
Sebastian:这种使用习惯就像使用其他任何工具一样——在它出问题之前你会一直使用它,直到遇到瓶颈才考虑更换LLM。这与我们选择文本编辑器、操作系统或浏览器的逻辑一致。虽然市面上有很多浏览器选项,如Safari、Firefox和Chrome,它们功能相对接近,但只有在需要特定扩展程序或遇到兼容性问题时,用户才会选择切换。通常不会有人为了测试同一个网站,特意在不同浏览器中输入相同内容进行对比,除非网页无法渲染或加载失败。因此,用户往往会沿用现有工具,直到它无法满足需求才会去探索其他选项。
Nathan:关于“长文本上下文”功能,我此前一直是Gemini的忠实用户。但GPT5.2发布博文中的长文本测试得分令人惊叹,许多人都在猜测这是否源于某种算法层面的重大突破。在一次小版本更新中,其性能表现从30%飞跃到了70%左右。目前技术迭代极快,追踪所有进展变得非常困难,但我现在确实对GPT5.2的长文本能力持更积极的态度。然而,如何真正有效地测试这些功能,依然是一场无止境的博弈。
Friedman:耐人寻味的是,我们都没有从用户使用体验的角度讨论中国模型。这说明了什么?
Sebastian:这反映了目前模型性能与平台化建设之间的差距。目前开源模型更多是以其技术参数和开放性闻名,而在用户交互平台和生态建设上,尚未形成像西方主流模型那样的全球影响力。
Nathan:此外,许多公司提供低成本的开源模型推理服务。例如通过OpenRouter,可以方便地进行多模型调度,也可以在PerpFridmanity上运行DeepSeek。我们目前都在持续使用OpenAIGPT-5Pro。用户普遍愿意为那一点边际上的智能提升付出的额外成本。目前看来,美国公司的模型在输出质量上确实更胜一筹。
核心问题在于,这些模型是否能在未来几年保持领先地位。只要其性能占优,我就愿意付费。有分析指出,由于出口管制等因素,中国模型的部署方式可能不同,例如在Replica上使用的GPU较少,导致响应较慢且错误类型不同。对于美国用户而言,速度与智能的平衡是决定性因素。这可能会促使中国公司在其他维度展开竞争,比如提供免费服务、大幅降低成本或通过差异化产品激发生态系统创造力。但归根结底,目前美国模型表现更优,因此我们选择使用它们。虽然尝试其他开源模型很有趣,但我通常不会将其作为主力。
Friedman:我们之前未提及编程这一核心应用场景。我目前交替使用Cursor和ClaudeCode,因为两者的交互体验截然不同,且各有千秋。你们二位都有大量的编程需求,目前倾向于使用什么工具?
Sebastian:我目前使用VSCode的Codex插件。它以插件形式存在,提供能访问代码库的聊天界面,非常便捷。相比之下,ClaudeCode似乎更具智能体特性。它能介入更多环节,甚至为用户完成整个项目。目前我尚未完全接受这种模式,或许是因为我有较强的控制欲,仍希望了解底层细节。因此,Codex目前对我而言是一个完美的平衡点——它能提供辅助,但不会成为完全替代品。
Friedman:我必须提到,我使用ClaudeCode的原因之一是为了培养“用英语编程”的技能。这种体验与在Cursor中管理代码生成细节、查看Diff并进行手动调整完全不同。相比于微观管理,ClaudeCode能让你在宏观层面进行设计与引导,在项目推进过程中深度理解代码。这提供了一种全新的编程思维。此外,ClaudeCode似乎更好地发挥了ClaudeOpus4.5的潜力,非常适合与其他工具并排使用。
Nathan:你可以同时开启ClaudeCode、Cursor和VSCode,并在这些工具中选择相同的模型进行提问。这种对比非常有趣,ClaudeCode在该领域的表现确实出类拔萃,令人惊叹。
Friedman:二位在研究、编程、教育以及写作等多个领域都极具实力。Nathan,希望你的RLHF专著能尽快面世。
Nathan:该书目前已开启预售,并提供完整的数字化预印本。我正在对其物理版本进行排版优化。在生活高度数字化的今天,亲手创造出色的实体作品是一件非常有成就感的事情。
Friedman:Sebastian是知名的机器学习研究员,也是多本影响力著作的作者。我再次强烈推荐他的《从零开始构建大语言模型》以及新书《从零开始构建推理模型》,从零开始构建系统确实是最强有力的学习方式之一。
Sebastian:亲手构建LLM的过程极具乐趣且收获颇丰。正如你所言,这是理解事物运行逻辑的最佳方式。书中的图表可能存在疏漏,概念解释也可能被误读,但代码不会。如果代码能够成功运行,就证明它是精确无误的。这就是编程的魅力所在——它从不撒谎,其本质是数学。即便书中存在难以察觉的错误,由于阅读时无法实时运行其中的数学逻辑,读者很难发现;但代码的正确性是可以即时验证的。
Friedman:我非常认同《从零开始构建大语言模型》这本书的价值。屏蔽外界干扰,沉浸在书本中是一种极佳的体验。我读过几本历史书,这种深度阅读的过程让内心感到宁静。在编程方面,利用LLM进行开发确实更有乐趣。同理,配合LLM阅读也是如此。虽然应该尽量减少分心,但使用LLM可以丰富阅读体验,提供更多背景信息。对我而言,这种方式能显著提高产生灵感的频率。
Sebastian:完全同意。我想澄清的是,我并非建议不使用LLM。我个人的习惯是分阶段进行:第一遍采用离线专注模式;之后再利用LLM进行第二遍深入研读并做笔记。我会有意识地克制立即查阅信息的冲动,通过第二遍复读来建立更严谨的知识结构。有时书中的后续章节会解答之前的疑问,有时则需要时间去沉淀思考。虽然每个人的偏好不同,但我建议在阅读书籍时,将使用LLM作为第二阶段的辅助工具,而不是首选。
Friedman:我的建议恰恰相反。我倾向于在阅读初期就使用LLM来构建完整的背景脉络,以此了解即将进入的知识领域。我会尽力避免从LLM切换到社交媒体或博客,因为那样会陷入信息碎片化的陷阱。你会不自觉地被他人的观点或某个话题的争论所吸引,从而脱离纯粹的知识领域,坠入互联网的琐碎纷争中。如果单纯让LLM提供核心背景和宏观构思,阅读效率会更高。尽管有些书籍本身在宏观引导方面做得很好,但并非所有书都能做到这一点。
Nathan:这就是我喜欢ChatGPT应用的原因,它在电脑中为AI提供了一个专属空间,让你能专注于此,而不是将其淹没在浏览器无数乱七八糟的标签页中。ClaudeCode的产品设计非常出色,它极具互动性,作为一个界面,它能引导AI真正介入并处理现实世界的任务,这种体验非常愉悦。它与Codex之间存在一种难以言喻的差异:ClaudeCode给人感觉更加亲切且富有吸引力,而由OpenAI提供的Codex虽同样强大,但在交互细节上显得略微生硬。ClaudeCode让从零开始构建项目变得充满趣味,用户无需过度关注琐碎细节,只需信任系统能够完成任务。例如在构建网站或进行数据分析等刷新工具链的工作中,它的表现非常优秀。我的博客会抓取HuggingFace的数据,长期追踪每个数据集和模型的下载量。
以前这些数据处理可能要耗费我几天时间,但现在Claude能轻松搞定。这让我拥有足够的全局感知能力去确认趋势是否合理并核查细节。这种优秀的界面充当了中介,让开发者无需再处理那些维护不同Web项目时枯燥乏味的底层工作。
开源模型
Friedman:好。刚才我们讨论了许多Closed-weight模型,现在来谈谈开源领域。在当前的开源LLM景观中,哪些模型最令你感兴趣?哪些脱颖而出,原因又是什么?我们已经提到了DeepSeek。
Nathan:你想看看我们在不看笔记的情况下,随口能说出多少个名字吗?DeepSeek、Kimi、Minimax、ZhipuAI。这些都是目前表现强劲的中国模型。
Sebastian:还要加上MistralAI、Gemma,以及ChatGPT的开源版本GPT-OSS。实际上NVIDIA也有一个非常酷的模型NEMOTRON3。尤其在去年年底,涌现了大量优秀模型,比如Qwen。
Nathan:是的,Qwen确实是一个显而易见的名字。我刚才正试图列举出至少10个中国模型和10个西方模型。OpenAI发布了自GPT-2以来第一个Open-weight模型。当我在撰写关于OpenAI开源模型发布的文章时,人们纷纷感叹时光荏苒,因为GPT-2仿佛已是另一个时代的产物。但事实上,GPT-OSS是一款非常强劲的模型,并在某些领域展现出了其他模型所不具备的优势。
从我个人的职业角度出发,我也会推广一些西方公司的成果。在美国和欧洲,都有许多完全开源的模型。我目前任职于Allen Institute for AI,我们一直在构建Olmo。该项目不仅发布模型,还开放了训练数据和代码。现在,业界在发布完整训练资源方面已形成了良性竞争,以便让更多人能够参与这些模型的训练。
此外,还有Institute for Foundation Models(又名LLM360),他们发布了K2系列模型。Apertis是一家瑞士研究财团,而HuggingFace推出的SmallLLM也非常受欢迎。NVIDIA的Nemotron系列也开始发布相关数据。同时,斯坦福大学的Marin社区项目正在构建一套流程,让人们能通过提交GitHubIssue来实现新想法,并在稳定的语言模型协议栈中运行。相比2024年,现在的名单已经大幅扩充。
此前,该领域似乎只有AI2一家在坚持。现在更多人的加入有助于深入理解大语言模型。值得注意的是,中国的开源语言模型规模往往更大,这赋予了它们更高的峰值性能,尤其是采用Mixture-of-Experts(MoE)架构的模型,其表现非常出色。相比之下,来自美国和欧洲的Gemma或Nemotron等模型此前倾向于较小规模,但这一现状正随着MistralLarge3的发布而改变——该模型是一款巨大的MoE模型,架构与12月发布的DeepSeek非常相似。初创公司RCAI与Nemotron也都预告了参数量远超1000亿的MoE模型,甚至在2026年第一季度会出现4000亿参数级别的模型。今年用户在选择中国模型与美国开源模型之间的平衡点将会发生改变,我个人对此非常期待。
Friedman:首先,非常佩服你能脱口而出这么多名字。不过,你刚才是不是漏掉了Llama?我们谈到了Llama,它在2024年和2025年无疑是开源界的顶梁柱。Meta通过持续发布各参数规模的高质量模型,确立了西方开源的标准。
Nathan:确实,即便在2026年,Llama依然是许多开发者和初创公司的默认起点。Meta的资源优势让他们能够提供极其完善的文档和生态系统支持,这是许多其他实验室难以企及的。不过,随着模型规模不断突破,单靠这一系列模型已不足以覆盖所有垂直需求。
Sebastian:没错。在专业化和效率优化方面,我们看到更多专注于特定任务的开源模型。例如,有些模型专门针对数学推理进行了长达数月的持续训练,或者是在特定语言的代码库上表现优异。这种多样性让开发者可以根据具体的GPU预算和推理时延要求,选择最合适的工具。
Friedman:这其实引出了一个重要的话题——推理成本与效能。DeepSeek之所以被称为“时刻”,是因为它证明了极致的架构优化可以显著降低模型运行的边际成本。这种“平民化”的高端智能对2026年的AI普及至关重要。
Nathan:完全同意。如果顶尖智能只能由少数几家巨头垄断,那么创新的速度会大打折扣。正是因为这些开源模型的存在,迫使闭源模型厂商不断突破边界,同时也将AI的使用门槛推向了前所未有的低位。
Sebastian:展望未来几个月,我更期待看到这些模型如何在本地端侧设备(EdgeDevices)上运行。随着量化技术和NPU硬件的进化,在手机或笔记本电脑上运行百亿参数级别的模型将不再是难事。这种隐私与性能的平衡,将是下一阶段竞争的焦点。
对于用户来说,有些人只是在本地使用模型,就像使用ChatGPT那样。但对于公司而言,拥有这些模型是一个巨大的突破,因为你可以对其进行定制。你可以对它们进行训练,增加后训练(post-training),添加更多数据,使它们专业化。比如转化为法律、医疗模型等任何你需要的方向。你刚才提到了LLaMA。中国开源权重模型的吸引力在于其许可协议甚至更加友好。它们基本上是不受限制的开源许可,而如果你使用像LLaMA或Gemma这样的模型,通常会附带一些附加条件。
这就像是用户数量上的一个上限。如果你超过了,比如,几百万用户,你就必须向Meta之类的公司报告你的财务状况。虽然它是一个免费模型,但它是带有附加条件的,而人们更喜欢没有束缚的东西。所以这也是为什么除了性能之外,中国的开源权重模型如此受欢迎的原因,因为你可以直接使用,没有任何隐性限制。
Nathan:在这方面,生态系统已经有所改善,但这主要归功于下游的新供应商提供了此类开放许可。有意思的是,当你提到PerpFridmanity时,它显示K2 Thinking托管在美国,这正是一个确切的例子——我以前从未见过这种情况,但这恰恰说明了人们对此类问题的敏感性。Kimi K2 Thinking和Kimi K2是一款非常受欢迎的模型。人们评价说它在创意写作和处理一些软件任务方面表现非常出色。人们在不同的模型中总能发现一些他们喜欢的独特特质。
Fridman:在这些模型探索出的有趣想法中,有哪些是你觉得特别有意思并想聊聊的吗?
Sebastian:也许我们可以按时间顺序来梳理。如果只看2025年,当然有1月份发布的DeepSeekR1。不过,它是基于2024年12月发布的DeepSeekV3构建的。在架构方面有很多看点。令人着迷的是,你仍然可以——我是说,这是我在从零开始的编码项目中所做的——你仍然可以从GPT-2开始,通过添加组件将其演化成这种新型模型。所以它们在血统上是一脉相承的,有着非常紧密的联系。
随口举几个DeepSeek的例子,其独特之处在于混合专家模型。当然,他们并不是MoE的发明者,我们可以稍后再详细讨论MoE的含义。但在深入细节之前,我先列出这些特性:混合专家模型,以及多头潜变量注意力,这是对注意力机制的一种改进。
在2025年,这些开源权重模型的主要区别在于通过各种微调来优化推理或缩减KV缓存的大小。我们稍后也可以定义一下什么是KV缓存。其目的是为了更经济地处理长文本,从而缩小KV缓存。那么我们能做哪些改进?大多数改进都集中在注意力机制上。DeepSeek使用了多头潜变量注意力。此外还有分组查询注意力,目前仍非常流行。它不是由这些模型发明的,可以追溯到几年前,但它是另一种选择。我记得滑动窗口注意力也几乎被重新启用了。正是这些不同的细微改进让模型变得与众不同。我曾在一篇文章中将它们放在一起进行过对比。
令人惊讶的是,它们非常相似。区别仅仅在于中间层Transformer块的重复次数不同,或者是人们微调的一些小参数。但最棒的一点是,无论怎么改,它都能运行。你可以调整归一化层的位置,从而获得一些性能提升。在消融研究中,我通常能很好地展示移动某个组件对模型的影响——有时移动位置并不会让模型变好或变坏。
实现Transformer并让其保持运行的方法实在太多了。目前依然盛行的大思路包括:混合专家模型、多头潜变量注意力、滑动窗口注意力和分组查询注意力。到2025年底,我们看到研究重点转向了让注意力机制在推理过程中的Token预测上实现线性扩展。例如Qwen3Next,它加入了门控Delta网络。这有点像受状态空间模型(SSM)启发的做法,即拥有一个需要不断更新的固定状态。但它本质上让这种注意力机制变得更廉价,或者说用一种开销更小的操作取代了原有的注意力机制。
Fridman:退一步说,聊聊通用的Transformer架构或许也很有用。
Sebastian:也许我们应该从GPT-2的架构开始谈起。Transformer源于《Attention Is All You Need》这篇论文。在那篇论文中,Transformer架构由两部分组成:编码器和解码器。而GPT则专注于解码器部分。它本质上仍然是一个神经网络,内部集成了这种注意力机制。你每次预测一个Token,将其传递给一个嵌入层。Transformer块由注意力模块和一个全连接层组成,中间还穿插着一些归一化层。本质上,这就是带有注意力机制的神经网络层。
从GPT-2演进到GPT-OSS时,出现了诸如混合专家模型层之类的改动。MoE并不是由GPT-OSS发明的,它已经出现了几年,但本质上是一种优化手段。今天,我们要讨论的是如何在不增加每次前向传播计算开销的情况下,把模型做大。Transformer内部有一个全连接层。如果听众熟悉多层感知器,你可以把它想象成Transformer内部的一个小型多层感知器或全连接神经网络层。由于它是全连接的,所以开销非常昂贵。
如果你有1,000个输入和1,000个输出,那就是100万个连接。这是Transformer中非常耗费资源的部分。为了将其扩展到多个前馈网络,我们不再只使用一个——假设你现在有256个这样的网络,如果同时运行它们,开销会变得极其恐怖。但你并不会同时使用所有的网络。现在你拥有一个“路由器”,它会根据输入的Token决定:在这个语境下,调用哪一个全连接网络会比较有用。在这里,这个网络就被称为一个“专家”。所以,“混合专家模型”意味着你拥有多个专家。
根据你的输入内容,比如它偏向数学计算,模型就会调用与翻译不同的专家。它可能会咨询不同的专家。虽然分工并不总是那么界限分明——比如哪个专家负责数学很明确,但负责西班牙语的专家可能就模糊一些——但核心思想是,你在网络中封存了更多的知识,但并不是所有的知识在每一时刻都会被调用。那样做会非常浪费。所以在生成Token的过程中,你会更加具有选择性。模型中有一个“路由器”,它会选择哪些Token应该进入哪个专家模型。这增加了模型的复杂性,训练起来也更困难。
这里面有很多可能出错的地方,比如“专家崩溃”之类的问题。我想这就是为什么Olmo3仍然使用稠密(Dense)架构的原因。我是说,Olmo模型既有混合专家版,也有稠密版。“稠密”也是一个术语。这里需要区分“稠密”和“稀疏”。混合专家模型被认为是稀疏的,因为虽然我们有很多专家,但每次只有少数几个处于激活状态。这就是所谓的稀疏。而稠密则恰恰相反,你只有一个完全连接的模块,并且它始终被完整调用。
Fridman:那么,或许现在也是谈论KV缓存的好时机。不过在此之前,先放大视角来看,从GPT-2到今天,底层架构到底实现了多少新想法?这些架构之间的差异到底有多大?
Sebastian:可以想象一下混合专家模型。GPT-OSS中的注意力机制,采用了分组查询注意力机制。所以这只是对多头注意力机制的一个微调。这是其一。他们还将层归一化替换成了RMSNorm,但这只是另一种不同的归一化层。算不上巨大的改变,更像是一种微调。至于非线性激活函数——熟悉深度神经网络的人都知道——这就好比把Sigmoid换成了ReLU。它并没有从根本上改变网络,只是一种微调。所以,它们在根本上并没有那么大的不同,依然是相同的架构。你基本上可以通过添加这些改动,把一个模型转换成另一个模型。
Fridman:从根本上说,它们仍然是同一种架构。
Sebastian:是的。例如,你之前提到过我的书,书里用的是GPT-2模型,因为它简单且体量很小,大约只有1.2亿个参数。但在补充材料中,我有近三个“从零开始”的项目。包括从零开始构建Gemma3以及其他类型的模型。我总是从我的GPT-2模型开始,通过微调或添加不同的组件,就能演化成另一种模型。从某种意义上说,这就像是一个演化谱系。
Fridman:您能为大众建立一个直观的理解吗?因为从宏观角度来看,AI领域正处于飞速发展之中;但与此同时,从底层逻辑来看,模型架构其实并没有发生根本性的改变。那么,这种剧烈变革和演进究竟发生在什么地方?主要的增长点又在哪里?
Sebastian:开发或训练神经网络包含多个不同的阶段。首先是预训练。在过去,例如GPT-2时期,重点几乎全部在于预训练。而现在,流程已经演变为预训练、中期训练以及后训练。目前的重点正处于以“后训练”为核心的阶段。诚然,如果通过更大规模、更高质量的数据进行扩展,预训练依然能带来优势。但我们现在拥有了GPT-2时期所不具备的能力解锁。例如,ChatGPT本质上是一个GPT-3模型,而GPT-3在架构上与GPT-2是相同的。真正的新变量在于引入了监督微调以及基于人类反馈的强化学习。因此,进步更多体现在算法层面,而非架构本身。
Nathan:我还想补充一点,系统层面也发生了巨大的变化。如果你关注NVIDIA的发布会,你会听到他们谈论诸如FP8甚至FP4精度这类技术。目前的情况是,这些实验室正在探索如何将更强大的算力集成到单个模型中,从而实现更快的训练速度并喂入更多的数据。通过这种方式,你可以更迅速地找到更优的模型配置。当你进行大规模训练时,一个关键指标就是“单显卡每秒处理的token数”。比如,仅通过开启FP4训练,你就能将这一数值从10K提升到13K。这意味着模型中每个参数占用的内存更少了。由于存储的信息量变小,通信开销也随之降低,训练速度自然就提上去了。
所以,所有这些系统层面的优化,支撑了数据和算法层面上更快速的迭代试验,这形成了一个不断循环的闭环。这也就是为什么从模型架构上看它们似乎一模一样,但用于训练这些模型的代码库却早已天差地别,这一点很难直观地描述出来。虽然GPU本身在进化,但即便抛开这点不谈,现在训练一个像GPT-OSS20B规模的模型,其实际耗费的时间也要比当年训练GPT-2时快得多。
Sebastian:正如你所提到的,例如在混合专家模型中,我们采用了FP4优化。这显著提升了吞吐量,确实在速度上带来了飞跃。但从某种意义上说,这并不会赋予模型全新的能力。这更多是关于我们能在多大程度上“粗略化”计算,而不至于导致模型性能严重下降。不过,我确实看到了一些可以替代Transformer的方案正在崭露头角。
目前出现了文本扩散模型,这是一个完全不同的范式。这类模型可能仍会使用Transformer架构,但它们不再是自回归式的Transformer。此外还有Mamba模型,它属于状态空间模型,虽然它们也存在一些权衡和取舍。但客观事实是,目前还没有任何架构能真正取代“自回归Transformer”在SOTA模型中的地位。如果你追求极致的性能,依然会选择它;只是现在出现了一些成本更低的替代方案。在这些替代方案中,我们做出了一些妥协。虽然架构不再是单一的天下,各种小众架构正在涌现,但谈到最顶尖的模型,本质上依然是源自GPT-2的那种自回归Transformer架构。
Fridman:我想这里的大问题在于,我们已经深入讨论了预训练背后的架构。那么,扩展定律在预训练、后训练、推理、上下文长度、数据以及合成数据(syntheticdata)等方面,是否依然稳健地发挥着作用?
Nathan:我倾向于先从扩展定律的工程定义开始,这能为我们理解现状提供背景。扩展定律本质上是一种幂律关系。你可以这样理解:在X轴上,你缩放的是算力与数据的组合(这两者某种程度上是类似的);而Y轴则是模型对预测下一个token的准确率。我们之前提到过,目前的主流模型都是自回归模型。简单来说,如果你给模型喂一段它从未见过的文本,它在训练后的预测准确度有多高?人们发现,扩展定律揭示了一种极具可预测性的关联。
这一工程术语在2026年依然适用,但现在的问题是:用户能从中得到什么?目前出现了更多维度的扩展方式。例如,OpenAI的O1系列模型因引入了“推理时间扩展”而闻名。此外,还有一个不那么广为人知、但同样重要的突破:强化学习训练的扩展。你会发现,如果在强化学习阶段增加投入,性能在Y轴上会随着X轴(强化学习投入)的对数增长而呈现线性提升。
所以,现在的扩展定律主要分布在三个轴上:首先是传统的预训练扩展,即模型有多大,数据集有多大。其次是强化学习扩展,这是我们稍后会详细讨论的“试错学习”,我们之后会对此进行更精确的定义。最后是推理时间算力,即让模型在解决特定问题时生成更多的中间token。
我对这种模式非常看好,因为这三个轴目前依然有效。虽然那些“低垂的果实”大多已被摘完,但尤其是在过去一年中,我在带验证奖励的强化学习(RLVR)领域做了很多工作。RLVR结合了推理时间扩展,这正是为什么这些新模型(如O1或DeepSeek-R1)用起来感觉截然不同的原因。过去,模型会立即给出第一个token;而现在,它们会先消失几秒、几分钟甚至更久,在给出最终答案之前,先在后台生成这些隐藏的思维链。
Nathan:这就是推理时间扩展的全部意义。从模型能力演进的角度来看,这是一种美妙的阶梯式增长(step function)。它解锁了我们之前讨论过的工具使用(tool-use)以及更强大的软件工程能力。这种进步几乎完全归功于带验证奖励的强化学习训练,它让模型能够非常轻松地掌握这些技能。如果观察模型的推理过程,你会发现当模型生成大量token时,它实际上是在不断尝试:它尝试调用一个工具,观察返回结果,接着尝试另一个API,评估返回信息并判断是否解决了问题。
在训练过程中,模型能非常迅速地学会这种操作。最终,这为模型提供了一个通用的基础,使其能够非常出色地在你的代码库中使用CLI命令、处理Git操作、移动文件、组织目录或搜索更多信息。如果一年前我们坐在这里,可能很难想象模型能做到这些。但这一切就在今年发生了,并彻底改变了我们对AI用法的认知。这种进化非常神奇,释放了巨大的价值。虽然目前还不清楚下一个类似的突破点在哪里,但我们最终会走向持续学习。尽管AI的某些领域目前热度很高,但没人能确切预知下一个这种阶梯式的跨越何时到来。
训练阶段演进:从"堆数据"到"精准投喂"
Fridman:你刚才分享了很多深刻的观点。我想稍微拆解一下,你提到你对各种形式的扩展(scaling)都持乐观态度。我们刚才只聊到了预训练的开端,这是否意味着预训练层面的扩展已经摘完了所有低垂的果实?预训练的扩展是已经进入了平台期,还是说你对它依然抱有信心?
Nathan:预训练已经变得极其昂贵。而且当你尝试扩展预训练规模时,这其实也意味着你将来需要向用户提供一个体积巨大的模型。目前业界已形成一种模糊的共识,即像GPT-4这种级别的模型,其最大参数量大约在1万亿左右。不过,也有很多传闻说,随着训练效率的提升,模型实际上正在变小。你肯定希望模型能更小一些,因为这样推理服务的成本就会按比例下降。对于这些模型来说,训练成本相对于服务数亿用户的推理成本而言,其实是很低的。比如DeepSeek有一个很著名的案例,其预训练成本按云端市场价计算大约只需500万美元。我们在Olmo3论文的2.4节中详细记录了GPU集群用于训练的时长,这其中包括了工程问题和多次尝试等因素。租用集群来处理训练模型中的各种难题大约需要花费200万美元,实际上很多人花费100万到1000万美元就能训练出一个模型。
但服务数百万用户的持续性推理成本,则需要耗费高达数十亿美金的算力。租用一千张GPU每天可能要花费10万美元,而这些公司可能拥有数百万张GPU。你可以看到让这些机器运行起来的成本有多高,所以关键问题在于:如果扩展规模确实能带来更好的模型,那么在经济上它是否值得?
随着AI开始解决更具吸引力的任务,我们会缓慢地推动其边界。比如像Claude Opus4.5这种能写出直接运行的代码的模型,就能让一切变得有意义。我在七月份启动了一个名为“Atom Project”的项目,它类似于美国的完全开源模型。那是一个很有氛围的代码网站,我有自己的工作,负责绘图和杂项事务。
Fridman:所以你谈到的是扩展定律中Y轴的微妙差异,即用户体验到的提升与基准测试中体现的提升,在实际智能表现上可能是不同的。但尽管如此,关于预训练,你直觉上认为如果继续扩大算力规模,模型还会变得更好吗?先不考虑经济上的可行性,单纯从规律的角度来看,模型会变得更聪明吗?
Nathan:是的,会。有时候这听起来可能有些令人幻灭,尤其是当你听到那些AI公司的领导层说,他们正计划将算力规模再提升13个数量级时。但从根本上说,这种提升不太可能停止。最终的情况可能是,由于计算量激增带来的各种挑战,我们甚至无法再对更大规模的扩展进行测试了。
目前有很多讨论都在关注2026年,因为届时非常庞大的Blackwell计算集群、千兆瓦级别的设施以及超大规模云服务商(hyper scalers)都将上线。这些电力和数据中心合同大多是在2022年和2023年签署并启动的,也就是在ChatGPT出现的前后。因此,建设这些更庞大的集群来训练模型,大约需要两到三年的交付周期。虽然显然大家对建设更多数据中心有着巨大的兴趣,但目前的症结在于,人们都在关注这些新集群的到来,这意味着各大实验室将拥有更多的算力用于模型训练。
他们将会利用这一点,但这并非理所当然。我已经看到了巨大的进展,因此我预期,并且确实期待看到更大规模的模型。可以说,我们今年更有可能看到2,000美元的订阅服务。
我们已经见过200美元的订阅服务。这可能会再次增长10倍。这些都是可能出现的情况,它们都源于这种更大规模、能提供更多前沿技术的模型。
Fridman:所以,如你所知,有报道称xAI将在26年初达到1吉瓦规模,并在年底达到满负荷的2吉瓦。在缩放法则(Scaling Laws)的背景下,他们会如何利用这些算力?这很大程度上是用于推理还是用于训练。
Nathan:结果是以上皆有。模型训练过程中的所有决策最终都会回到预训练阶段。如果要在模型上扩展强化学习(RL),仍然需要决定能够支持这一点的架构。
我们正在讨论使用不同注意力机制的其他架构。我们也在讨论混合专家模型(MoE)。MoE模型的这种稀疏特性使得生成效率大幅提高,这已成为后期训练(Post-training)的重要组成部分。你必须准备好相应的架构,以便真正扩展这些计算资源。
大部分计算资源仍然投入在预训练中,因为你依然可以把模型做得更好。你始终希望回顾并优化这一点,始终希望获得尽可能最好的基础模型。在几年内,这将会达到饱和,而强化学习(RL)的计算时长则会持续增加。
Fridman:是否有人不同意你的观点,认为预训练基本上已经过时了?他们认为一切都关乎于扩展推理、扩展后期训练、扩展上下文、持续学习、扩展数据以及合成数据。
Nathan:人们确实有这种倾向并以此方式描述,但这并非正在发生的实际情况。
Fridman:但我听下来,你对推理侧的各种扩展方案以及推理本身都持乐观态度。
Sebastian:这确实是个很复杂的话题。基本上,训练和推理扩展是你获取收益的调节旋钮。在拥有无限计算资源的世界里,你会希望两者兼顾。训练、推理扩展和训练就像一个层级体系,包含预训练、中期训练(mid-training)和后期训练(post-training)。改变模型大小、增加训练数据或训练更大的模型,都能让模型获得更多知识。比方说,你会得到一个更好的基础模型。过去我们叫它“基座模型”(foundation model)。但假设这个模型在预训练期间或预训练之后,还无法解决你最复杂的任务,你仍然可以通过其他解锁阶段,比如中期训练或非上下文(non-context)阶段,例如使用RLVR进行后期训练,来解锁模型在预训练中所掌握的知识能力。
多做预训练能得到更好的基座模型,以便后续解锁,但正如Nathan所说,这变得太昂贵了。我们没有无限的计算资源,所以你必须决定:是花更多资源把模型做大,还是做其他权衡?在理想世界里你会全都要,从这个意义上说,扩展(scaling)依然非常有活力。你确实能得到更好的模型,但正如我们在GPT4.5上看到的,有时候这并不值得。因为在当前阶段,你可以通过其他技术解锁更好的性能,尤其是看推理扩展时。今年O1的出现带来了巨大的收益,它让一个小模型在某些方面比像GPT4.5这样预训练规模更大的模型走得更远。所以,我不会说预训练扩展已经过时了,只是目前有其他更具吸引力的扩展方式。但在某个时刻,你终究还是希望在预训练上取得进展。
你还需要考虑:为什么要花这个钱?如果你把钱花在预训练上,它更像是一种固定成本。你训练好模型,它就永久拥有了这种能力,你可以一直使用。而对于推理扩展,你不需要在训练时花钱,但后续每一条查询(query)都要花钱。然后就是数学计算问题:如果我的模型半年后就要更换,它能在市场上维持多久?也许花500万、1000万甚至1亿美金去训练就不值得了。也许我只会做更多的推理扩展并从中获取性能。这可能在用户查询方面花费我200万美金。这变成了你有多少用户以及算账的问题。
ChatGPT目前的处境也很有趣,他们有很多用户,所以需要走更廉价的路线,比如使用一个稍小一点的GPT-5模型。对于其他有不同权衡的公司,例如处理数学奥赛或某些数学问题时,ChatGPT或OpenAI拥有专有模型。我敢肯定那只是一个经过更多微调的模型,但大部分是依靠推理扩展来在特定任务中达到峰值性能,而你并不需要模型一直处于那种状态。长话短说,预训练、中期训练、后期训练和转录(transcaling)都是你想做的。今年大家只是在寻找那个能带来最高性价比的最优比例。
Fridman:我想现在正是定义预训练、中期训练和后期训练的好时机。
Reschka:预训练(pre-training)就是经典训练方式:用交叉熵损失在海量语料上做“下一个token预测”,语料来自互联网、书籍、论文等。
它这些年有变化:过去更像“能塞就塞”,现在更强调数据质量与配比,不只是原始数据,还会加入合成数据(syntheticdata)。合成数据不一定是AI凭空编造;也包括把现有内容(如文章、维基条目)改写成更结构化的问答、摘要或重写版本,从而让数据更清晰、更精炼。直观地说,结构更好、语法标点更规范的数据,能让模型更快学到正确表达与规律,训练效率更高。
因此规模化仍然有效,不只是数据量在起作用,更在于让数据“更适配训练”的方法在进步。
而mid-training(中训练)通常与预训练算法相同,但更专门化:会针对某些能力做强化,比如长上下文(long context)。之所以不在预训练阶段大量做长上下文,是因为这类长文档本来就不够多,因此会单独设置阶段。
Nathan:另一个现实问题是灾难性遗忘:神经网络学到新东西时,可能会弱化对其他内容的掌握;因此中训练也带有“更选择性地喂高质量内容,让模型最后看到的更像精华”的意味。
Reschka:post-training(后训练)则是各种精炼与对齐:监督微调(SFT)、DPO、带可验证奖励的强化学习(RL)、人类反馈等。成本结构上,预训练非常烧钱;RL相对少一些。RL通常更像“解锁/调动”预训练中已有的知识,偏技能学习与解题策略,而不是再大量灌入新知识。确实有论文讨论用RL做预训练,但更多还是玩具示例,生产环境并不常见。
Nathan:很多人直觉上觉得合成数据不适合训练,但实验室里常见的一类“合成数据”来自OCR/Almost-OCR:网络上有大量PDF与数字文档,很多并非天然可直接抽取文本,于是用Almost-OCR把其中内容提取出来,形成可能达到“数万亿token”的候选预训练数据。预训练数据规模通常以“万亿token”计:研究者小模型可能是5–10万亿;公开资料里Qwen被提到过达到约50万亿;也有传闻称一些闭源实验室能到约100万亿。
实际流程往往是先把潜在数据大量收集进一个“漏斗”,再通过过滤与筛选,把其中很小一部分用于真正训练。
此外,像“用ChatGPT给出的高质量答案作为训练样本”也属于合成数据;关键差别在于质量:高质量、低幻觉的合成数据与早期充满幻觉的合成数据价值完全不同。
Reschka:有人注意到OLMo-3可能用更少的数据训练,却取得更好性能,这常常归因于数据质量更高。
Nathan:更一般地说,如果算力允许,人们往往也希望训练更久;大模型参数更多、容量更大,通常需要更多token才能继续提升,而小模型在token增加到一定程度后更早“趋于饱和”。在某些团队里,当模型规模还没做得特别大时,把数据质量做到最好往往是最自然的起点。
数据战争:质量、来源与法律雷区
Fridman:关于数据质量这件事:有没有一些“低垂的果实”,也就是还能比较容易地继续提升的地方?
Nathan:至于数据质量怎么提升,更多像持续“拧螺丝”:开源世界里“公认最强的预训练数据集”会不断更替,比如AI2的Dolma、HuggingFace的FineWeb、以及DCLM(DataCompLanguageModel)等方向。
与此同时,互联网越来越封闭,可用的CommonCrawl虽巨大,但关键在过滤与裁剪:用分类器与规则把超大数据集修剪成最高质量、且最贴合任务的部分。因为评测目标变了,最优数据配比也会变:过去更看重知识与对话,现在还要求数学与代码能力;要训练推理模型,就必须重混合整个数据集。
常见做法是:从GitHub、StackExchange、Reddit、Wikipedia等不同来源采样,构造多种配比,用小模型快速试训,再用评测结果(甚至简单线性回归)反推出更优的数据混合方案。随着“代码环境、网页导航”等新任务变热,实验室会引入新数据并重做预训练配比,以便让后训练更顺利、更有效。
Fridman:有没有一些有趣的轶事:哪些数据源特别高质量,但我们可能想不到?
Nathan:一些看似意外但很高价值的数据源包括Reddit与大量PDF。
Reschka:尤其科研论文PDF,如arXiv。
Nathan:是的,例如AI2长期运营SemanticScholar,为此收集并处理了大量可公开访问的学术PDF;把这些数据挖掘、清洗、结构化后可以产生显著价值。
这类工作高度依赖熟练研究者与大量工程劳动:找到更好的新数据、把数据做干净,或者把基础设施优化到让实验整体提速,往往比“华丽算法点子”更常构成团队的大部分贡献。
Reschka:同时,训练数据也常是最敏感的商业与法律风险点之一,因此“隐藏或避免泄露训练数据来源”本身也会占据大量精力。
Nathan:另一个趋势是只用“明确授权”的数据训练:CommonCrawl更像全网爬取,许多内容并未明确授权;相对地,有人主张只用清晰许可的数据以满足合规(例如面向欧盟要求)。
Reschka:这在实践中还存在灰区:比如购买了电子书或纸书后是否允许用来训练,仍有争议。随着数据价值被广泛认识,大公司会主动寻求私有数据合作,而很多私营机构会更保护自己的数据,把它视为未来护城河。
进一步看,在制药、法律、金融等行业,企业可能会搭建内部模型、用自家专有数据训练;这会让“规模化”在领域应用上继续有效,因为许多关键数据本来就不对外开放(如临床试验数据)。
Nathan:关于数据这点,有件事大家可能好奇:这在2025年发生过,但我们好像很快就忘了——Anthropic在法庭上输了,被判要向作者支付15亿美元。Anthropic好像买了成千上万本书并扫描它们;因为他们买了书,所以在法律上被认定没问题,这个程序正在推进。另一方面,他们也用BT下载过一些书;法庭似乎认为“盗版下载”这条路径使他们需要承担责任,要向作者支付数十亿美元——这真的是一个让人瞠目结舌的诉讼,仿佛突然出现又很快被大家淡忘了。那可是天文数字,对VC生态来说也是。
Fridman:这些案件会定义人类文明的未来。因为很明显,数据驱动了这一切,而其中又有非常复杂的人类张力。你们俩都是作者,你们能共情。
Nathan&Reschka:是的
Fridman:某种意义上,你把心血、汗水、甚至眼泪都写进作品里;如果有人在未经允许的情况下用你的作品训练模型、不给你任何承认或回报,这确实会让人感觉像被偷走了一样。
Reschka:而且正如Nathan说的,这里还有两层:一种是买了书再训练,这是否公平仍可争论;另一种是直接用盗版书训练——连最起码的补偿都没有。人们更愤怒的,往往就是后者。
Fridman:对,但总要有某种补偿机制。这很像当年音乐走向流媒体(比如Spotify)时发生的转变:补偿应该长什么样?你得定义这种模型,并把一整套规则想清楚。
还有一个大家普遍好奇的问题:随着LLM越来越常用,即便在arXiv、GitHub上,越来越多的数据本身就是LLM生成的。面对这种世界,你怎么办?这会是多大的问题?
Nathan:最大的难题在基础设施和系统层面;但从AI的角度看,这几乎是不可避免的。
Fridman:所以本质上会变成:LLM生成的数据由人类来筛选与校对。
Nathan:是的。而且很多开源贡献者确实正在被严重消耗,如果你有一个很热门的开源仓库,就会有人想:“哦,我也想做开源AI,这对我的职业生涯有好处。”然后他们就开始“vibe coding”(凭感觉写代码),随手写点东西就丢进来——你可能会越来越多遇到这种情况。
Reschka:我有一个叫ml-extend的仓库,是我当学生的时候做的,大概10到15年前吧。它到现在在某些算法上仍算比较受欢迎的库,尤其像频繁模式挖掘(freQwent data mining)这一类。最近大概有两三个人在很短时间内提交了大量PR。我确实觉得这些PR里有LLM参与的痕迹。作为维护者,我有两点感受:第一,我有点被淹没了——我没时间逐行读,因为这毕竟是个老库,对我来说优先级也不高。
但同时我也某种程度上挺感激的。因为人们容易忘记的一点是:不只是“用了LLM”,背后仍然有一个人——有一层人工在做验证。某种意义上,这也很像数据标注的过程。
而最贵的环节之一,就是在RL、尤其人类反馈阶段拿到高质量的标注数据。这里也类似:它会经历一些流程,最后你反而能得到更高质量的东西。所以我并不完全反感。它确实会让人压力很大,但也有它的价值。
Fridman:感觉上,纯LLM生成的数据,和“LLM生成+人在回路(human-in-the-loop)做验证”的数据,有本质差别。哪怕验证只覆盖很小一部分代码行。
Reschka:是的。这放到很多场景都成立:有些人会想“我直接用LLM学XYZ就行了”,这当然可以,但你要意识到:也许有一个专家用LLM写了很具体的代码,然后他又做了大量人工工作——把不够好的部分筛掉、把好的部分整理出来,等于是替你“预消化”(pre-digest)了,这能节省你时间。这就是增值点:有人在过滤信息,或者至少有人在正确使用LLM。很多时候,这些劳动你是“免费”获得的。
比如你读一篇文章——假设是一篇Substack。你当然也可以让LLM给你一些看法,但你可能连该问什么都不一定知道。
我仍然觉得,读原文本身有价值:因为你是专家,你能判断哪些知识是真的精准、该被纳入,然后你给我一个非常到位的“高管摘要”(executive summary)。这价值非常大,因为我就不需要自己花三到五小时去啃,避免中间还吸收到错误信息。某种意义上,这也解释了:即使有LLM,写作者仍然有未来空间——专家可以帮你省时间。
Fridman:有件事挺迷人的:去对比“摘要”和“原文”。哪怕是“同样一页长度”的摘要对比同样一页的原文,也很有意思。你会发现LLM的摘要会把“尖锐的边缘”磨掉:它到底从原文里去掉了哪些信号?
Nathan:我经常讲的就是“声音”(voice)。
Fridman:声音?我很想听你解释“声音”是什么意思,那很有力量。但有时不仅是声音——甚至是洞见(insight)会被删掉。删掉一个洞见,你其实是在根本上改变原文的含义。所以我一直很失望:LLM在抓住核心洞见这件事上真的很差,而真正好的摘要恰恰就是抓洞见。即使我写了非常复杂、很精心的prompt,拼命去挖洞见,也还是差一点。这里背后其实有很深的哲学问题:什么是人类知识与智慧?什么叫“有洞见”?但回到你说的“声音”,你具体指什么?
Nathan:当我写作时,我很多时候是在做这样一件事:把研究者脑子里很“生”的东西写出来。
研究者是在理解边界上尝试把一个想法表达出来,他们在把一种“感觉”硬翻译成文字。我写作时会尽量保留这种状态,所以文字读起来会显得很原始(raw),但信息密度又很高——有的人能抓住,有的人抓不住,这其实就是研究的本质。
而语言模型不擅长这一点。尤其是它们几乎都经过了基于人类反馈的强化学习(RLHF):这套机制会聚合很多人的反馈,从某种意义上把模型行为“平均化”。在这种过滤器存在的情况下,模型要变得非常犀利、非常“刀锋般精准”(incisive)会很难。
这也是RLHF研究者面临的一个很根本、也很漂亮的问题:RLHF的确极大提升了模型可用性,让模型变得更好用;但它的问题设定里像打了个结——有个你绕不过去的矛盾。我说的“声音”就是:这些语言模型缺少那种深层表达的先验——一种“我到底想抵达什么”的内在驱动。
我不觉得这完全不可能。也有模型会震撼到人。比如我很想试试当年的BingSydney——它是不是更有“声音”?因为它经常会失控、跑偏……历史上那种很吓人的例子(比如让记者离开妻子之类)当然不可能用于大规模公开部署,那太危险了。但这也像一种权衡:RLHF过程是不是在某些方面加上了限制、磨平了锋芒?
Fridman:对前沿实验室和公司来说,这确实是个可怕的位置,因为有几百万人在用这些系统。
Nathan:去年GPT-4o被下架时有很大反弹。我个人没怎么用过那个模型,但我和OpenAI的一些人聊过:他们已经到了会在半夜收到用户邮件的程度——用户能察觉到部署里很细微的差异,然后写邮件说:“我的朋友不一样了。”他们会去找员工邮箱,把这些信息发给他们,因为他们对那一套“模型权重+配置”形成了很强的依恋,而那东西正是被部署给用户的。
这在TikTok上也能看到:你打开它——我不怎么用TikTok——但据说五分钟算法就“抓住你”了,像锁死一样。而推荐系统也是语言模型在做的一类事情。语言模型也会出现类似现象:你跟它聊五分钟,它就“懂你了”。很多人其实还没准备好面对这一点。比如小孩——真的别把这个给小孩,至少在我们搞清楚发生了什么之前别给。
Fridman:但还有一个机制会出现:随着LLM被越来越多使用……不幸的是,人类处境里确实有人会自杀。记者往往会对自杀事件做大量报道,并且很可能把它和LLM联系起来,因为他们能拿到对话证据。一个人在生活中真的很挣扎、很抑郁、甚至有自杀想法时,他很可能会和LLM聊这些。那么记者就会说:“这次自杀是因为LLM。”接着公司出于法律风险等原因,会越来越多地把模型的“棱角”磨掉,让它尽可能通用、尽可能无害、尽可能模板化。
在这个领域运营真的非常难:当然你不希望LLM以那种程度伤害人类;但另一方面,人类体验的一部分恰恰是——进行丰富的、充实的对话,被挑战、从而成长。你需要那种“边缘感”、那种锋芒。而这对做RLHF的研究者来说极其难:因为你实际上是在处理“人的处境”(human condition)。
Nathan:这些公司的研究者普遍动机都很好。Anthropic和OpenAI的文化也确实很希望把技术做成对世界有益。但这事太难了,以至于我会想:“哎,我不想做这个。”一方面,很多人把AI当作健康盟友,觉得可以私密地聊健康问题;但它又会延伸到心理健康等议题上:令人心碎的是,这可能会成为把某些人推过边缘的那根稻草,但也可能会救下另一些人。作为研究者训练模型时,我会觉得:比如我不想训练并公开发布图像生成模型,因为我不想让某个人在自己笔记本电脑上就拥有一个能伤害他人的工具。
我所在的公司也没有那种能安全支撑这件事的基础设施。所以很多领域都需要有人带着足够的复杂度意识和足够的决心去推进:这就是一个极其难的问题。
Fridman:而且作为社会、作为这些技术的用户,我们也得确保自己是在进行复杂讨论,而不是单纯制造恐慌:比如“科技巨头在伤害人”“在偷数据”等等。事情比那复杂得多。这些公司里有非常多人真的很在乎帮助别人。他们考虑的是全球范围内完整的人类体验,不只是硅谷:美国各地的人、全世界的人,他们的需要是什么。要设计一个系统,去帮助不同年龄段、不同文化、不同心理状态、不同精神状况的人,这非常困难。
Nathan:我只希望AI出现的时机能不同一点:因为科技巨头在普通人中的名声已经很低了,而AI又如此昂贵,几乎注定会由大公司来做——需要巨大资源。还有人说美国是在“把经济押注在AI上”来搞这轮建设。偏偏这两件事纠缠在一起,就让沟通环境变得极其艰难。我应该去和更多讨厌大科技、把AI视为其延续的人聊天。
Fridman:你其实还建议过一个应对方式:在整个系统里找到“能动性”(agency)。与其无力地坐着、被动消费那些快速淹没互联网的AI垃圾内容,不如用AI去构建东西:做产品、做app……第一,这能帮你建立直觉;第二,这很赋权——你能理解它怎么工作、弱点在哪。这样你的声音才有力量,你才能说:“这太扯了,这是坏用法;这是好用法。”你也会更“接入系统”,理解更深,从而作为消费者更好地影响它、引导它。
Reschka:你提到能动性很好。与其忽视它、说“我不用”,长期来看更健康的方式可能是:它已经在那里了,你不可能把它塞回去,就像当年的互联网和计算机一样。问题变成:我怎样最好地使用它?它怎样帮我把自己抬升一个层级?但我担心的一点是:如果你把它完全用在你最喜欢做的事情上,你喜欢的那件事可能反而消失了——这也许会导致倦怠。比如我让语言模型替我写完所有代码,那就没有“写代码”这件事了,我只是在管理一个替我写代码的东西。两年后,如果我每天八小时都这么干,我还会觉得满足吗?我还会为自己做出来的东西感到骄傲吗?我还会对工作兴奋吗?
Fridman:说到“享受”,这里有个挺有意思的点:最近有一项调查,样本大约是791名职业开发者——职业的意思是从业10年以上。
Nathan:10年很久。
Fridman:是啊,在今天这个时代,甚至当初作为初级开发者都算久了。
这份调查里有不少令人意外的发现:他们按初级和资深开发者做了拆分,但总体结论是:无论初级还是资深,都会在他们“实际交付上线”(code they ship)的代码里使用AI生成的代码。这不是拿来玩玩、不是学习用的,而是会上线的代码。大概有25%的人——多数人的比例在50%或更高。更有意思的是:如果你“上线代码里超过50%是AI生成的”,资深开发者更可能属于这一类。
不过,你又不希望AI把你热爱的东西夺走。
这也和我的经验吻合:大约80%的人觉得,把AI纳入工作流程后,工作要么“更有一点乐趣”,要么“明显更有乐趣”。
Reschka:这取决于任务。从我个人使用来说:比如我有个网站,偶尔要改一些小地方,我其实不享受做这些。那AI能帮我实现网站上的东西,我完全欢迎。但另一方面,当我解决一个复杂问题时——比如遇到bug,我追bug、找到bug,那感觉是世界上最爽的事之一,你会非常快乐、非常有成就感。可如果你连“思考bug”都不做,直接就去问LLM,那你永远不会有那种感觉。
当然可能有个折中:你先自己试,实在找不到,再用LLM。这样你不会被挫败感拖住,它帮你跨过去,你就能回到你真正喜欢的事情上。这些统计数字的一个局限是:它把所有情境平均了——我们并不知道大家是在核心任务上用AI,还是在一些本来就很无聊、很琐碎的任务上用AI。
而从某种意义上说,AI特别适合做那些“很花功夫但又很无聊”的事。比如我太太前几天:她有个播客,类似读书讨论/读书会,她在把shownotes从Spotify搬到YouTube,结果链接不知道怎么就坏了。有些节目因为书太多,大概有一百个链接——要手工一个个修简直痛苦。我就说“试试ChatGPT”。我们把文本拷进去,它把链接都修好了。从原本可能要两小时逐个点开改,到现在几乎无缝搞定,完全不沮丧。这类场景我相信每个人都有:AI对那种无聊且机械的事真的很有用。
Fridman:对我个人而言,说到编程,你提到debug的乐趣……我享受的一个主要来源(更偏向像Cursor这种本地/编辑器里的体验,而不是纯云端写代码)是:我有一种“搭档”的感觉——像结对编程(pairprogrammer)。它不那么孤独。你把debug说得像巨大的快乐。
不,我会说debug更像:你在沙漠里走了好几天,终于喝到一口水。关键在于你跳过了“穿越沙漠受苦”的那段。如果有个朋友——他也未必能直接找出bug,但能给你一些直觉、一些提示;你们一起在沙漠里走,最后一起找到那口水。至少对我来说,这可能反映了编程体验里的孤独感——“不孤独”本身就是一种快乐来源。
AI时代的学习与创造
Reschka:这也许和“延迟满足”有关。我从小就这样:我更喜欢期待圣诞礼物的过程,而不是拿到礼物的那一刻。我会期待,但一到手就结束了,反而有点失落。食物也类似:你越饿越觉得好吃。你说debug也对:它不总是快乐,很多时候很挫败,但一旦解决,就很爽。
不过也有个“金发姑娘区间”(Goldilocks Zone):难度太高就是浪费时间。还有一个挑战是:未来人们怎么学习?我们刚才看到的数据里,资深开发者上线的AI生成代码比初级更多,这很有意思。直觉上你会以为反过来:初级更可能因为不会做而依赖AI。那这可能意味着:要么AI还不够强,搞不定那些任务;要么专家更擅长用AI——他们更知道在哪用、怎么用、怎么审查代码,因此也更信任结果。
但社会将来会面临一个问题:如果你从来不自己做,你怎么成为专家?我自己的学习方式一直是先自己尝试。比如数学教材,你直接看答案当然也能学到东西,但如果你先做过,再看答案,你会用完全不同的方式理解它:因为你知道怎么把它放进自己的认知框架里。
如果语言模型一直唾手可得,人们还会不会愿意经历“挣扎”?挣扎不好受,它就是挣扎。如果你让语言模型替你做完一切,你可能永远跨不过那个门槛,也就得不到“专家使用LLM时那种更高层级的解锁”。所以这也像一个“恰到好处”的甜蜜点(Goldilock sweet)
如果你让语言模型(LM)替你做所有事,到某个时刻你就很难真正迈出下一步;于是你可能得不到那种——作为专家使用LLM时本可以得到的——“解锁”。
所以这里有一个“金发姑娘甜蜜点”(Goldilocks sweet spot):也许诀窍是——你专门留出一些离线时间,比如每天两小时,认真学习;其余时间再用语言模型。人还是得继续投资自己,而不是什么都“交给LLM”。
Fridman:对,我们作为一个文明整体、也作为每个个体,都得各自找到那个Goldilocks区间。在编程语境里,作为开发者也是一样。我们这段很有意思的对话从预训练、中训练讲起,现在讲到后训练。我们进入后训练吧:后训练里有很多有趣的东西。后训练有哪些值得关注的想法?
Nathan:2025年最大的一个点,是“带可验证奖励的强化学习”(reinforcement learning with verifiable rewards,RLVR)。这一块的训练是可以规模化的:你反复做“生成—评分”的迭代循环(generate–grade loop)。这让模型学到很多有趣的行为,尤其是在工具使用和软件能力上:比如搜索、自己跑命令、看输出。与此同时,这种训练还非常漂亮地支持了“推理时扩展”(inference-time scaling)。
后来大家发现,这个范式和“推理时扩展”天然地连在一起:RL训练会促进推理时扩展。当然,推理时扩展本来也可能通过别的路径被发现,但这里像是一次完美风暴:模型变化很大,而训练方式是其中的关键因素。这也极大改变了人们做后训练的方式。
Fridman:你能解释一下RLVR吗?它因为DeepSeekR1被广泛讨论。你能讲讲它怎么工作的?
Nathan:可以。一个有趣的事实是:RLVR这个术语最早是我们团队提出的,来自我们在Tulu3上的工作,比DeepSeek更早。我们并不想把“规模化RL的普及”功劳揽到自己身上——DeepSeek才是做出训练突破的人——但对学术圈来说,一个“好玩”的插曲是:你可以命名一个概念,并影响讨论。因为闭源实验室能公开说的东西有限;学术界即便没有算力去训练大模型,也可以通过提出框架、命名概念,把社区组织起来。RLVR这个词就起到了这种作用:社区可以围绕它形成共识与讨论,这很有意思。
DeepSeek的突破在于:他们把强化学习规模化了。做法是——让模型生成答案,然后判断这次输出对不对;这个“对不对”(准确性)就作为强化学习的奖励。
经典强化学习里,一个智能体在环境中行动,环境给它状态与奖励,目标是最大化奖励。放到语言模型里,奖励通常来自一组“可验证任务”的正确性,比如数学题、编程任务。到了事实性(factual)领域会开始变得模糊一些:某些事实也算可验证;或者是一些指令约束,比如“只用以A开头的单词回复”,这类也都能在某种意义上验证。
RLVR的核心思路是:找大量这样的可验证问题,让模型反复尝试,并持续做RL的梯度更新。这套基础设施是从“基于人类反馈的强化学习”(RLHF)演化来的:在RLHF时代,你优化的是一个“学出来的奖励模型”,它近似聚合人类偏好;而RLVR改变了问题域,把奖励变成更可验证、更清晰的信号,于是优化可以扩展到更大规模,进而引发了模型能力与使用方式的重大变化。
Fridman:RLVR适合哪些领域?
Nathan:最典型的是数学和代码。然后还有很多工作在做所谓的“评分细则/量表”(rubrics)。这和大家听过的“LLM-as-a-judge”(让LLM当裁判)有关:比如我训练集里有一批问题,我再用另一个语言模型去问:“一个好的答案应该长什么样?”于是你可以让模型对同一题反复尝试,并按这个rubric打分。
这就不再像数学/代码那样“严格可验证”,但rubrics这条路线,以及其他更模糊的科学类问题,正是大家关注的地方:他们在努力把这套方法推向更开放的领域,让模型学到更多东西。
Reschka:那是不是就叫“带AI反馈的强化学习”(reinforcement learning withAIfeedback)?
Nathan:那是更早的叫法,来自Anthropic的Constitutional AI论文。很多概念就是这样周期性地更名、演化。
Reschka:退一步说,RLVR的美妙之处在于:你给LLM一道题(比如数学题),你知道标准答案是什么;你让它自己去想怎么得到这个答案。你并不强约束它怎么做,最多加一点约束,比如“用同一种语言,不要西英混杂”。总体上你是比较放手的:只给题目与答案,让模型自己找到通向正确答案的路径。
而实践里,一个很漂亮的现象是:模型往往会给出逐步推导的过程——像学生、或者像数学家推导解法那样。它一边用这些步骤完成任务,一边这些步骤又反过来提升了它的准确率。
这也连接到你刚才说的“推理时扩展”(inference scaling):粗略地说,就是在推理阶段投入更多算力。这里的体现往往是:模型用更多token。R1论文里也展示过:训练得越久,回答越长;输出会随着时间增长,token数变多,所以推理更贵。对简单任务来说这会更昂贵,但这些解释过程能提高正确率。
还有一些论文表明:模型写出来的解释未必正确,甚至可能和答案无关,但奇怪的是——仅仅“做了解释”这件事,依然可能帮助模型。这一点很耐人寻味。
我不想拟人化LLM,但这有点像人类做题:遇到复杂题,你会拿草稿纸一步步算,会划掉、会修正。模型也会自我纠错。我记得R1论文里把某个现象称为“aha moment”,因为模型自己意识到错了,然后说类似“啊我做错了,让我再试一次”。很酷的是:这一切几乎是“只给标准答案、让它自己摸索”自然涌现出来的——它在某种意义上表现得像人类会做的事。尽管LLM并不以人的方式思考,但这种相似性很有意思。
另一个很好的副作用是:对我们人类来说,看到这些步骤很有用——它能建立信任,也方便我们复核、从中学习。
Nathan:这里信息量很大。今年也有不少争论:这些语言模型里的“aha moment”会不会其实是“假的”?因为在预训练里,模型基本上已经看过整个互联网;你一定见过人类讲解推导过程,甚至像数学课讲稿那样的转写:你试一下,“哦我弄错了”,再改。RLVR很擅长的一点,是把这些行为“放大”(amplify)——因为它们非常有用,能让模型想得更久、并检查自己的工作。
我同意这很美:训练让模型把这种行为强化到一个极其有用的程度,最终答案变得更好。
Reschka:我给个更上手的例子:我用RLVR在Math500上训练Qwen3 base模型。基座模型准确率大概15%。只做50个step,几分钟内,准确率从15%提到50%。你不能跟我说这完全不是在学东西——它不可能……
Nathan:这个Qwen的例子很微妙。今年有两篇论文专门谈Qwen的数据污染(data contamination),其中一篇我也参与了。他们在一个特殊的mid-training阶段训练了很多——我们刚才也提过一点——而且他们训练的题目和测试数学题几乎是同构/近似的。
Reschka:所以它会很怪:他们训练过很多与数学几乎一样的题。
正因为如此,你会看到RL在这里并不是“教会模型新的数学知识”。50步做不到这件事。知识其实已经在预训练里了,你只是在把它解锁出来。
Nathan:但我还是不同意你这个前提,因为里面有很多诡异的复杂性,你很难证明。一个指向“诡异”的证据是:你拿Qwen3所谓base模型,随便找一道数学数据集的题——比如你在屏幕上搜“math data set HuggingFace”,这些题往往是文字题:“Alice有五个苹果,拿走一个……给了三个人……”这类。
对Qwen系列模型,人们怀疑的一点是:你只改数字、不改叙事文字,它居然能在不使用工具的情况下给出非常高精度的十进制答案。这暗示它在某个阶段见过与测试集几乎一样的题,并且曾借助工具得到高精度答案;但一个不带工具的语言模型通常不该凭空给出这种高精度结果。
因此研究社区里有很大争论:很多强化学习论文用Qwen训练、并在这些数学基准上评测;而基准又被多篇论文指出存在污染——那你到底能信多少?这也导致RLVR一度被贴上“主要是在学格式(formatting)”的名声:因为增益来得太快,似乎说明能力已经在模型里。可这里确实很复杂,也不是严格受控实验,所以我们并不真正知道。
Reschka:但如果你说的不成立,那蒸馏就不该有效。蒸馏至少在一定程度上确实能工作。但最大的问题还是污染:我们根本不知道训练数据里有什么。除非你有一个真正全新的数据集,否则几乎无法彻底排除。
而且不止数学数据集:像MMLU这种选择题基准也一样。如果你稍微改一下格式——比如把选项前的括号换成点号——模型准确率都可能大幅变化。
Nathan:这可能是模型的问题,而不是一般性问题。
Reschka:这甚至不一定是开发者“恶意作弊”,说“我们要在基准上刷分”。它可能只是:模型在某个时候见过相似东西。真正公平的评估方式,应该是用一个新的基准——它在模型部署的cutoffdate之后才出现,模型不可能在训练里见过。
Fridman:我们能不能把后训练会包含哪些东西,按“配方”梳理一下?你提到RLVR是一个很令人兴奋、也非常有效的方法。RLHF仍然也有重要作用。还有哪些后训练思路?
Nathan:可以按顺序理解:你可以把它看作“是什么让OpenAI的O1(第一个推理模型)成为可能”,或者“最新模型会是什么样”。这类模型往往会经历相似的干预路径。
从mid-training开始:据传能支撑O1和类似模型的关键,是非常精细的数据筛选(datacuration)。你会提供大量所谓的“推理轨迹”(reasoningtraces):也就是模型在前向生成过程中写出一串文字,体现它如何反思、如何把问题拆成中间步骤并逐步求解。
mid-training阶段你要喂入与此类似的数据,才能让模型在进入后训练(尤其是可验证奖励)时“学得动”。
而今天大家在做的是:决定给模型什么题、训练多久、以及在解这些可验证问题时允许它用多少推理计算(inference)。随着模型变强,一些题会被它100%解出来,于是奖励信号变得极弱。
这在GRPO方程里很典型:给智能体的奖励,取决于某个动作(这里动作就是一次输出/一次completion)相对于同题其他答案的好坏。如果所有答案都一样,那算法就没有信号。所以大家会去找更难的问题:这也是为什么你会听到“科学领域”之类的方向——那太难了,想要在那儿“做对点什么”本就困难;或者更难的软件任务。前沿模型会不断往这些更难的领域推进,这样才能训练在更多问题上持续产生学习信号,让模型一次学到更多技能。
RLHF在这里的关系更像“收尾工序”(finishing touch):它让模型更有用,提升组织方式、风格、语气等。不同受众喜欢不同风格:有人喜欢很古怪、很有个性的模型,RLHF能帮助塑造这种人格;也有人讨厌模型那套markdown项目符号,但它确实便于快速扫读信息。
RLHF的人类反馈阶段很擅长把这些东西“压进模型里”,这也是ChatGPT之所以让人觉得“魔法”的重要原因之一,而且这个用途一直相对稳定。
而且“格式/风格”本身也可能间接帮助数学等任务:风格、格式和“如何作答的方法”在训练时其实紧密耦合。这也是为什么RLHF有时也能让数学表现更好;但可验证领域的训练路径更直接、更符合问题设定,所以这些方法最后会融合在一起。
总结一下:mid-training给模型提供“能学得动”的能力与习惯;RLVR让模型在难题上大量试错、投入大量算力做试验式学习;RLHF则负责把模型打磨得更好用、更圆润。
Fridman:RLVR需要多少算力?
Nathan:它只会越来越高。BrockFor(原文名)有句名言:他们在预训练与后训练上投入了相近量级的算力。回到“规模化”的讨论:两者的硬件瓶颈非常不同。
预训练更“算力受限”(computebound):核心是FLOPs——单位时间能做多少次矩阵乘法。
而RL由于要生成答案、要在“真实环境”里反复试用模型,它更“内存受限”(memorybound):因为你在生成长序列,注意力机制会带来随序列长度二次增长的内存开销,所以算力形态完全不同。
因此,预训练常用FLOPs来量化规模:比如回到拜登政府的行政令语境里,训练一个模型可能是10251025FLOPs量级。
但后训练用FLOPs就很别扭;现实里更像是在说:你分配了多少GPU小时、跑了多少“墙上时间”(wall clock time)。就时间维度而言,RL的算力消耗正在逼近预训练,因为RL不能把一切都塞进一个紧密同步的大系统里:预训练是高度计算密集、GPU彼此通信、效率很高;而RL有很多运动部件(moving parts),生成一段十万token的序列可能就要很久。你想想,如果一次样本要像“GTT5.2pro”那样花一个小时,那么训练里如果有很多这种样本,你就得把它做得足够高效。
所以从GPU小时或墙上时间看,RL训练可能逐渐接近预训练的“天数级”耗时,但它通常不会在同一时刻占用那么多GPU。
实验室里还有一些经验法则:预训练一般不希望超过一个月,因为可能会灾难性失败;如果你计划把一个大集群锁两个月,结果第50天崩了,机会成本会巨大。所以大家不愿意把鸡蛋都放在一个篮子里。GPT-4被说成是一种终极YOLO:训练可能花了三个月,大家都震惊它居然成功。现在人们更谨慎、更倾向于渐进式迭代。
Reschka:所以RLVR在某种意义上更“接近无上限”:你训练越多可能仍能获益;而RLHF因为是“偏好调优”(preference tuning),到某个点就不太值得继续砸RL预算了。
退一步说,偏好调优是这样的:同一个问题可以有多种解释方式,可能都正确。比如亲戚问我买什么笔记本电脑,我会先问使用场景:他们可能更看重续航和存储;而我们可能更看重内存和算力。两种回答都对,但适配不同人群。
偏好调优里,你让标注者给出“更偏好的答案”,模型学习那个“平均偏好风格”。学到之后,再继续训练意义不大,因为那主要是“风格层”的东西。
但RLVR不一样:你是在让模型去解越来越复杂、越来越难的问题。所以长期看,把更多预算投给RLVR更合理。并且现在我们还处在RLVR1.0:流程很简单——给问题与答案,但对中间过程基本不做利用。
下一步可能是RLVR2.0:把注意力放到“题目与答案之间”的那段解释过程上——怎么利用这段信息、怎么让解释更好、并进一步提高准确率。比如Google有多篇关于“过程奖励模型”(processrewardmodels)的论文:不仅给最终答案打分,也给解释过程打分,评估解释到底有多正确。
此外,DeepSeek的某篇数学v2论文也展示了有趣的推理时扩展:他们训练了一个“单独的打分模型”,让模型能自评/互评。这也可能成为一个重要方向。另一个方向就是像Nathan说的:把RLVR推广到更多领域。
Nathan:大家另一个兴奋点是“价值函数”(valuefunctions),和过程奖励很像。过程奖励模型是给推理过程中的每一个中间步骤打分;价值函数则更激进:给语言模型生成的每一个token赋值。
但这两者在当下这个“推理模型时代”的语言建模里,都还缺少充分验证。奇怪的是,现在人们对价值函数更乐观一些。过程奖励模型在“pre-O1”、也就是推理模型出现之前,被尝试得更多,但很多人被折腾得头疼,所以留下不少负面经验。
而价值模型在强化学习里历史很深:深度强化学习能发展起来,价值模型本来就是最核心的要素之一。所以现在文献里大家更愿意再试价值模型;但实证证据仍很有限,并且也有扩展过程奖励模型失败的例子。
回到我们最初的“规模化”讨论:你说的直观总结是——不要在RLHF上做太多,因为信号不会像那样随算力扩展。
RLHF作为语言模型训练方法已经做了很多年,尤其ChatGPT之后投入更猛;但RLVR的“推理模型”第一次公开展示(比如OpenAI的O1)给出了一个scalingplot:当你以对数方式增加训练算力,评测表现近似线性提升。这个结果被多次复现;我记得DeepSeek也有类似曲线。
但RLHF没有这样的scaling plot:你很难说“算力对数增加->性能线性增加”。相反,RLHF的经典规模化论文更多是在讨论“奖励模型的过优化”(reward model over-optimization)的损失规模化。
这会成为一个“定义学科走向”的分界:对于RLVR(以及未来相关方法),你可以让最好的run多跑10倍算力,获得额外的性能提升;但对RLHF做不到。
我在学术上一直鼓吹大家做RLHF,但一个合理的说法是:要把RLHF做到最好,你也许并不需要额外10倍、100倍算力;但要把RLVR做到最好,你往往需要。
这方面有一篇很关键的论文,来自一次Meta的实习项目。他们提出的框架就是“规模化RL”。而他们一个“渐进式实验”的量级,就可能是10,000个V200GPU小时——单次实验就要几千到几万美元,而且他们做了很多次。这类成本对一般学术界基本不可达,于是形成一种很难的均衡:你得想办法让不同社区之间仍能互相学习、互相借力。
给初学者的建议:如何进入AIdevelopment和AIresearch领域
Fridman:我们稍微转个弯,聊一聊教育和学习。如果你是一位正在收听的听众,本身是个聪明的人,对programming感兴趣,也对AI感兴趣,那么我想,从零开始构建一些东西,大概是一个很好的起步方式。所以可否跟我们详细讲讲,建议大家怎么去做?
Sebastian:我个人会从最基础的做起,正如刚才所说,先从零开始实现一个可以在自己电脑上运行的简单模型。并非是指望从头构建的这个模型能够成为日常个人项目中反复使用的工具。它不太可能变成你的personal assistant,也不可能去取代现有的open-weight模型或ChatGPT。关键在于弄清楚LLM里面到底包含了哪些东西、LLM最终输出的究竟是什么,以及基于此在自己电脑上的pre-training是如何运作。接下来,就可以逐步理解pre-training、supervised fine-tuning,以及注意力机制等核心概念。这样可以帮助你对整体运作方式形成扎实的理解,但在某个阶段也一定会遇到上限。
你会对事情的运作方式有一个扎实的理解,但在某个阶段你会遇到瓶颈,因为模型的能力是有限的。在大规模学习LLMs时的问题在于,想要做一个更大的模型复杂度是指数级增加的,并不是说模型只是变大而已。这时就需要开始考虑如何把参数sharding到多个GPU上。即便是针对KV-cache,也存在多种实现方式,其中一种只是先理解它的工作原理,比如如何随着推理过程去增长cache。就好比有一种做法是让cache随着过程一步步增长,例如通过不断拼接list来扩展它,但在GPU上这样做并不高效,实际中也不会这么实现。更常见的方式是预先分配一个tensor,然后逐步往里填充数据,而这又会额外增加二三十行左右的代码。而且几乎每引入一个环节,代码量都会明显增加。
这本书的关键,其实在于帮助理解LLM的工作方式。它并不是要教你做一个production-level的LLM,但在掌握了这些基础之后,就能够更好地理解production-levelLLM是如何运作的。
Fridman:所以你的目标始终是构建一个能够放在单张GPU上运行的LLM吗?
Sebastian:是的。我大部分资料都有,我还有一些关于MOE模型的额外材料。其中一两个可能需要多块GPU,但目标是能在一块GPU上运行。好的是你还可以进行自我验证,几乎像RLVR一样。当你从零开始编写这些代码时,可以直接使用HuggingFace Transformers库里已有的模型。
HuggingFace Transformers library确实非常出色,但如果目的是学习LLM,它并不是最好的起点。原因在于其代码复杂度非常高,因为代码非常复杂,需要覆盖很多不同的使用场景。另外,有些人还会在生产环境中使用它。所以整体实现必须足够成熟、精细。结果就是代码高度耦合、结构交织在一起,阅读起来非常困难,也很难按照线性的方式去理解。
Nathan:它最初是作为一个fine-tuning library起步的,后来逐渐发展成几乎涵盖所有模型架构及其加载方式的标准化实现。因此,HuggingFace基本上成了获取模型的默认平台,而Transformers则是支撑这一切的软件基础。从而让人们可以非常方便地加载一个模型,并且用它来完成一些最基础的操作。
Sebastian:而且所有发布open-weight模型的前沿实验室,基本都会提供一个HuggingFace Transformers版本,比如从DeepSeek到GPT-oss,这些都可以看作是在那里的canonical weight,直接加载使用。但另一方面,即便是Transformers这个library,本身也并不用于production,实际中人们往往会使用sglang或vLLM,这又在原有基础上增加了一层复杂度。
Fridman:这里也需要说明一点:Transformers library里大概包含了四百种左右的模型。
Sebastian:所以它基本上是一个试图实现大量LLM的统一library,结果就是形成了一个极其庞大的代码库,规模非常惊人,可能已经是百万级别的代码量了。
Nathan:太夸张了。
Sebastian:动辄几十万行代码,要在里面找到自己真正想理解的那一部分,就像是在大海捞针。不过它的美妙之处在于:它提供了一套已经可以正常工作的实现,因此可以从结果反向推理解构。我个人会推荐、也常常采用的方式是——如果想理解某个具体模型是如何实现的,比如AlmostThere,就先去看模型中心里的权重文件和配置文件,从中就能看出,比如它使用了多少层。比如可以看到他们用的是group query attention(分组查询注意力)还是multi-head attention(多头注意力)。这样一来,所有关键组件都会以一种相对可读的形式呈现在大概一百行左右的配置文件里。接着,就可以从一个最基础的GPT-2模型开始,把这些机制一点点加进去。
这里有意思的一点在于,接下来可以直接加载pre-trainweights(预训练权重),看看它们在你自己的模型里是否能正常工作。目标是让输出结果与Transformers模型给出的输出一致,而这一点本身就可以作为一种可验证的“奖励”,用来确认你的架构实现是正确的。有时候这个过程会花上一整天,比如在实现AlmostThree的时候,最大的挑战就在于位置嵌入里的RoPE。
他们在其中加入了YARNextension,还做了一些自定义的scaling,我一开始没法完全对齐这些细节。但正是在这种反复挣扎的过程中,很多东西就慢慢被理解了。更棒的是到最后,你可以非常确定自己是正确的,因为可以对它进行单元测试,也可以直接和RI做对照。这大概真的是学习这些内容最好的方式之一,本质上就是在对现有实现逆向工程。
Nathan:这种Reverse Engineer(逆向工程)基本上是当下所有对AI领域感兴趣的人都应该去做的。这也是我很喜欢你这本书的原因之一。因为我自己是从RL和Robotics这个方向进入LMs的,过去其实从来没有真正花时间把这些基础系统性地学一遍。而我会把Transformer架构看成一种非常基础的东西,就像当年必须掌握DL本身一样,这是每个人都需要补上的一课。
但我也觉得,很多人真正感到不知所措的地方在于:如何把这些东西用起来,产生实际影响,或者进一步找到清晰的职业路径。因为AI的LMs把这些最基础的内容变得前所未有地可获取,只要有足够的动力,很多人都能学会。接下来困惑往往就变成了:“我该如何把自己的精力真正对准目标,去参与研究、做出贡献?”
但我对此持相当乐观的态度。这个领域的发展速度极快,很多时候,即便是最优秀的人,也不会把某个问题彻底解决,因为前面总会出现更大、但同时又是低垂果实的问题,于是他们就会转而投入到新的方向中去。
这本RLHF书里我很大一部分尝试,其实就是把post-training techniques(后训练技术)拿出来,梳理清楚人们是如何理解这些方法对模型产生影响的,以及业界实际在做些什么。也正因如此才会发现,有相当多的东西其实并未持续深入地研究下去,通常人们要么就此停下了,要么干脆没有再继续追究。
Nathan:在打好基础之后,逐渐聚焦到更细分的方向是件好事,同时去阅读相关的论文,并积极参与整个生态系统。很多时候你会发现,其实普通人和顶尖研究者之间的“距离”在网上是非常近的。
比如在X上,ML圈里有大量匿名账号出奇地活跃,但几乎没人真正知道这些人是谁。通常可能只是一些把这些东西研究得很深入的普通人,借助AItools,不断追问“我不理解这个”,然后一直挖下去,这是非常有价值的事情。但是在不少研究领域里,可能只需要读三篇左右的论文,就已经能把脉络搞清楚了,甚至其中一位作者很可能还会回复你的邮件。但前提是,确实要在这些交流和阅读上投入大量精力,才能真正理解一个领域。
对于新手来说,哪怕只是想把一个非常狭窄的研究领域吃透,可能都需要连续几周的工作。不过我依然认为,在掌握基础之后选择“往窄里走”,对很多人都会非常有帮助。就我自己而言,最近就对角色训练产生了很大的兴趣——也就是如何让模型变得有趣、讽刺、严肃,以及究竟需要在数据上做些什么,才能实现这些效果。
比如说,有一位Oxford的学生联系过我,说他对这个方向很感兴趣,我也给了他一些建议。后来那篇paper真的就写出来了。放眼整个领域,可能也就只有两三个人曾经对这个问题投入过非常强烈的兴趣。他本身是PhD学生,这当然给了他一些优势。但对我来说,那正是一个一直在等别人站出来说“我愿意在这个问题上投入时间和算力”的方向。
我也确信,还有很多类似的、非常狭窄的问题,会让人产生一种感觉:“怎么可能这个问题一直没人给出答案?”很多时候只是因为信息涌入得太快了,大家反而会觉得“这些我一个都抓不住”。但如果真的愿意在某一个方向上持续扎进去,其实会发现里面有大量非常有意思、值得深入学习的东西。
Sebastian:是的,确实不可能什么都去做、什么都去跟进,那样只会让人不堪重负,甚至很快burnout。就我自己来说,已经很久没有再持续关注CV了,而是把精力集中在LMs上。
再回到你的这本书本身,我也觉得它非常出色,而且性价比很高,因为如果目标是系统地学习RLHF,这本书确实是一个很好的切入口。我不会一上来就直接去读那些RLHF的论文,因为那样的话,很可能要花上两年的时间。
Nathan:其中有不少内容彼此之间甚至是相互矛盾的。我刚刚把这本书编辑完,结果发现里面没有哪一章需要我去说:“有些论文这么说,另外一些论文那么说,最后看看哪一个才是真的。”
Fridman:那么为了梳理一下内容,顺便回顾一下post-training里大框架可能遗漏的一些点。所以首先是问题设定,然后是训练流程概览,接着是偏好、偏好数据以及相应的最优化工具,包括奖励建模、Regularization、指令微调、拒绝采样,以及RI。
然后还有ConstitutionalAI和AI反馈、推理和以及用于函数调用的推理时扩展;然后是合成数据和distillation、评估,以及一个开放问题部分,讨论过度优化、风格与信息,最后是产品体验、角色以及post-training。本书里有哪些想法值得特别提出来,同时能够把教育部分和研究部分联系起来呢?
Fridman:你提到了角色训练,这部分确实非常有趣。
Nathan:角色训练很有意思,因为相关的研究和资料非常少。但我们也讨论过,人们是如何与这些模型互动的,比如我们在使用它们时会感到愉快,因为它们的反馈很积极,但这种积极有时也可能过头,变得过于“正面”。本质上,这就是如何通过调整数据或决策逻辑,去让模型表现得完全符合预期。像OpenAI就有一个叫做模型spec的东西,本质上就是他们内部的guideline,规定了希望模型做什么,并且会向开发者公开。
所以本质上,可以区分哪些是OpenAI训练上的失败——也就是他们本来有这样的意图,但还没有做到——以及哪些是他们本来就刻意这么设计、而你并不认同的东西。这种透明度非常好,但关于如何整理这些文档,以及跟随这些流程的难易程度,其实并不为人所熟知。这本书的结构设计里,RI那一章显然是大家最感兴趣的部分,因为所有人都听说过RLVR。它用的是同样的算法、同样的数学,只是可以应用在非常不同的场景和文档中。
RLHF的核心问题在于preferences本身有多混乱。这一章是我多年前写过的一篇论文的重新梳理,但它会解释为什么RLHF永远不可能被完全解决。因为即便RL的基本设定,也是默认preferences可以被量化,而且多种偏好可以被压缩成一个单一数值。
这在经济学文献中可以联系到VonNeumann-Morgenstern效用定理。这一章会把所有这些哲学、经济学以及心理学层面的背景放进来,说明在做RLHF时,究竟有哪些东西被压缩进去了。也就是说,你先理解了这些内容,到了书的后半部分,就会看到如何用这张RL的“地图”去把那个数值推高。这正是它值得人们投入研究的原因——因为对preferences进行量化,本身就是人类为了让偏好变得可研究,而人为构造出来的问题。但这里其实存在一些根本性的争论——举个例子,在一个LM的输出中,你会关注不同的方面,比如准确性,或者风格等。而在收集这些数据时,所有的偏好都会被压缩成类似“我更喜欢这个而不是那个”的形式。实际上,这个过程中涉及了大量哲学和其他领域的研究——比如到底应该如何去操作这个过程。
社会选择理论是研究如何聚合偏好的一个子领域。我曾参加过一个研讨会,他们发表了一篇白皮书,主题是“如何考虑将社会选择理论用于RLHF?”所以我主要希望对数学感兴趣的人能来,碰到一些东西,然后在实践中学习更广的背景。这很有趣,我自己也会保留一份我喜欢的关于推理模型的所有技术报告清单。在第14章里,有一节可以看作是RLVR的简短总结,其中有一张超大的表格,我把自己喜欢的每一个推理模型都列了出来。所以在教育方面,很多内容现在更需要像是分享我个人喜欢的东西。
Nathan:因为LMs在数学方面太强了,比如有篇著名论文《Direct Preference Optimization》,它比RL提供了一种更简单的方式去解决问题。论文中的推导和附录里跳过了很多数学步骤。我在写这本书的时候试着重新做这些推导,然后就想,“这到底是他们用来改变数学的什么对数技巧?”但用LMs去做,它们就会说:“这是对数技巧。”而我就想,“我不确定自己是否喜欢这种数学被如此商品化的感觉。”阅读这个附录的困难之一就在于此。而且跟着这些数学推导走,对学习是很有帮助的。
Fridman:是的,所以我们其实经常会回到这个话题——教育。你们俩都提到了“挣扎”这个词很多次。我想,这说明了它的价值:如果在这个过程中没有经历一些挣扎,那么可能就没真正跟上正确的学习流程。
Nathan:有些提供方开始着手开发面向教育的模型,这些模型的设计目的是不一次性把所有信息都给出来——实际上我自己还没用过,但我猜它们就是为了避免一次性输出全部内容。
Fridman:没错。
Nathan:并且让使用者需要动脑去完成这些步骤。完全可以训练出这样的模型,这将是一个非常有价值的贡献。就像书里的内容一样,每一项决策都需要重新评估。这是一个非常棒的例子。我们在AI也有可能会做类似的工作,当时我就想,“哇,这一定会非常有趣。”
Sebastian:说得很有道理。我前几天也做过类似的事情,就拿电子游戏举例。我平时有时候会玩游戏,尤其喜欢带谜题的游戏,比如Zelda和Metroid。有一次玩一个新游戏时,我真的卡住了,而且卡得很严重。我不想为了解谜而连续挣扎两天,于是就用LLM求助。但同时,我会提醒它,“嘿,请不要剧透。”就像我会问,“我现在在这里,我接下来该做什么?”同样的方式也可以用在数学上,你可以说:“好,我现在卡在这个地方了。不要直接给我完整答案,但我可以尝试什么方法?”就是那种小心翼翼地去探询的方式。
但问题在于,这需要自律。很多人学数学是因为兴趣——当然,也有很多人是为了完成作业,不得不去做,这时就容易走捷径。即便我们开发了一个面向教育的LLM,其他LLM依然存在,人们仍然会有使用其他LLM的诱惑。
Fridman:很多人尤其是大学生,他们通常只会真正理解自己感兴趣的内容。他们对此有自知之明,也明白这些事情本就不应该轻而易举。我们只需要培养出一种良好的鉴赏力——指研究的鉴赏力,类似于在学校里对那些你应该努力攻克的内容形成的一种判断力,以及那些你不应该去挣扎的内容。这很难判断,因为有时候你很难对什么对自己未来的职业生涯真正有用有清晰的长期眼光,但你必须去培养这种鉴赏力。
Nathan:我跟我未婚妻或者朋友聊过这个,大概有这么一个短短的十年窗口期,所有作业和考试都可以数字化完成。但在那之前,每个人都得手写考试,因为没有别的办法。而现在有了AI,每个人都可能需要回到传统笔试和口试了,因为作弊太容易了。这就像是一代人经历了一个不同的教育体系——一切都可以数字化,但仍然不能作弊。而现在又要回到过去。真的很有意思。
Fridman:你提到了角色训练。从更宏观的角度来看,就这个话题而言,需要多少compute?一般来说,作为研究者是否存在一些地方,不需要太多compute,但你仍然可以作为个人研究者做出贡献?
Nathan:仅就角色训练这一部分而言,这项研究是基于对大约七十亿参数的模型进行fine-tuning,用的是LoRA。这本质上只是对模型的一小部分权重进行微调。我不太确定这需要多少GPU小时。
Fridman:但这是可行的。
Nathan:但这并不是每个学术研究者都能做到的。对一些学者来说,情况可能非常严峻,以至于他们唯一能做的工作就是在封闭模型或开源模型上进行推理,从中获取模型输出,然后观察这些结果来理解模型。这类工作非常适合做评估,你的目标就是成为在设计具有代表性的问题上最出色的人——那些问题可以让模型出错或展现出特定能力。这是可以突破的方向。所以对于专注于评估的研究者来说,如果想在职业生涯上保持发展动力,最终的顶级目标是让前沿实验室采纳你的评估结果。也就是说,你不需要每一个项目都做到这一点。
但如果你来自一所算力有限的小型大学,却能发现Claude模型容易出错的地方,下一版Claude模型的博客里把这个问题解决了,那就意味着你的职业生涯就像坐上了火箭。这很难,但如果想在最小算力下实现最大影响,大概就是这种策略——把研究范围收得非常窄,同时还需要了解模型的发展方向。所以你需要做的是——构建一个工具,去测试Claude4.5会在哪些地方出错。如果我要开始一个研究项目,我就得考虑八个月后这些模型会在哪些地方遇到困难。
Fridman:那开发完全原创的想法呢?
Nathan:这就是一种权衡。如果你在读PhD,也可以思考,“在LLM上工作风险太高,我要做更长期的研究”,什么才会在未来十年定义LLM的发展?我自己是一个相当务实的人。我读博士的时候的心态是,“嗯,我进了伯克利,最坏的情况也就是拿个硕士学位,然后去科技公司工作。”所以我对这些很实际。有机会在这些AI公司工作,这种生活本身就非常特别。
就拿OpenAI来说,平均每个员工每年的股票薪酬就超过一百万美元。对美国普通人而言,能进入这样的AI实验室,几乎能改变你的人生,所以我在这方面还是相当务实的。如果专注于LLM工作,仍然有很大的上升空间。看看这些职位的回报就知道了。但从研究角度来看,要在学术上产生变革性影响——拿下那些大奖——基本上不太可能不关注LLM的发展,要成为下一个YannLeCun,就不可能完全忽视这一领域。
Fridman:在那种情况下,会有很大的经济上的牺牲。
Nathan:我有机会和一些很棒的学生一起工作,他们会问,“我应该去AI实验室工作吗?”我就会想,“你都在顶尖学校读博士了,你真的要为了去实验室而离开吗?”我会说,“我不知道。”如果你去顶尖实验室工作,我不会责怪你,但不要去那种可能很快倒闭的随机初创公司。但如果你要去OpenAI,我会说,“为了这个去放弃博士学位也可能是值得的。”
Fridman:我们更严谨地来思考这个问题。那你会建议人们在哪里做研究贡献呢?选择有几个方向:学术界,也就是读博士,花五年时间发表论文——不过算力资源比较受限;一些研究实验室更关注open-weight models,可以去这些地方,或者是封闭的前沿实验室。比如OpenAI、Anthropic、xAI等等。
Nathan:这两种方向有一个权衡:越封闭的实验室,你通常能拿到的钱越多,但得到的学术认可也越少。如果你想建立一个作品集,作为学者你做的事情就很清楚,你能清楚展示自己做了什么。而如果你选择去成为某个机器中的齿轮,虽然这也是一个相对合理的职业进展,但你贡献的个人痕迹就没那么明显,不过也可能很有趣。这是两条截然不同的职业路径。但作为研究者的机会成本非常高,因为博士生几乎拿不到什么报酬。所以最终,这种路径更适合那些有相对稳定安全网的人,他们明白自己可以长期运作——也就是,他们想做非常有趣的工作,并获得非常有趣的职位。
所以说,这其实是一种相对特权的状态——你可以说,“我先把PhD做完,之后再看,因为我就是想做这个。”与此同时,学术生态也正面临资金削减等冲击。有太多不同的权衡了,我理解很多人的感受,他们会说,“我不喜欢这种环境,受不了这不断找资金的压力,我的基金被政府无缘无故削掉了,”或者,“我根本不知道接下来会发生什么。”所以有很多不确定性和权衡,从我的角度来看,更倾向于选择那种高薪且有实际影响力的工作。而且,也不是说去OpenAI就只是坐着领工资。你是在构建前沿的东西,改变了数百万人的科技使用方式。
Fridman:但在发表论文方面,他们变得越来越保密。所以你发表的东西越来越少。你确实在大规模产生积极影响,但同时,你也是机器中的一个齿轮。
Sebastian:老实说,并没有改变太多。我以前一直在学术界,现在不在了。同时,我也不想错过自己在学术界的那段经历。但在说到那部分之前,我想说的是,变化其实不大。我当时和合作者一起在用AI或机器学习的方法做计算生物学相关的应用,很多人也是直接从学术界去了Google。情况也是一样。那时候,教授们会为学生进入行业而感到有些遗憾——因为他们没法在那种意义上延续自己的学术传承。现在也是一样,变化其实不大,唯一不同的是规模变大了。
不过以前在行业里也总会有很酷的东西被开发出来,但都是闭源的,不能公开谈论。现在的区别在于个人偏好:你是喜欢分享工作、发表论文,还是更倾向于待在闭源实验室?唯一不同的地方当然是薪酬。但在我看来一直如此,所以实际上还是取决于你自己觉得舒服的选择,而且没有什么是永远不变的。现在唯一新增的选项是创办初创公司,很多人都在做这件事。这风险很大,但也可能回报很高,是典型的高风险高回报的情况。而加入工业实验室相对安全,也有向上发展的空间。
其实在我看来,一旦你在行业的实验室工作过,未来找工作会更容易。但话又说回来,这也取决于你更享受团队合作和处理专有项目,还是更喜欢发表论文的工作。发表论文压力很大,会议的录用率有时候很随意,非常让人沮丧,但如果论文发表了,回报也很高,因为论文署名会带给你很强的成就感。
Nathan:我的朋友里,做教授的平均上似乎比那些在前沿实验室工作的朋友更快乐。老实说,因为那样更有稳定感,而前沿实验室确实存在这种996的工作模式.
Sebastian:确实。
Nathan:996本质上就是“一直工作”的简称。
AI行业的工作文化
Fridman:你能把996描述成一种文化吗?那什么是996呢?就是早上9点到晚上9点。
Sebastian:一周六天。
Fridman:一周六天。那是多少呢?72小时?那这基本上是硅谷AI公司里的标准吗?越来越多的人有这种拼命干的心态。
Sebastian:也许不完全是那样,但确实有这种趋势。这很有趣。情况几乎颠倒过来了,因为当我在学术界时,我就有这种感觉。作为教授,你必须写科研经费申请,你必须教学,还要做研究。这就像三份工作合在一起,如果想成功的话,工作量远超过一份全职工作。
现在,就像Nathan刚说的,相比于实验室里的工作,教授们可能承受的压力或工作量反而比前沿实验室要少一些。
Nathan:他们确实工作很多,只是他们感到非常充实。通过和学生一起工作,并且拥有持续的指导机会,以及一个以人为本的使命。在一个变化非常快、充满混乱的时代,这对人来说是非常有回报感的。
Sebastian:是的,在初创公司这种压力很大,就像你必须要成功一样。投入时间非常重要,但这也非常艰难,因为你必须不断地交付成果。我也曾在初创公司工作过,体验不错,但我不知道自己能否一直坚持下去。这节奏很有趣,也正如我们一开始讨论的那样。这些模型在互相超越,它们不断地、几乎是无休止地尝试在竞争对手之上迈出下一步,现在的竞争非常残酷。
Nathan:这种你追我赶的特性,以及存在多个参与者,其实是LLM发展过程中一个被低估的推动力——竞争已经深深植入人心,而这些公司有意营造了非常强的文化。例如,Anthropic就以文化上的高度投入和组织性而著称。我们几乎很少听到他们的消息,而Anthropic的每个人似乎都非常一致。在这样一个紧密的文化氛围中,伴随着竞争动态,这真的是会促使你努力工作、创造更优秀成果的一种环境。
所以这种情况的代价是人的精力和健康。不可能一直这样下去,人们肯定会出现职业倦怠,我自己也有体会。我写过一篇关于倦怠的文章,尤其是在尝试做管理者、全模式训练的时候,这份工作简直疯狂。Patrick Mc Gee在《Apple in China》一书中讲到,苹果工程师在中国搭建供应链时工作有多么辛苦,他提到公司还设有“拯救婚姻项目”。在一次播客里他甚至说:“有人因此过劳而死。”所以这种环境非常适合以人的付出为代价推动进步,而所谓“人的代价”就是我们一开始提到的996工作制,很多人是真的在拼命卷。
Sebastian:我也读过这本书。他们甚至为这种情况设了一个暗号——如果有人需要回家陪家人以挽救婚姻,同事们就会说:“好了,这是红色警报,这种情况下必须让这个人周末回家。”但同时,我不觉得他们在强迫工作,更多是因为他们对产品充满热情,进入了那种心态,所以才会这样。我在学术工作中有过这种情况,作为独立工作者,有时也会这样。我工作过度,这很不健康。我有过背部问题、颈部问题,因为我没有休息——也许本该休息的时候我却没休息。但这不是因为有人强迫我,而是因为自己想工作,因为这些事情很令人兴奋。
Nathan:这就是OpenAI和Anthropic的工作氛围。他们是出于自愿去做这些工作的。
从Tool Use到Continual Learning:大模型、算力与真实世界的边界
Fridman:是的,但在硅谷,尤其还存在一种热情高涨的氛围,这种氛围与scaling laws理念相呼应——大家认为世界可能在几周内被彻底改变,而你想要站在这场变革的中心。我很幸运能与各种各样的人交流,通过这些对话,我能够看到世界各地的各种泡沫和回音室效应。观察我们人类是如何形成这些现象的非常有趣。可以公平地说,硅谷本身就是一种回音室、一种孤岛和泡沫。泡沫实际上非常有用且高效,这不一定是负面的,因为你可以在其中极高效地产出。
这可能就是所谓的SteveJobs的“现实扭曲力场”,因为大家互相说服对方突破就在眼前,而通过这种相互说服,你们真的就让突破变得迫在眉睫。
Nathan:BurnHobart写过一本书对泡沫进行分类,本质上其中一种是金融泡沫,也就是投机型泡沫,这是不好的;另一种我不太确定具体术语,但本质上是建设型泡沫,因为它推动人们去实际建造这些东西。我确实认为AI目前处在这种建设型泡沫中,但我担心它会转变为金融泡沫。
Fridman:是的,但在思想领域里,那种泡沫就像一种现实扭曲力场,这意味着你在偏离现实,如果你偏离现实太远,同时又在996高强度工作,你可能会错过一些人类经验的基本方面,包括硅谷本身。这是硅谷一个常见的问题:它是一个非常特定的地理区域,你可能无法理解美国中西部的观点,无法全面体验美国乃至世界上其他不同人群的生活。同时,你们彼此交流的方式也很固定,互相说服对方相信某些事情,而这可能会把你们带入真正的麻烦之中。
无论AI最终是大获成功,成为一项强大的技术,还是未能如愿,在任何一种发展轨迹下,你都可能遇到麻烦。所以必须考虑到这一切。在这里,你作为一个年轻人,正试图决定自己的人生方向。
Nathan:有件事我甚至都不太理解,但旧金山AI的梗已经到了“永久下层阶级”这个地步,其意思是2025年最后六个月是唯一能在AI创业公司或模型上建立持久价值的时期,否则所有价值都会被现有公司占据,你因此会变得贫穷……这就是一个旧金山文化走得太远的例子。我仍然认为,对于年轻人来说,如果你真的热衷于在AI领域产生影响,身处旧金山仍是最有可能实现这一目标的地方。但这也有权衡。
Fridman:旧金山是一个了不起的地方,但这里确实有点泡沫。如果你进入那个泡沫——虽然它极具价值,但也要记得走出来。读历史书籍、读文学、去世界其他地方看看。Twitter不是整个世界,Substack也不是。
Nathan:我合作过的一个人要搬去旧金山,我得给他一本《Season of the Witch》,这是一本讲述1960到1985年旧金山历史的书,涵盖了嬉皮士再革命、同性群体逐渐主导城市、那种文化的兴起,以及HIV/AIDS危机等事件。而且,这一切都发生得非常近,而且充满了动荡与伤痛,但同时也有爱在旧金山流淌。这些几乎没人知道。《Season of the Witch》是一本很棒的书,一些离开旧金山的朋友也向我推荐过,我也曾住在那里,但并没有真正理解这些背景,而这一切又是如此近代的历史。
Fridman:好的,我们聊了很多东西,也确实谈到去年那些令人兴奋的事情。但今年你们提到的一件令人振奋的事是文本diffusion模型的规模化,以及对文本diffusion的不同探索。你能谈谈这是什么,以及它可能带来的潜力吗?所以,这些方法和现有的LLMs相比,是不同类型的做法吗?
Sebastian:是的,我们聊了很多关于Transformer架构,尤其是自回归Transformer架构,比如GPT。但这并不意味着没有其他人在做不同的工作。人们总是在寻找下一个重大突破,因为如果不这么做,几乎可以说是愚蠢的。因为目前Transformer架构是主流,它表现最好,而且目前没有其他竞争方案。但你知道,把所有鸡蛋放在一个篮子里总不是个好主意。所以,人们在开发自回归Transformer的替代方案。其中之一就是,比如说,文本diffusion模型。
听众们可能从图像生成中了解过diffusion模型,比如Stable Diffusion就让它流行开来。之前有一篇关于生成图像的论文。当时人们用的是GANs(生成对抗网络)。然后出现了diffusion过程,通过迭代去噪图像,随着时间推移,这种方法产生了非常高质量的图像。Stable Diffusion是一家公司。其他公司也建立了自己的diffusion模型。然后人们开始思考:“好吧,我们能不能把它也用在文本上?”这在直觉上还不太容易理解,因为文本不像像素那样连续、可微分,而是离散的。那么我们该如何实现这种去噪过程呢?
但是,它有点类似于Google的BERT模型。回到最初的Transformer架构,它包括encoder和decoder。我们现在在GPT等模型中使用的是decoder,而encoder更像是一种并行技术,你可以同时填充多个token,所以GPT模型是自回归的,一次生成一个token,一次生成一句话中的一个token。而在BERT模型中,有一个带空缺的句子文本,将这些空缺mask掉,然后进行的一次迭代就是去填充这些空缺。
而文本diffusion有点类似,你从一些随机文本开始,然后迭代地填充缺失部分或不断优化它们,你会进行多次迭代。有趣的是,这种方法可以同时处理多个token,因此,它有潜力实现更高效的生成。当然,权衡点在于质量到底有多高。文本diffusion可能会更快,但现在又引入了去噪过程的维度——迭代的步骤越多,生成的文本质量越好。人们可以从不同方式进行扩展,尝试看看它是否可能成为自回归模型的有效替代方案,以更少的计算量获得相同的质量。
目前来看,有些论文表明,如果想获得同样的质量,你必须增加去噪的步骤,这样最终消耗的计算量可能和自回归模型差不多。另一个缺点是,虽然这种方法是并行的,听起来很有吸引力,但有些任务本身并不适合并行处理。比如说,像推理任务、tool use,或者需要调用代码解释器得到中间结果的情况,用diffusion模型处理会比较棘手。所以现在也有一些混合方法。但核心思想是,如何实现并行化。这是一个有趣的研究方向。目前来看,相关的模型大多还是研究型的,比如LaMDA以及其他一些模型。
我看到一些初创公司有部署模型。但目前还没有大规模的diffusion模型,比如达到Gemini、ChatGPT那种规模的。不过Google或者某个网站曾宣布推出Gemini Diffusion,并把它放在他们的Nano2模型的语境下,然后基本上说,在大多数基准测试上可以达到相同质量的情况下,生成速度会更快。所以,你提到了下一步。我不认为文本diffusion模型会取代自回归LLM,但它可能会用于快速、低成本的大规模任务。也许未来的免费服务层就会是这种类型。
Nathan:我听说它实际上已经开始被使用。举个例子来说明为什么它更好,比如当GPT-5响应需要30分钟时,它是一次生成一个token的。而这个diffusion的想法本质上是一次性生成所有的completion,也就是一次生成所有token,这也是它可能快得多的原因。
我听说的这些初创公司,大多是code类型的创业,你有一个代码库,然后有人基本上是在vibe coding,然后说:“改成这样。”而生成的code diff本质上就是模型给出的一个很长的回复,但不需要太多外部上下文,而且用这些diffusion模型可以非常快地得到结果。我听说的一个例子是,他们用文本diffusion来生成很长的diffs,因为用自回归模型做的话需要几分钟,而对于面向用户的产品来说,这段时间会导致大量用户流失,也就是每一秒都可能损失很多用户。
所以这将会是那种情况——它会增长并产生一些应用,但我原本以为不同类型的模型会更快地被用于不同的场景,所以我有点折衷。阻碍它们成为真正通用工具的原因就在于tool use。比如CloudCode和ChatGPT,它们可以在自回归链中调用一些外部工具,但我不清楚如何在diffusion模型的设置下实现这一点
Fridman:那么,今年以及未来几年,tool use的发展前景会是怎样?在这方面会有很多进展吗,以及它会如何与整个技术栈整合?
Sebastian:我确实觉得,目前这主要还是集中在专有LLM这一边,但我们会在开源工具中看到更多这样的应用。这实际上是一个巨大的解锁,因为这样你就可以真正把某些任务外包出去,从单纯的记忆转向更加务实——比如不用让LLM记住23+5等于多少,直接用计算器就行。
Fridman:那您认为这能在一定程度上解决虚假信息生成的问题吗?
Sebastian:不能完全解决,但可以减少。LLM仍然需要知道什么时候该调用工具。其次,这并不意味着互联网总是正确的。你可以进行网络搜索,但比方说我问谁赢得了1998年的世界杯,它仍然需要找到正确的网站并获取正确的信息。所以你仍然可能访问错误的网站并给出错误的信息。这并不能完全解决问题,但在这方面确实有所改进。今年早些时候有一篇很有意思的论文,我记得是12月31日发表的,所以严格来说不算2026年,关于recursive language models的那篇。
这是一个很酷的想法,把这个方向进一步推进了一步。顺便解释一下,Nathan,你之前也提到过,在学术界做很酷的研究更困难,因为计算资源预算有限。如果我没记错的话,他们所有实验都是用GPT-5做的,甚至都没用本地模型。这个想法是,假设你有一个非上下文任务,不是让LLM一次性解决全部,甚至不是用一个chain去解决,而是把它拆分成子任务。让LLM决定什么时候、哪个是合适的子任务,然后递归地调用LLM去解决它。
类似的做法,再加上工具的使用,比如你有一个巨大的Q&A任务,每个子任务去网上搜集信息,然后最后再把它们汇总、拼接在一起……用这种方式会有很多解锁空间——不是为了提升LLM本身,而是提升LLM的使用方式,以及LLM能够利用的资源。目前tool use的一个缺点是,你必须给予LLM使用工具的权限。这需要一定的信任,尤其是如果你想让LLM帮你处理邮件,甚至不是直接回复,而只是帮你分类、筛选或者做一些选择之类的事情。但我现在可能不会把邮件权限交给LLM。这是一个巨大的风险。
Nathan:在tool use上还有一个很有意思的点。你之前也提到过,我们各自也以自己的方式谈到过:开源模型和封闭模型使用工具的方式非常不同。对于开源模型,人们会去HuggingFace下载模型,然后就会有人想,“我想用哪个工具?”我不知道,Xa是我偏好的搜索提供商,但别人可能更在意另一家搜索创业公司。当你发布一个模型时,它需要对多种工具、多种使用场景都有用,这其实非常困难,因为你是在做一个通用的推理引擎模型,而这正是GPT-OSS擅长的地方。
但在闭源模型上,你可以将特定工具深度整合到使用体验中,而开放模型在复制我喜欢在闭源模型上做的一些事情时可能会遇到困难,比如——我也说不清——你可以引用公共信息和私人信息的混合。还有一件我每隔三到六个月就会尝试的事,我会在网页上试用Codex,本质上就是让模型对我在GitHub上的某个仓库进行更新的提示操作。
这类安全的云环境实在太方便了,你可以直接发送任务,让它去执行,然后再回来拿结果。这些环境可能会帮助定义一些本地的开放和封闭模型的细分领域。但一开始,由于大家都急着让tool use能够工作,开放模型处于下风,这也算是不可避免的。这些前沿实验室有非常多的研究和资源,但当开放模型也能解决这个问题时会很有趣,因为这会催生出更加灵活、可能更有趣的模型,能够结合recursive的思路,同时扮演协调者和tool use模型的角色。希望这种需求能推动一些有意思的创新。
Fridman:continual learning是一个由来已久的话题,也是一个非常重要的问题。随着模型训练成本越来越高,这个问题的重要性也在不断上升。那么,能不能解释一下什么是continual learning,以及在今年以及未来几年里,在这一方向上取得进展,可能会有多大的意义?
这和最近那种科幻式的时代思潮关系很大:什么是AGI?什么又是ASI,Artificial Super intelligence?以及我们今天拥有的这些LLMs,到底已经能做到什么程度?LLMs现在已经可以解决很多任务了,但在AI社区里,一个关键的里程碑,其实是当AI能够取代任何远程工作者——能够接收信息、完成数字化任务,并把这些事情真正做完。
还有一个老生常谈的限制是:LLM并不会像员工那样,从反馈中学习。如果你雇了一个编辑,这个编辑可能会犯错,但你会指出来;而如果是一个好的编辑,下次就不会再犯同样的错误了。但LLMs目前还不具备这种快速自我调整、快速学习的能力,所以核心问题在于,如果真的要走向一种真正的、具备通用适应能力的智能,能够进入任何远程工作场景,它就必须能够从反馈中快速学习,具备在职学习的能力。
就我个人而言,我对LLMs的前景相对更乐观一些,只要能为它们提供非常好的上下文信息。你之前在私下聊天的时候也提到过,说其实可以给模型写非常完整、很长的说明文档,比如直接告诉它:“我把所有相关信息都给你了,这里是我写过的全部博客,我喜欢这种写作方式,我的风格大概是这样的。”
但现实是,很多人并不会把这些东西提供给模型,而且在更早的时候,模型本身也并不是被设计来接收这么大量的上下文信息的。
比如说,现在agentic models才刚刚起步,所以这是一个权衡:我们是否需要通过continual learning来更新模型的权重,让它们学习更快?或者相反的观点是,我们只需要为它们提供更多的上下文和信息,它们就能通过拥有大量上下文和足够智能的方式,看起来像是在快速学习。这里需要提一下相关术语。continual learning指的是持续地改变模型的权重,让模型能够根据新的输入信息进行适应和调整,做到持续、快速、频繁地学习。而你提到的另一种情况,通常被称为in-context learning。在这种方式下,模型通过一个很大的文本窗口来“学习”东西,每次你prompt系统时,都可以不断加载额外的信息。这两种方式,都可以合理地被看作是一种学习。
Fridman:只是学习发生的地方不一样而已。
Sebastian:continual learning,也就是权重的更新,我们其实已经有不同形式的实现了。这里的关键区别在于,你是针对每个人做一个personalized custom模型,还是在global模型的层面上去做呢?我们在从GPT-5到5.1、5.2的升级中,其实已经有这种做法了。可能不是即时更新,但可以看作是一种经过策划的快速更新:根据模型在一些任务上做不到的地方,以及社区的反馈,更新了权重,然后生成下一个版本的模型等等。所以可以说,这也是continual learning的一种变体。更精细的例子,比如RLHF,你运行它,它就会进行更新。
问题是,你不可能为每个人都这样做,因为为每个人更新weights会太昂贵。这就是核心问题。就算是在OpenAI这样的规模,建数据中心来支持,也会太花成本。这只有在模型跑在设备端、成本由用户承担时才可行。就像Apple在Apple Foundation模型上尝试的那样,把模型放到手机里,然后它们可以从使用过程中学习。
Fridman:有点相关的话题,不过这可能是个带有人格化倾向的说法——就是memory。那么,目前大家对给这些系统增加memory的机制有哪些不同的想法?尤其是关于personalized memory的做法?
Sebastian:目前来说,主要还是把信息塞进上下文信息里,然后再去调用这些信息。但这也挺昂贵的,因为你必须……可以缓存,但还是要花费tokens。其次,这种方式能做的事情有限,更偏向于偏好或者风格方面。很多人在做数学题时也会用类似的方法。你可以通过这种方式加入之前的知识,也可以给模型设置一些偏好,比如上次我喜欢的做法,让它按照那种方式执行之类的。但这并不会解锁新的能力。为此,人们仍然会使用LoRA或LoRAadapters。
基本上,LoRA并不是去更新整个weight matrix,而是有两组更小的weight matrices,作为并行或叠加的delta来使用。你可以在一定程度上这样做,但归根结底还是经济问题。比如有些论文提到,LoRA学得少,但忘得也少——也就是没有免费的午餐。如果想学得更多,就需要用更多weights,但成本也会更高。而且,如果学得更多,也会忘得更多,所以基本上需要找到那个“Goldilocks Zone”,刚刚好的平衡点。
Fridman:我们虽然没怎么提,但在这次讨论里隐含的一个问题是上下文长度。在这方面,有很多可能的创新吗?
Nathan:通俗来说,这是一个算力和数据问题,有时候还会涉及一些小的架构调整,比如注意力的变体。比如我们之前谈过的混合注意力模型,本质上就是在Transformer中加入了类似状态空间模型的结构。这类模型更高效,因为建模最远的token所需的算力更少。但这并非毫无成本,因为仍然需要大量算力或者合适的数据。全世界有多少长度达到10万token的序列?这些数据从哪里获取?所以要把这种模型做大规模,成本是相当高的。
我们现在已经很快达到了大约一百万tokens的输入上下文长度。我预计这个数字还会继续增加,今年可能达到两百万或五百万左右,但我不认为会达到一亿tokens。那将是真正的突破,这种突破是有可能实现的。continual learning更像是一个研究问题,有可能出现突破,让Transformers在这方面表现得更好,而且成本低。这种事情在得到足够多的科学关注下完全可能发生。但如果按常规推进,它更多是随着时间逐步、稳定地提升。
Sebastian:再看极端情况,其实没有免费的午餐。一个极端是为了降低成本,比如一个RNN,它只有一个状态,把之前所有的信息都保存在里面。这是一个固定大小的状态,所以你永远无法真正扩展记忆——因为你把所有东西都塞进一个状态里,随着上下文变长,会丢失越来越多信息,因为你无法把所有内容都压缩进一个状态。另一方面是Transformers,它们试图记住每一个token,有时这很好,比如你想查特定信息,但成本很高,因为KVcache会增长,点积计算也会随之增加。
但是,就像你说的Mamba layers,它们也有类似的问题。像RNN那样,你试图把所有信息压缩到一个状态里,会更有选择性一些。但这又回到了Goldilocks Zone的概念,在Nimotron3中,他们找到了一种比较合适的比例:需要多少注意力层来处理全局信息,让一切都可访问,同时又有压缩状态。模型的规模提升会更多依赖于找到这种“Goldilocks Zone”的最佳比例——既能让计算成本足够低以便运行,又能让模型足够强大,发挥作用。
这里再提一下recursive language model这篇论文,它是尝试解决长上下文问题的研究之一。他们的发现基本上是,与其把所有内容都塞进一个超长上下文,不如把任务拆分成多个较小的子任务。通过多个小片段来保存记忆,反而比让LLM一次性处理所有信息能得到更高的准确率。这是一种新的范式,我们拭目以待,可能还会有其他变体。在这方面,我们仍然能在非上下文处理上取得改进,但正如Nathan所说,对于pre-training来说,我们并没有那么多长上下文的文档可用,相比之下其他文档更多。
Nathan:有一些经验法则,比如在pre-train一个语言模型时,比如OLMo,我们在8K上下文长度下进行预训练,然后通过训练扩展到32K。有一些经验法则是,大致上把训练上下文长度翻倍,需要约2倍的算力,之后通常可以再把上下文长度增加2到4倍。所以很多时候,pre-training的瓶颈还是算力。正如我们之前谈过的,今年顶尖实验室的算力用量大幅增加,这也应该反映在更长的上下文窗口上。
但在post-training方面,有一些更有趣的东西。随着我们有了agent,这些agent会自己管理上下文。而现在,经常使用CloudCode的人最头疼的就是compaction,也就是Cloud会把完整的10万token的工作压缩成一个项目符号列表。但我相信下一代模型会做得更好。虽然这并不新颖,肯定有人已经在研究。基本上模型可以自己决定什么时候压缩,以及如何压缩。
也就是它会缩短历史记录,而问题的设定可能是:“我希望在模型压缩历史到最短长度的同时,保留我得到的最大评估分数。”这样就只保留执行这种复合auto-regressive预测所需的最少token。实际上这是一个非常有趣的问题设定,这些agentic models学会以不同的方式使用上下文,而不仅仅是盲目向前推进。
Sebastian:嗯,一个有趣的近期例子是DeepSeek3.2,它用了sparse attention机制,本质上是一个非常高效、轻量的小型indexer。它不会关注所有token,而是挑选出“我真正需要哪些token?”这几乎回到了attention的原始理念——有选择性。传统attention总是开启的,虽然对某些token权重可能为零,但仍会用到所有token。而DeepSeek更进一步,“好吧,那些不需要的直接屏蔽掉,甚至根本不处理。”即使是sliding window attention,比如OLMo,也是类似思路:有一个滚动窗口,把它固定住,因为你不需要每次都处理所有内容。
偶尔某些层级可能会用到,但这其实很浪费。不过目前,如果你用到所有内容,至少是最安全的做法,性价比最高,因为不会错过任何信息。今年也会更多是像你说的那样,探索如何更聪明地使用这些内容。
Nathan:是啊,这些都是关于scaling的事情。比如我们先得到Cloud4.5 Sonnet模型的原因,是因为它可以更快训练,而且不会那么快就碰到算力瓶颈。他们可以尝试更多方法,更快拿到模型,尽管更大的模型其实性能更好。
硅谷生态与具身智能:技术热情与现实约束
Sebastian:目前AI领域有很多令人兴奋的进展,最近我主要关注的是机器人技术,今天我们几乎没有谈到。现在有很多关于图片生成、视频生成的工作。可以公平地说,就研究数量、强度和热情而言,最令人兴奋的工作还是在LLM领域,这也是我们集中讨论LLM是合理的原因。不过如果能引入一些可能有用的东西会更好。比如world models,对此的关注越来越高。你觉得在接下来的一年里,world models在LLM领域会有用吗?是的,我确实认为。对于LLMs来说,一个有趣的地方是,如果我们解锁了更多LLM的能力,也会自动加速其他领域的进展——不是完全解锁,而是让进展更快。
因为很多研究人员和工程师会像我们说的那样用LLMs来写代码。所以即便他们在做机器人技术,如果优化这些能帮你写代码的LLMs,也会有很大收益。不过,world models确实很有趣。基本上,它就是让模型在某种意义上运行一个世界的模拟,就像真实世界的一个小玩具版本,这样可以——再次强调——解锁模型原本不知道的数据和能力。它可以模拟各种情况。这里有一点,LLMs恰好通过pre-training进行nexttokenprediction就能很好地工作,但我们其实可以在某种意义上做得更复杂一些。
有一篇我记得是Meta的论文,叫Codaworld models。他们基本上是把world models的概念再次应用到LLMs上。与其仅仅做下一个token预测并通过可验证的奖励检查答案正确性,他们还确保中间变量也是正确的。可以这样理解,模型基本上在学习一个代码环境。这很有道理,只是成本很高,但它让模型更复杂——不仅仅是预测结果,而是对整个过程进行建模。因此,它能够带来更多价值。
我记得读研究生的时候,有一个叫CASP的比赛是做protein structure prediction的。比如,他们预测那些当时还没有解出的蛋白质结构。从某种意义上说,这非常棒,LLMs也需要类似的东西——进行基准测试,但没有人知道答案;提交结果,然后事后有人揭示正确答案。AlphaFold出来的时候,直接把这个基准打爆了。虽然后来也有多个迭代,但我记得最初的那个。我不是这方面的专家,但最初的模型明确地对分子的物理相互作用进行了建模——就是分子的物理规律。
还有,比如不可能的角度。在下一版本中,我记得他们去掉了这些,直接通过粗暴的方式扩大规模。LLMs目前也是这种粗暴扩展,因为恰好这样有效。但我也认为,在某个阶段,重新引入这种方法可能会有意义。world models在这方面可能真的很有趣。当然,对机器人技术来说,这又是完全不同于LLMs的领域。
Fridman:而机器人学习是非常明确的领域,比如locomotion或者manipulation这些问题。Locomotion在学习领域已经相对成熟了。但就像最初的蛋白质折叠系统一样,将传统的基于模型的方法引入仍然有很大价值。
所以你不太可能仅靠端到端的方式,就学会manipulation,或者整个身体层面的局部操作问题。那当然是理想状态。但当你真正去看人类双手的神奇之处时——以及真实世界的复杂性,你就会意识到,要把这一切完全学出来,其实非常困难。就像AlphaFold2并没有那样做一样。
Nathan:我对机器学习领域非常兴奋。它整体上正在被LMs带来的热情和投资彻底“加速”。现在,用于训练Transformers的基础设施——这种通用的建模工具——正在变成世界级的工业化工具。过去机器学习中存在的各种限制,现在都变得好了很多。现在有了更多的算力。在此基础上,他们把这些LLMs当作一种中心单元,在一个已经基本可用的系统之上,去做各种有探索性的工作。
我也看到它正在演变成一种形态,有点像我们之前提到的HuggingFace Transformers和HuggingFace那样。我当年在HuggingFace的时候,其实是想推动这件事情发生的,但当时还太早了。比如把这些开放的LMs放到HuggingFace上,让大家能够贡献数据、对模型进行fine-tune。而现在我们已经离这个目标近得多了,尤其是在机器人方面的投入增加之后。
我也认为自动驾驶和这件事是相关的,它们在推动这种可能性。等到你真正走到那个阶段——有人可以下载一个机器人模型,根据自己的机器人进行fine-tune,或者在全球范围内共享数据集——那样的生态系统就真的成立了。在这方面也有一些数据相关的工作,比如RTX,我记得几年前就有人开始做这些尝试。但一旦真正形成了这个生态系统,它的面貌会完全不同。而且整个post-ChatGPT热潮正在为这个领域投入更多资源,这是一个非常适合开展研究的方向。
Fridman:这也导致了更好、更准确、更逼真的simulators被构建出来,从而缩小了领域的现实差距。不过,你提到这方面的热情和投资很多。我个人认为,这也是hypecycle的一个负面影响,大多数机器人行业的从业者也这么认为——它并不会在被隐性或显性承诺的时间尺度上被解决。所以当出现大量机器人公司冒出来,却没有一个可用的产品时,就会出现这种热情的崩塌,这会让人非常紧张。
Fridman:希望会有其他力量不断介入,这样这些想法的持续发展才能继续下去。
Sebastian:这也跟continual learning有关系,本质上现实世界太复杂了。对于LLMs来说,你不必专门为用户去训练模型,因为有很多事情大家都会做——比如可能都想改改邮件或代码里的语法,这类任务比较受限,所以可以提前为模型做准备。但让机器人适应现实世界就难多了。虽然有robotic foundation models,可以学一些基础技能,比如抓取物体,但每个人的家都不一样,这就增加了难度。情况差异太大,这就是机器人必须在实际操作中学习的地方。我想这大概也是目前的瓶颈——如何实现即时定制,基本上就是在运行中进行调整。
Fridman:我无法夸大这一点的重要性,但几乎没有相关从业者或者其他人提到过,那就是安全性。我们讨论的所有有趣的学习复杂性、各种失败模式和失败案例,所有这些在LLM中,有时候模型会以有趣的方式出错。这些在LLM领域里都只是玩得开心而已。
在机器人相关领域,在人们的家中,经过数百万分钟、数十亿次交互,你几乎不允许失败。当你把具身系统部署到真实世界中时,你必须解决很多问题——这些问题在只考虑一般机器人学习问题时,你甚至没想过会遇到。
Nathan:我对家庭用学习型机器人持非常悲观的态度。但我对自动驾驶汽车非常看好,也对机器人自动化持乐观态度,比如Amazon的配送系统——亚马逊建造的全新配送中心是以机器人为主设计的,而不是以人为主。在AI领域,大家对AI推动自动化感到非常兴奋,以及大规模制造。我确实认为,让机器人做这些事情的路径更为可行,因为这是专门设计和优化来完成重复性任务的系统——这些任务人类理论上可以做,但实际上并不想做。我对这方面非常非常看好,但这可能比大家预期的要花更长时间。从AI单一性到“我们现在可以在美国大规模扩展制造,因为我们拥有巨大的AI优势”之间的跳跃,会受到许多政治和其他复杂问题的制约。
原文:State of AI in 2026:LLMs,Coding,Scaling Laws,China,Agents,GPUs,AGI|Lex Fridman Podcast