红杉对话PI：硬件瓶颈只是借口，传统架构更是死胡同，端到端VLA 才是具身智能的真神-虎嗅网

本文来自微信公众号： Z Finance ，编译：LingyunXu，作者：ZF编辑部，原文标题：《深度｜红杉对话PI：硬件瓶颈只是借口，传统架构更是死胡同，端到端 VLA 才是具身智能的真神》

在机器人领域，实验室的精选视频与现实应用的笨拙表现之间一直存在巨大鸿沟。长期以来，行业习惯于将失败归咎于硬件，但Physical Intelligence(PI)团队却提出了一个极具挑战性的观点：智能，才是机器人普及的唯一瓶颈。

2026年初，PI团队发布了通用机器人模型π*0.6。本期对话邀请到了公司核心成员Karol Hausman与Tobi Springenberg，深入探讨他们如何通过端到端学习与真实世界强化学习，试图打破机器人学的旧范式。

访谈中，两位专家针对行业痛点提出了三项核心主张：

模块化是进步的枷锁：过去几十年将机器人拆解为感知、规划、控制的“分治法”从底层就错了。这种架构导致模块间的信息流失严重，而端到端的视觉语言动作模型才是通往真智能的唯一路径。
告别仿真环境的温室陷阱：当同行还在模拟器里跑数据时，PI坚持真实世界强化学习。他们认为模拟器永远无法复现纸板粘连或咖啡粉受潮这种长尾故障，只有让机器人在现实中疯狂“交学费”，才能练出真正的可靠性。
硬件早已不是借口：PI团队认为，十年前的机器人硬件就足以打扫房间。研发重心应从堆硬件转向磨智能。一旦智能瓶颈突破，现有的简单夹具也能完成切菜、烹饪等复杂家务。
部署即数据，数据即一切：由于互联网缺乏现成的机器人动作数据，PI的策略是直接部署：通过机器人实地工作收集海量真实经验，形成“部署→数据→优化→更广部署”的正向循环，最终构建出能跨领域泛化的“物理大模型”。

在Physical Intelligence的愿景中，我们正处于机器人从特定工具向通用物种”转变的前夜。以下访谈实录，带你走进物理智能的最前沿。

物理智能核心使命与技术定位：聚焦机器人基础模型突破

Sonya Huang：在本期节目中，我们邀请到了Physical Intelligence公司的Karol和Tobi。该公司专注于构建机器人基础模型。Karol和Tobi将解释，为何传统上将机器人技术拆解为感知、规划和控制的方法存在根本性错误，以及基于强化学习的端到端学习如何最终实现技术落地。你将听到他们如何实现机器人在真实场景中的稳定表现——例如让机器人连续13小时制作咖啡，这些模型如何在截然不同的任务中实现泛化（从手术机器人到无人机飞行），而其中的原理我们尚未完全掌握。我们还将探讨π*0.6背后的技术洞察，这是Physical Intelligence最新推出的模型，能够通过强化学习从经验中持续学习。敬请收听。Karol、Tobi，非常感谢你们今天的到来。

Karol Hausman/TobiSpringenberg：感谢邀请。

Sonya Huang：很期待与你们探讨物理智能、通用机器人等相关话题。在深入交流前，能否先向观众简要介绍一下物理智能的定义以及你们追求的使命？

Karol Hausman：好的。Physical Intelligence的核心是构建机器人基础模型。理论上，这类模型应能让任何机器人完成任何任务。在过去一年半左右的时间里，我们已搭建起支撑模型规模化应用的核心组件。我们的研究表明，这些模型能够控制多种形态、不同类型的机器人，并且具备泛化能力——可适配全新环境，我们也已明确其泛化所需的条件。

我们刚刚发布的π*0.6版本（后续会详细介绍），其性能已达到可部署水平。这对我们而言意义重大：一方面，我们希望这项技术能真正落地到现实世界；另一方面，由于互联网上缺乏现成的机器人动作数据，我们必须自行构建数据集。因此，我们聚焦于物理智能领域的核心挑战，致力于打造机器人基础模型，并已取得显著进展。

Sonya Huang：非常出色。我想追问一下，为何选择构建基础模型，而非像其他公司那样打造全垂直整合的机器人产品？比如我记得上个月的周日午餐话题——现在已有可购买的家用小型辅助机器人，还有公司在研发烹饪机器人，人形机器人领域也有不少参与者。你们为何选择专注于基础模型，而非亲自研发机器人？

Karol Hausman：回顾机器人技术的发展历程，我和许多机器人专家都清晰地认识到，智能始终是行业的瓶颈。无论是家用还是工业场景，机器人硬件早已具备完成复杂任务的能力。十多年前就有机器人在远程操控下完成全屋清洁的案例——关键在于远程操控：只要有人类智能介入，就能证明硬件具备多样化任务执行潜力。长期以来，多数机器人公司都采用你提到的模式：设计针对单一任务或应用场景的专用机器人。

但我们认为，推动行业发展的关键是突破智能瓶颈。因此，我们成立公司专注于解决这一核心问题——只有突破智能限制，才能真正实现机器人技术的普及。若选择其他路径，很难在智能领域取得实质性进展。我们希望直面这一挑战，聚焦智能技术研发，未来有望催生出各类垂直领域产品，让机器人走进家庭、工业等更多场景。

Sonya Huang：我想进一步探讨这个问题。硬件方面，我看到了最新的Optimus机械臂视频，设计堪称精湛，宛如艺术品。虽然我没见过十年前远程操控机器人清洁房屋的视频，但很好奇是否存在一些如今才刚具备实现条件的任务？例如烹饪，或是剥洋葱、切洋葱这类过去硬件无法完成的操作。你认为当前硬件水平对技术落地的推动作用有多大？

Karol Hausman：硬件领域确实取得了长足进步，尤其是人形机器人硬件，比如你提到的灵巧手，现在的性能比几年前提升了很多。但这并未解决核心瓶颈。即便使用简单的夹具，机器人理论上早就能完成切菜、烹饪等任务，问题的关键在于缺乏操控这些硬件的智能。而且硬件越复杂，反而越无法规避这一瓶颈——它或许能拓展任务边界，但机器人智能不足的根本问题仍未解决。

Sonya Huang：明白了。也就是说，硬件可能提升了任务执行的上限，但我们目前还未达到基础能力的下限。

Karol Hausman：没错。即便是简单的机器人，其性能也尚未达到人类操作者的水平。

机器人技术发展演进：从拆解式架构到端到端学习革新

Alfred Lin：既然限制在于智能层面，那么研发智能的瓶颈又是什么？是数据收集吗？还是低成本数据获取？我们会不断追问，深入核心。所以，解决智能问题的下一层瓶颈是什么？是泛化能力吗？

Karol Hausman：这是个好问题。我们将其归结为三个关键因素：能力、泛化性和性能。关于能力，我们的目标是：只要能为某项任务或某类机器人收集数据，模型就能复现并自动化该任务。这一点我们已快速实现——大约一年前发布的π0版本就证明了其可行性：任何任务、任何机器人，只要有数据支持，模型就能学习并自动化执行。下一个挑战是泛化性，这仍是未完全解决的难题。我们希望机器人能实现零样本学习，例如将其带入全新的家庭环境，它就能自主适应并开展工作。这难度极大——新环境中，物品摆放、台面布局、光线条件都与训练数据存在差异。虽然这一问题尚未完全解决，但我们已摸索出可行的解决思路和规模化路径。

机器学习中，泛化能力的核心在于数据多样性——接触足够多的多样化数据，模型就能适配相似的新场景。今年4月发布的π*0.6版本已实现这一突破：机器人能够在从未去过的家庭环境中运行，虽未臻完美，但已具备完成厨房清洁等简单任务的常识。最后一个尚未完全解决的挑战是性能：如何让模型性能达到可部署标准？部署至关重要，正如我之前提到的，我们需要通过部署收集数据。这是最具规模化的数据收集方式——让机器人在现实世界中执行具有经济价值的任务，数据收集成本几乎为负。技术部署范围越广，获取的数据就越多，最终可能成为比互联网数据更庞大的数据源。

Alfred Lin：你认为我们距离实现泛化能力，或是达到可部署的性能水平还有多远？这里的场景可以是受控环境，也可以是家庭、办公室等通用场景，不一定是整个世界。若限定场景，泛化能力和性能需要达到什么程度，这类机器人才能实现部署？

Karol Hausman：实际上，我们已非常接近部署阶段，并且已经开始自主部署。原本预计需要五年时间才能让技术达到商业部署标准，具备实际应用价值，但我们在两个月前就已实现这一目标。目前，模型的实用性、性能和任务覆盖范围都已达到临界点，这是一个非常令人兴奋的时刻。

不过，部署场景的广度仍有待观察。有些任务的失败代价极高，目前并非最佳部署选择；还有些任务对泛化能力要求极高，如家庭场景部署；或涉及隐私、安全问题，这些场景可能也暂不适合部署。但可以肯定的是，部署范围正在不断扩大。随着数据积累和模型优化，我们将能把机器人部署到更多场景中，现在正处于这一进程的起步阶段。

Alfred Lin：目前你们的部署场景主要集中在哪些领域？

Karol Hausman：这是个很难准确回答的问题。对于这些基础模型，其能力边界往往超出我们的预期，类似大型语言模型的发展——内部训练优化后，最终的模型效果难以预测，必须通过实际测试验证。因此，我们选择开源模型，避免仅依靠内部团队测试导致的认知局限。通过开源，我们发现模型的应用场景远超想象，涵盖驾驶、手术机器人、农业等多个领域。所以，我无法准确界定当前的部署范围，但可以确定它比我们预期的更广泛，且会随着时间推移持续扩大。模型获取的数据越多、越成熟，部署场景就会越丰富。

Tobi Springenberg：我想补充一下性能层面的观点。如你所说，模型的应用起点比我们预想的更广泛。但同时，要让每个应用场景都达到商业级日常使用标准——例如作为核心业务支撑，性能方面仍有很长的路要走。

即将详细介绍的π*0.6版本，在利用经验数据学习方面取得了突破——模型部署后，能通过数据反馈持续优化。但坦率地说，许多场景中仍存在大量长尾问题和潜在故障点，我们尚未完全掌握解决方案。

核心技术架构解析：VLM基础与动作模块的融合设计

Sonya Huang：你们一直非常透明地公开研究成果，并选择开源。如果方便的话，能否介绍一下你们的整体技术架构？你认为通往终极目标的架构是否已基本定型，未来只需在现有基础上微调并积累大量数据？还是说，架构仍处于探索阶段？

Tobi Springenberg：我们可以先谈谈当前的架构，再探讨其未来可能的变化。目前，我们的架构与大家日常接触的VLM非常相似——输入文字和图像，模型就能完成图像内容识别等任务。我们以同样的思路为基础：模型先在互联网规模的数据上进行预训练，吸收图像和文本信息，再融入大量机器人数据。目前，训练数据以我们自行收集的机器人数据为主，仅包含少量互联网数据。整体架构基于视觉语言模型，同时增加了动作模型（或称动作专家）模块，这部分负责驱动机器人——接收图像输入和任务指令后，生成并向机器人发送动作指令。

从技术层面看，这是一个参数规模达十亿级别的Transformer模型，通过机器人数据和互联网数据进行预训练，初始训练主要基于人类演示数据（Karol之前也提到过）——即人类远程操控机器人执行任务的相关数据。目前，模型的性能提升主要依赖数据规模的扩大，技术架构与VLM领域的主流方案类似。至于未来的变化，这仍是一个开放性问题。我们正在探索为模型增加更多能力，例如拓展上下文理解范围、支持更多摄像头输入、提升对物理世界的认知——如识别房间内的物品、判断物品是否易碎、是否便于移动等。

因此，无论是能力拓展还是架构调整，都仍有很大的优化空间。我预计，五六年后回顾现在，当前基于VLM的模型基础架构可能会发生变化，我们或许会采用全新的技术方案。但核心的数据理念和输入方式，大概率会保持不变。

Sonya Huang：明白了。是否可以理解为，模型的输入是像素或信号，输出是动作？这是否属于一个大型神经网络？

Tobi Springenberg：没错，是一个大型模型。目前本质上就是图像输入、文本输入，然后输出文本和动作。

Sonya Huang：你们是否将移动和操作模块分开设计？或许现在可以聊聊机器人技术的历史演进，以及不同学习浪潮与你们技术架构的关联。

Karol Hausman：好的。在机器学习广泛应用之前，人们普遍认为，只要投入足够的人力和工程师，深入研究就能编写代码，让机器人完成世界上任何任务。人们曾为此付出巨大努力，但最终发现，现实世界的复杂性远超想象——无法为所有可能出现的场景编写规则。同时，在尝试解决这一问题的过程中，人们习惯性地将机器人技术拆解为多个子问题：感知、控制、规划。这甚至催生了不同的学术社群，每个社群都有自己的会议和研究重点。后来，人们意识到无法通过手写规则覆盖所有场景，于是转向数据驱动的学习方法——这与人类的学习方式相似，本是个不错的思路。但实际操作中，人们仍延续了子问题拆解的模式，分别对感知层、控制层、规划层进行独立的机器学习训练。这种方式确实取得了一定进展，效果优于传统方法，但最终证明，子问题拆解的思路本身存在缺陷。例如，当我试图拿起这杯水时，不会刻意区分感知、规划、控制等步骤，而是自然地完成动作。

传统的流水线式架构——感知模块输出物体位置，规划模块生成轨迹，控制模块执行动作中，各模块间的接口设计是失败的关键。我们原本对机器人工作原理的认知，从根本上就是错误的。于是，我们进入了下一个发展阶段：意识到子问题拆解可能从一开始就是错误的，转而采用端到端训练模式——将传感器输入直接作为网络输入，动作作为输出。我们称之为端到端方法，即从像素直接映射到动作，让网络或学习算法自行决定是否需要拆分模块，如果可行的话。

但在实践中，我们发现这种方法需要海量数据，且在需要常识判断的场景中容易失效——通过第一人称动作数据集积累常识极其困难，因为需要覆盖世界上所有可能的场景。就在这时，我们发现了视觉语言动作模型：利用在互联网数据上预训练的模型，即已具备一定的世界认知的，在其基础上添加动作模块，将通用世界知识与物理世界的任务执行能力相结合。这大致就是我们当前的技术路线。

在Physical Intelligence，我们还解决了其他关键问题：如何实现模型规模化？如何提升泛化能力？如何优化性能和运行速度？如何推进部署落地？但总体而言，我们仍处于利用互联网预训练模型的常识知识，构建适用于各类机器人、具备通用动作执行能力的阶段。

Sonya Huang：关于推理能力——大型语言模型在推理领域取得了诸多突破。你们的VLA基础架构是否能受益于这些进展？端到端训练过程中，推理能力是否会自然涌现？或者说，大型语言模型领域的进展对你们是否有帮助？

Tobi Springenberg：目前我们的模型已经具备一定的动作规划能力，不仅能预测即时动作，还能规划后续约50个时间步的动作（约1-2秒）。同时，模型已能在语言层面将任务分解为子任务。例如，当指令为清洁厨房时，模型会自动拆解出“移动到台面→拿起杯子→将杯子放入水槽”等子步骤。所以，一定程度的推理能力已经存在，未来还会进一步强化。

我完全预计，强化学习在推理领域的所有进展，最终都会应用到机器人技术中。这一过程很有趣，因为它与人们针对数学问题的强化学习研究有所不同。数学问题对人类而言更像是文本类任务——可以在脑海中通过文本逻辑思考，例如调整公式以得到结果。但对于物理智能而言，推理过程会更复杂。例如，当我最近学习打网球时，不会在脑海中刻意思考拿起球拍→移动到某个位置→做出击球动作，而是专注于动作本身——身体的移动方式，以及对周围物体轨迹的预判。这类推理能力，未来会越来越多地融入到模型中。

Karol Hausman：目前，我们确实从视觉语言模型中获益良多。但这种受益关系未来很可能会逆转。当前大型语言模型的许多缺陷，本质上是由于其聚焦于文本类任务，如数学、编程。而机器人技术将提供一个全新的视角，促使我们重新思考推理的本质——推理可能需要在抽象空间中进行，结合文本、图像、轨迹等多种信息来源得出结论。机器人技术为这种新推理模式提供了绝佳的测试平台：它扎根于物理世界，虽然目前数据有限，面临诸多挑战，但由此产生的新发现，未来很可能反哺大型语言模型领域。

数据与泛化能力：机器人技术落地的关键挑战与突破路径

Alfred Lin：谈到数据，能否介绍一下你们目前已收集的数据规模，以及明年的收集目标？当然，数据越多越好，但具体量级是怎样的？

Karol Hausman：这是一个相当复杂的问题，不能仅以数量衡量。数据质量和多样性同样重要，而机器人数据的质量和多样性目前尚无严格定义。例如，用10种不同方式完成同一任务，这是否属于多样化数据？与10种不同杯子相关的数据相比，哪种多样性更高？

Alfred Lin：确实如此。

Karol Hausman：整个行业目前尚未完全搞清楚如何描述数据的特征、多样性和质量，也缺乏严谨的评估标准。我们还发现，数据的某些特定属性至关重要。例如，要在某项任务上达到特定性能，仅靠增加现有数据的数量是无法实现的。在π*0.6版本的研发过程中，我们针对三个不同任务进行了测试，早期就发现：如果沿用现有数据收集方式持续积累数据，性能会进入平台期，无法进一步提升。因此，我们需要寻找新的数据收集方法，或思考什么样的数据能推动性能提升。而强化学习等技术，正是解决这一问题的关键。

Sonya Huang：我们来谈谈强化学习和π*0.6。这个星号是在致敬π-star吗？

Tobi Springenberg：没错，本质上是这样。我们希望接近最优策略。

Sonya Huang：最优策略。好的，非常好。能否先简要介绍一下π*0.6的核心内容，然后再深入探讨强化学习在你们领域的意义？

Tobi Springenberg：当然可以。与我们之前的模型相比，核心区别在于：在此之前，我们所有的机器人基础模型训练都基于演示数据，即远程操控数据，模型的训练目标本质上是模仿这些数据。而新模型π*0.6采用了基于经验的强化学习：机器人通过运行初始策略——基于演示数据训练的策略——执行任务，自行收集经验数据。在这一过程中，人类会提供奖励信号，也会进行干预修正，例如指出这样做不对，应该换种方式。这些数据会被回收，模型利用这些数据判断哪些行为需要强化（多执行），哪些需要弱化（少执行），从而实现持续自我优化。这就是核心差异。正如Karol之前提到的，这种真实数据的持续输入，是帮助我们突破性能平台期的关键。

Sonya Huang：我理解强化学习就像是在奖励信号的引导下“爬坡”。那么，在针对特定任务“爬坡”时，如何确保模型的泛化能力？

Tobi Springenberg：针对这个问题，我们的思路是：现有通用模型已具备一定性能（虽非最优），初期目标并非进一步泛化，而是先攻克特定任务。我们选择了三四个任务进行部署，模型本身需要具备跨任务泛化能力，但强化学习过程的核心是确保在特定任务上的表现。部署并启动强化学习时，首要目标是精准完成该任务——例如，能从不同位置启动任务，能应对各类长尾故障。从表面上看，专注于单一任务似乎与泛化能力相悖，但本质上，我们采用相同的方法和流程应对每个任务：提升单个任务的性能，收集所有任务的数据并回收，最终实现整体泛化能力的提升。所以，两者并非对立关系。

强化学习的实践探索：真实场景优先与泛化能力的平衡

Sonya Huang：明白了。你们的强化学习是在真实场景中进行的吗？能否谈谈你们在仿真环境和真实环境中强化学习的应用比例？

Tobi Springenberg：我们采取了“真实世界优先”的策略，而非依赖仿真。当然，我们也将仿真作为研究工具进行探索，但π*0.6论文中的所有强化学习实验均在真实系统中完成。原因在于，真实场景中的长尾故障极难通过仿真建模。以我们此次针对的任务为例，很多故障模式在仿真环境中完全无法预见。例如，其中一个任务是组装盒子——这是一个实际部署场景，目标是将纸板组装成巧克力包装盒，以便后续包装和运输。初期，机器人组装效果很好，但当新一批纸板到货后，问题出现了：这些扁平的纸板穿孔不够规整，容易粘连在一起。机器人抓取纸板放置到台面准备组装时，会发现台面上有两个粘连的纸板——这种情况在仿真环境中（假设纸板都是独立的）是不会出现的。而我们的方法能够让机器人学会处理这种问题：识别粘连情况，将两个纸板分开，再继续组装。如果仅在仿真环境中训练，机器人永远无法应对这类真实场景中的突发状况。

Karol Hausman：强化学习在仿真环境中应用于移动领域已取得不少成功，模型迁移到真实场景的效果也不错，但在操作领域尚未见到类似的成功案例。原因在于，移动领域的核心问题是机器人对自身身体的建模——只要能精准建模自身，就能较好地完成移动任务。这种建模在仿真环境中只需进行一次（针对特定机器人），若建模足够精准，就能实现有效迁移。但操作领域的核心并非机器人自身的移动，而是与外部世界的交互——如何通过动作影响物体。例如，将手从A点移动到B点并不难，难的是预判这一动作对所操作物体的影响。此时，问题就从“建模机器人自身”扩展到“建模整个世界”——包括所有可能交互的物体和任务，这在仿真环境中几乎无法实现规模化建模，因此这类方法在操作领域的效果有限。

Sonya Huang：π*0.6的核心成果是什么？经过强化学习后，模型在你们关注的测试任务上表现如何？这对你们未来的训练方案有何启示？

Tobi Springenberg：对我而言，最令人印象深刻的是，这些模型能够连续运行数小时，从各类故障中自主恢复，并持续工作。同时，其运行效率相比初始模型有了大幅提升。核心数据如下：在三个任务（之前提到的组装巧克力盒、用工业级浓缩咖啡机制作咖啡、折叠衣物）中，模型的任务吞吐量提升了两倍多。与仅基于演示数据训练的基础模型相比，新模型不仅运行速度更快，故障恢复能力也显著增强。你可以在我们的官网查看相关视频：机器人连续13小时制作咖啡，或连续4小时折叠衣物。亲眼目睹这些场景，会彻底改变你对模型的认知——它不再是仅能演示一次的“玩具”，而是具备实际部署价值、能持续完成真实任务的技术。

Karol Hausman：这正是机器人技术领域一个鲜为人知的巨大挑战。你能在网上看到很多机器人完成酷炫任务的视频（我们也会发布这类视频），几乎任何你能想到的任务，都能找到对应的机器人演示视频。但这些视频往往是经过多次拍摄、筛选出的完美片段。行业内普遍面临的问题是模型的可靠性、性能、运行速度，以及长时间部署的稳定性。这是机器人技术落地的最大瓶颈——如果模型每两次尝试就失败一次，根本不具备实际部署价值。而π*0.6的最大突破，正是让模型具备了可部署性：我们的办公室里已有机器人为员工制作咖啡，公司员工也能将机器人带回家折叠衣物，还有机器人在真实场景中组装盒子。这真的非常令人兴奋。

Sonya Huang：你们的强化学习是否主要聚焦于提升客户部署场景中的可靠性？例如，确保咖啡制作模型在客户现场能够稳定运行，速度足够快，长时间无故障。这更像是客户部署层面的创新，还是基础能力层面的突破？或者两者兼具？

Tobi Springenberg：两者兼具。正如Karol之前所说，我们理想中的机器人（无论是家用的洗衣、洗碗、烹饪机器人，还是小型企业用于解决特定问题——如组装巧克力盒——的机器人），既需要具备可靠性和高性能，也需要能够应对训练阶段未见过的新任务。仅依靠扩大人类演示数据规模，无法无限提升初始模型的性能和泛化能力——数据收集存在上限。因此，部署是必要的（这也是你提到的客户部署层面的创新），但从长远来看，我预计未来几年，部署过程中收集的数据将成为模型预训练的重要数据源，助力模型持续优化。我们会越来越依赖自主数据收集，构建覆盖各类任务的庞大数据集。从这个角度来说，这也是一种新能力的突破。

Karol Hausman：此前，行业内尚未实现模型从自身经验中学习的规模化应用——虽有诸多尝试，但均未取得足以支撑部署的令人信服的成果。这正是π*0.6成果的重要性所在：我们首次实现了模型从自身经验中学习。这与人类的学习方式相似：你可以通过观看视频或向他人学习获得初步知识，但最终必须通过亲身实践才能真正掌握技能——尝试、观察动作的结果、总结经验、持续改进。π*0.6正是朝着这个方向迈出的第一步。

Sonya Huang：这让我想到了今年Rich Sutton的《经验时代》论文，非常深刻。你们认为这一技术会开启机器人领域的持续学习时代吗？它会成为持续学习的重要组成部分吗？

Karol Hausman：这取决于人们对“持续学习”的定义。与过去的训练模式相比，它无疑更具持续性：过去，我们通常是进行一次大规模预训练（可能加一次后续训练），然后输出一个固定的模型，后续几乎无法调整。而现在，模型部署后仍能持续学习——尝试新动作、从自身经验中总结、不断优化。从这个角度来说，它更接近持续学习。但未来仍有很大的提升空间：例如，通过这种方式快速获取新技能，或在学习过程中融入推理能力。持续学习是一个梯度光谱，我们目前的成果证明了其可行性，但还有很大的优化潜力。

Tobi Springenberg：我同意。我们目前还处于起步阶段。这并非传统意义上的持续学习（例如通过数据流持续训练，最终走向通用人工智能等），但这是关键的第一步，方向是正确的，未来还有很多工作要做。仅从π*0.6的成果来看，我个人对模型从少量数据中学习的能力感到惊讶。例如，制作浓缩咖啡过程中有一个“压粉”步骤——将咖啡粉放入滤杯后压实。我们的机器人初期压粉力度过大，甚至在压粉时差点把自己抬离台面。后来，人类仅进行了30-50次修正，将这些数据反馈给模型后，机器人就学会了更轻柔、更准确地压粉。这让我非常意外：模型已经过数百万次预训练，而少量的人类修正就能带来显著改进。这正是持续学习的潜力所在，令人印象深刻。

Sonya Huang：我仍关心泛化能力。例如，我学会了更好地压粉，这会让我更擅长折叠盒子吗？

Tobi Springenberg：在这个具体案例中，不会。但背后的学习机制是通用的——你可以用同样的方式修正“盒子粘连时需要分开“盒子折叠不整齐”等问题。30次压粉修正、30次盒子分离修正、30次折叠对齐修正，这些数据积累起来，就能带来整体泛化能力的提升。

Sonya Huang：所以这是一种可重复的方案，但不同任务的学习成果不会直接交叉迁移？

Tobi Springenberg：是的。不过，随着规模扩大，如果不同任务存在相似的动作模式，我预计会出现一定的迁移效应。但目前来看，它更像是一种可重复应用的通用方案。

Karol Hausman：我们发现，通过在更多任务、更多数据上进行预训练，模型的泛化能力会显著提升——新任务的适配难度降低，甚至会出现未预期的零样本任务执行能力。我们会定期开展预训练，每次都会发现模型性能因数据积累和预训练流程优化而持续提升。我坚信，随着模型部署范围扩大、任务类型增多，回收的数据会进一步推动泛化能力提升，形成“部署→数据→优化→更广泛部署”的正向循环。

Tobi Springenberg：关于你提到的泛化能力，有一个关键细节值得补充。π*0.6的方案包含两个核心部分：一是通过修正和强化学习反馈持续优化的策略；二是强化学习反馈的获取方式。我们之前提到了人类修正，而强化学习反馈的获取方式本身就蕴含泛化潜力。

具体来说，我们首先让人类判断机器人执行任务（如制作咖啡、组装盒子）的成功与否，为每个任务片段打上标签；然后训练一个价值函数，用于预测当前任务状态下成功或失败的概率；最后，以这个价值函数为基准，决定是否强化或弱化当前数据。我们发现，当价值函数在更多不同任务的数据上进行训练时，其性能会显著提升——例如，对于某些任务，模型能提前30-40个时间步预判失败（甚至早于人类通过视频观察到的失败信号）。例如，机器人尝试将滤杯插入咖啡机时，价值函数会提前预判角度不当导致的失败，并拒绝使用这类数据进行训练。随着数据和任务的增加，这种预判能力会不断增强。

Sonya Huang：这很有趣。

Tobi Springenberg：而且数据和任务越多，效果越好。

Sonya Huang：这与Karpathy所说的“从末端获取信号”形成了鲜明对比——你们并非等待最终结果，而是在过程中获取大量信号。

Karol Hausman：强化学习是一个广阔的领域，包含多种不同方法。人们通常会将强化学习与策略梯度法或特定的在线学习方法关联，但对我而言，强化学习更像是一种问题定义。针对你提到的“仅能在任务末端获取奖励”的问题，已有多种解决方案，例如价值函数、时序差分学习等——通过持续的序列预测来规避长时程任务的奖励信号稀疏问题。这或许是机器人技术能为整个AI社区带来的重要贡献：由于我们无法像语言模型那样拥有完美的仿真环境（可进行无限次模拟），必须在真实世界中高效学习，因此需要依赖价值函数等技术。这些技术将在更广泛的AI领域发挥重要作用。

Sonya Huang：我想再深入探讨一下——互联网视频似乎是你们训练方案的一部分，但目前并非重点。你认为互联网视频中仍有未被挖掘的价值吗？另外，当前视频模型、世界模型的发展，是否会为机器人模型能力带来突破性提升，并成为你们技术pipeline的重要组成部分？

Karol Hausman：这其实包含两个问题：一是数据层面，如何通过数据积累实现部署突破；二是视频模型和世界模型的作用。关于数据，我们目前处于“启动阶段”——任何有助于模型提升的数据源（仿真数据、人类视频、手持设备数据、人类远程操控数据等）都值得尝试。我们需要通过各种方式积累数据，达到部署门槛。因为从长远来看，启动阶段的数据积累无论规模多大，都无法与部署阶段获取的海量真实数据相提并论。我们现在正全力冲刺部署阶段，希望通过在更多任务、更多环境中的部署，构建强大的数据引擎。

关于世界模型：世界模型和强化学习本质上都在解决同一个问题——反事实推理或信用分配问题，即如何判断哪些动作对任务成功至关重要，以及若采取不同动作，世界会如何演变。世界模型的解决思路是预测未来（例如，若滤杯插入角度不同，结果会是成功还是失败，通过完整视频序列呈现）；强化学习则通过更隐含的机制解决这一问题，但两者的核心目标一致。我们正在探索所有这些方法，试图找到解决反事实推理问题的最佳路径。目前尚无明确答案，但π*0.6的成果表明强化学习已取得显著进展，未来也可能有更多其他方法涌现。

行业洞察与技术反思：从拆解到通用，数据驱动的智能本质

Sonya Huang：非常精彩。能否谈谈，度过启动阶段后，你们的客户部署模式会是怎样的？你们会为客户提供什么？如何收费？未来会如何演变？例如，是提供全垂直整合的机器人解决方案，还是仅提供模型，由客户自行整合到其业务流程中？具体又会如何运作？

Karol Hausman：说实话，我们目前还不确定，仍在探索中。技术还处于早期阶段，正如你所知，我们才刚刚达到部署的门槛。因此，我们认为当前应优先聚焦技术本身——提升模型的通用性和部署便捷性，扩大之前提到的应用场景范围。回顾机器人创业公司的历史，很多公司都经历过这样的阶段：先研发技术，怀揣着通用化的宏伟愿景，但一旦选定某个应用场景，就会陷入局限——为适配特定场景而妥协，开发专用解决方案，最终沦为专注于单一领域（如仓库拣选机器人）的应用公司。我们希望避免这种结局。解决物理智能问题的价值，远超过当前任何单一应用场景的商业价值。

因此，我们希望确保技术尽可能通用、易于部署，应用场景尽可能广泛，之后再考虑商业化模式。正如你所说，商业化可能有多种路径，甚至包括一些我们目前无法预见的方式（取决于技术的发展方向）——例如提供模型服务、全垂直解决方案、机器人硬件销售等。但现在回答这个问题还为时过早，虽然明确一个方向会让人更安心，但现阶段我们必须专注于技术本身。

Sonya Huang：Alfred肯定会希望有明确答案。

Karol Hausman：是的，Alfred会很高兴，但确实还太早。

Alfred Lin：不，你们的愿景非常宏大。感谢你们致力于物理智能研究，这是一项非凡的进步。仅π*0.6就堪称重大突破。祝贺你们取得的所有成就。

Tobi Springenberg：谢谢。

Alfred Lin：我能问一个尖锐的问题吗？

Karol Hausman：当然可以。

Alfred Lin：正如你们所说，你们的愿景宏大而广泛，涉及多个领域。我相信你们研究过以往的机器人技术尝试，正如你所说，它们大多最终聚焦于单一应用，范围越来越窄。自动驾驶是其中最成功的大规模应用案例之一，Waymo和特斯拉都取得了巨大成就。但回顾历史，我在2009年、2010年左右听Sebastian Thrun在TED演讲时第一次了解到自动驾驶——他提到了2007年赢得DARPA挑战赛的经历。而现在已经是2025年，自动驾驶技术仍只能在旧金山等局部地区应用，仅能行驶在普通道路上，甚至无法上高速公路。如果你们追求如此通用的目标，那么在泛化能力和性能提升方面，你们设想的时间线是怎样的？

Karol Hausman：这个问题很有价值。机器人技术的落地，有些方面比自动驾驶更容易，有些方面则更难。更容易的一点是，我们不需要达到100%的可靠性才能部署。很多任务只要达到95%的可靠性就完全可行——例如，家用折叠衣物机器人，即使每100件衣物中有1件折叠不完美，用户也能接受。

Alfred Lin：可以让孩子去折叠那1件，这反而成了额外的好处。家务还是需要的。

Karol Hausman：没错。但自动驾驶完全不同——每100次行驶中出现1次灾难性故障，后果不堪设想。因此，机器人技术的部署门槛可能更低。同时，我们也受益于技术时代的进步——现在已进入视觉语言模型和基础模型的时代，这些模型本身具备一定的常识，而且我们从2009年到2025年期间积累了大量经验教训，这些都为我们提供了助力。我们的解决方案比以往更具通用性。

但另一方面，挑战也同样存在：机器人技术并非单一应用，而是适用于驾驶、操作、移动、飞行等多个领域的通用解决方案，其难度仍有待观察。但根据我们目前的经验，说实话，它并没有想象中那么难。如果从一开始就以通用化为目标进行设计，模型的泛化能力其实相当出色。物理智能中存在一些我们尚未完全理解的特性，使得模型能够在驾驶、制作咖啡、无人机飞行、手术机器人操作等看似毫无关联的任务中实现泛化。

尽管这些任务差异巨大，看似需要不同的模型和应用方案，但我们的模型却能从这些多样化的数据中提炼出共性。这让我充满信心，或许这个问题并没有那么难，甚至可能比自动驾驶更容易解决。这是一个合理的质疑，但我们不应从自动驾驶的发展历程中得出错误的结论。

Alfred Lin：非常精彩。祝贺你们。除了自己的成果，还有哪些领域的进展让你们印象最深刻？

Karol Hausman：我先来回答。你之前提到的视频模型让我印象深刻。几年前我曾参与过相关研究，从未想过其发展速度会如此之快——现在的视频模型生成的内容几乎与真实场景无异，能完成各种令人惊叹的任务。这真的非常令人意外和震撼。

Tobi Springenberg：我至今仍对一个现象感到惊叹：仅通过下一个Token预测，我们竟然能构建出具备一定通用智能的模型。无论是模型在国际数学奥林匹克挑战赛中获胜，还是在科学研究中辅助发现新成果，每一个进展都让我感到意外。今年有很多这样的案例，年初时我还以为大型语言模型的预训练可能已经进入瓶颈期，但没想到会迎来如此强劲的“第二春”。

Karol Hausman：我想补充的是，这整套技术的可行性本身就令人难以置信。我们或许并未完全意识到这有多不可思议：构建一个松散受大脑启发、具备通用学习能力的算法，输入数据后，它不仅能理解，而且表现远超以往任何技术。这一技术适用于机器人、计算机视觉、语言、声音等多个领域。仔细想想，它的工作原理及其实际效果，确实令人叹为观止。例如，机器人能够在从未去过的家庭环境中自主工作，能够连续13小时制作咖啡——这些都是由一个端到端训练的通用模型完成的，我们虽未完全理解其原理，但它确实开始展现出强大的能力。这对我来说，简直太神奇了。

Sonya Huang：我们是不是生活在一个模拟世界里？

Alfred Lin：Sonya就是这么认为的，觉得我们身处模拟环境中。但这确实很有趣——科学研究中，人们通常会将大问题拆解为小问题，但最终发现，这种方法可能并不适用于机器或机器人的训练。

Tobi Springenberg：说实话，机器学习和AI领域在某种程度上也犯了同样的错误。长期以来，人们都在深入研究单个具体问题，后来才意识到，如果能将这些问题整合起来，实现多任务学习，效果可能会好得多。但令人意外的是，仅仅通过切换到通用预训练目标，这一切就自然实现了——这正是最令人惊讶的地方。

Alfred Lin：你认为这会不会像手风琴一样，在两种框架之间来回切换？先将大问题拆解为小问题，在一段时间内有效，然后失效；再回到大问题，尝试更通用的解决方案。如此循环往复。

Tobi Springenberg：我们不会再回到拆解问题的老路上去。

Karol Hausman：我也这么认为。有些人提出“两全其美”的思路：将已知规则（如牛顿物理定律）融入模型，无需让模型重新学习。但我们的经验表明，这种方法行不通——强行融入已知规则会限制模型学习新事物的能力。所谓“两全其美”可能并不存在，我们必须坚持完全的数据驱动学习。这很有趣，试想一下，如果存在一种预加载所有智能的方式，进化过程应该早已找到它——生物出生时就会具备所有知识。但我们观察到，有些物种（如鹿）出生时就已具备成年个体的智能，终生无需学习；而人类、乌鸦等智能物种则有漫长的童年和青春期，初期并不聪慧，必须通过自身经验持续学习。

这说明，通过亲身体验世界并从中学习，是智能形成的关键。机器学习和AI领域也正在吸取这一教训：我们自以为了解人类的思考方式，但实际上并非如此。我们需要做的，是让算法从数据中自行学习。

Alfred Lin：养育孩子也是如此。我以为自己了解儿子的想法，但其实并不完全了解。

Karol Hausman：我有一个小女儿，她的学习速度和认知发展真的非常令人惊讶。

Alfred Lin：孩子学得太快了。

Karol Hausman：是的，而且你根本不知道他们的知识来自哪里。

Alfred Lin：希望是来自父母。

Karol Hausman：希望如此。但她确实知道一些我从未教过她的东西。

Alfred Lin：非常感谢你们。

Sonya Huang：你们追求的使命非常伟大。感谢你们的分享。

Karol Hausman/Tobi Springenberg：谢谢，感谢邀请。

原文：Training General Robots for Any Task:Physical Intelligence’s Karol Hausman and Tobi Springenberg

https://www.youtube.com/watch?v=OJCT-HGxPjk

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

红杉对话PI：硬件瓶颈只是借口，传统架构更是死胡同，端到端VLA 才是具身智能的真神