扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
2026-01-15 20:13

红杉对话PI:硬件瓶颈只是借口,传统架构更是死胡同,端到端VLA 才是具身智能的真神

本文来自微信公众号: Z Finance ,编译:LingyunXu,作者:ZF编辑部,原文标题:《深度|红杉对话PI:硬件瓶颈只是借口,传统架构更是死胡同,端到端 VLA 才是具身智能的真神》


在机器人领域,实验室的精选视频与现实应用的笨拙表现之间一直存在巨大鸿沟。长期以来,行业习惯于将失败归咎于硬件,但Physical Intelligence(PI)团队却提出了一个极具挑战性的观点:智能,才是机器人普及的唯一瓶颈。


2026年初,PI团队发布了通用机器人模型π*0.6。本期对话邀请到了公司核心成员Karol Hausman与Tobi Springenberg,深入探讨他们如何通过端到端学习与真实世界强化学习,试图打破机器人学的旧范式。


访谈中,两位专家针对行业痛点提出了三项核心主张:


    • 模块化是进步的枷锁:过去几十年将机器人拆解为感知、规划、控制的“分治法”从底层就错了。这种架构导致模块间的信息流失严重,而端到端的视觉语言动作模型才是通往真智能的唯一路径。


    • 告别仿真环境的温室陷阱:当同行还在模拟器里跑数据时,PI坚持真实世界强化学习。他们认为模拟器永远无法复现纸板粘连或咖啡粉受潮这种长尾故障,只有让机器人在现实中疯狂“交学费”,才能练出真正的可靠性。


    • 硬件早已不是借口:PI团队认为,十年前的机器人硬件就足以打扫房间。研发重心应从堆硬件转向磨智能。一旦智能瓶颈突破,现有的简单夹具也能完成切菜、烹饪等复杂家务。


    • 部署即数据,数据即一切:由于互联网缺乏现成的机器人动作数据,PI的策略是直接部署:通过机器人实地工作收集海量真实经验,形成“部署→数据→优化→更广部署”的正向循环,最终构建出能跨领域泛化的“物理大模型”。


    在Physical Intelligence的愿景中,我们正处于机器人从特定工具向通用物种”转变的前夜。以下访谈实录,带你走进物理智能的最前沿。


    物理智能核心使命与技术定位:聚焦机器人基础模型突破


    Sonya Huang:在本期节目中,我们邀请到了Physical Intelligence公司的Karol和Tobi。该公司专注于构建机器人基础模型。Karol和Tobi将解释,为何传统上将机器人技术拆解为感知、规划和控制的方法存在根本性错误,以及基于强化学习的端到端学习如何最终实现技术落地。你将听到他们如何实现机器人在真实场景中的稳定表现——例如让机器人连续13小时制作咖啡,这些模型如何在截然不同的任务中实现泛化(从手术机器人到无人机飞行),而其中的原理我们尚未完全掌握。我们还将探讨π*0.6背后的技术洞察,这是Physical Intelligence最新推出的模型,能够通过强化学习从经验中持续学习。敬请收听。Karol、Tobi,非常感谢你们今天的到来。


    Karol Hausman/TobiSpringenberg:感谢邀请。


    Sonya Huang:很期待与你们探讨物理智能、通用机器人等相关话题。在深入交流前,能否先向观众简要介绍一下物理智能的定义以及你们追求的使命?


    Karol Hausman:好的。Physical Intelligence的核心是构建机器人基础模型。理论上,这类模型应能让任何机器人完成任何任务。在过去一年半左右的时间里,我们已搭建起支撑模型规模化应用的核心组件。我们的研究表明,这些模型能够控制多种形态、不同类型的机器人,并且具备泛化能力——可适配全新环境,我们也已明确其泛化所需的条件。


    我们刚刚发布的π*0.6版本(后续会详细介绍),其性能已达到可部署水平。这对我们而言意义重大:一方面,我们希望这项技术能真正落地到现实世界;另一方面,由于互联网上缺乏现成的机器人动作数据,我们必须自行构建数据集。因此,我们聚焦于物理智能领域的核心挑战,致力于打造机器人基础模型,并已取得显著进展。


    Sonya Huang:非常出色。我想追问一下,为何选择构建基础模型,而非像其他公司那样打造全垂直整合的机器人产品?比如我记得上个月的周日午餐话题——现在已有可购买的家用小型辅助机器人,还有公司在研发烹饪机器人,人形机器人领域也有不少参与者。你们为何选择专注于基础模型,而非亲自研发机器人?


    Karol Hausman:回顾机器人技术的发展历程,我和许多机器人专家都清晰地认识到,智能始终是行业的瓶颈。无论是家用还是工业场景,机器人硬件早已具备完成复杂任务的能力。十多年前就有机器人在远程操控下完成全屋清洁的案例——关键在于远程操控:只要有人类智能介入,就能证明硬件具备多样化任务执行潜力。长期以来,多数机器人公司都采用你提到的模式:设计针对单一任务或应用场景的专用机器人。


    但我们认为,推动行业发展的关键是突破智能瓶颈。因此,我们成立公司专注于解决这一核心问题——只有突破智能限制,才能真正实现机器人技术的普及。若选择其他路径,很难在智能领域取得实质性进展。我们希望直面这一挑战,聚焦智能技术研发,未来有望催生出各类垂直领域产品,让机器人走进家庭、工业等更多场景。


    Sonya Huang:我想进一步探讨这个问题。硬件方面,我看到了最新的Optimus机械臂视频,设计堪称精湛,宛如艺术品。虽然我没见过十年前远程操控机器人清洁房屋的视频,但很好奇是否存在一些如今才刚具备实现条件的任务?例如烹饪,或是剥洋葱、切洋葱这类过去硬件无法完成的操作。你认为当前硬件水平对技术落地的推动作用有多大?


    Karol Hausman:硬件领域确实取得了长足进步,尤其是人形机器人硬件,比如你提到的灵巧手,现在的性能比几年前提升了很多。但这并未解决核心瓶颈。即便使用简单的夹具,机器人理论上早就能完成切菜、烹饪等任务,问题的关键在于缺乏操控这些硬件的智能。而且硬件越复杂,反而越无法规避这一瓶颈——它或许能拓展任务边界,但机器人智能不足的根本问题仍未解决。


    Sonya Huang:明白了。也就是说,硬件可能提升了任务执行的上限,但我们目前还未达到基础能力的下限。


    Karol Hausman:没错。即便是简单的机器人,其性能也尚未达到人类操作者的水平。


    机器人技术发展演进:从拆解式架构到端到端学习革新


    Alfred Lin:既然限制在于智能层面,那么研发智能的瓶颈又是什么?是数据收集吗?还是低成本数据获取?我们会不断追问,深入核心。所以,解决智能问题的下一层瓶颈是什么?是泛化能力吗?


    Karol Hausman:这是个好问题。我们将其归结为三个关键因素:能力、泛化性和性能。关于能力,我们的目标是:只要能为某项任务或某类机器人收集数据,模型就能复现并自动化该任务。这一点我们已快速实现——大约一年前发布的π0版本就证明了其可行性:任何任务、任何机器人,只要有数据支持,模型就能学习并自动化执行。下一个挑战是泛化性,这仍是未完全解决的难题。我们希望机器人能实现零样本学习,例如将其带入全新的家庭环境,它就能自主适应并开展工作。这难度极大——新环境中,物品摆放、台面布局、光线条件都与训练数据存在差异。虽然这一问题尚未完全解决,但我们已摸索出可行的解决思路和规模化路径。


    机器学习中,泛化能力的核心在于数据多样性——接触足够多的多样化数据,模型就能适配相似的新场景。今年4月发布的π*0.6版本已实现这一突破:机器人能够在从未去过的家庭环境中运行,虽未臻完美,但已具备完成厨房清洁等简单任务的常识。最后一个尚未完全解决的挑战是性能:如何让模型性能达到可部署标准?部署至关重要,正如我之前提到的,我们需要通过部署收集数据。这是最具规模化的数据收集方式——让机器人在现实世界中执行具有经济价值的任务,数据收集成本几乎为负。技术部署范围越广,获取的数据就越多,最终可能成为比互联网数据更庞大的数据源。


    Alfred Lin:你认为我们距离实现泛化能力,或是达到可部署的性能水平还有多远?这里的场景可以是受控环境,也可以是家庭、办公室等通用场景,不一定是整个世界。若限定场景,泛化能力和性能需要达到什么程度,这类机器人才能实现部署?


    Karol Hausman:实际上,我们已非常接近部署阶段,并且已经开始自主部署。原本预计需要五年时间才能让技术达到商业部署标准,具备实际应用价值,但我们在两个月前就已实现这一目标。目前,模型的实用性、性能和任务覆盖范围都已达到临界点,这是一个非常令人兴奋的时刻。


    不过,部署场景的广度仍有待观察。有些任务的失败代价极高,目前并非最佳部署选择;还有些任务对泛化能力要求极高,如家庭场景部署;或涉及隐私、安全问题,这些场景可能也暂不适合部署。但可以肯定的是,部署范围正在不断扩大。随着数据积累和模型优化,我们将能把机器人部署到更多场景中,现在正处于这一进程的起步阶段。


    Alfred Lin:目前你们的部署场景主要集中在哪些领域?


    Karol Hausman:这是个很难准确回答的问题。对于这些基础模型,其能力边界往往超出我们的预期,类似大型语言模型的发展——内部训练优化后,最终的模型效果难以预测,必须通过实际测试验证。因此,我们选择开源模型,避免仅依靠内部团队测试导致的认知局限。通过开源,我们发现模型的应用场景远超想象,涵盖驾驶、手术机器人、农业等多个领域。所以,我无法准确界定当前的部署范围,但可以确定它比我们预期的更广泛,且会随着时间推移持续扩大。模型获取的数据越多、越成熟,部署场景就会越丰富。


    Tobi Springenberg:我想补充一下性能层面的观点。如你所说,模型的应用起点比我们预想的更广泛。但同时,要让每个应用场景都达到商业级日常使用标准——例如作为核心业务支撑,性能方面仍有很长的路要走。


    即将详细介绍的π*0.6版本,在利用经验数据学习方面取得了突破——模型部署后,能通过数据反馈持续优化。但坦率地说,许多场景中仍存在大量长尾问题和潜在故障点,我们尚未完全掌握解决方案。


    核心技术架构解析:VLM基础与动作模块的融合设计


    Sonya Huang:你们一直非常透明地公开研究成果,并选择开源。如果方便的话,能否介绍一下你们的整体技术架构?你认为通往终极目标的架构是否已基本定型,未来只需在现有基础上微调并积累大量数据?还是说,架构仍处于探索阶段?


    Tobi Springenberg:我们可以先谈谈当前的架构,再探讨其未来可能的变化。目前,我们的架构与大家日常接触的VLM非常相似——输入文字和图像,模型就能完成图像内容识别等任务。我们以同样的思路为基础:模型先在互联网规模的数据上进行预训练,吸收图像和文本信息,再融入大量机器人数据。目前,训练数据以我们自行收集的机器人数据为主,仅包含少量互联网数据。整体架构基于视觉语言模型,同时增加了动作模型(或称动作专家)模块,这部分负责驱动机器人——接收图像输入和任务指令后,生成并向机器人发送动作指令。


    从技术层面看,这是一个参数规模达十亿级别的Transformer模型,通过机器人数据和互联网数据进行预训练,初始训练主要基于人类演示数据(Karol之前也提到过)——即人类远程操控机器人执行任务的相关数据。目前,模型的性能提升主要依赖数据规模的扩大,技术架构与VLM领域的主流方案类似。至于未来的变化,这仍是一个开放性问题。我们正在探索为模型增加更多能力,例如拓展上下文理解范围、支持更多摄像头输入、提升对物理世界的认知——如识别房间内的物品、判断物品是否易碎、是否便于移动等。


    因此,无论是能力拓展还是架构调整,都仍有很大的优化空间。我预计,五六年后回顾现在,当前基于VLM的模型基础架构可能会发生变化,我们或许会采用全新的技术方案。但核心的数据理念和输入方式,大概率会保持不变。


    Sonya Huang:明白了。是否可以理解为,模型的输入是像素或信号,输出是动作?这是否属于一个大型神经网络?


    Tobi Springenberg:没错,是一个大型模型。目前本质上就是图像输入、文本输入,然后输出文本和动作。


    Sonya Huang:你们是否将移动和操作模块分开设计?或许现在可以聊聊机器人技术的历史演进,以及不同学习浪潮与你们技术架构的关联。


    Karol Hausman:好的。在机器学习广泛应用之前,人们普遍认为,只要投入足够的人力和工程师,深入研究就能编写代码,让机器人完成世界上任何任务。人们曾为此付出巨大努力,但最终发现,现实世界的复杂性远超想象——无法为所有可能出现的场景编写规则。同时,在尝试解决这一问题的过程中,人们习惯性地将机器人技术拆解为多个子问题:感知、控制、规划。这甚至催生了不同的学术社群,每个社群都有自己的会议和研究重点。后来,人们意识到无法通过手写规则覆盖所有场景,于是转向数据驱动的学习方法——这与人类的学习方式相似,本是个不错的思路。但实际操作中,人们仍延续了子问题拆解的模式,分别对感知层、控制层、规划层进行独立的机器学习训练。这种方式确实取得了一定进展,效果优于传统方法,但最终证明,子问题拆解的思路本身存在缺陷。例如,当我试图拿起这杯水时,不会刻意区分感知、规划、控制等步骤,而是自然地完成动作。


    传统的流水线式架构——感知模块输出物体位置,规划模块生成轨迹,控制模块执行动作中,各模块间的接口设计是失败的关键。我们原本对机器人工作原理的认知,从根本上就是错误的。于是,我们进入了下一个发展阶段:意识到子问题拆解可能从一开始就是错误的,转而采用端到端训练模式——将传感器输入直接作为网络输入,动作作为输出。我们称之为端到端方法,即从像素直接映射到动作,让网络或学习算法自行决定是否需要拆分模块,如果可行的话。


    但在实践中,我们发现这种方法需要海量数据,且在需要常识判断的场景中容易失效——通过第一人称动作数据集积累常识极其困难,因为需要覆盖世界上所有可能的场景。就在这时,我们发现了视觉语言动作模型:利用在互联网数据上预训练的模型,即已具备一定的世界认知的,在其基础上添加动作模块,将通用世界知识与物理世界的任务执行能力相结合。这大致就是我们当前的技术路线。


    在Physical Intelligence,我们还解决了其他关键问题:如何实现模型规模化?如何提升泛化能力?如何优化性能和运行速度?如何推进部署落地?但总体而言,我们仍处于利用互联网预训练模型的常识知识,构建适用于各类机器人、具备通用动作执行能力的阶段。


    Sonya Huang:关于推理能力——大型语言模型在推理领域取得了诸多突破。你们的VLA基础架构是否能受益于这些进展?端到端训练过程中,推理能力是否会自然涌现?或者说,大型语言模型领域的进展对你们是否有帮助?


    Tobi Springenberg:目前我们的模型已经具备一定的动作规划能力,不仅能预测即时动作,还能规划后续约50个时间步的动作(约1-2秒)。同时,模型已能在语言层面将任务分解为子任务。例如,当指令为清洁厨房时,模型会自动拆解出“移动到台面→拿起杯子→将杯子放入水槽”等子步骤。所以,一定程度的推理能力已经存在,未来还会进一步强化。


    我完全预计,强化学习在推理领域的所有进展,最终都会应用到机器人技术中。这一过程很有趣,因为它与人们针对数学问题的强化学习研究有所不同。数学问题对人类而言更像是文本类任务——可以在脑海中通过文本逻辑思考,例如调整公式以得到结果。但对于物理智能而言,推理过程会更复杂。例如,当我最近学习打网球时,不会在脑海中刻意思考拿起球拍→移动到某个位置→做出击球动作,而是专注于动作本身——身体的移动方式,以及对周围物体轨迹的预判。这类推理能力,未来会越来越多地融入到模型中。


    Karol Hausman:目前,我们确实从视觉语言模型中获益良多。但这种受益关系未来很可能会逆转。当前大型语言模型的许多缺陷,本质上是由于其聚焦于文本类任务,如数学、编程。而机器人技术将提供一个全新的视角,促使我们重新思考推理的本质——推理可能需要在抽象空间中进行,结合文本、图像、轨迹等多种信息来源得出结论。机器人技术为这种新推理模式提供了绝佳的测试平台:它扎根于物理世界,虽然目前数据有限,面临诸多挑战,但由此产生的新发现,未来很可能反哺大型语言模型领域。


    数据与泛化能力:机器人技术落地的关键挑战与突破路径


    Alfred Lin:谈到数据,能否介绍一下你们目前已收集的数据规模,以及明年的收集目标?当然,数据越多越好,但具体量级是怎样的?


    Karol Hausman:这是一个相当复杂的问题,不能仅以数量衡量。数据质量和多样性同样重要,而机器人数据的质量和多样性目前尚无严格定义。例如,用10种不同方式完成同一任务,这是否属于多样化数据?与10种不同杯子相关的数据相比,哪种多样性更高?


    Alfred Lin:确实如此。


    Karol Hausman:整个行业目前尚未完全搞清楚如何描述数据的特征、多样性和质量,也缺乏严谨的评估标准。我们还发现,数据的某些特定属性至关重要。例如,要在某项任务上达到特定性能,仅靠增加现有数据的数量是无法实现的。在π*0.6版本的研发过程中,我们针对三个不同任务进行了测试,早期就发现:如果沿用现有数据收集方式持续积累数据,性能会进入平台期,无法进一步提升。因此,我们需要寻找新的数据收集方法,或思考什么样的数据能推动性能提升。而强化学习等技术,正是解决这一问题的关键。


    Sonya Huang:我们来谈谈强化学习和π*0.6。这个星号是在致敬π-star吗?


    Tobi Springenberg:没错,本质上是这样。我们希望接近最优策略。


    Sonya Huang:最优策略。好的,非常好。能否先简要介绍一下π*0.6的核心内容,然后再深入探讨强化学习在你们领域的意义?


    Tobi Springenberg:当然可以。与我们之前的模型相比,核心区别在于:在此之前,我们所有的机器人基础模型训练都基于演示数据,即远程操控数据,模型的训练目标本质上是模仿这些数据。而新模型π*0.6采用了基于经验的强化学习:机器人通过运行初始策略——基于演示数据训练的策略——执行任务,自行收集经验数据。在这一过程中,人类会提供奖励信号,也会进行干预修正,例如指出这样做不对,应该换种方式。这些数据会被回收,模型利用这些数据判断哪些行为需要强化(多执行),哪些需要弱化(少执行),从而实现持续自我优化。这就是核心差异。正如Karol之前提到的,这种真实数据的持续输入,是帮助我们突破性能平台期的关键。


    Sonya Huang:我理解强化学习就像是在奖励信号的引导下“爬坡”。那么,在针对特定任务“爬坡”时,如何确保模型的泛化能力?


    Tobi Springenberg:针对这个问题,我们的思路是:现有通用模型已具备一定性能(虽非最优),初期目标并非进一步泛化,而是先攻克特定任务。我们选择了三四个任务进行部署,模型本身需要具备跨任务泛化能力,但强化学习过程的核心是确保在特定任务上的表现。部署并启动强化学习时,首要目标是精准完成该任务——例如,能从不同位置启动任务,能应对各类长尾故障。从表面上看,专注于单一任务似乎与泛化能力相悖,但本质上,我们采用相同的方法和流程应对每个任务:提升单个任务的性能,收集所有任务的数据并回收,最终实现整体泛化能力的提升。所以,两者并非对立关系。


    强化学习的实践探索:真实场景优先与泛化能力的平衡


    Sonya Huang:明白了。你们的强化学习是在真实场景中进行的吗?能否谈谈你们在仿真环境和真实环境中强化学习的应用比例?


    Tobi Springenberg:我们采取了“真实世界优先”的策略,而非依赖仿真。当然,我们也将仿真作为研究工具进行探索,但π*0.6论文中的所有强化学习实验均在真实系统中完成。原因在于,真实场景中的长尾故障极难通过仿真建模。以我们此次针对的任务为例,很多故障模式在仿真环境中完全无法预见。例如,其中一个任务是组装盒子——这是一个实际部署场景,目标是将纸板组装成巧克力包装盒,以便后续包装和运输。初期,机器人组装效果很好,但当新一批纸板到货后,问题出现了:这些扁平的纸板穿孔不够规整,容易粘连在一起。机器人抓取纸板放置到台面准备组装时,会发现台面上有两个粘连的纸板——这种情况在仿真环境中(假设纸板都是独立的)是不会出现的。而我们的方法能够让机器人学会处理这种问题:识别粘连情况,将两个纸板分开,再继续组装。如果仅在仿真环境中训练,机器人永远无法应对这类真实场景中的突发状况。


    Karol Hausman:强化学习在仿真环境中应用于移动领域已取得不少成功,模型迁移到真实场景的效果也不错,但在操作领域尚未见到类似的成功案例。原因在于,移动领域的核心问题是机器人对自身身体的建模——只要能精准建模自身,就能较好地完成移动任务。这种建模在仿真环境中只需进行一次(针对特定机器人),若建模足够精准,就能实现有效迁移。但操作领域的核心并非机器人自身的移动,而是与外部世界的交互——如何通过动作影响物体。例如,将手从A点移动到B点并不难,难的是预判这一动作对所操作物体的影响。此时,问题就从“建模机器人自身”扩展到“建模整个世界”——包括所有可能交互的物体和任务,这在仿真环境中几乎无法实现规模化建模,因此这类方法在操作领域的效果有限。


    Sonya Huang:π*0.6的核心成果是什么?经过强化学习后,模型在你们关注的测试任务上表现如何?这对你们未来的训练方案有何启示?


    Tobi Springenberg:对我而言,最令人印象深刻的是,这些模型能够连续运行数小时,从各类故障中自主恢复,并持续工作。同时,其运行效率相比初始模型有了大幅提升。核心数据如下:在三个任务(之前提到的组装巧克力盒、用工业级浓缩咖啡机制作咖啡、折叠衣物)中,模型的任务吞吐量提升了两倍多。与仅基于演示数据训练的基础模型相比,新模型不仅运行速度更快,故障恢复能力也显著增强。你可以在我们的官网查看相关视频:机器人连续13小时制作咖啡,或连续4小时折叠衣物。亲眼目睹这些场景,会彻底改变你对模型的认知——它不再是仅能演示一次的“玩具”,而是具备实际部署价值、能持续完成真实任务的技术。


    Karol Hausman:这正是机器人技术领域一个鲜为人知的巨大挑战。你能在网上看到很多机器人完成酷炫任务的视频(我们也会发布这类视频),几乎任何你能想到的任务,都能找到对应的机器人演示视频。但这些视频往往是经过多次拍摄、筛选出的完美片段。行业内普遍面临的问题是模型的可靠性、性能、运行速度,以及长时间部署的稳定性。这是机器人技术落地的最大瓶颈——如果模型每两次尝试就失败一次,根本不具备实际部署价值。而π*0.6的最大突破,正是让模型具备了可部署性:我们的办公室里已有机器人为员工制作咖啡,公司员工也能将机器人带回家折叠衣物,还有机器人在真实场景中组装盒子。这真的非常令人兴奋。


    Sonya Huang:你们的强化学习是否主要聚焦于提升客户部署场景中的可靠性?例如,确保咖啡制作模型在客户现场能够稳定运行,速度足够快,长时间无故障。这更像是客户部署层面的创新,还是基础能力层面的突破?或者两者兼具?


    Tobi Springenberg:两者兼具。正如Karol之前所说,我们理想中的机器人(无论是家用的洗衣、洗碗、烹饪机器人,还是小型企业用于解决特定问题——如组装巧克力盒——的机器人),既需要具备可靠性和高性能,也需要能够应对训练阶段未见过的新任务。仅依靠扩大人类演示数据规模,无法无限提升初始模型的性能和泛化能力——数据收集存在上限。因此,部署是必要的(这也是你提到的客户部署层面的创新),但从长远来看,我预计未来几年,部署过程中收集的数据将成为模型预训练的重要数据源,助力模型持续优化。我们会越来越依赖自主数据收集,构建覆盖各类任务的庞大数据集。从这个角度来说,这也是一种新能力的突破。


    Karol Hausman:此前,行业内尚未实现模型从自身经验中学习的规模化应用——虽有诸多尝试,但均未取得足以支撑部署的令人信服的成果。这正是π*0.6成果的重要性所在:我们首次实现了模型从自身经验中学习。这与人类的学习方式相似:你可以通过观看视频或向他人学习获得初步知识,但最终必须通过亲身实践才能真正掌握技能——尝试、观察动作的结果、总结经验、持续改进。π*0.6正是朝着这个方向迈出的第一步。


    Sonya Huang:这让我想到了今年Rich Sutton的《经验时代》论文,非常深刻。你们认为这一技术会开启机器人领域的持续学习时代吗?它会成为持续学习的重要组成部分吗?


    Karol Hausman:这取决于人们对“持续学习”的定义。与过去的训练模式相比,它无疑更具持续性:过去,我们通常是进行一次大规模预训练(可能加一次后续训练),然后输出一个固定的模型,后续几乎无法调整。而现在,模型部署后仍能持续学习——尝试新动作、从自身经验中总结、不断优化。从这个角度来说,它更接近持续学习。但未来仍有很大的提升空间:例如,通过这种方式快速获取新技能,或在学习过程中融入推理能力。持续学习是一个梯度光谱,我们目前的成果证明了其可行性,但还有很大的优化潜力。


    Tobi Springenberg:我同意。我们目前还处于起步阶段。这并非传统意义上的持续学习(例如通过数据流持续训练,最终走向通用人工智能等),但这是关键的第一步,方向是正确的,未来还有很多工作要做。仅从π*0.6的成果来看,我个人对模型从少量数据中学习的能力感到惊讶。例如,制作浓缩咖啡过程中有一个“压粉”步骤——将咖啡粉放入滤杯后压实。我们的机器人初期压粉力度过大,甚至在压粉时差点把自己抬离台面。后来,人类仅进行了30-50次修正,将这些数据反馈给模型后,机器人就学会了更轻柔、更准确地压粉。这让我非常意外:模型已经过数百万次预训练,而少量的人类修正就能带来显著改进。这正是持续学习的潜力所在,令人印象深刻。


    Sonya Huang:我仍关心泛化能力。例如,我学会了更好地压粉,这会让我更擅长折叠盒子吗?


    Tobi Springenberg:在这个具体案例中,不会。但背后的学习机制是通用的——你可以用同样的方式修正“盒子粘连时需要分开“盒子折叠不整齐”等问题。30次压粉修正、30次盒子分离修正、30次折叠对齐修正,这些数据积累起来,就能带来整体泛化能力的提升。


    Sonya Huang:所以这是一种可重复的方案,但不同任务的学习成果不会直接交叉迁移?


    Tobi Springenberg:是的。不过,随着规模扩大,如果不同任务存在相似的动作模式,我预计会出现一定的迁移效应。但目前来看,它更像是一种可重复应用的通用方案。


    Karol Hausman:我们发现,通过在更多任务、更多数据上进行预训练,模型的泛化能力会显著提升——新任务的适配难度降低,甚至会出现未预期的零样本任务执行能力。我们会定期开展预训练,每次都会发现模型性能因数据积累和预训练流程优化而持续提升。我坚信,随着模型部署范围扩大、任务类型增多,回收的数据会进一步推动泛化能力提升,形成“部署→数据→优化→更广泛部署”的正向循环。


    Tobi Springenberg:关于你提到的泛化能力,有一个关键细节值得补充。π*0.6的方案包含两个核心部分:一是通过修正和强化学习反馈持续优化的策略;二是强化学习反馈的获取方式。我们之前提到了人类修正,而强化学习反馈的获取方式本身就蕴含泛化潜力。


    具体来说,我们首先让人类判断机器人执行任务(如制作咖啡、组装盒子)的成功与否,为每个任务片段打上标签;然后训练一个价值函数,用于预测当前任务状态下成功或失败的概率;最后,以这个价值函数为基准,决定是否强化或弱化当前数据。我们发现,当价值函数在更多不同任务的数据上进行训练时,其性能会显著提升——例如,对于某些任务,模型能提前30-40个时间步预判失败(甚至早于人类通过视频观察到的失败信号)。例如,机器人尝试将滤杯插入咖啡机时,价值函数会提前预判角度不当导致的失败,并拒绝使用这类数据进行训练。随着数据和任务的增加,这种预判能力会不断增强。


    Sonya Huang:这很有趣。


    Tobi Springenberg:而且数据和任务越多,效果越好。


    Sonya Huang:这与Karpathy所说的“从末端获取信号”形成了鲜明对比——你们并非等待最终结果,而是在过程中获取大量信号。


    Karol Hausman:强化学习是一个广阔的领域,包含多种不同方法。人们通常会将强化学习与策略梯度法或特定的在线学习方法关联,但对我而言,强化学习更像是一种问题定义。针对你提到的“仅能在任务末端获取奖励”的问题,已有多种解决方案,例如价值函数、时序差分学习等——通过持续的序列预测来规避长时程任务的奖励信号稀疏问题。这或许是机器人技术能为整个AI社区带来的重要贡献:由于我们无法像语言模型那样拥有完美的仿真环境(可进行无限次模拟),必须在真实世界中高效学习,因此需要依赖价值函数等技术。这些技术将在更广泛的AI领域发挥重要作用。


    Sonya Huang:我想再深入探讨一下——互联网视频似乎是你们训练方案的一部分,但目前并非重点。你认为互联网视频中仍有未被挖掘的价值吗?另外,当前视频模型、世界模型的发展,是否会为机器人模型能力带来突破性提升,并成为你们技术pipeline的重要组成部分?


    Karol Hausman:这其实包含两个问题:一是数据层面,如何通过数据积累实现部署突破;二是视频模型和世界模型的作用。关于数据,我们目前处于“启动阶段”——任何有助于模型提升的数据源(仿真数据、人类视频、手持设备数据、人类远程操控数据等)都值得尝试。我们需要通过各种方式积累数据,达到部署门槛。因为从长远来看,启动阶段的数据积累无论规模多大,都无法与部署阶段获取的海量真实数据相提并论。我们现在正全力冲刺部署阶段,希望通过在更多任务、更多环境中的部署,构建强大的数据引擎。


    关于世界模型:世界模型和强化学习本质上都在解决同一个问题——反事实推理或信用分配问题,即如何判断哪些动作对任务成功至关重要,以及若采取不同动作,世界会如何演变。世界模型的解决思路是预测未来(例如,若滤杯插入角度不同,结果会是成功还是失败,通过完整视频序列呈现);强化学习则通过更隐含的机制解决这一问题,但两者的核心目标一致。我们正在探索所有这些方法,试图找到解决反事实推理问题的最佳路径。目前尚无明确答案,但π*0.6的成果表明强化学习已取得显著进展,未来也可能有更多其他方法涌现。


    行业洞察与技术反思:从拆解到通用,数据驱动的智能本质


    Sonya Huang:非常精彩。能否谈谈,度过启动阶段后,你们的客户部署模式会是怎样的?你们会为客户提供什么?如何收费?未来会如何演变?例如,是提供全垂直整合的机器人解决方案,还是仅提供模型,由客户自行整合到其业务流程中?具体又会如何运作?


    Karol Hausman:说实话,我们目前还不确定,仍在探索中。技术还处于早期阶段,正如你所知,我们才刚刚达到部署的门槛。因此,我们认为当前应优先聚焦技术本身——提升模型的通用性和部署便捷性,扩大之前提到的应用场景范围。回顾机器人创业公司的历史,很多公司都经历过这样的阶段:先研发技术,怀揣着通用化的宏伟愿景,但一旦选定某个应用场景,就会陷入局限——为适配特定场景而妥协,开发专用解决方案,最终沦为专注于单一领域(如仓库拣选机器人)的应用公司。我们希望避免这种结局。解决物理智能问题的价值,远超过当前任何单一应用场景的商业价值。


    因此,我们希望确保技术尽可能通用、易于部署,应用场景尽可能广泛,之后再考虑商业化模式。正如你所说,商业化可能有多种路径,甚至包括一些我们目前无法预见的方式(取决于技术的发展方向)——例如提供模型服务、全垂直解决方案、机器人硬件销售等。但现在回答这个问题还为时过早,虽然明确一个方向会让人更安心,但现阶段我们必须专注于技术本身。


    Sonya Huang:Alfred肯定会希望有明确答案。


    Karol Hausman:是的,Alfred会很高兴,但确实还太早。


    Alfred Lin:不,你们的愿景非常宏大。感谢你们致力于物理智能研究,这是一项非凡的进步。仅π*0.6就堪称重大突破。祝贺你们取得的所有成就。


    Tobi Springenberg:谢谢。


    Alfred Lin:我能问一个尖锐的问题吗?


    Karol Hausman:当然可以。


    Alfred Lin:正如你们所说,你们的愿景宏大而广泛,涉及多个领域。我相信你们研究过以往的机器人技术尝试,正如你所说,它们大多最终聚焦于单一应用,范围越来越窄。自动驾驶是其中最成功的大规模应用案例之一,Waymo和特斯拉都取得了巨大成就。但回顾历史,我在2009年、2010年左右听Sebastian Thrun在TED演讲时第一次了解到自动驾驶——他提到了2007年赢得DARPA挑战赛的经历。而现在已经是2025年,自动驾驶技术仍只能在旧金山等局部地区应用,仅能行驶在普通道路上,甚至无法上高速公路。如果你们追求如此通用的目标,那么在泛化能力和性能提升方面,你们设想的时间线是怎样的?


    Karol Hausman:这个问题很有价值。机器人技术的落地,有些方面比自动驾驶更容易,有些方面则更难。更容易的一点是,我们不需要达到100%的可靠性才能部署。很多任务只要达到95%的可靠性就完全可行——例如,家用折叠衣物机器人,即使每100件衣物中有1件折叠不完美,用户也能接受。


    Alfred Lin:可以让孩子去折叠那1件,这反而成了额外的好处。家务还是需要的。


    Karol Hausman:没错。但自动驾驶完全不同——每100次行驶中出现1次灾难性故障,后果不堪设想。因此,机器人技术的部署门槛可能更低。同时,我们也受益于技术时代的进步——现在已进入视觉语言模型和基础模型的时代,这些模型本身具备一定的常识,而且我们从2009年到2025年期间积累了大量经验教训,这些都为我们提供了助力。我们的解决方案比以往更具通用性。


    但另一方面,挑战也同样存在:机器人技术并非单一应用,而是适用于驾驶、操作、移动、飞行等多个领域的通用解决方案,其难度仍有待观察。但根据我们目前的经验,说实话,它并没有想象中那么难。如果从一开始就以通用化为目标进行设计,模型的泛化能力其实相当出色。物理智能中存在一些我们尚未完全理解的特性,使得模型能够在驾驶、制作咖啡、无人机飞行、手术机器人操作等看似毫无关联的任务中实现泛化。


    尽管这些任务差异巨大,看似需要不同的模型和应用方案,但我们的模型却能从这些多样化的数据中提炼出共性。这让我充满信心,或许这个问题并没有那么难,甚至可能比自动驾驶更容易解决。这是一个合理的质疑,但我们不应从自动驾驶的发展历程中得出错误的结论。


    Alfred Lin:非常精彩。祝贺你们。除了自己的成果,还有哪些领域的进展让你们印象最深刻?


    Karol Hausman:我先来回答。你之前提到的视频模型让我印象深刻。几年前我曾参与过相关研究,从未想过其发展速度会如此之快——现在的视频模型生成的内容几乎与真实场景无异,能完成各种令人惊叹的任务。这真的非常令人意外和震撼。


    Tobi Springenberg:我至今仍对一个现象感到惊叹:仅通过下一个Token预测,我们竟然能构建出具备一定通用智能的模型。无论是模型在国际数学奥林匹克挑战赛中获胜,还是在科学研究中辅助发现新成果,每一个进展都让我感到意外。今年有很多这样的案例,年初时我还以为大型语言模型的预训练可能已经进入瓶颈期,但没想到会迎来如此强劲的“第二春”。


    Karol Hausman:我想补充的是,这整套技术的可行性本身就令人难以置信。我们或许并未完全意识到这有多不可思议:构建一个松散受大脑启发、具备通用学习能力的算法,输入数据后,它不仅能理解,而且表现远超以往任何技术。这一技术适用于机器人、计算机视觉、语言、声音等多个领域。仔细想想,它的工作原理及其实际效果,确实令人叹为观止。例如,机器人能够在从未去过的家庭环境中自主工作,能够连续13小时制作咖啡——这些都是由一个端到端训练的通用模型完成的,我们虽未完全理解其原理,但它确实开始展现出强大的能力。这对我来说,简直太神奇了。


    Sonya Huang:我们是不是生活在一个模拟世界里?


    Alfred Lin:Sonya就是这么认为的,觉得我们身处模拟环境中。但这确实很有趣——科学研究中,人们通常会将大问题拆解为小问题,但最终发现,这种方法可能并不适用于机器或机器人的训练。


    Tobi Springenberg:说实话,机器学习和AI领域在某种程度上也犯了同样的错误。长期以来,人们都在深入研究单个具体问题,后来才意识到,如果能将这些问题整合起来,实现多任务学习,效果可能会好得多。但令人意外的是,仅仅通过切换到通用预训练目标,这一切就自然实现了——这正是最令人惊讶的地方。


    Alfred Lin:你认为这会不会像手风琴一样,在两种框架之间来回切换?先将大问题拆解为小问题,在一段时间内有效,然后失效;再回到大问题,尝试更通用的解决方案。如此循环往复。


    Tobi Springenberg:我们不会再回到拆解问题的老路上去。


    Karol Hausman:我也这么认为。有些人提出“两全其美”的思路:将已知规则(如牛顿物理定律)融入模型,无需让模型重新学习。但我们的经验表明,这种方法行不通——强行融入已知规则会限制模型学习新事物的能力。所谓“两全其美”可能并不存在,我们必须坚持完全的数据驱动学习。这很有趣,试想一下,如果存在一种预加载所有智能的方式,进化过程应该早已找到它——生物出生时就会具备所有知识。但我们观察到,有些物种(如鹿)出生时就已具备成年个体的智能,终生无需学习;而人类、乌鸦等智能物种则有漫长的童年和青春期,初期并不聪慧,必须通过自身经验持续学习。


    这说明,通过亲身体验世界并从中学习,是智能形成的关键。机器学习和AI领域也正在吸取这一教训:我们自以为了解人类的思考方式,但实际上并非如此。我们需要做的,是让算法从数据中自行学习。


    Alfred Lin:养育孩子也是如此。我以为自己了解儿子的想法,但其实并不完全了解。


    Karol Hausman:我有一个小女儿,她的学习速度和认知发展真的非常令人惊讶。


    Alfred Lin:孩子学得太快了。


    Karol Hausman:是的,而且你根本不知道他们的知识来自哪里。


    Alfred Lin:希望是来自父母。


    Karol Hausman:希望如此。但她确实知道一些我从未教过她的东西。


    Alfred Lin:非常感谢你们。


    Sonya Huang:你们追求的使命非常伟大。感谢你们的分享。


    Karol Hausman/Tobi Springenberg:谢谢,感谢邀请。


    原文:Training General Robots for Any Task:Physical Intelligence’s Karol Hausman and Tobi Springenberg


    https://www.youtube.com/watch?v=OJCT-HGxPjk

    本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
    如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

    大 家 都 在 搜