扫码打开虎嗅APP

搜索历史
删除
完成
全部删除
热搜词
前段时间,Figure机器人展示了流畅的家务能力,其核心在于Helix 02模型引入的System 0。这并非简单的层级叠加,而是通过一个学习而来的“身体反射”层,从根本上改变了机器人控制系统的架构,将移动与操作融为一体,使机器人动作更接近人类的连续和自然。 ## 1. System 0:重新划分系统边界的“身体基础” - System 0是插入原有系统底层的一个以1 kHz运行的全身控制器,负责平衡、接触及全身协调。 - 它通过超过1,000小时的人体运动数据和强化学习训练而成,是一个约1000万参数的网络,替代了超过10万行手写C++控制代码。 ## 2. 解决核心难题:移动与操作的一体化(Loco-manipulation) - 传统机器人模型常将移动和操作拆分为串行步骤,导致动作分段、不连贯。 - System 0的关键突破在于解决了移动操作难以“干净分解”的难点,让机器人能像人一样在移动中完成精确操作。 ## 3. 用Agent类比理解System 0的角色 - 在最上层的决策Agent和最底层的执行控制器之间,System 1不再是离散的技能库,而是连续的技能生成器。 - System 0则如同“肌肉记忆”或“身体反射”,确保上层生成的动作目标能在物理世界中稳定、连续地执行。 ## 4. System 0带来的关键技术改写 - **数据形态**:学习的是关节级的人体协调关系,而非简单的动作姿势。 - **模型角色**:作为一个高频运动先验网络,专门负责将动作目标转化为物理上可执行的指令。 - **训练方式**:在超过20万并行仿真环境中训练,学习应对各种物理扰动和接触条件。 - **接口设计**:与System 1在时间尺度上分层,System 0负责“最后一跳”的高频稳定执行。 ## 5. 技术路线转向:从“像素到动作”到“像素到扭矩” - Helix 02的重点偏向于机器人动作在现实世界中的连续成立能力,即移动操作一体化。 - 这反映了行业趋势,即从聚焦单一模块能力转向将各类工具能力融合为一套连续策略,强调模型与身体的融合协同。
2026-03-20 18:20

Figure 在Helix 里加入System0,意味着什么

本文来自微信公众号: 42号电波 ,作者:兰博,编辑:James,原文标题:《Figure 在 Helix 里加入 System 0,意味着什么》


前段时间,42号电波发布的Figure机器人深夜炸场,马斯克火速追问,创始人回应:「完全自主」文章中,关于Figure 03做家务到底是不是自主这件事,引起了许多网友的讨论。


当然,如今遥操作机器人却谎称自主的视频非常泛滥,以至于不少观众都有了心理洁癖,所以也不能确定Figure机器人究竟是何种状态。但今天,电波还是想从技术角度解读一下Helix 02模型,到底给Figure 03机器人带来了什么不一样的能力。


在Figure发布的视频中,机器人在客厅中能够完成擦桌子、捡玩具、清理沙发、关电视等一系列操作,甚至可以像人一样把毛巾甩到肩膀上、把收纳箱夹在腋下。


对于这种全身控制、端到端自主操作,官方给出的说法是,这些机器人新行为只是通过增加新的训练数据获得的,并没有针对每个动作进行单独设计。


而这一切的核心,就在于其年初发布的Helix 02模型,相比较初代版本,新版能力更强的关键就在于正式引入了一个新的系统层级,System 0。



为什么非要多出一个System 0


在原本Helix的System 2和System 1之下,System 0插入了一层以1 kHz运行的whole-body controller,负责平衡、接触以及全身协调。


官方信息显示,这一层是通过超过1,000小时的关节级人体运动数据,以及大规模sim-to-real强化学习训练得到的,一个大约1000万参数的网络,替代了超过10万行手写C++控制代码。


很多人看到这里,会觉得只是多了一层低级控制器而已,但System 0的加入,主要还是重新划分了机器人系统的边界。


去年Figure的初代Helix模型,发力重点是人形机器人的上半身操作,今年Helix 02模型能够让Figure 03机器人在移动中完成精确操作,System 0就是其中的关键。



过去整个行业在讨论VLA时,核心主要集中在机器人能不能理解世界,能不能根据语言把动作做好,但很少有人将稳定的移动操作融入其中。诚然机器人在两个方向上都已经做得不错:


  • locomotion:走路、跑步、越障


  • manipulation:抓取、放置、操作物体


但主要问题在于这两件事很少能同时成立,大多数模型在设计上其实默认它们是可以拆开的,先走过去、停下、稳住、再操作、再移动。


这也是为什么很多机器人演示,看起来很干净、动作也对,但过程是分段的。


只是真实世界并不是这样,人在日常生活中,很少会完全停下来再做动作,这些行为的共同特点是,移动和操作耦合在一起,而不是串行。


Figure在Helix 02的介绍里也提到,loco-manipulation(移动操作一体化)的难点,不在于走路难或操作难,而在于两者无法被干净分解。


所以,System 0的出现,相当于把「机器人本体如何稳定移动操作」也纳入了学习系统,这意味着Helix 02不是只想成为一个会调用Skill的Agent,而是在试图把Skill的生成方式,以及身体控制本身,一起改写掉。



用Agent和Skill打比方,System 0到底是什么


用最近很火的Agent来打比方,其实可以更直观地理解Helix 02这套结构。


  • 最上面是Agent,负责决策,看到环境之后,判断下一步要做什么


  • 中间是Skill,相当于一个个「工种包」,比如走路、伸手、抓取、放置


  • 最下面是controller,负责把这些动作真正执行出来,让电机转、让身体动


在这种结构里,每一层的边界是比较清晰的,Agent不管具体怎么抓,Skill不管身体怎么稳,controller也不理解任务。


问题就在于,这种分层一旦进入真实环境,很容易出现一种情况,每一层都没错,但拼在一起就不顺。每一步都有对应的Skill,也都有controller去执行,但整个过程被强行切成了片段。


一旦环境稍微变化,比如物体位置偏了一点,或者地面不平,这种分段结构就很容易出问题。Helix 02的变化,可以用同样的类比来看。


System 2还是Agent,负责理解任务和场景。但System 1已经不再是一个离散的Skill库,更像一个连续的Skill生成器,它不调用「走路」或「抓取」,会持续地产生全身动作。


System 0就可以理解为一层身体反射,也可以说是「肌肉记忆」。这三层的关系和传统结构的关键区别在于,Skill不再是系统的中间枢纽,它处在最底层,但它做的事情,是让执行本身变得稳定、自然且连续。


这些东西在传统系统里通常分散在各种控制逻辑和补偿模块里,而在这里,被统一进了一个习得先验。


从这个角度看,System 0就是一层让所有动作成立的身体基础。也正因为有这一层,System 1才可以放心地生成连续动作,而不用每一步都考虑会不会倒、接触会不会断。


这也是为什么Helix 02能把很多原本需要拆开的动作,重新变成一段连续行为,Figure 03机器人干活看上去也更加流畅。



拆开来看,它实际改写了什么?


如果只停留在「多了一层1 kHz控制」,很容易低估System 0的变化。拆开来看,主要是在几个关键技术点上的取舍。


其中最重要的一点,就是训练数据的形态。System 0用的是超过1,000小时的关节级人体运动数据,并且这些数据已经被重新定位到机器人本体的关节空间。


所以它学的是更底层的,人体在运动过程中,各个关节之间的协调关系,不是简单的走路姿势。


第二个变化在于模型的角色和规模,Figure介绍System 0是一个大约1,000万参数的网络,输入是全身关节状态和基座运动信息,输出是1 kHz的关节级执行器指令。


这个规模也使其更接近一个高频、低延迟、强约束的运动先验网络,它不负责理解环境,也不负责生成任务层面的动作,专门用来解决在高频闭环里,如何把上层给出的动作目标,稳定地变成物理上可执行的行为。


还有一个关键变化是训练方式,System 0完全在仿真中训练,并且使用了超过20万并行环境和大规模领域随机化,从而学习在各种扰动和各种接触条件下,身体如何保持稳定。


这样的训练方式,实际上就是在用仿真去穷举身体可能遇到的物理情况,然后让策略在这些分布上收敛。


另外就是它和System 1的接口设计方面,System 1仍然是一个transformer,负责把感知和语义目标转成全身动作,但它输出的是关节目标位置,并不是直接控制力。


所以System 0接管的就是「最后一跳」,在1 kHz的频率下,把这些目标转成具体的执行器指令,并在过程中持续修正误差、处理接触、维持平衡。


这个接口设计其实很克制,Figure并没有把所有东西揉成一个端到端黑箱,而是在时间尺度上做了分层,慢的部分负责理解,中的部分负责生成,快的部分负责稳定。


从这个角度看,System 0改写的,其实是从动作到物理执行这一段链路的表达方式。也就是一个习得先验,在高频闭环里统一处理这些问题。


所以Figure也强调了「10万行C++被替代」,它指向的实际就是表达方式变化,从显式规则,变成了数据驱动的运动先验。


技术路线已经开始转向


因为System 0的加入,Helix 02模型也有了很强的移动操作能力,其实这也从背后反应出了今年机器人行业的一大重点,那就是locomotion+manipulation(移动+操作)的融合。


在机器人需要规模落地在真实环境的背景下,像去年行业中大量和初代Helix模型那样聚焦上半身的操作,已经不太能满足应用需求了。


这个过程也很像智驾过去走过的一段路,产业早期大家拼某个模块的质量,后来越来越多的能力被统一模型吞掉。


相比较Google DeepMind RT-2擅长的语义理解和动作选择、英伟达GR00T强调的模型和数据体系。


Helix 02的重点更偏向于机器人的动作在现实世界中,能不能连续成立,也就是loco-manipulation(移动操作一体化)。


不过,尽管Figure给出的厨房和客厅整理任务完成度不错,但目前他们还没有展示过,其机器人在陌生环境、强扰动、长时序失败恢复和跨家庭泛化这些维度上,S0+S1+S2的真实鲁棒性到底有多高,这也是他们后续需要去验证的一点。


仅就目前而言,Helix 02这种将各类工具能力融合为一套连续策略,并为它新增一层高频次身体先验约束的路线,开始让机器人的系统链路从「像素到动作」进一步向前延伸到了「像素到扭矩」。


所以,模型和身体的融合协同能力,也会是未来机器人的一大主线。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

大 家 都 在 搜