2026-03-20 18:20

Figure 在Helix 里加入System0，意味着什么

42号电波©

速览

本文来自微信公众号： 42号电波，作者：兰博，编辑：James，原文标题：《Figure 在 Helix 里加入 System 0，意味着什么》

前段时间，42号电波发布的Figure机器人深夜炸场，马斯克火速追问，创始人回应：「完全自主」文章中，关于Figure 03做家务到底是不是自主这件事，引起了许多网友的讨论。

当然，如今遥操作机器人却谎称自主的视频非常泛滥，以至于不少观众都有了心理洁癖，所以也不能确定Figure机器人究竟是何种状态。但今天，电波还是想从技术角度解读一下Helix 02模型，到底给Figure 03机器人带来了什么不一样的能力。

在Figure发布的视频中，机器人在客厅中能够完成擦桌子、捡玩具、清理沙发、关电视等一系列操作，甚至可以像人一样把毛巾甩到肩膀上、把收纳箱夹在腋下。

对于这种全身控制、端到端自主操作，官方给出的说法是，这些机器人新行为只是通过增加新的训练数据获得的，并没有针对每个动作进行单独设计。

而这一切的核心，就在于其年初发布的Helix 02模型，相比较初代版本，新版能力更强的关键就在于正式引入了一个新的系统层级，System 0。

为什么非要多出一个System 0

在原本Helix的System 2和System 1之下，System 0插入了一层以1 kHz运行的whole-body controller，负责平衡、接触以及全身协调。

官方信息显示，这一层是通过超过1,000小时的关节级人体运动数据，以及大规模sim-to-real强化学习训练得到的，一个大约1000万参数的网络，替代了超过10万行手写C++控制代码。

很多人看到这里，会觉得只是多了一层低级控制器而已，但System 0的加入，主要还是重新划分了机器人系统的边界。

去年Figure的初代Helix模型，发力重点是人形机器人的上半身操作，今年Helix 02模型能够让Figure 03机器人在移动中完成精确操作，System 0就是其中的关键。

过去整个行业在讨论VLA时，核心主要集中在机器人能不能理解世界，能不能根据语言把动作做好，但很少有人将稳定的移动操作融入其中。诚然机器人在两个方向上都已经做得不错：

locomotion：走路、跑步、越障

manipulation：抓取、放置、操作物体

但主要问题在于这两件事很少能同时成立，大多数模型在设计上其实默认它们是可以拆开的，先走过去、停下、稳住、再操作、再移动。

这也是为什么很多机器人演示，看起来很干净、动作也对，但过程是分段的。

只是真实世界并不是这样，人在日常生活中，很少会完全停下来再做动作，这些行为的共同特点是，移动和操作耦合在一起，而不是串行。

Figure在Helix 02的介绍里也提到，loco-manipulation（移动操作一体化）的难点，不在于走路难或操作难，而在于两者无法被干净分解。

所以，System 0的出现，相当于把「机器人本体如何稳定移动操作」也纳入了学习系统，这意味着Helix 02不是只想成为一个会调用Skill的Agent，而是在试图把Skill的生成方式，以及身体控制本身，一起改写掉。

用Agent和Skill打比方，System 0到底是什么

用最近很火的Agent来打比方，其实可以更直观地理解Helix 02这套结构。

最上面是Agent，负责决策，看到环境之后，判断下一步要做什么

中间是Skill，相当于一个个「工种包」，比如走路、伸手、抓取、放置

最下面是controller，负责把这些动作真正执行出来，让电机转、让身体动

在这种结构里，每一层的边界是比较清晰的，Agent不管具体怎么抓，Skill不管身体怎么稳，controller也不理解任务。

问题就在于，这种分层一旦进入真实环境，很容易出现一种情况，每一层都没错，但拼在一起就不顺。每一步都有对应的Skill，也都有controller去执行，但整个过程被强行切成了片段。

一旦环境稍微变化，比如物体位置偏了一点，或者地面不平，这种分段结构就很容易出问题。Helix 02的变化，可以用同样的类比来看。

System 2还是Agent，负责理解任务和场景。但System 1已经不再是一个离散的Skill库，更像一个连续的Skill生成器，它不调用「走路」或「抓取」，会持续地产生全身动作。

System 0就可以理解为一层身体反射，也可以说是「肌肉记忆」。这三层的关系和传统结构的关键区别在于，Skill不再是系统的中间枢纽，它处在最底层，但它做的事情，是让执行本身变得稳定、自然且连续。

这些东西在传统系统里通常分散在各种控制逻辑和补偿模块里，而在这里，被统一进了一个习得先验。

从这个角度看，System 0就是一层让所有动作成立的身体基础。也正因为有这一层，System 1才可以放心地生成连续动作，而不用每一步都考虑会不会倒、接触会不会断。

这也是为什么Helix 02能把很多原本需要拆开的动作，重新变成一段连续行为，Figure 03机器人干活看上去也更加流畅。

拆开来看，它实际改写了什么？

如果只停留在「多了一层1 kHz控制」，很容易低估System 0的变化。拆开来看，主要是在几个关键技术点上的取舍。

其中最重要的一点，就是训练数据的形态。System 0用的是超过1,000小时的关节级人体运动数据，并且这些数据已经被重新定位到机器人本体的关节空间。

所以它学的是更底层的，人体在运动过程中，各个关节之间的协调关系，不是简单的走路姿势。

第二个变化在于模型的角色和规模，Figure介绍System 0是一个大约1,000万参数的网络，输入是全身关节状态和基座运动信息，输出是1 kHz的关节级执行器指令。

这个规模也使其更接近一个高频、低延迟、强约束的运动先验网络，它不负责理解环境，也不负责生成任务层面的动作，专门用来解决在高频闭环里，如何把上层给出的动作目标，稳定地变成物理上可执行的行为。

还有一个关键变化是训练方式，System 0完全在仿真中训练，并且使用了超过20万并行环境和大规模领域随机化，从而学习在各种扰动和各种接触条件下，身体如何保持稳定。

这样的训练方式，实际上就是在用仿真去穷举身体可能遇到的物理情况，然后让策略在这些分布上收敛。

另外就是它和System 1的接口设计方面，System 1仍然是一个transformer，负责把感知和语义目标转成全身动作，但它输出的是关节目标位置，并不是直接控制力。

所以System 0接管的就是「最后一跳」，在1 kHz的频率下，把这些目标转成具体的执行器指令，并在过程中持续修正误差、处理接触、维持平衡。

这个接口设计其实很克制，Figure并没有把所有东西揉成一个端到端黑箱，而是在时间尺度上做了分层，慢的部分负责理解，中的部分负责生成，快的部分负责稳定。

从这个角度看，System 0改写的，其实是从动作到物理执行这一段链路的表达方式。也就是一个习得先验，在高频闭环里统一处理这些问题。

所以Figure也强调了「10万行C++被替代」，它指向的实际就是表达方式变化，从显式规则，变成了数据驱动的运动先验。

技术路线已经开始转向

因为System 0的加入，Helix 02模型也有了很强的移动操作能力，其实这也从背后反应出了今年机器人行业的一大重点，那就是locomotion+manipulation（移动+操作）的融合。

在机器人需要规模落地在真实环境的背景下，像去年行业中大量和初代Helix模型那样聚焦上半身的操作，已经不太能满足应用需求了。

这个过程也很像智驾过去走过的一段路，产业早期大家拼某个模块的质量，后来越来越多的能力被统一模型吞掉。

相比较Google DeepMind RT-2擅长的语义理解和动作选择、英伟达GR00T强调的模型和数据体系。

Helix 02的重点更偏向于机器人的动作在现实世界中，能不能连续成立，也就是loco-manipulation（移动操作一体化）。

不过，尽管Figure给出的厨房和客厅整理任务完成度不错，但目前他们还没有展示过，其机器人在陌生环境、强扰动、长时序失败恢复和跨家庭泛化这些维度上，S0+S1+S2的真实鲁棒性到底有多高，这也是他们后续需要去验证的一点。

仅就目前而言，Helix 02这种将各类工具能力融合为一套连续策略，并为它新增一层高频次身体先验约束的路线，开始让机器人的系统链路从「像素到动作」进一步向前延伸到了「像素到扭矩」。

所以，模型和身体的融合协同能力，也会是未来机器人的一大主线。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI创投日报

频道：前沿科技