扫码打开虎嗅APP
本文来自微信公众号: 42号电波 ,作者:兰博,编辑:James,原文标题:《Figure 在 Helix 里加入 System 0,意味着什么》
前段时间,42号电波发布的Figure机器人深夜炸场,马斯克火速追问,创始人回应:「完全自主」文章中,关于Figure 03做家务到底是不是自主这件事,引起了许多网友的讨论。
当然,如今遥操作机器人却谎称自主的视频非常泛滥,以至于不少观众都有了心理洁癖,所以也不能确定Figure机器人究竟是何种状态。但今天,电波还是想从技术角度解读一下Helix 02模型,到底给Figure 03机器人带来了什么不一样的能力。
在Figure发布的视频中,机器人在客厅中能够完成擦桌子、捡玩具、清理沙发、关电视等一系列操作,甚至可以像人一样把毛巾甩到肩膀上、把收纳箱夹在腋下。
对于这种全身控制、端到端自主操作,官方给出的说法是,这些机器人新行为只是通过增加新的训练数据获得的,并没有针对每个动作进行单独设计。
而这一切的核心,就在于其年初发布的Helix 02模型,相比较初代版本,新版能力更强的关键就在于正式引入了一个新的系统层级,System 0。

在原本Helix的System 2和System 1之下,System 0插入了一层以1 kHz运行的whole-body controller,负责平衡、接触以及全身协调。
官方信息显示,这一层是通过超过1,000小时的关节级人体运动数据,以及大规模sim-to-real强化学习训练得到的,一个大约1000万参数的网络,替代了超过10万行手写C++控制代码。
很多人看到这里,会觉得只是多了一层低级控制器而已,但System 0的加入,主要还是重新划分了机器人系统的边界。
去年Figure的初代Helix模型,发力重点是人形机器人的上半身操作,今年Helix 02模型能够让Figure 03机器人在移动中完成精确操作,System 0就是其中的关键。

过去整个行业在讨论VLA时,核心主要集中在机器人能不能理解世界,能不能根据语言把动作做好,但很少有人将稳定的移动操作融入其中。诚然机器人在两个方向上都已经做得不错:
locomotion:走路、跑步、越障
manipulation:抓取、放置、操作物体
但主要问题在于这两件事很少能同时成立,大多数模型在设计上其实默认它们是可以拆开的,先走过去、停下、稳住、再操作、再移动。
这也是为什么很多机器人演示,看起来很干净、动作也对,但过程是分段的。
只是真实世界并不是这样,人在日常生活中,很少会完全停下来再做动作,这些行为的共同特点是,移动和操作耦合在一起,而不是串行。
Figure在Helix 02的介绍里也提到,loco-manipulation(移动操作一体化)的难点,不在于走路难或操作难,而在于两者无法被干净分解。
所以,System 0的出现,相当于把「机器人本体如何稳定移动操作」也纳入了学习系统,这意味着Helix 02不是只想成为一个会调用Skill的Agent,而是在试图把Skill的生成方式,以及身体控制本身,一起改写掉。

用Agent和Skill打比方,System 0到底是什么
用最近很火的Agent来打比方,其实可以更直观地理解Helix 02这套结构。
最上面是Agent,负责决策,看到环境之后,判断下一步要做什么
中间是Skill,相当于一个个「工种包」,比如走路、伸手、抓取、放置
最下面是controller,负责把这些动作真正执行出来,让电机转、让身体动
在这种结构里,每一层的边界是比较清晰的,Agent不管具体怎么抓,Skill不管身体怎么稳,controller也不理解任务。
问题就在于,这种分层一旦进入真实环境,很容易出现一种情况,每一层都没错,但拼在一起就不顺。每一步都有对应的Skill,也都有controller去执行,但整个过程被强行切成了片段。
一旦环境稍微变化,比如物体位置偏了一点,或者地面不平,这种分段结构就很容易出问题。Helix 02的变化,可以用同样的类比来看。
System 2还是Agent,负责理解任务和场景。但System 1已经不再是一个离散的Skill库,更像一个连续的Skill生成器,它不调用「走路」或「抓取」,会持续地产生全身动作。
System 0就可以理解为一层身体反射,也可以说是「肌肉记忆」。这三层的关系和传统结构的关键区别在于,Skill不再是系统的中间枢纽,它处在最底层,但它做的事情,是让执行本身变得稳定、自然且连续。
这些东西在传统系统里通常分散在各种控制逻辑和补偿模块里,而在这里,被统一进了一个习得先验。
从这个角度看,System 0就是一层让所有动作成立的身体基础。也正因为有这一层,System 1才可以放心地生成连续动作,而不用每一步都考虑会不会倒、接触会不会断。
这也是为什么Helix 02能把很多原本需要拆开的动作,重新变成一段连续行为,Figure 03机器人干活看上去也更加流畅。

如果只停留在「多了一层1 kHz控制」,很容易低估System 0的变化。拆开来看,主要是在几个关键技术点上的取舍。
其中最重要的一点,就是训练数据的形态。System 0用的是超过1,000小时的关节级人体运动数据,并且这些数据已经被重新定位到机器人本体的关节空间。
所以它学的是更底层的,人体在运动过程中,各个关节之间的协调关系,不是简单的走路姿势。
第二个变化在于模型的角色和规模,Figure介绍System 0是一个大约1,000万参数的网络,输入是全身关节状态和基座运动信息,输出是1 kHz的关节级执行器指令。
这个规模也使其更接近一个高频、低延迟、强约束的运动先验网络,它不负责理解环境,也不负责生成任务层面的动作,专门用来解决在高频闭环里,如何把上层给出的动作目标,稳定地变成物理上可执行的行为。
还有一个关键变化是训练方式,System 0完全在仿真中训练,并且使用了超过20万并行环境和大规模领域随机化,从而学习在各种扰动和各种接触条件下,身体如何保持稳定。
这样的训练方式,实际上就是在用仿真去穷举身体可能遇到的物理情况,然后让策略在这些分布上收敛。
另外就是它和System 1的接口设计方面,System 1仍然是一个transformer,负责把感知和语义目标转成全身动作,但它输出的是关节目标位置,并不是直接控制力。
所以System 0接管的就是「最后一跳」,在1 kHz的频率下,把这些目标转成具体的执行器指令,并在过程中持续修正误差、处理接触、维持平衡。
这个接口设计其实很克制,Figure并没有把所有东西揉成一个端到端黑箱,而是在时间尺度上做了分层,慢的部分负责理解,中的部分负责生成,快的部分负责稳定。
从这个角度看,System 0改写的,其实是从动作到物理执行这一段链路的表达方式。也就是一个习得先验,在高频闭环里统一处理这些问题。
所以Figure也强调了「10万行C++被替代」,它指向的实际就是表达方式变化,从显式规则,变成了数据驱动的运动先验。
因为System 0的加入,Helix 02模型也有了很强的移动操作能力,其实这也从背后反应出了今年机器人行业的一大重点,那就是locomotion+manipulation(移动+操作)的融合。
在机器人需要规模落地在真实环境的背景下,像去年行业中大量和初代Helix模型那样聚焦上半身的操作,已经不太能满足应用需求了。
这个过程也很像智驾过去走过的一段路,产业早期大家拼某个模块的质量,后来越来越多的能力被统一模型吞掉。
相比较Google DeepMind RT-2擅长的语义理解和动作选择、英伟达GR00T强调的模型和数据体系。
Helix 02的重点更偏向于机器人的动作在现实世界中,能不能连续成立,也就是loco-manipulation(移动操作一体化)。
不过,尽管Figure给出的厨房和客厅整理任务完成度不错,但目前他们还没有展示过,其机器人在陌生环境、强扰动、长时序失败恢复和跨家庭泛化这些维度上,S0+S1+S2的真实鲁棒性到底有多高,这也是他们后续需要去验证的一点。
仅就目前而言,Helix 02这种将各类工具能力融合为一套连续策略,并为它新增一层高频次身体先验约束的路线,开始让机器人的系统链路从「像素到动作」进一步向前延伸到了「像素到扭矩」。
所以,模型和身体的融合协同能力,也会是未来机器人的一大主线。