扫码打开虎嗅APP
本文来自微信公众号: 十字路口Crossing ,作者:镜山
从2024年被称为「人形机器人元年」开始,行业一直在等待一个像ChatGPT那样的突破性时刻。而具身智能,被普遍认为是AI的下一个关键方向。
1月28日,蚂蚁灵波开源了自己的具身智能通用大模型:LingBot-VLA。
不是论文展示,也不是Demo视频,代码、权重、训练和后训练工具链,一起放出来。
这个时间点很有意思。就在2个月前,硅谷的Physical Intelligence(PI)刚刚拿到Alphabet的CapitalG领投的6亿美元融资,他们开源的Pi0.5模型被圈内视为标杆,甚至被称为「具身智能VLA模型里的OpenAI」。
在Pi0.5之后,「VLA+开源」这条路已经被验证过了。现在的问题只剩下一个:
你能不能交出一个,真能在真实机器人上反复跑的版本。
🚥
具身智能喊了这么多年,这次交出的结果到底处在什么水平?
蚂蚁灵波选择正面回答这个问题。
一旦东西真的被放出来,它就不再只接受赞美
具身智能这个词,其实已经喊了很多年。
早在2016年,谷歌就开始做机器人学习相关的研究。后来DeepMind、OpenAI、Meta都投入了大量资源。学术界更不用说,斯坦福、伯克利、CMU、清华、上海交大,每年发表的相关论文都非常非常多。
但很长一段时间里,大家做的事情都比较「碎」。
因为做机器人,一直有一个让人头疼的问题:每换一个场景,几乎就要从头再来。
比如你训练了一个机器人,让它学会在仓库里分拣快递。花了几个月,采集了几万条数据,终于训练好了,也能稳定运行了。然后甲方or负责人说:我们再做一个餐厅洗盘子的机器人吧。
你得重新采集数据、重新训练模型、重新调试参数。
所以你会发现,在这个行业里,大家都在不断重复做相似的事情。这种碎片化的状态,让整个行业的进展比预期慢了很多。这也是为什么具身智能喊了这么多年,真正大规模落地的应用依然很少。
正是在这样的背景下,行业里渐渐出现了一些变化:
开源的VLA模型(比如Pi0.5)出现了,很多团队在此基础上快速适配具体场景。
2024年3月,Physical Intelligence正式成立。这家公司的创始团队配置非常豪华。
CEO Karol Hausman曾是DeepMind的科学家,同时也是Stanford University教授;联合创始人Sergey Levine是强化学习领域的顶级学者,论文引用量超过15万次;另一位联合创始人Chelsea Finn同样是斯坦福的明星教授,Mobile ALOHA机器人项目正是出自她的团队。
在2024年3月刚成立后第一个月,他们就拿到了7000万美元的种子轮融资,领投的是OpenAI和红杉资本。8个月后,又拿了4亿美元,估值干到56亿美元。
这个融资速度和金额,在早期机器人公司里几乎没见过。
2024年10月,他们发布了Pi0,一个真正意义上的通用机器人策略模型。几个月后又迭代到Pi0.5,直接开源放了出来。
这在行业里是一件大事。
GitHub上的数据很能说明问题:π0.5开源后,相关仓库的Star数在一周内突破了5000,Fork数超过800(现在整个Pi开源项目,Star达到了9.9k)。开发者社区的热情是真实的。
如果把时间往前拨两年,「开源具身模型」本身就足够成为新闻。那时候,大家的共识还停留在:只要有人愿意把模型开出来,本身就是一种勇气。
但现在不是了。
在Pi0.5之后,开源这件事本身,已经不再构成优势。
真正拉开差距的,是你交付的到底是什么。是一个论文可复现的模型?还是一个别人真的能拉下来、跑起来、改得动、用得上的工程底座?
这是两种完全不同的开源。
过去,很多所谓的开源项目,更像是「技术态度展示」。结果看着不错,但换个机器人就失效。
Pi0.5把具身模型开源这件事说的很明确:VLA应该是个可以被工程化、被标准化、被二次开发的东西。
在这个前提下,再谈开源,标准自然会被抬高。你愿不愿意放出来,在Pi0.5之后,真的没那么重要了。
大家关心的是:
你放出来的,是不是已经经得起别人用、经得起别人批评。
是的,开源的标准也被卷起来了。
蚂蚁灵波这次开源LingBot-VLA,正是发生在这个节点上。所以,这也是为什么,蚂蚁灵波此次开源被重视的原因:一部分人看LingBot-VLA能不能用,另一部分等着看这场「竞赛的好戏」。
原因很简单:一旦东西真的被放出来,它就不再只接受赞美。
代码会被拉下来跑。模型会被换本体测试。失败的case会被复现。性能的边界会被一点点摸清。
这时候,论文里的东西,就要进入现实世界了,在具身智能这种高度依赖真实世界反馈的领域,这种筛选会显得更直接一点。
从这个角度看,蚂蚁灵波选择在这个阶段把LingBot-VLA完整开源,算是主动「躬身入局」了。
模型好不好,不再由发布者自己说了算。它将会由使用它的人、改它的人、甚至被它「坑过」的人来决定。
这是一个非常硬的局面。但具身智能走到现在,恰恰需要这种硬度。因为具身智能最怕的,是每个人都在各自的封闭系统里重复试错。
不过,这个局面至少能保证:输掉的路线,会输得足够快。而对一个还在早期阶段的行业来说,这已经是一种很难得的、很宝贵的效率提升。
最后,当只有一家公司做开源的时候,大家可能会观望:这条路到底行不行?会不会只是昙花一现?但当不同国家、不同背景的团队都开始往这个方向走,说明这个趋势可能是真实的。
这有点像当年Android出现之后,智能手机行业发生的事情。在Android之前,做手机操作系统是一件门槛很高的事。Android开源之后,大量厂商涌入,整个市场被激活了。
当然,机器人行业和手机行业不完全一样。机器人的软硬件耦合更紧密,场景也更碎片化。但大方向可能是类似的:当基础能力变得可获取,创新会从底层转移到应用层。
蚂蚁灵波开始正面回答
在这样「卷」的背景下,在开源高精度空间感知模型LingBot-Depth之后,2025年1月27日,蚂蚁灵波开源了LingBot-VLA。这个模型和Pi0.5的方向是一致的:都是通用模型,都能跨硬件、跨任务,都选择了开源。
从测试结果来看,LingBot-VLA在一些真机任务上的表现已经和Pi0.5在同一水平线上,某些指标还有提升。但更重要的是这条路上又多了一个认真的参与者。
而且蚂蚁灵波做得相对更彻底一点点。
他们不仅开源了模型本身,还把代码、训练工具链全部放了出来。可以说,他们预设了这个模型一定会被别人拿去改、拿去用、拿去失败。
这是一种非常工程化、也非常现实的心态。
因为在今天的具身智能领域,真正有价值的开源,在于「你能在我这里少走多少弯路」。当开源开始承担这种角色,它就成为了一种筛选机制。
能跑通的,会被留下;跑不通的,会很快被淘汰。而这,恰恰是这个具身智能现在最需要的东西之一。
这是一个积极的信号。
接下来,我们先来看看,LingBot-VLA的表现能不能「押得住」上面提到的开源标准。
长期以来,具身智能落地一直卡在一个问题上:不同类型的机器人,比如单臂的、双臂的、人形的,往往要分别收集数据、分别训练模型。
这种「一个机器人配一个专用模型」的做法,导致成本很高,但能力却没法在不同机器人之间共享使用。
LingBot-VLA能做到「跨本体」,就是说同一个模型,可以用在单臂机器人、双臂机器人、人形机器人上,不用针对每种硬件单独训练。
他们用大约2万小时的真实世界数据做预训练,覆盖了9种主流的机器人构型。即便在任务切换或环境发生变化时,模型依然能够保持较为稳定的成功率。
在RoboTwin 2.0仿真基准的50项任务场景里,Lingbot-VLA操作成功率比Pi0.5提升了9.92%。

听起来很不错。但我们也要诚实地说,「通用」不等于「万能」。
举几个例子。
蚂蚁灵波展示过一个双臂机器人给透明玻璃瓶插花的视频。这个任务难度确实很高:玻璃是透明的,普通深度相机很难准确识别。
花枝是软的,力度不对就会弯折,瓶口很小,插第二枝花的时候可能还需要避开第一枝。
再比如说「餐具收纳」这个案例里,我注意到了一个很有意思的点,左侧机器臂拿起餐盘后,右侧机器臂会顺手压一些洗洁精进去,再拿抹布擦干净:
即便在更「细微」的场景里,比如说拿起玻璃杯,用刷子刷干净再放回收纳处:
像是下面这个,右侧机器臂卡住铅笔袋的一个边,左侧机器臂识别桌面上的物体放进铅笔袋里:
能做到这个程度,技术上确实有不小的突破。
除了性能,LingBot-VLA在数据效率和算力效率上也有很明显的提升。比如说,要达到同样的任务成功率,它的训练效率达到StarVLA、OpenPI等主流框架的1.5~2.8倍。
但如果换一个场景呢?
这就是所谓的「长尾问题」。现实世界的场景是无穷无尽的,总会有一些情况是模型没见过的、处理不好的。
另一个问题是,从Demo到真正量产,中间还有很长的路要走。
我们对技术进步要有合理的预期。
通用开源模型确实是一个重要的方向,它可以大大降低开发门槛,让更多人能参与进来。但它不能解决所有问题。
比如特斯拉。马斯克的做法是软硬件一体,自己做机器人Optimus,自己做模型,自己做应用场景。这是闭环思路。
马斯克的计划是,用Optimus人形机器人去做特斯拉工厂的工作,所有的软硬件都自己搞定。他在2024年的股东大会上说,未来Optimus的数量可能比人类还多。这是一个很宏大的愿景,能不能实现另说,但至少说明闭环路线也有自己的逻辑。
当然了,Figure、波士顿动力这些公司,也都在走自己的路。
这两条路线没有对错,各有道理。
在很长一段时间里,开源和闭源、通用和专用可能会并存。
这也是为什么蚂蚁灵波不仅开源了模型,还开源了后训练的工具链。意思很明确:基础能力我给你了,但到了你自己的场景里,你还是要根据实际情况做适配。
这可能才是更务实的态度。
做硬件的公司,可能会更多地拥抱开源模型。与其自己花几年时间做一个不一定比别人好的模型,不如用开源方案快速获得基础能力,把精力放在硬件差异化和场景落地上。
蚂蚁灵波已经和星海图、松灵这些机器人厂商做了合作验证,在仓储分拣、户外巡检等场景里跑通了。
做垂直应用的公司,可能会迎来一波机会。以前做机器人应用,要懂硬件、懂算法、懂场景,门槛很高。以后如果基础能力可以直接调用,做应用的门槛就会降低,会有更多人进入这个领域。
一张2026年年初的行业快照
在2026年1月这个时间点,如果要给具身智能行业拍一张快照,大概是这样的:
【1】硬件层面,人形机器人的成本正在快速下降。
宇树科技的G1定价不到10万人民币,智元机器人的远征A1也在往量产方向走,维他VBOT已经到了「千元机」。这些产品离真正好用还有距离,但至少「有没有」的问题正在被解决。
【2】模型开始被对比。
过去你很难判断一个模型「到底行不行」,因为每个人的数据、硬件、评测方式都不一样。
现在,随着Pi0.5、LingBot-VLA这类通用VLA模型的出现,行业有了可以被反复对照的Benchmark。
大家终于开始在同一张试卷上答题。谁答得好,谁答得不好,很清楚,很直白。
你在接受大家「点赞」的同时,也要承受被「拉黑」的风险。这会很大程度上改变研究和工程的节奏。
【3】应用层面,一些垂直场景开始跑出来了。
仓储物流、工业制造、商业服务,这些领域已经有机器人在真正干活、创造价值。虽然离「家家户户都有机器人」还很远,但至少不再只是实验室里的Demo。
这张当下的行业切面,本身就说明了一件事:这个领域,已经从想象阶段,进入了真实摩擦阶段。
接下来发生的,不会那么快,也肯定不会那么「漂亮」,双手沾泥是必然的。
但它会更接近结果。
🚥
回到最开始的问题:谁会成为机器人时代的Android,或者说OS?
老实说,现在回答这个问题还太早了。
以前大家觉得很难的事情(一个模型能用在不同的机器人上,能做不同的任务)现在开始有人做出来了,而且愿意开源出来让别人用。
这本身就是一个信号。
不管最后谁赢谁输,或者根本没有输赢,这场探索都会推动整个行业往前走一步。
就像蚂蚁灵波CEO朱兴说的:「具身智能要走向大规模应用,需要高效的具身基座模型,这决定了是否可用以及能否用得起」。
这句话没什么花哨的,但说的是很实在。
我们可以拭目以待。