2026-07-01 17:38

关于具身智能的一些关键洞察：从技术路线到落地账本,几个和主流叙事相反的判断

曼谈AI©

速览

本文来自微信公众号：曼谈AI ，作者：曼谈AI，原文标题：《关于具身智能的一些关键洞察——从技术路线到落地账本,几个和主流叙事相反的判断》

具身智能现在不缺热闹:动辄融资几十亿,demo一个比一个经验,发布会上全是"通用大脑""世界模型"。可真正在里面做事的人,私下聊的是另一回事——不太谈愿景,只谈路线怎么选、钱该砸在哪、什么场景才真能落地。

在一场跟业内朋友的小饭桌上,聊到了一些大家的判断,有几条彼此还在打架,尚未收敛。但它们都从真实的行业里长出来,而不是PPT上的愿景,整理成五条供大家讨论。

一、视频生成这条路,可能一开始就走不通

有一条热门路线,是让机器人靠"生成、预测下一帧画面"来决定下一个动作,视频生成是其中的典型。这个方向有一个致命问题:边缘信息的幻觉。

看一段AI生成的短视频就明白了:主角的动作通常没问题,但画面边缘、背景里的东西经常乱跳、失真。人看无所谓,游戏里也无所谓——游戏有容错空间,一点错误不影响玩。可机器人没有容错空间,它把看到的每一帧都当成真实世界,背景里那些乱掉的扰动,会直接污染它的判断。最典型的失败是抓取:机器人抓一个瓶子,抓到一半,生成画面里瓶子"自动吸附"到了手上。这类幻觉,生成模型和世界模型到今天都解决不了。

"世界模型"这个概念本身也被高估了。说到底,它的核心只有一句话:未来的信息,如何注入到当前这一帧。市面上两派——一派对世界的三维空间关系建模,一派预测下一个真实物理帧——都能统一进这个框架,而这个框架早在2018年前后就已提出,至今没有本质变化。其中"预测下一帧"那派,撞上的正是前面说的边缘幻觉;"空间建模"那派,则迟迟拿不出真正能用的东西。

世界模型是一项技术,不是一个目的。脱离具体的决策问题去单独研究它,是空转;不同任务需要的世界模型,长得根本不一样。投资人为它兴奋,因为它是风口;做事的人清楚,它该被拉下神坛了。

二、被低估的语言,和可能多余的历史

不走视频生成,那走哪?有两个内行含量很高的判断,方向截然不同。

第一,语言能力被整个行业低估。主流的VLA模型(视觉-语言-动作)里,动作token的占比极小,语言也不高,绝大部分被视觉吃掉。大部分注意力因此放在视觉和动作上,而语言恰恰是泛化的中介——没训练过的动作、没听过的说法,要靠语言的泛化能力才接得住。现在多数模型的语言能力还停在"停下""拿起"这种极简指令层面。把语言token的占比往上拉,是一个被忽视的方向。

第二,具身可能是马尔可夫决策,而不是自回归。大模型自回归,预测下一个token严格依赖前面所有token。但机器人也许只需要看当前这一帧,就足以推断下一个动作,并不需要把整段历史帧塞进去——历史信息反而可能打乱当前决策。

这个判断有一个很硬的反例。开一个冰箱门,当它开到45度时,你无法只凭这一帧判断自己是要继续开、还是要关回去——你需要知道"从哪来",也就是运动的方向,在自动驾驶里叫motion direction。

这场争论没有结论,而这正是它的价值:具身连"要不要历史"这种最底层的问题,场内都还没有共识。

三、瓶颈不在模型,而在数据

模型算法这一环,正在快速商品化。在从业者的体感里,强化学习自2021年前后就没再出现范式级的新算法,一个框架现在用AI编程工具一天就能搭起来。也就是说,拉开差距的不再是模型,而是数据。有人说，谁能把具身数据这件事真正做出来,估值可能顶得上现在所有大模型公司的总和。

数据当然也是技术的一部分——但它是整个技术栈里最难、最贵、最脏的一环,脏到很多人不愿正视。

脏在哪?标准没立好之前,外包采回来的全是垃圾。这里有一套结构性的烂账:采集员按条计费,于是重复采、专挑最好采的姿势采,KPI一完成就交差,含金量越采越低;质检发现了,钱也退不回来,大不了换一家接着干。有钱的公司直接招大批合同工做采样,东南亚甚至有素材厂用头戴相机采第一视角数据——但这类数据含金量极低。

更麻烦的是,数据会代际归零。自动驾驶就交过学费:第一年花几亿采的数据全标成2D,过两年发现没用,推倒重采。人脸识别也发生过——某个团队做了多年、发了几十篇论文,一个千万级规模的公开数据集开源后,几乎任何算法吃完都能逼近满分精度,过往工作一夜付诸流水。

所以真正的护城河,不是"采过多少数据",而是"能否持续、高质量地产出数据"。前者是会过期的耗材,后者是组织能力。具身现在还在等属于它自己的那个"公开大数据集"时刻。

四、比数据更难的,是实时更新的基础设施

数据之上,还有一层更硬的东西:一个能实时更新的闭环。

一批机器人在真实场景里干活,其中一个犯了错(比如把杯子抓倒),这条错误数据要能实时回流到后台,快速重训,再把新参数同时部署回所有机器人——然后这个循环不停地转。听起来简单,工程难度远高于模型本身,因为要处理海量数据的实时吞吐,要保证后台在数据暴涨时不崩。

这和电商是同一个剧本。十几年前大促一爆单,小平台的系统就崩,是云计算把"保证你不崩"做成了生意。具身以后也会出现这样一个平台层:当数据量大到需要实时更新时,谁的后台不爆掉,谁就赢。

所谓"GPT-3时刻"也是这个逻辑。新场景里模型直接上,效果一定不好,泛化不够。要跨过去只有一条路:把新环境跑出来的数据顺畅部署回前线,把成功率从98%一点点往100%逼近。这不是模型问题,是基础设施问题。

五、落地这本账,和大众想的相反

什么叫"落地"?它至少有五级台阶:能演示、能用(但要人兜底)、能替换人、账算得过、能规模化。

而且to C和to B还不是一回事:to C靠意愿买单,有稳定的人愿意反复掏钱就算站住;to B靠ROI买单,哪怕卖出去几台,账算不平企业也不会持续用,就不算真落地。

用"账算不算得过"这把尺子量下来,真实的落地顺序和大众想象几乎相反。

最容易被高估的是快递分拣。它技术最接近、demo最好看,最像"快落地了",但它只到"能用",到不了"能替换"。卡点在分拣线最难的那一步:把车里奇形怪状的件搬上传送带——一个品牌的鞋盒就七八个型号,有扁有厚,夹爪开口不够、抓不稳,这一步至今还得靠人。而物流是个0.3%利润波动都不能忍的行业,老板不在乎机器人卖10万还是30万,只在乎上了之后效率会不会掉;机器既然连这步都得靠人兜底、效率还不如人,换上去反而是给自己添堵。偏偏这步活,人工又便宜又灵活。人太便宜,就是最硬的天花板。

真正会先落地的,是脏、苦、危、招不到人的活。比如机场里开挂车,夏天车厢40度、装了空调也30多度,开到40万年薪也招不到人——这种活无人化的账反而算得通,因为"人"这个变量正在从供给侧消失。往大了看是人口结构——有的地区按推算,到2040年连社会基本运转都撑不起,没人再爬到高楼上做维护,需求不是技术创造的,是"没人了"逼出来的。

另一类会先落地的,是窄、确定、ROI一眼算得清的定制场景:比如给电动车充电桩接一套算法,车停好,机械臂自己把充电枪插上,全程不用人;再比如工厂里的固定工位,搬运、拧螺丝,车企上来就问"上了能给我降多少本"。这类场景的账之所以算得清,是因为连投产前的收益都能先仿真出来——老办法估仓库吞吐量,默认机器人100%抓得起来,跟现实差很远;把抓取失败率、摩擦力这些真实变量补进仿真,吞吐量才估得准,工厂才敢拍板。它们不通用、不惊艳,但边界清楚、账算得准,反而最先跑通。

陪伴机器人对着的其实是两拨不同的人。一拨是独居和老龄人群——独居人口逼近3亿、老龄化压顶,要的是生活加情感的陪伴;另一拨是有情感创伤、原生家庭问题的人,要的是AI接住情绪,AI自己不带情绪,对内心完整的人没用,对敏感脆弱的人才是刚需。这是两拨人、两种产品。它们的共同难点不在技术,而在产品的定义:功能其实很简单,难的是做出一个让人愿意长期用、真离不开的东西。

落地的先后,不由技术难易决定,而由账本和人力决定——最先被机器接手的,往往是最不起眼的那些活。

这几条聊得五花八门,落点却出奇一致:决定具身能走多远的,往往不是台面上最热闹的模型和demo,而是些更底层、也更不性感的事——路线、数据、基础设施、算账。

这些判断都不算乐观,却没有一条在唱衰具身。它们更像一种提醒:热闹之下,真正难啃的部分,才刚刚开始。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI创投日报

频道：前沿科技