扫码打开虎嗅APP
本文来自微信公众号: 甲子光年 ,作者:王博 张麟,原文标题:《别着急宣布VLA已死|甲子光年》
不能因为VLA有短板,就把世界模型推上神坛。
“So let's all take a moment of silence for our dear friend VLAs.They've served us well,rest in peace,long live World Action Models.”
这是英伟达首席研究科学家、具身自主研究团队负责人范麟熙(Jim Fan)4月20日在红杉AI Ascent大会上的发言,对应中文是:“让我们为VLA默哀吧。它们曾经很好地服务过我们,安息吧,World Action Models万岁。”

Jim Fan在红杉AI Ascent大会上演讲,图片来源:Sequoia Capital Youtube账号
这句话很快被一些媒体和博主概括成一个更锋利也更适合传播的判断:VLA已死。
它之所以有传播力,是因为它正好击中了当下具身智能行业的焦虑。
过去两年,VLA(vision-language-action视觉-语言-动作)模型几乎是机器人“大脑”的主流叙事。它把大模型时代最熟悉的能力接入机器人:视觉负责看见环境,语言负责理解任务,动作负责执行指令。对一个长期依赖示教、规则和固定工艺的机器人行业来说,VLA第一次让人看到“通用机器人”的入口。
但也是从今年开始,业界对VLA质疑明显变多。它能理解“把杯子拿起来”,却未必知道杯子会不会滑;它能识别一件衣服,却未必知道衣服被抓起后如何变形;它能听懂“打开抽屉”,却未必知道手、把手、阻尼、摩擦和力之间的关系。
机器人真正面对的不是文本,也不是图像,而是会移动、反光、变形、遮挡、碰撞、失控的物理世界。
这正是Jim Fan提出World Action Model(WAM)的背景。
在他参与署名的论文《World Action Models are Zero-shot Policies》中,论文摘要说得相对克制:当前SOTA VLA擅长语义泛化,但在新环境中泛化到未见过的物理动作时存在困难;他们提出DreamZero,一个基于视频扩散骨干的World Action Model,通过预测未来世界状态和动作来学习物理动力学。DreamZero项目页也称,其在真实机器人实验中新任务、新环境泛化上相较VLA基线取得超过2倍提升。
Jim Fan真正送别的,不是视觉、语言、动作这三种能力,而是一种传统的VLA范式。
VLA没有死。死的是一种过度乐观的想象:只要把视觉语言模型接上机器人动作输出,机器人就能自然获得对物理世界的理解。
任何一个技术路线被宣判死亡,通常都不只是技术问题,也是一种产业情绪。
“VLA已死”之所以在今天有市场,是因为过去一年,具身智能行业对VLA的期待太高了。
VLA的逻辑很直接:机器人通过视觉观察环境,通过语言理解人类指令,再把理解转化为动作输出。这条路线天然继承了大模型时代的信仰。
影身智能创始人闵伟认为:“将VLA应用在机器人身上,这种想法源于大语言模型时代的思维惯性。”
大语言模型证明了,海量数据和大规模预训练可以涌现出强大的语言理解和推理能力。视觉语言模型进一步证明,模型不只可以处理文本,也可以理解图像和视频。到了机器人这里,一个自然的想法就是:既然模型能看懂,也能听懂,那它为什么不能动起来?
这也是VLA迅速流行的原因。
它给机器人行业提供了一套简单、统一、易于讲述的“大脑范式”:过去的机器人是执行机器,VLA之后的机器人开始具备任务理解能力。
从产业实践看,优必选Walker S2、智平方AlphaBot 2、银河通用Galbot等,都在不同程度上搭载或强调VLA模型;智平方曾推出GOVLA 0.5,并试图在VLA框架下引入全域感知、全身控制和统一决策;宇树科技也在2026年1月开源发布UnifoLM-VLA-0模型,用于复杂操作任务。
这些案例说明,VLA确实推动了机器人从“固定动作执行”向“开放任务理解”迈了一步。
但问题在于,行业很快发现:理解任务,不等于理解物理世界。
机器人不是只要知道“杯子是什么”“人要我拿杯子”就够了。它还要知道杯子的重量、摩擦、重心、材质,手指从哪个角度接近,抓握力度多大,拿起过程中液体是否会晃动,放下时桌面是否平整。
2026年3月,科技博客Not Boring的作者Packy McCormick与General Intuition CEO Pim De Witte联合发表了一篇约三万字的长文,名为《World Models:Computing the Uncomputable》。在这篇文章中,作者假设了一个简单的场景:
试着仅用文字来描述拍手。双手在空间中的相对位置、以皮秒为单位的变化、接触点、声音、双手靠近和分开时的样子、手掌如何挤压对方、两掌之间的空气发生了什么?你拍手时视野中看到了什么?你的手臂是怎么弯曲来配合拍手的?你袖子上的布料有什么反应?背景中在发生什么?你旁边的人注意到你在拍手了吗?他们有什么反应?
很显然,任何一个人都做不到用语言来描述这个场景。
小鹏集团董事长何小鹏也发表过类似的观点,他曾表示:“一段1200多字的文字描述,也无法精准地‘翻译’一个十几秒视频。”
而这种由于语言转译造成的精度缺失,以及VLA模型“靠推理得出空间几何规律和物理定律”的底层运行逻辑,极易让机器人的抓握误差增加,任何一个物理的状态变化,比如光线折射、物理变形都会严重影响VLA模型的动作输出。
而这些问题造成的后果,就是业内诟病的泛化性不足。
流形空间创始人兼CEO武伟告诉「甲子光年」,VLA本质是将高维度的视频域降维到语言域,将视频与文本指令对齐,再通过大量的机器人经验数据(如轨迹数据、动作数据)进行对齐和训练,让机器能够读懂语言指令,并基于模仿学习高效、可靠地完成具体任务。其范式本质是基于已有VLM基座模型在做“机器翻译”任务的“后训练”。
他认为,这种训练方式会造成两个弊端。
一方面,VLA模型在训练时与特定的机器人本体强绑定。换一个机器人形态,例如从人形机器人换成四足机器狗,甚至是换一种机器人本体构型,模型就需要大量后训练数据重新适配,部署成本高昂。
另一方面,VLA模型只是“知其然”,但“不知其所以然”。其本质是通过大量模仿学习到某种经验,并在需要的时候将经验复刻出来。它只能执行它见过的动作,当遇到训练数据中从未出现过的、需要推理和规划的新颖场景(即长尾问题中的长尾),它会束手无策,它无法预测一个动作的连锁反应。
这些问题不是语义问题,而是物理问题,这也是传统VLA模型路线的短板。
“VLA已死”这句话太锋利,也太容易被误读。
如果把它理解成“机器人不再需要视觉、语言和动作模型”,这是错误的。
虽然Jim Fan让“VLA安息”,但即使是英伟达自己,也并没有真正放弃VLA。英伟达Cosmos官方资料显示,Cosmos Predict可以生成面向physical AI任务的预测视频世界,并可用于后训练、闭环策略和机器人中心仿真;同时,英伟达也仍在用Cosmos等世界基础模型为GR00T等机器人模型生成训练数据。
这说明英伟达的真实路线不是“抛弃VLA”,而是把VLA、世界模型、合成数据、仿真、真实机器人数据和低层控制重新组合。
换句话说,VLA正在被重新定位。
传统VLA的问题是它很容易被简化成:视觉/语言输入→动作输出。这种架构的最大优势是语义泛化。它能利用互联网规模的视觉语言知识,让机器人理解更多物体、更多指令、更多任务关系。
但它的短板也很明显:它对物理过程的建模不够显式。它擅长回答“这是什么”“我要做什么”,却不一定擅长回答“我这样做之后,世界会发生什么”。
Jim Fan批评的正是这种重心错配:过去的VLA把大量能力放在语言和知识理解上,却把连续动作、接触动力学、状态变化这些机器人最困难的问题,压缩成了一个动作头(action head)。
所以,更准确的判断应该是:传统VLA范式正在被挑战,但VLA能力本身并没有失效。
VLA仍然是机器人理解任务的重要接口。没有VLA,机器人很难摆脱固定程序和封闭指令;但只有VLA,机器人也很难真正进入复杂物理世界。
这就是“VLA已死”最应该被校正的地方。
VLA不是死了,而是不够了。
2026年3月,AMI Labs CEO Alexandre LeBrun公开表示:“我预测世界模型将成为下一个流行词。六个月后,每家公司都会自称世界模型公司来融资。”
这或许可以成为如今世界模型热潮中一个鲜明的注脚,甚至有人表态,世界模型会全面取代VLA。
VLA和世界模型并不是同一层东西。
VLA更接近一个行动策略模型。它回答的是:我现在该做什么?
世界模型更接近一个环境预测模型。它回答的是:如果我这样做,世界会怎样?
这两个问题看似接近,实际差别很大。
一个VLA系统接收到图像和语言指令后,通常要输出机器人动作,比如机械臂移动、夹爪开合、手指轨迹、身体姿态调整。它的核心是把“观察”和“指令”映射成“行动”。
而世界模型关心的是状态变化。它不是直接问机器人下一步怎么动,而是预测:在当前状态下,如果执行某个动作,下一时刻的世界会变成什么样。
还是以前文提到的拍手为例。对人类来说,拍手是极其简单的动作;但如果用语言完整描述它,就会涉及双手空间位置、接近速度、接触点、压力、声音、空气扰动、手臂弯曲、衣物褶皱、周围环境反馈等大量连续变化。
VLA可以把“拍手”理解为一个任务,但世界模型试图理解的是:两只手在运动中会如何接近、接触、反弹,声音如何产生,动作完成后状态如何变化。
因此,VLA和世界模型的区别可以压缩成一句话:VLA让机器人理解任务,世界模型让机器人预判后果。
这也是为什么世界模型会变得重要。
世界模型在产业里至少有三种用途:
第一,作为数据生成器,补充昂贵的真实机器人数据。
第二,作为仿真训练场,降低真实试错成本。
第三,作为预测模块,帮助机器人在行动前评估未来状态。
Jim Fan提出的WAM,则更进一步:不是把世界模型放在外面做训练场,而是让模型同时预测未来世界状态和机器人动作,把“世界预测”和“动作生成”放进同一套架构里。DreamZero论文也把这一点作为区别于传统VLA的核心:WAM通过视频作为世界演化的稠密表征,联合建模视频与动作。
但反过来,世界模型也不能被神化。
今天行业里最大的问题之一,是几乎所有人都可以说自己在做世界模型。
据不完全统计,目前中国市场上有超过30家公司在不同程度上宣称自己是世界模型或拥有世界模型属性:做视频生成的,可以说自己在生成世界;做仿真的,可以说自己在构建世界;做自动驾驶模拟器的,可以说自己在预测世界;做机器人训练数据的,也可以说自己在建模世界。
结果是,世界模型正在从一个技术方向,变成一个筐,什么都能往里装。
其实,世界模型在学术界和产业界都还存在定义争议:有人认为世界模型必须包含对潜在状态的精确预测和物理因果理解,而不是模拟一种可能出现的视觉结果;也有人认为通过像素级视频预测,同样能让模型学会物理规律。
一位AI从业者告诉「甲子光年」:“现在来说,世界模型没有一个标准的定义。市场上有很多流派,有的流派认为做视频生成也算世界模型,有的则不这么认为,每个流派也都有一个大佬在后面撑腰。”
这正是今天行业讨论世界模型时最需要警惕的地方。
对机器人来说,一个世界模型是否有价值,不取决于它生成的视频多真实,而取决于它能否进入真实任务闭环:
它预测的状态是否符合物理规律?
它生成的数据能否提升真实机器人表现?
它能否帮助机器人减少试错?
它能否处理接触、摩擦、遮挡、柔性物体和长程任务?
它能否和机器人控制系统稳定耦合?
如果不能回答这些问题,世界模型就只是更高级的视频生成,而不是具身智能的基础设施。
更重要的是,世界模型本身也有幻觉风险。在视频生成里,物体穿模、反重力、边界模糊、状态不一致,可能只是画面瑕疵;但在机器人训练里,这些错误会变成错误的物理经验。
一个看起来合理但物理上错误的世界,对机器人来说可能比没有世界模型更危险。
所以,不能因为VLA有短板,就把世界模型推上神坛。世界模型补的是“物理预判”这块短板,但它还必须接受真实世界校验。
这也是为什么,大量机器人公司依然在采集遥操数据、真机数据、工厂数据和客户现场数据。仿真可以加速训练,但真实世界仍然是最后的裁判。
把VLA和世界模型放在一起讨论,最容易犯的错误,是把它们理解成替代关系。
旧路线叫VLA,新路线叫世界模型。VLA过时了,世界模型上位了。这种叙事很爽,但不准确。
更接近现实的情况是,机器人系统正在从单一模型叙事,走向分层架构叙事。
「甲子光年」认为,一个真正可用的机器人,至少需要四层能力。
第一层是任务理解。它要知道人要它做什么,目标物体在哪里,任务成功的标准是什么。这里VLA仍然有价值。
第二层是状态预测。它要知道如果自己采取某个动作,物体、环境、人和自身会如何变化。这里世界模型或者WAM会发挥更大作用。
第三层是运动控制。它要把高层意图变成连续、稳定、可执行的身体动作,包括轨迹规划、力控、避障、平衡和异常恢复。
第四层是数据闭环。它要从每一次成功和失败中回收数据,判断是识别错了、预测错了、控制错了,还是场景本身超出了能力边界。
这四层能力,没有任何一层能单独构成“通用机器人”。
VLA解决不了全部问题,世界模型也解决不了全部问题。VLA更像任务入口,世界模型更像物理预测器,控制系统是执行器,真实数据是校准器。
「甲子光年」了解到,一些团队会将世界模型作为一个VLA模型的数据生成器和仿真训练平台,用世界模型合成的数据投喂给VLA,或者直接让VLA模型在一个世界模型中进行训练,以增强其动作精度和泛化能力。
此外,部分前沿团队也在尝试将世界模型能力直接注入VLA架构。
比如智平方的GOVLA 1.0(Video2Act)大模型,虽然整体架构仍是VLA模型,但其明确表示嵌入了世界模型,并且引入了快慢系统的概念,世界模型就运行在慢系统中,完成任务拆解、逻辑推理、行动预测等工作。
智平方创始人郭彦东告诉「甲子光年」:“VLA在具身智能产品上,是一个具有‘终局感’的架构范式。”同时他还表示:“把世界模型用来增强VLA,和把世界模型融入VLA,是不同的两个范式。我们认为把世界模型融入到VLA里面,让VLA具备更强的泛化能力,是VLA变得更强的必由之路。”
一些更前沿的学术研究,也在试图让VLA和世界模型共享输入信息的表征,并且共同完成动作输出决策,当然这种技术路径目前还很初期。
“VLA已死”是一个好标题,但不是一个好结论。
它的价值在于提醒行业:不要再把大语言模型的成功经验简单套到机器人身上。机器人不是ChatGPT套一个机械臂,也不是VLM后面接一个动作头。真实世界的连续性、物理性和不可逆性,决定了机器人必须学习动作如何改变世界。
VLA真正需要的不是葬礼,而是进化;世界模型真正需要的也不是造神,而是落地。
具身智能行业其实并不需要看下一个流行词是什么,大家的关注点更应放在谁能把任务理解、世界预测、运动控制和真实数据闭环变成一个可部署的系统。
到那一天,VLA也好,世界模型也好,都不会再是文章标题里的争议词。
它们会变成机器人真正干活时,身体里不再被单独提起的基础能力。