2026-06-22 17:30

破壳机器人许华哲：家庭不是机器人落地终点，而是通用智能诞生起点

明亮公司

本文来自微信公众号：明亮公司，作者：主编24小时在线

2026北京智源大会具身智能论坛上，破壳机器人创始人、清华大学交叉信息研究院助理教授许华哲以《通用家庭机器人的现状和未来》为题，分享了其对家庭机器人、世界模型以及通用具身智能发展路径的最新思考。

在许华哲看来，理想的通用家庭机器人需要同时具备安全、智能、自然和开放四个特征。其中，“智能”是当前行业最核心的挑战。

与工业场景相比，家庭环境具有更强的非结构化特征，需要机器人完成双臂灵巧操作、长程任务规划以及复杂的人机交互。这使得家庭场景成为当前具身智能最困难的应用场景之一。

许华哲认为，家庭环境中同时包含非结构化环境、多任务切换、人机交互、高动态变化以及海量物体组合等因素，这些数据维度远超工业场景。虽然家庭机器人面临更多挑战，却也最有可能孕育真正的通用具身智能。

围绕通用具身智能的发展路径，许华哲重点讨论了VLA与世界模型的关系。他认为，当前行业主要存在两条技术路线：一条是基于VLA模型直接预测动作；另一条则是通过世界模型预测未来状态，再据此规划动作。相比直接学习动作，世界模型的核心价值在于帮助机器人理解未来物理世界的变化，从而提升决策能力。

许华哲也指出，当前世界模型仍面临“物理幻觉”问题。由于模型需要不断预测未来状态，误差会在长链路推演过程中持续累积，最终导致模型生成与真实物理规律不一致的结果。这也是世界模型从实验室走向现实世界的重要障碍之一。

针对这一问题，破壳机器人提出了WAM与Action Forcing方案。其核心思路是通过动作反推与物理约束循环，不断修正世界模型预测结果，使模型输出更加符合真实物理规律，从而降低物理幻觉带来的误差累积。

基于这一技术路线，破壳机器人已经在Poke项目中进行了验证。通过自主强化学习训练，机器人能够在较短时间内完成复杂家庭操作任务的学习与优化。

他认为，机器人本体、AI模型以及Physical Agent将共同构成未来通用机器人生态。其中，机器人只是载体，真正的竞争核心在于能够理解和操作物理世界的智能系统。

在互动环节，许华哲表示，当前具身智能已经从技术验证阶段进入工程化阶段，但距离真正商业化仍存在明显差距。在他看来，预训练解决的是机器人泛化能力问题，而后训练和场景适配决定机器人能否真正进入实际场景。

“基础模型并不等于产品能力。”许华哲认为，未来机器人行业的发展路径将类似大模型行业，预训练负责获得通用能力，后训练负责获得场景能力。因此，家庭机器人真正进入用户家庭之前，仍需要经历大量真实场景验证与工程化打磨。

许华哲预测，2028年前后有机会看到第一批真正意义上的家庭机器人进入用户家庭。“机器人进入家庭面临智能水平、可靠性与成本这三大门槛，”许华哲说，这个过程已经开始发生。

以下为「明亮公司」基于现场速记、演示文稿整理的演讲内容：

为什么家庭机器人是具身智能的终极场景

什么样的机器人，才称得上是真正的通用家庭机器人？在我看来，理想的通用家庭机器人需要同时具备四个特征：安全、智能、自然、开放。

其中，安全是机器人进入家庭的前提。家庭环境与工业环境不同，它需要与老人、儿童以及宠物长期共处，因此机器人必须具备足够可靠的安全保障能力。

自然则意味着机器人能够以符合人类习惯的方式完成交互和服务。用户不应该为了适应机器人而改变自己的生活方式，而应该让机器人主动适应人类。

开放代表机器人具备持续扩展能力。未来家庭场景会不断产生新的需求，机器人不能只完成预设任务，而需要具备持续学习和适应新任务的能力。

但如果从当前行业发展阶段来看，我认为最大的挑战仍然是智能。因为家庭场景本身就是机器人面临的最复杂环境之一。

首先，家庭是一个高度非结构化环境。工业场景中的工作流程、设备位置以及操作对象通常都是固定的，但家庭环境每天都在变化。家具摆放、物品位置以及家庭成员行为都会不断发生改变。

其次，家庭场景需要大量双臂协同操作。无论是收纳衣物、整理物品，还是做饭、清洁，很多任务都无法通过简单的抓取动作完成，而是需要复杂的双臂配合与精细操作能力。

更重要的是，家庭任务通常是长程任务。例如“帮我做一顿饭”这样一句简单指令，背后可能涉及寻找食材、准备工具、切配、烹饪以及收尾等多个步骤。机器人不仅要完成单个动作，更需要具备长时间、多步骤任务规划与执行能力。

也正因为如此，家庭机器人被普遍认为是具身智能最具挑战性的方向之一。但在我看来，挑战恰恰意味着机会。家庭环境包含了最丰富的人类活动数据。这里既有人与人的互动，也有人与物体的互动；既有大量长尾任务，也有持续变化的环境状态；既包含空间信息，也包含时间信息。

来源：北京智源大会、破壳机器人（下同）

相比工业场景中相对固定的任务流程，家庭场景能够提供更加丰富、多样的数据维度。因此我一直认为，尽管家庭机器人面临更多挑战，但它拥有最丰富的数据维度，也最有机会迭代出真正的通用具身智能。从这个角度来看，家庭不仅仅是机器人未来的重要应用场景，更可能是通用智能诞生最重要的训练场。

为什么我们选择世界模型路线

如果说家庭场景是通用具身智能最具挑战性的场景，那么接下来的问题是机器人应该如何学习和理解这样一个复杂的世界？目前行业主要存在两条技术路线。

第一条路线是大家比较熟悉的VLA模型。它的核心思路是让机器人直接根据视觉输入和语言指令预测动作，也就是从观察到执行的端到端映射。

第二条路线则是世界模型。它并不直接预测动作，而是先预测未来会发生什么，再根据未来状态决定应该采取什么动作。

从直觉上理解，两者最大的区别在于，VLA关注的是下一步该怎么做，而世界模型关注的是未来会发生什么。我更倾向于后者，因为人类在做决策时，并不是简单地根据当前观察直接输出动作。当我们准备去拿一杯水的时候，我们会先在脑海中预测未来，手伸过去之后会发生什么、杯子会不会倒、拿起来之后应该如何移动。换句话说，人类是在不断预测未来状态的基础上完成决策。而这正是世界模型试图实现的能力。

在我看来，世界模型最大的价值并不是生成视频。很多人最早接触世界模型，往往是通过视频生成模型。但对于机器人而言，生成一段逼真的视频并不是最终目标，真正重要的是让机器人理解物理世界，并预测物理世界未来会发生什么。只有具备这种能力，机器人才能在复杂环境中完成长程规划和自主决策。

当然，目前世界模型仍然处于非常早期的发展阶段。它展现出了巨大的潜力，但也存在明显局限。最核心的问题之一，就是模型对物理规律的理解仍然不够可靠。很多时候，模型能够生成看起来合理的结果，但这些结果未必符合真实物理世界的运行规律。这也是当前世界模型距离真正进入现实世界应用仍然需要解决的重要问题。

世界模型如何真正理解物理世界

世界模型并不是终点，而是一种通向通用具身智能的重要技术路径。真正值得关注的，并不是模型能够生成多么逼真的画面，而是它能否建立对真实世界的理解能力，并利用这种理解指导机器人完成复杂任务。当前世界模型最大的挑战是物理幻觉。

在视频生成领域，我们已经看到很多类似现象。例如一个手机放在桌面上，模型在生成未来画面时，手机可能会突然消失；一罐可乐可能在运动过程中穿过桌面；一个物体原本在左侧，下一秒却出现在不合理的位置。这些结果从视觉上看似合理，但实际上违反了物理世界的基本规律。

对于视频生成而言，这或许只是影响观看体验的问题。但对于机器人而言，却可能直接导致任务失败。因为机器人不是在生成视频，而是在执行动作。如果模型对未来状态的预测本身是错误的，那么后续所有决策都会建立在错误基础之上。而且随着预测时间不断延长，这种误差还会持续累积。

举一个简单例子，如果模型预测未来一秒钟时出现1%的误差，那么第二秒可能会基于这个错误结果继续推演。随着时间不断向后延伸，误差会越来越大，最终导致模型预测结果与真实世界完全偏离。因此，在我们看来世界模型最大的挑战并不是生成能力，而是如何保证预测结果符合真实物理规律。这也是为什么我们提出了WAM的概念。

与传统世界模型不同，我们希望把动作引入世界模型训练过程。因为在真实世界中，状态变化并不是凭空发生的，而是由动作驱动的。机器人采取什么动作，会直接决定未来状态如何变化。因此，如果模型能够同时理解动作与状态之间的关系，它对于未来的预测就会更加准确。

在此基础上，我们进一步提出了Action Forcing机制。传统世界模型在推理过程中往往依赖连续预测。但我们发现，如果能够不断利用真实动作信息对模型进行约束和校正，就能够有效降低误差累积带来的影响。简单来说，世界模型负责预测未来，动作负责校验未来。通过这种循环修正机制，模型能够不断向真实物理世界靠近。

在我们看来，未来机器人不仅需要拥有世界模型，更需要拥有能够被真实物理世界持续校正的世界模型。只有这样，机器人才能真正从看懂世界，走向在世界中可靠行动。而这也是我们认为世界模型从研究走向实际应用必须跨越的重要一步。

机器人如何在真实世界持续学习？

对于机器人来说，拥有一个优秀的模型，并不意味着它天然具备完成复杂任务的能力。真实世界远比训练数据复杂。家庭环境会变化，任务会变化，人与机器人的交互方式也会不断变化。因此，机器人最终必须具备一种能力，在真实世界中边工作、边学习。这也是我们持续关注强化学习的重要原因。

过去几年，大模型让机器人获得了更强的泛化能力。机器人能够理解更多任务，也能够处理更多以前没有见过的情况。但我们发现，理解任务，并不等于完成任务。很多时候，一个动作细节的偏差，就可能导致整个任务失败。机器人可能知道应该去拿杯子，但并不一定能够准确抓住杯子；机器人可能知道应该完成一道菜，但并不一定能够顺利完成整个烹饪过程。因此，仅靠预训练获得的能力仍然不够。

机器人需要通过与环境持续交互，不断优化自己的行为。而强化学习恰好提供了这样一种机制。在我们的研究中，机器人并不是简单执行预设动作，而是在与环境不断交互的过程中，根据反馈持续调整自己的策略。简单来说，世界模型负责理解未来，强化学习负责优化行为。两者结合之后，机器人不仅能够预测未来，还能够不断学习如何更好地到达未来。

为了验证这一路线，我们开展了Poke项目。Poke希望回答一个核心问题，如果机器人能够持续与环境交互，它是否能够像人一样逐步掌握新的技能？实验结果给了我们积极反馈。在持续训练过程中，机器人逐渐掌握了越来越复杂的任务，并显著提升了任务成功率。

更重要的是，这种能力并不完全依赖于海量人工标注数据。机器人可以通过真实交互不断获得反馈，并利用这些反馈持续提升自身能力。在我们看来，这种学习方式更接近人类成长过程。人并不是通过一次训练掌握所有技能，而是在不断尝试、不断犯错、不断修正中成长。机器人未来的发展也会遵循类似路径。

因此，我认为未来机器人能力的提升，并不会完全依赖于更大的模型或者更多的数据，而是机器人是否能够在真实世界中持续学习。因为通用智能从来不是一次训练完成的结果，而是在不断交互、不断反馈和不断修正中逐渐形成的能力。这也是我们持续投入世界模型与强化学习结合方向的重要原因。

为什么未来机器人竞争的是Physical Agent

最后，我想谈谈我们对于未来机器人终局形态的一些思考。今天行业里很多机器人公司都在做机器人本体。大家会讨论机器人的身高、重量、自由度、灵巧手，甚至讨论机器人究竟应该长得像人，还是长得像其他形态。

但在我们看来，这些问题都不是最核心的问题。很多人设计机器人时，往往会先从形态出发。例如先做出一个机器人，再去思考它能够完成什么任务；或者先复刻一个接近人类的外形，再尝试赋予它智能。这样的思路能够做出非常酷的机器人，但未必能够做出最适合完成任务的机器人。

在我们看来，机器人本体只是整个系统中的一个组成部分。它负责感知世界、操作世界，是连接数字世界与物理世界的入口。但机器人本体本身并不能解决智能问题。机器人本体和AI模型分别负责执行与理解，但仅有这两层不足以支撑真正的通用智能。

在我们的理解中，Physical Agent不仅仅是一个执行任务的机器人，它应该能够理解长期目标，规划任务路径，并在真实世界中持续学习和成长。例如，当用户没有明确发出指令时，它能够主动发现需要完成的任务；当环境发生变化时，它能够主动调整计划；当能力不足时，它能够主动学习和提升自己。

换句话说，它不只是一个工具，而是一个能够长期运行在物理世界中的智能体。未来机器人最重要的竞争，也许不再是谁拥有更强的机械结构，而是谁能够构建出真正的Physical Agent。因此，从我们的角度来看，未来机器人系统将由三个层面共同构成：机器人本体、AI模型、Physical Agent。机器人本体负责行动，AI模型负责理解，Physical Agent负责规划、决策与成长，三者共同构成下一代通用机器人系统。

随着机器人本体、AI模型以及Physical Agent不断成熟，真正通用的家庭机器人将逐步走入现实世界。我们相信，在不久的未来，通用家庭机器人就快到来了。

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

AI原生产品日报

频道：前沿科技