2026-04-27 11:51

“如果只是在工厂里搬东西，为什么机器人要做成‘人形’？”

小饭桌

速览

本文来自微信公众号：小饭桌，作者：关注具身的，编辑：张丽娟

人形机器人的真正场景，是那些需要与人类产生情感连接、提供情绪价值的场所。

“产品还没出实验室，公司估值已经上百亿了。”似乎成为当下具身智能赛道的真实写照。

刚刚过去的第一季度，平均每天至少有3亿元资金涌入这个赛道，即便是经历过移动互联网最疯狂时期的投资人也不禁感叹“从没见过这种融资节奏”，还有人直言很多融资其实是“FOMO”情绪下的集体行动，而估值已经演变成一种“信仰投票”。

就在资本跑步进场的同时，行业内关于技术路线、商业场景、落地节奏的争论却愈演愈烈，从人形机器人的“刚需”到底在哪里，到“眼脑手足”闭环中哪个才是真正的短板，再到机器人的“iPhone时刻”究竟该以什么标准来衡量等等，这些问题正在撕裂行业共识。

前不久，在上海举办的小饭局“具身智能闭门沙龙”上，一群长期在一线摸爬滚打的从业者和投资人，用了一下午的时间对这个赛道当下的真实处境与内在矛盾进行了一场深入而冷静的审视：

“如果只是在工厂里搬东西，为什么一定要做成‘人形’？”“机器人如果连稳定的、清晰的画面都拿不到，所谓的高层决策和操作规划就是空中楼阁。”“机器人的‘iPhone时刻’不是技术突破，而是客户愿意为场景付费的那一刻。”……这场沙龙没有宏大的叙事和愿景，有的只是对技术路线、商业场景、供应链成本的深度剖析。

他们的判断与争论拼凑出一幅关乎具身智能当下与未来的真实图景，行业正在从炫技走向落地，但距离真正的“iPhone时刻”还有多远，答案远比想象中复杂。

工业场景不需要盲目追求“人形”

当行业热议的人形机器人仍在聚光灯下起舞，工业场景的实际痛点却被反复忽略。大界机器人梁喆的话点燃了关于技术路径与商业本质的讨论，他直言不讳地指出，传统工业机器人赖以生存的“示教编程”，本质上已经是20年前的旧范式了。

这种模式的核心逻辑是“告诉它怎么走”，工程师手把手教机器人走一遍轨迹，然后机器人像复读机一样重复执行。这在过去几十年里确实撑起了一个庞大的产业，但缺陷在于，每一次工件更换、每一次产线调整，都需要人工重新编程调试。

梁喆举例进行对比：在煤矿机械的上下料环节，传统方案每换一批工件，需要55分钟的人工编程和调试；而基于AI视觉和算法的新方案，机器人能自动识别工件、自主规划路径，时间被压缩到了7分钟。这不仅仅是效率的提升，而是范式的根本性转变，即从“被动的执行者”到“主动的决策者”。

这个判断也得到了大家的呼应。双深科技产品负责人田康从另一个角度切入，并抛出了一个容易被忽视但却致命的问题：机器人若是连“看”都看不清楚，后面的一切智能都无从谈起。

按田康的说法，不少团队把精力都花在了机器人的大脑、小脑、运动控制等方面，却严重低估了视觉入口的质量。他还进一步提到个细节：视觉防抖。在工业现场、家庭环境等场景中，机器人处于移动和振动状态，如果连稳定的画面都获取不到，所谓的“决策”就是空中楼阁。

很大程度上，具身智能的落地从来不是某个单一技术的突破，而是一个完整的“感知-规划-执行”闭环。视觉入口、算法模型、运动控制、硬件本体，任何一个环节成为短板，整个系统都可能会面临崩塌。

梁喆则用了一个更形象的框架来描述这个闭环——“眼脑手足”，在他看来，工业场景的核心不是“人形”，而是高精度的感知、规划与执行闭环。

值得注意的是，梁喆提到这类操作的源头是对工人实际操作数据的采集和训练。这也就意味着，工业具身智能并不是要凭空创造一个新物种，而是将老师傅的隐性经验转化为算法模型，再反哺回那些粉尘弥漫、环境恶劣的生产一线。显然，用技术替代人去做那些“不友好”的工作，远比简单喊出“机器换人”的口号要深刻得多。

那么新问题来了：既然“眼脑手足”的闭环已经逐渐清晰，为什么市场上最受追捧的依然是人形机器人？这就引出了沙龙中最精彩的一场思想交锋。

卓益得战略部副总经理孙典雅抛出了一个尖锐的问题：如果只是在工厂里搬东西，为什么一定要做成“人形”？机械臂、轮式机器人、四足机器人可以更好的胜任这些任务。她的判断是，人形机器人的真正价值场景是那些需要与人类产生情感连接、需要提供情绪价值的场所，比如家庭、养老、陪伴、文旅。

这个判断与中科慧灵黄志鹏的看法不谋而合：“很多工业场景根本不需要双足。”黄志鹏举例，比如在矿井下，履带式更省电、更稳定、更可靠。同时，具身智能机器人也不必执着于“通用”二字的光环，真正有价值的是找到那些“非机器人不可”的刚需场景，然后扎进去。

在黄志鹏看来，“具身智能的形态不是由技术决定的，而是由场景的物理约束、成本结构和运维便利性共同界定的。”而这种对形态与场景匹配关系的清醒认知，恰恰是一些盲目追求“通用人形”的团队所欠缺的。

这揭示了一个更深层的行业分裂，具身智能的核心究竟是“具身”还是“智能”？如果答案是后者，那么形态就应该完全服务于场景。

换句话说，一个轮式机器人加上足够智能的感知和灵活的操作能力，在绝大多数工业场景中可能远比双足人形机器人更实用，而人形机器人的“领地”，或许更多存在于家庭、养老、文旅这些需要情感交互的场景。

除此之外，孙典雅还把“情绪价值”提升到与技术同等重要的高度，并区分了两个层次：第一层是表情还原能力，第二层是情绪理解与反馈。

在孙典雅看来，当机器人能够与人类进行情感层面的互动时，它就不再仅仅是一个工具，而成为“伙伴”乃至家庭中的一员。这种转变在养老、青少年心理陪伴、文旅IP活化等场景中具有巨大的商业价值。

这个观点或许在当下的技术讨论中略显“另类”，但却恰恰切中了要害。毕竟，技术最终要服务于人，而人的需求也从来不只是功能性的，一个能搬东西的机器人和一个能陪伴聊天的机器人，前者是工具，后者是伙伴。两者的市场空间和商业逻辑完全不同。

具身智能的“iPhone时刻”还差多远？

如果说前面几人的讨论聚焦于“做什么”，那么下面的嘉宾则直指“怎么做”，这可能是当前更具现实意义的话题。

比如，针对所有人都在关心的一个问题：现在的具身智能究竟是处于炫技阶段，还是已经深入到了细分场景，接近“iPhone时刻”？

晟泰克机器人事业部首席科学家刘皓对“iPhone时刻”的定义颇有见地：不是技术指标的突破，而是“以场景为驱动的，在垂直领域真正能够产生价值、客户愿意付费的阶段”。技术更新需要时间周期，硬件成本依赖于供应链成熟，这些都不是一朝一夕的事。

涌铧资本的唐政从投资人的视角做了补充，他观察到明显的行业“分层”现象：头部企业盯着“星辰大海”，而大量中小创业公司陷入了激烈的同质化竞争。

对此，唐政的建议是差异化，聚焦于自身数据、资源等更有优势的细分场景。他还给出分析：行业仍处于从Demo到商业化落地的过渡期，考验的不仅仅是技术，更是供应链成本管理和落地运营能力。

这就引出了一个核心矛盾，究竟是先做具身大脑，还是先做硬件本体？而这个争论在行业内已经持续了很久。

刘皓的观点很清晰，软件硬件缺一不可，但制约的关键点更可能在于硬件，毕竟大脑做得再好，最终还得依赖于硬件精准的执行和操作。他提到的解决方案是“从应用场景侧去反推”，让软件算法和硬件都更聚焦一些，通过软硬件结合的方式去解决具体问题。

唐政还提到一个关键变量：成本，即机器人本体的供应链成本是否适合批量化生产、规模化落地，在他看来，更多的是需要“大脑”和“本体”之间的平衡，动作不一定追求完美，但在合适成本下实现规模化生产，这才是更现实的问题。

数据作为训练具身模型的“燃料”，自然也是讨论的焦点。刘皓提出了一种可行路径：先用仿真数据训练出模型，再用真实数据微调，然后到工厂里进行真实数据回流，在回流过程中持续优化算法。这个“三步走”策略可能是目前最务实的路径。

在谈及最关注创业公司的什么能力时，唐政的回答体现了投资人的理性：“得分阶段看。”早期天使投资看行业大趋势；中后期看商业化落地能力。他还特别强调了一个容易被忽视的维度，创业公司在遇到困难、挫折时进行调整和应变的能力。“创业是九死一生”，这句老话在当下格外真实。

刘皓则分享了晟泰克20多年摸爬滚打的经验。他讲了一个很实际的方法论：遇到客户需求，先算算最终产生的价值能否覆盖投入，如果能，那再考虑场景的复制能力和迁移能力。

具体来说，就是在研发中把产品进行模块化抽离，做成类似积木的模块，这样迁移到其他场景时就能大幅降低研发成本。这种“从单一场景到产品平台”的思路，对于很多创业公司来说可能比盲目追求技术突破更有借鉴意义。

对于具身智能赛道可能出现的“杀手级应用”，唐政认为，那些垂直的封闭场景会比较容易跑出来，比如工厂流水线。“这些场景的操作流程稳定、工况固定，对算法泛化能力要求不高，数据采集容易，硬件要求也比较标准。”他的这个判断与前面几位从业者强调的深耕“垂直场景”高度一致。

整场讨论下来，一个清晰的脉络从几位嘉宾的言论中浮现，具身智能行业正在经历从概念炒作到价值验证的筛选，那些能够精准定义场景、有效控制成本、快速实现产品市场匹配的团队，正在获得市场的回报。

正如唐政所总结的，国内创投环境比前两年好了不少，特别是具身智能领域的融资金额和频率都有大幅提升，只要能做出差异化，或有自身独特的优势，都能够获得“充足的子弹”。

至于“充足的子弹”能否转化为真正的商业成功，考验的将是牌桌上每个玩家的战略定力和执行能力。

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

AI原生产品日报

频道：前沿科技