2026-06-15 23:04

10万小时人类数据,一座富矿,与中国具身大脑的另一种叙事

author_path 卫诗婕 商业漫谈 icon_path
头图

本文来自微信公众号: 卫诗婕-漫谈Light the Star ,作者:卫诗婕,原文标题:《10 万小时人类数据,一座富矿,与中国具身大脑的另一种叙事|与灵初王启斌聊「灵巧操作」》


2026的上半年,中国资本市场围绕具身进行了大规模的布局,将具身大脑这个赛道推向了前所未有的热度。


这期嘉宾灵初智能,刚刚登顶了摩根士丹利最新发布的《全球人形机器人研报》,它被视作中国具身大脑阵营的核心代表之一。从灵巧操作出发,这条大脑路线直指智能的上限。


创始人王启斌是70后产品背景,乔治华盛顿大学博士,完整经历了「智能设备→移动机器人→具身智能」的三次范式更迭。


我们的访谈不仅涉及到大量具身行业的真实进展,也描绘了在具身这个早期行业中,从研发(R)到工程(D)到产品(P),所谓RDP的全流程。


2024年,70后王启斌,和80后算法老兵柴晓杰、90后北大学者杨耀东、以及00后天才少年陈源培,组成了一支具身「7890战队」,成为这个行业背景最豪华的团队之一。


访谈|卫诗婕×王启斌(灵初智能创始人)



PART ONE


人类操作的模态从未被记录,


从这座富矿展开,会更快抵达智能


卫诗婕:先恭喜你们,最新登顶了Morgan Stanley的全球人形机器人研报,你们稳坐具身大脑的第一梯队。


王启斌:对,我们最近在4月中开发了模型R2,也发了action-conditional word model。在美国的MOMO space榜单上面排名第一。昨天在Hugging Face上传的1000个小时数据集,现在下载量也是第一。


卫诗婕:你身上这件T恤上是什么标志?


王启斌:我们公司logo,类似于一个小人手的三指,其实它是希腊字母的第23个字母,叫Ψ,是PSI。有很多种解释,我们当时选这个名字是看重它可以用英文表示proto sentiental intelligence,强化学习。我们公司从创立的时候,强化体就是一个在环境中交互,像孩子一样逐渐长大的过程。


卫诗婕:大家不是特别了解灵初,这是一家什么样的公司?


王启斌:灵初其实是在这一波的具身大潮中创立的。定位是解决具身智能皇冠级的问题——人双手的操作。从成立的第一天,2024年9月份开始,就解决通用灵巧操作这个问题,由算法驱动来搜集数据,用数据来提供整体的解决方案。


卫诗婕:通用灵巧操作,就是让机器人的手和脚可以更灵活?


王启斌:远比这个复杂。人其实做任何任务有很强的能力。比如说手眼协同得做的非常到位。更重要的是在作业的事务中有些失误,能够很快的纠错。人形成这个能力,经过了接近亿年的演进。


卫诗婕:规划其实是大脑做的,手眼协同是小脑做的。


王启斌:如果从人类的视角上,的确是这样。但是在机器人上,我认为现在集成小脑的能力并没有这么发达。我们做集成,会想想人类的进化历史。人类的语言模态形成其实是最晚的,这种语言模态对世界的压缩表述,机器现在基于文本,各种各样心理已经基本上学会了。谢赛宁说在寒武纪时代形成了动物视觉能力。其实是中间形成那个模态,人类最早从灵长类动物开始,就有行动的能力,经过了最长的时间演进的。今天通用灵巧操作,要把这三个能力在一个系统中做出来,是一个非常复杂的系统。


卫诗婕:最早的时候,我是以为灵初是一个做灵巧手的公司,但其实你们是一家大脑公司。


王启斌:对。灵初是中国第一家从Day one开始做通用灵巧操作的,我们不做任何夹爪、移动的东西,实际上是远远超前于大家认知的。


卫诗婕:简单地介绍一下具身整个行业的进展?


王启斌:这一波的具身大潮本质上在解决两类问题,一个类似于人的行走问题。大家其实看到出现了这些头部公司,不管是四足的狗,双足的人,其实它能够在更大的范围内移动,包括各种复杂的路况,这是一种能力。


另一种能力就是类似于人的上半身,大家可能之前看到很多类工业界的一些东西,两个夹爪把一些东西夹起来。但是实际上夹爪类的东西是很难解决一些复杂的类人性质的操作的。


当然还有个更底层的东西,人脑是如此的一个复杂的系统,经过了接近亿年的进化,什么样是一个好的范式,能够更接近的训出这样的系统来?大家越来越意识到数据很重要。数据的来源是什么样呢?我们从那个时候就知道人的数据应该是一个很大的、蕴藏在地底下的,我们看不到的一个东西。


卫诗婕:你们认为人的操作数据是一座富矿,从这座富矿的数据层面展开,可以最快的抵达更高水平的智能,所以这条路线是最佳的。


王启斌:是这样的,人类的操作数据每天都在各个环境里头发生,从工厂一直到服务行业。但是非常遗憾的是,人类数据在过去的这么多年里,都没有一个工具把它记录下来。语言的模态从文字开始,大语言模型是基于这些文本的数据。我们在开一瓶水的时候,用几个指头,用多少的扭矩,触觉什么感觉?这个模态从来没有被记录过。传承其实是靠人类已经内化在基因层次的东西,把它探索出来。那在训机器人身上,我们如何能把它真正的挖出来,变成训模型可用的,这是一个要回答的问题。



PART TWO


七年的具身赛跑,


中间会有几轮淘汰赛


卫诗婕:做大脑的公司普遍比做本体的公司估值高。你们是做大脑的,但是第一,你们估值并不显著的高;第二,似乎你们做大脑的标签也不显著的强,为什么会是这样?


王启斌;第一个问题,是因为大家觉得大脑更有价值。去年世界机器人大会(WRC)之后,我们开始布局做真正整个数据采集的设备,以及管线。今年4月份我们发布了模型,中间基本上有8到9个月,非常漫长的过程,才有了一些成果的展示。融资圈在过去的9个月里日新月异。我们专注于把产品做得更好,有更拿得出来的东西给所有人来看。上个月发布的模型效果非常好,数据集现在也得到大家的称赞。我个人觉得语言传播的力量可能是最微弱的,科技公司有自己展示出来的模型效果,有自己的数据集是最具有说服力的。


卫诗婕:中国的融资市场现在是非常传奇的,今年的融资标的都非常大,大家都十亿十亿地融,整个行业热到发烫。你怎么看?


王启斌:坦诚地说,其实超出了我自己对资本市场热度的预期。因为我们过去的做几波范式,不会持续这么长,但是我觉得底层必然有些东西还是有道理的。第一,具身现在解决的是一个真正要回到物理世界的问题,那这个问题有多大?智驾其实是具身智能的一个最早成熟的应用。其实是在一个平面,在已有的交通系统上做一个水平的移动,它的市场已经大到今天这个体量了。具身是不是有机会在未来成长出来十倍、几十倍或者上百倍这样市场呢?我个人觉得这个波浪一定会来。但是具身的应用场景如此之多,每个细分场景的周期多长时间能跑完?这都会有很多非共识。


卫诗婕:你觉得多长时间能跑完?


王启斌:这是一个很难回答的问题,我觉得取一个中值,在7年左右。从两点的维度来看这个事情,第一个比照之前的车的行业,真正智能化是从18年、19年开始,到去年是6年左右,它是一个比具身更为低维的东西(可以推测具身需要的周期更长)。但是它有一个平衡的、对冲的点是,今天具身公司的人才密度、资金体量,起手都不低——会有一些场景,在5到10年里头,真的会做出一个远远高于上一波顶点的公司。七年为终止的一个赛跑,中间还会有几轮淘汰赛。


卫诗婕:你觉得从去年开始,具身行业的融资军备竞赛已经开始了吗?


王启斌:当然已经开始了,在全球融资逐渐形成马太效应,越往头部的公司,会拿的钱越来越多,越来越快。



PART THREE


新世界的物种,


会降维打击旧世界吗?


卫诗婕:能不能先讲一讲你早年的求学和工作经历?


王启斌:我是一个70后,2001年去海外求学,2008年在美国的乔治华盛顿大学读博士。然后我就回国了,2008年到2012年我在黑莓手机做产品经理。之后我还做了智能音箱——Sonos是全球最早做WiFi音箱的品牌。


2018年是一个分水岭,我开始想怎么样做出一个更有意思的事情,所以我在18年加入了云迹,那是国内最早做酒店机器人的公司。后面去了京东,创业的前三年半都在京东X里做配送机器人及无人车。


卫诗婕:2008年应该是黑莓最后的巅峰时刻,虽然当时黑莓还有增速,但苹果的增速更快,等到它反应过来的时候已经来不及了。你是在战局结束之前离开了黑莓,这段经历对你来说有什么影响吗?


王启斌:非常大的影响。黑莓是当时全球唯一的净利息能做到25%以上的公司。第二个是苹果。To B和To C是不是有绝对的分割?其实并不一定——苹果是一个典型的体验做到极致之后,从To C做起,蚕食了To B的市场。我们经历了当时一个很大的技术范式的变化,就是iPhone的兴起,一个好的、智能的传感器的平台上,开始有各种软件的生态。18年去做机器人是因为我觉得智能在那个时间点发生了另一次的变化,那就是行动。机器人移动能力又是一个智能更大的突破。


卫诗婕:什么是智能?什么是好的产品?


王启斌:智能是随着技术演进在不停放大的。那个年代的智能,大家讲的是一个里头有很多传感器,能够感知地理信息、摄像头的输入、气压计,所以能够做出很多很新的应用,就是移动互联网一波的兴起。从18年到现在7年,我们这一波能从23年开始做具身的集成,本质上还是因为模型算法推翻了以前的智能概念,出现了一种新的智能。类人的模型的思考能力,推理能力,包括硬件平台上的交互能力。


卫诗婕:其实黑莓是智能手机的开创者,但是现在大家都会认为iPhone才是。你觉得智能手机的权力更迭最本质的原因是什么?如果重新回到那个时代,你做黑莓的CEO,有什么方式改变它的命运吗?


王启斌:我觉得很难改变,但是实际上有一点,黑莓可以做得特别好。因为黑莓是个商业手机,有两点东西非常吸引人,一个叫BBM,最早的全球最好的实时通讯;第二是邮件。其实当时中国移动在做智能手机,要求黑莓能不能license BBM这套软件给一个第三方平台,我觉得底层的逻辑特别像微软Office 365,历史上发生过几个这样的事情,第一个事情是苹果自己当年做iTunes,其实一开始只在Mac上用,后来license到Windows上面。


卫诗婕:从封闭走向开放。


王启斌:对。同样的事情也在发生,在整个硬件底层,黑莓当时没有那个创新能力了,但实际在上面的一些应用层其实是可以有更好的选择的。


卫诗婕:所以你觉得胜负手其实是在于苹果构建了一个相对开放的生态。


王启斌:胜负手并不在于构建了一个生态。第一硬件层面上,它很早就发现了日本的一套Memory存储技术。第二,整个iOS软件生态从哪来?App Store更早之前已经有iTunes,iTunes是个历史性、颠覆性的产品。因为这套云端的管理音乐下载的平台,实际上让大家存音乐更方便,更重要的商业模式的变革是,大家以前买碟是一盘一盘买,垃圾的歌曲和好歌曲都在一块,iTunes把它肢解成为了按每个单曲付费。


大家看到的iPhone,是所有东西交织在一块,经过这么多年形成的全球公司,没有一家能说那个时候能做出来。黑莓当然是一个失败的案例,但是我看到诺基亚失败,不是一家公司的失败,一系列的公司倒下去,而且(击败他们的)这个物种不是在旧世界站出来,是来自一个完全的新世界的物种,降维打击了个旧世界。站在旧世界的人不用抱怨,这就是宿命。


卫诗婕:具身这个行业,目前优先出货肯定是给B端的,但最终是瞄向B端产品还是C端产品?


王启斌:从中期的愿景来说,我们一定是瞄向to C端产品的。我们老说做的是一个通用灵巧操作,最通用的地方在哪?家庭里,to C的产品最通用的。但是家里其实是目前最难的。它涉及到技能型的泛化,还有环境非常结构化,所以我们现在选的是to B的切入点,因为物流和服务业其实是泛化性居中。其实我们实际上还是走通用,最后一定会走到toC的那一天。


卫诗婕:这是不是跟苹果黑莓那段历史给你的启示有关?最早的时候,黑莓在B端还是非常强劲的,苹果从C端的用户体验做到极致开始,在C端先有大量的渗透,反过来包抄了B端,最终实现了一个完全的领先。


王启斌:这里头有个非常底层的问题,一直没有人深入去聊。黑莓和苹果发生的那段事情,其实提了一个问题——什么类型的to C产品能够击透to B,渗透进去?苹果是完成了的,后来很多公司的人,大家携带自己的设备在上面做ip、做apps的管控就能用。


那也就是说,to B不是个简单的to B,里头是有些平台型的产品的。在这之上,其实也有些有二次开发的东西。我们今天来谈机器人,谈具身,要谈的是做的是什么样的机器人?我们这种机器人本身是一个类平台的东西,它是不是能够具有从t oB穿透到to C的特性?或者反过来,现在有做to C的公司,会不会逆向穿透到to B?我觉得是有可能的。所以基于这个逻辑,我做的还是更为通用。比如说我们今天做展示的机器人的基础模型能力,很多东西抓起来,扫个码,然后再放置,包括打个塑料袋,这些能力其实都可以用在to C。


卫诗婕:什么样的to C的产品有机会把to B打穿?


王启斌:to C产品通用的那一些能力能够被更好的、更便捷的集成在to B的系统里头。


卫诗婕:我最近听到一个非常有意思的想法,具身产业里面非常杰出的一家硬件创始人说,他认为在B端领域,未来所有的公司都是机器人公司。世界上不会有两台长得一模一样的B端机器人,因为每一家企业都会定义自己的需求,追求最高的ROI,去定义一台差异化的机器人。也就是说,市面上所有to B的机器人公司没有办法完全满足一个B端企业的需求,所以最好的技术是一个开放的,能够给对方用的技术,而不是去卖产品。你怎么看?


王启斌:这是个很有意思的问题。我从两个角度来谈一下。第一,我觉得这个路径其实会走从通用到专用,今天做具身的底下有几层规律,从技术到研发,第一就是硬件,最大的规律是规模效应,做到最后产业格局多头垄断,如果B端大客户有规模效应,就能define中腰部客户。它能够define定制它的硬件吗?我认为硬件本身一定会出现多种形态。但是我不认为在短期内每家都有自己的形态。


之后,我们说一定要有脑和数据,那实际上也在讲的是这套脑本身能覆盖多少应用场景?它覆盖新的应用场景、用一个已有的脑来覆盖的时候,边际成本有多高?所以我个人认为,这一局的脑上面有更多不确定性,符合强者越强,数据进去的越多,飞轮效应越快。我认同的是,脑的东西可能会有一个通用的,硬件上头部公司可能会定义自己的硬件。但是腰部和长尾的公司,其实很难独自拥有自己的硬件。


卫诗婕:你一直是产品经理,你觉得AI时代,想做的产品到底是什么样子的?


王启斌:一套深度耦合的,能驱动解决真正的物流,一直到未来家里产品生态的东西。


卫诗婕:所以它会是软件?硬件?还是一套系统?


王启斌:它一定是套系统。目前在可预期的几年里头,一定是深度软硬耦合的产品。前几天Dyna创始人York Yang也在讲,包括您刚才问的问题,美国头部公司模型非常强,我个人坚持认为这个命题在5年之内都是伪命题。因为目前具身还在一个非常强的软硬耦合的阶段。


举一个例子,今天来做操作的,如果不做到硬件底下的控制层面,我根本无法达到一个系统最优。一个高动态的动作进来之后,我怎么能够在系统上做出来?收集数据就要把这样的从视觉收集出来,让它不是一个静态的,一直到最后出来的系统里,它一定是目前深度从硬件的嵌入软件耦合的。这个耦合只有迭代到一定的阶段,才会出现一个生态的最后的解耦阶段。


卫诗婕:你们似乎现在也没有公布硬件产品。


王启斌:但实际上我们在和合作伙伴在深度定制硬件产品,在硬件里深度的写了所有的控制软件,从位置控制,到速度控制,到电流环的力控,都是自己写的。硬件是自己设计,找合作伙伴定制,然后完成两个重要的任务,第一个是系统的软件做到最优,第二是要做到成本最优。


卫诗婕:硬件5年之内应该不会是通用的吧?


王启斌:其实是会从通用走向specialist。目前大的形态就两种,比如说具身是人形的,和像我们这样的轮式双臂双手人形,其实大家都是在这样类似的形态上来做系统的耦合迭代,可能迭代到一定程度才会追求到您说那个阶段,极致的追求性价比,硬件就开始降配。


卫诗婕:在硬件层面,你们现在选择了轮式的本体。我觉得对于工厂、客户来说,非常不make sense的一点是,如果机器人双臂就可以操作好的话,我为什么要一整台机器人呢?


王启斌:好问题。我们现在设想的落地的场景有两个版本,有一个是固定在上半身的。另一个可以移动的,加上半身的。本质上还是来源于对脑训练的数据。我们现在有数据采集的设备,冷启动这套飞轮。具身的最底层逻辑和车不一样。车即使没有智驾系统,会有人自己开。因为有了底层的存量市场,大家其实做了一个重大的范式转移,开始有智驾了。智驾的数据就回流了,所以它是一个典型的非常好的用户花钱买了车,还给车厂免费提供数据的模式。非常遗憾的是具身在一个完全不一样的启动模式。


去年大家也知道,哪怕头部的公司硬件出货量也就在5000台,今年大几万台。这个时候,第一个飞轮就要去收集数据,所以这是我们现在定位去用人类数据收集。最后还是会有一步,真实场景中做推理的时候,数据怎么回来?所以在那个地方,实际上我们是要有自己的硬件的,会在一些场景中布下去,在真实环境中还会有些有些新的东西,我们要数据回来。


卫诗婕:我还是没有听懂,为什么非得要有轮式?为什么一定要有身体?为什么不能只是手?


王启斌:正式的应用场景里,细分的有几种不一样的。如果仅仅是桌面级的操作,其实就是双臂、双手,或者单臂。第二个其实是大家看到的,在纵向的平面,或者环形的地方要有操作,这个时候一定要有腰的能力。还有很多很典型的场景,其实可能就在一个4~5平米的平米内,商超上面想要补货、拣货这种场景,需要快速的、稳定的移动。这就决定了产品的形态。


卫诗婕:这两类数据它最终会训一个模型,还是分两个池子去训?


王启斌:现在是训一个模型。


卫诗婕:你过去在云迹、京东做的,主要是下半身能力,也是上一个时代自动化机器人的叙事,把运动能力做到一个比较好的可商用的状态。这一波通用的具身,其实是在攻克上半身能力,当然下半身运控也在做,最大的创新仍然是体现在上半身。现在资本市场很多务实派的投资人,他们其实内心在打鼓。上一个时代做自动化机器人的公司并没有退出历史舞台,也在做具身转型,也有胜算。这一波具身的创新派也会有胜算。但是最后谁会胜出?你思考过这个问题吗?


王启斌:大概率结论是上一波做集成公司在这里很难赢。因为这是一个非常大的顶层需要回答的问题,这一波的集成公司到底是解决了什么样的问题?相应的需要用什么样的技术路线来回答?


之前在做移动的时候,SLAM技术在2015年前后兴起,中国就有了室内的移动、仓储移动的公司,很多是基于规则的。那这一波我们解决的问题其实是一个更为挑战、更复杂的操作问题。都是用基于学习的范式来学。后面人才完全不一样,都是属于在新的算法的范式里训基座模型的人才,这个东西是非常大的挑战。


上一波的集成公司,更多的是有自己的场景。但是实际上有场景的循环的,可能恰恰是负担。上一代集成公司更多的在用基于规则型的技术在解决一个细分场景的问题,这一次完全是一个新的变化,要用基于学习范式的通用的技术,让飞轮转起来。一个一个场景的击破,未来解决的是更多的场景的问题。它和深耕于一个场景里头做一个最优化的,其实是不一样的,整个的技术路线、人才布局都是非常不一样,这是一个最大挑战。


卫诗婕:所谓的learning base是需要很多数据去训练出来的,是不是可以理解为当有一天这种智能真的萌芽,上一代做自动化的公司,只要最先地应用上通用技术,把客户的整体系统全部翻新一遍,理论上他的数据的回传是可以比做具身的公司更快的,因为具身公司可能要重新去攻克一个又一个的市场?


王启斌:快速接上我觉得是有可能的。那个时候他有他的场景,他有他的客户。但是另一方面可能会发生一个变化,如果有一天有个通用的大脑来解决了很多场景的问题,其中一个场景被解决了,最值钱的东西是在谁手上?


卫诗婕:假如你今天仍然是一家上一个时代自动化、自动化机器人翘楚的公司的CEO,面临这个时代,你会怎么做?


王启斌:我觉得非常简单的就是完全开辟新的部门,做独立的创新及投资,这就是成功者的诅咒,创新者的窘境,之前的成功范式很难在体内孕育出新物种来,极大可能是不可能的。


卫诗婕:所以其实你是因为当时建议没有被采纳,所以决定出来创业的吗?


王启斌:是这样的,这是我一个心结。其实在去京东之前,我有个选择,要么在一个创新公司去负责一摊完全创新的业务,要么就去京东。我当时认为做物配送体系的应该是谁有场景,谁能够赢这场战斗,但是实际上,这段经历只是印证了创新者的窘境——其实不是谁有场景谁就能赢。包括我们后来做无人配送——今天做到的头部公司全是创新公司。大厂都落后了,为什么?还是因为在一个已成熟业务的大公司里头,它已有的业务,不停地在强化自己的商业模式,它的流程,它的决策,对一种创新的游戏,周期相对长,会非常艰难。


卫诗婕:本质其实是这家公司的精力跟人才,永远会聚焦于它上一个模式当中,它很难抽身出来去做一件足够创新的事情。


王启斌:你说的太对了,它是无法分身的。一个组织类似于一个人,是一个有机体。一个有机体真的很难做到彻底的这个时间做A面,马上下个时间段完全分裂成一个相对立互斥的B面,很难的。



PART FOUR


从Research到Development,


疯抢科学家,Bottum up,与具身创业团队的「治理」


卫诗婕:你在京东留到了2023年。但ChatGPT是2022年底出现的,为什么晚了一年出来?


王启斌:我是2023年的年中开始找首席科学家的,花了基本上半年的时间找团队。


卫诗婕:灵初是直到2024年9月份才成立的。我认识的一个投资人说过这样一个观点,真正有信仰的公司2023年就出现了,2024年再出现的都是跟风造热点。


王启斌:我个人不认可他这个观点,只有自己创立过一个公司的人,才知道创立一个公司是需要做很多准备的。其实灵初真正拿到的融资是在2024年的5月份,在9月份才真正注册公司。实际上我们真正开始干活是6月份,但是公司被人抢注了。从23年我就要创立这公司,有我的mission,要找到非常跟我情投意合的联创。最后才是刚才你问到的,我们都决定干了,才来定路线和一系列的问题。


卫诗婕:为什么叫「灵初智能」?


王启斌:我们其实是先有了这个手样Psi(Ψ),我们再去想它的名字,觉得强化学习类似于一个孩子的成长,我们那时候意识到:要逐步地去交互,它其实是应该有各种灵性的。Psi(Ψ)本身在希腊字母头有心理学的应用,有物理学的系数,它非常有灵性,有强化学习的一个好的系统应该是这样的。最后灵初这个字这样合了下来。


卫诗婕:具身领域有一种非常标准的配置,灵初完美的契合了:一个干过硬件跟量产的老将,也就是你;加上一个杰出的科学家,在你们公司就是杨耀东老师,他是国内的强化学习的专家;再加上一个年轻的科学家面孔,就是你的00后联创源培;再加上一个干算法非常厉害的人,在你们这是干过自动驾驶量产的柴晓杰博士。配置如此标准,这是一种巧合吗?


王启斌:这个是取决于我们的认知。这一波最难的和之前的不一样是,从技术到产品的这段路可能会走得比较长。所以一定要有各种各样的角色。我的背景其实是产品经理,所以我对整个产品以及制造走到市场走过很多轮。这回在一个更强的技术范式里,需要很深的科学家。晓杰能承担的是智驾底层算法工程化。所以当时我们在组这个团队时候,就是从这几个层次上来看。


卫诗婕:一个自动驾驶出身的人来干具身企业的一号位,和产品人来干具身企业一号位。会有什么区别吗?


王启斌:其实每个创始人的最大的区别可能是在于自己的对世界、对组织的认知,后面的相应的是能携带多少资源进来,做一个复杂的系统的创新,长赛道的创新里头能够聚合多少资源?所以从本质上,我不认为就这么一个行业性的标签有本质性的区别。


卫诗婕:我知道的是,从23年开始,国内的学者们在具身这个领域其实是被疯抢的状态。你帮我验证或者验伪一下这件事情。


王启斌:这是真实的情况。当时实际上我去找了美国的科学家和中国科学家。在国内科学家里能够做操作的是非常有限的。23年有一两个公司出来了,有的是科学家,后面也有产业大佬在聚集。我觉得我跟耀东和团队能走到一块,其实也是在那个时间点弥足珍贵地聊过之后。大家能携手创业。


卫诗婕:你为什么最终选择base在中国,而不是像很多创业一样,直接base到美国去?你曾经在外面留学和生活。


王启斌:目前看到的现象是,的确有人是出去创业了,也有人回来了。为什么18年下定决心从Sonos离开?那个时候有件事情对我其实伤害非常大,我当时是把Sonos全球的CEO带到中国来见了陆奇,因为我们当时在做智能音箱的合作。在美国是跟亚马逊、Google合作,在中国要选唯一的合作伙伴。


当时陆奇在美国的家里头全是Sonos音箱。他非常喜欢Sonos,所以陆奇就坐在那跟我们说,你们想在中国做什么事情,我立马让我的团队跟你们对接,非常快就能做出来。从那个楼里头出来,我就开始问我们老大,什么时候开始动手做?老板们说9个月之后,先把亚马逊做完,Google在pipeline里,百度第三号。我那时候就觉得在一个全球的盘子里,想做一个事情是非常frustrated的。所以我其实那个时候就想在一个中国的生态里头,做一些对我来说特别有意思的事情。我不知道这个事是不是在潜意识影响着我,所以我其实就没有想过一定要在海外创立一个公司。


卫诗婕:中美两边具身的科学家有什么风格上的差异吗?


王启斌:美国那边可能想的事情会更为宏大一些,更少关注短期之内的落地的事情。中国不仅仅是做模型,要考虑商业化应用的问题,所以整个researchment在中国的生态里头,也是被强化学习过的。


卫诗婕:北大的杨耀东老师,他是国内最早涉及到灵巧手这一块的科学家?


王启斌:是的,他从UCL回来之后,回北大在做强化学习上面有两个具体的方向。在国内最早做了整个双手操作的模拟环境数据,后来再开始发表灵巧操作的数据应用的论文。另一个就是他在做大模型的后对齐。包括他在22年年底就承接了国家级的已经落地的通用灵巧操作研发项目。


卫诗婕:作为一个非技术人士找寻科学家的时候,怎么判断哪个科学家适合创业?尤其是适合跟你一起创业。


王启斌:好问题。有几个技术的判断,先看这个老师做的东西,回到基本面来,到底是发个论文还是有demo?demo其实意味着东西更往前走一步。当然也会有背调,也会去问问这些老师们做的研究,到底最专长的地方在哪?他所选的技术天花板要足够高。另一个方面,要有很强的帮我组建最好的研发团队的能力。最后,最重要的是,创业还是一个非常有挑战和持续一段时间的事情,所以我很关心老师们自己对创业这个事是不是真的有承诺在里面。最后要谈的是核心的利益,既有效又可持续。


卫诗婕:杨耀东老师介绍了他的学生源培加入这家公司,也是你们的联创。他发的一篇非常重要的paper,是人类的数据怎么能够真正用在通用灵巧操作上做数据迁移?


王启斌:是的,他是在李飞飞和Karen Liu的实验室里做研究,以及最后离开之前发的这篇,用人类数据,在仿真里去训sim to real的操作,这一块是我们在现在发布的W0模型里头,用强化学习这一套。


卫诗婕:非技术人士怎么判断科学家们做出的研究成果是不是真的非常扎实?一个非技术的一号位怎么去评判内部的技术是否真正足够领先、足够可用?


王启斌:我们实际上有丰富的科学家含量:杨耀东、源培,还有温老师(温颖)——上海交大的科学家,有部分的Peer review这种机制去看,然后再看整个的效果,其实是能够看出来我们的模型里头的真实研发状态和效果。


卫诗婕:往期嘉宾姚卯青说,对于一个没干过量产的科学家,做研究的时候deadline是可以被推迟的,甚至可以被无限推迟。但如果你要干量产交付,要干商业化的话,最后就是有一个明确的deadline要管理。在你们灵初内部,更偏向于哪种模式?


王启斌:其实是不能用这套方法管理整个算法模型的研究的。在最早的探索期,强的时间管理并不是一个好的方式。到了我们最近的一版模型,有更为接近靠谱的时间线。针对不同阶段,底层技术的管理方式是不同的。


搭建团队非常重要的是我们现在做的是research and development,也就是说要做工程。算法的人和工程性的人,怎么在一个组里头?其实我们实际上现在有个大组,算法的人在上面,下面有很强的数据平台、训练平台,包工程性的架构师在一块,快速的迭代,它和做硬件的量产又有不同的搞法,硬件的量产其实是有严格的milestone,但具身技术并不完全一样。


卫诗婕:在具身,包括AI这个领域,现在最有意思的就是你没有办法确定所谓的探索期窗口到底是多长——它是有两种分野的:国内智元铺量产就很猛,还有可能做大脑更重的公司,声称我不走(铺硬件)这条路线。


王启斌:硬件出发派,就是从整个硬件的发货量,做到稳定、便宜、规模化来迭代,这是一条思路。另一派是从模型和数据出发,在用更好、更优质、更批量化的数据训模型,再往下走,大家的路径是不一样的,就决定了大家研发的流程上面其实是有些差异的。


卫诗婕:有一类公司,他会认为一定要卖本体,做本体,因为有数据采集能力的本体才是做大脑公司非常强的制胜要素。您怎么看这种声音?


王启斌:我觉得这是两条路,怎么走是有很大的差异的。如果做本体,现在大家可能是一条路是极致便宜,我可以进现场,包括从遥操作切入来做数据闭环。这是一个特别典型的特斯拉的思路,我个人认为在这条路上面,具身比特斯拉的难度更高,是因为机身耦合的硬件本体的挑战,耦合算法的模型要求的难度更大。而且有一个大的前提是,如果算法不够足够好,硬件进去之后转得慢,又未必能够跑那么快。


我们的思路是从模型出发,再用人类数据启动它,把这个模型开始转起来,然后放到一些我设计的,人家定制的本体上面开始转。现在说孰优孰劣为时过早。


卫诗婕:具身这个领域技术栈很长,需要很多跨领域的人才,这就对管理造成了非常大的挑战。怎么让不同领域的人才融合在一起?这方面管理你有经验吗?


王启斌:这是个很好的问题。我觉得这一次和我之前集成团队有很大的不一样,包括最近我在想管理这个词是不是已经落伍了?现在是不是应该谈「治理」?回到从技术到整个产品研发的阶段,我个人认为,在一开始的research阶段,可能更多的是bottom up会更好。比如说我们跟北大也有联合实验室,大家在跟进最新的一些技术,或者看全球路线的时候,很多从下至上开始研究。一旦真正觉得已经看到了某条路线的重要性,要开始做development的时候,就需要从上到下的决策,要投更多资源进来。


第二个是如何组织资源?目前我们还是以项目牵引制,这种大项目、超大型的项目,可能一个数据的项目就是七八十个人投在里头,各个部门投以项目牵引来往前快速地迭代。



PART FIVE


全行业最大手部数据集,


只有真正训大脑的公司,才有资格定义什么是Garbage


卫诗婕:判断一家公司是否真正在训大脑,一个最直接的标准就是每年花多少算力。灵初算力的消耗可以透露吗?


王启斌:保守来说今年会是大几千万(人民币)的算力投入,可能都覆盖不住。客观上在我心里这并不算多,但对于一家具身创业公司来说也绝对不低。实际上,后面的data的scaling会起得非常快,到年底100万小时的真机数据到底要吃到哪个程度上,算力要报到多少,我们现在还在看。


卫诗婕:国内大厂也在做具身大脑训练,这些公司的财力和每年能够在算力上投入的资源比创业公司大得多,更别提到他们还有基座模型的优势。你们这些创业公司怎么面对这些大厂对手呢?


王启斌:在对整个模型训练的数据,我们是有很多底层洞察的。比如4月份发布的模型,我们坚持整个手的3D的位置的精确度,其实是远远大于触觉的重要性,远远大于2D的照片。意味着我们采集的设备上面,其实是捕捉了人的关节角。这个和现在很多基模公司,仅仅用纯视频的,一个第一人称的视频训的模型,还是有不一样的。人的关节角轨迹能搜下来。和现在大家仅仅是带一个摄像头去取,我们的肯定更精确、更丰富。这样就决定了我们其实在训模型的时候,反复的迭代,包括我的数据量,模型能力肯定会越来越强。我觉得我们还是有独特的一些理解和复利效应的


卫诗婕:你说今年你们的数据的scalable(规模化)会快速的上升,为什么?


王启斌:我们在4月份发布的模型,实际上是在一个10万小时多模态数据上。包括了视觉,包括了关节角,包括了触觉多模态的数据上面训出来的,我们其实已经在这个量级的数据上知道了整个数据进来之后的管线效果、模型效果。所以我们后面是要把数据做扩展,这是在今年可预见的,说白了就投资源进去做。


卫诗婕:所谓的数据管线是,你们把这个手套给到合作伙伴,让他们去采集数据,再把这个数据回传给你们去训练模型,这就叫一个数据管线。


王启斌:对,管线是指数据触及的平台。平台上面能够做数据的审核,标注处理,这些都做完,再放进训练框架里头去训模型。


卫诗婕:你的合作伙伴都是谁啊?


王启斌:在数据的生态里头,我们投资了数据的运营方,其实也有些合作方。


卫诗婕:这10万小时的数据是在多久的周期内,怎么形成的?


王启斌:从去年10月底开始,一直到今年的3月份,5个月。我们其实是在三个数据采集场里头,有几百套的手套在里头去采,采出来这样的数据。


卫诗婕:在手部这一块是现在全行业最大的数据集。


王启斌:对,其实大家可以看看我们前两年在huggingface上下载排名第一的那个数据集,那是真的1000个小时的多模态的数据。


卫诗婕:现在数采有一些乱象,因为我听说各地合作的数采场,现在已经出现了很多空置的现象。


王启斌:那一定有,要采什么样的数据?如何采?如何做到低成本的采?其实并不是每个素材厂都知道的。我也知道全国其实建了大概有50多个素材厂,真正高效跑,跑得好的,能够真正把数据拿出来做交易的,可能不到10个。


卫诗婕:什么样的数据可以被视为能够规模化去做预训练的优质数据?


王启斌:好问题。人的作业的操作有三个特性:对任务做长程的分解,这是语义层面。又能够做很好的手眼协同,还能够做纠错,数据本身要满足这样的要求。


第二个就是要有手眼配合的多模态数据,所以为什么我们反复的在强调我们的数据手套是能够除了视觉之外有触觉,有关节角多模态的数据,包括采集的时候任务的多样性,都非常重要。有这样的组合才能保证规模化的数据出来之后很高质量的来训模型。


卫诗婕:只有有大脑能力的、真正在训模型的公司才能够定义到底需要什么样的数据?


王启斌:非常对。其实数据本身还是要有一个需求方。所以真实的场景现在有两种公司在用数据,第一个就是基模公司,中国的或者是美国的。第二种就是头部的集成公司。我们其实是自己在用数据,所以我知道什么样的数据很重要,所以觉得这个没有一个模型需求方来牵动这个数据,那一定是一个非常的乱象的、无序的和低效的,或者是垃圾场级别的数据采集。一定要有很强的这种公司在前头做牵引,对数据做定义,不管从格式、模态做定义,最后这个数据厂才能有效生产出数据。


卫诗婕:行业有一句话叫“garbage in,garbage out”,如果数据不太行的话,训的模型也不太行。


王启斌:只有基模公司和头部的集成公司能够分辨是不是garbage,这很重要,大部分人现在有可能的确在生产garbage。(做出)10万个小时(手部数据集)之前,我们经过很多尝试。比如我们是不是需要深度的数据?深度数据到底用什么样摄像头?很多东西要去试的。


卫诗婕:很多公司在做通用大脑,我理解那个通用大脑其实也涵盖了灵巧操作的部分,你们有什么样的信心说,我会比那些做通用大脑的公司做得好?


王启斌:我觉得通用现在也是一个被滥用的词语。通用的意思其实是,人的数据输进来之后,其实是更接近人的数据训的模型,它有很多的泛化的能力,能做长程的操作。这里头很复杂的是,我要做人的高自由度的手,里头的手眼协同这个事情,实际上是我们从模型到数据侧一路走过来的。一个仅仅做非人类数据来源的(模型)怎么能做到持续的多样化?


卫诗婕:你们定义的真实数据是什么?


王启斌:用以人为中心的数据采集设备采下来,而不是纯粹仿真这种数据。


卫诗婕:市场上的仿真派,你怎么看?


王启斌:我们还是坚持把真实数据做到好,其中一个反共识是,真实数据经常被诟病成本,但其成本和多样性其实是更有优势的。


卫诗婕:真实数据它的成本还有下降的空间吗?


王启斌:一定有的。整个数据的成本分三大块,第一个就是采集设备的成本,这符合规模化的硬件迭代的逻辑。第二个很重要的是数据采集的运营成本,涉及到人的成本,这个其实在国内有大的运营体系头也能做到。第三个是存储及算力的成本,这三个在一块的,我们其实想办法是可以持续往下迭代。


卫诗婕:现在在中国采集一条真实数据的成本是多少?


王启斌:不一样,这取决于任务的容易和简单,从几十块钱一个小时到100左右一个小时都有可能。


卫诗婕:这个数字已经比半年前听说的数字要下降很多了。


王启斌:是的。半年前大家可能很多的还是在以遥操作为主体,一套机器人的固定投入分摊成本很高。现在牵引到人类数据,采集设备的成本就会低很多。


卫诗婕:你怎么看PI的UMI式的夹爪数据,对于整个行业的影响是什么样的?


王启斌:PI的真机遥操作的数据在告诉大家,用真实的数据来跑模型的效果是有效的。比如PI 0.7告诉大家,在夹爪上面可以泛化,同时它能够做到对语言的理解,比如说compositional的去直接拆解成机器人任务,这个其实是很重要的一个突破。


不过我们并不和PI完全对标。因为PI用的是夹爪数据。我们采的是高维的手的数据。这一点跟最近的Dream系列,也就是Dream zero和Dream Dojo有些部分有些相似。


卫诗婕:PI公布了夹爪式的数据,但未必代表他只在做夹爪,可能人家也在做手的?


王启斌:对,据我们所知道,(全球)应该有这么两到三家。


卫诗婕:你们的灵巧操作模型,预期能够做到什么样的状态会是满意的?


王启斌:在具身赛道里头,虽然投资人疯狂在问大家,我们是不是在走到类似于ChatGPT 3.5的年代。但今天大家可能还在一个相对平静的阶段,突变点没有发生之前,好像没有人能够洋洋自得,觉得我们现在已经做出了什么样的成就。所以我们还是不停地在扩展我们认可的数据的量级,模型训练的迭代的速度。



PART SIX


Generalist刚开源的27万小时数据集里有烟雾弹,


国内大脑公司需要对技术有判断力


卫诗婕:我的上一期嘉宾,智元的合伙人姚卯青,他认为现在具身还没到GPT 1.0时代,谈通用是一个有点好笑的事情。


王启斌:因为这个赛道偏长,大家在用不同的路径切入。我们从头还是定位在做通用,从去年开始发布的模型也在证实——我们的确可以在不同的任务上都做到泛化。4月份大家看到,我们所有的demo都是在一个基础模型上面做出来的——只是说多通用?我们为什么不碰to C的家庭?我的确认为,多种任务、多种物体在完全非结构化环境的通用会是比较漫长的。一个专注的域的通用里头,其实是可以做到任务通用。


卫诗婕:其实你们俩有一点是共识的,在现在具身大脑这个层面,没有绝对意义上的头部,因为大家都没有完成自己所立下的目标。


王启斌:这点我是认可的,现在的大家在讲头部,可能是从自己理解的角度,用简单粗暴的估值来看。但是在这一场颠覆性的范式里,现在谁说头部都过早。


我觉得第一轮淘汰赛都没有开始。像刚才说的做大脑的公司,找到了一定的小的配方,能不能把数据量级高效的扩展?然后再在模型里头形成迭代,模型迭代的效果是不是能够落到真机上面做一定的好的效果?


卫诗婕:具身数据领域,大家会用recipe这个词,就是配方。数据如果能在市场上流通,其实数据并不能带来绝对的壁垒,但是配方带来的领先性,会是比较稀缺的,对吗?


王启斌:作为一个大脑公司,我们认为一定是这样的。


大家可以看到整个GPT的模型,我记得应该在3还是3.5之后就不公布技术细节及数据配方了,具身里头更复杂,现在大家展现的模型效果里,具体用的什么数据配方,其实的确是一个只有自己知道的事情。


卫诗婕:对于一个创业者来说,你会把公司训模型的Recipe公布给投资人吗?


王启斌:当然不会了。我们会交流,讲一个大致的。但是实际上真正的数据配方肯定不会公布。


卫诗婕:那投资人投之前,岂不是盲选?交钱进去才能看底牌?


王启斌:投资人最后看的是这道菜到底怎么样。也看不到Recipe。


卫诗婕:我一直有一个疑惑是,如果对于自身训模型来说,含金量特别高的数据的话,我是绝对不会拿出去卖的?


王启斌:这是一个,还有两个点没有说透的是,具身模型需要的数据量是远远超出我们的预期的。我们认为100万个小时只是个起点,真正可能都要乘以100倍,1亿个小时。也就意味着数据的需求是一个汪洋大海。我们的各自拥有的数据可能在其中只是一小个湖泊。湖泊里头的资源数据是不是很稀缺?当然是稀缺的,但是有没有可能是这些数据加在一块的综合效应更大?


所以我个人预测数据在一定的阶段会发生于数据交换的模式。就是我手上的有价值数据和你的数据做交换。


我不认为在可预见的三年,谁能真正的垄断了数据。因为数据的采集成本以及具身应用场景太大了。举个例子,我在物流场景或者商超场景做两年的数据,对物流里头、商超里的东西都很熟。您可能做的是一个在工业上面高精度的,就孕育了我对模型的数据的价值是不一样。但实际上有可能大家实际上做数据交换。


所以真正在这个汪洋大海里头,目前看不到谁能垄断数据,大家可能都是想获取更多的数据资源来进入到模型里头,让模型能力增强。


卫诗婕:机器人的大脑公司到底应该怎么做?全球领先的大脑公司给过你们什么样的启示吗?


王启斌:去年年中开始,全球头部的模型公司,和我们的判断非常接近——真实数据非常重要,而且配方做得好,其实会很显示很大的模型效果。


卫诗婕:刚才你说到苹果手机做得很好,在那个年代有一个非常smart的点,就是它把多传感器的这一套融合得非常好,在一个用户体验里面去交付了。我觉得在具身领域,机器人需要非常多模态的数据,但现在在大脑层面,大家似乎并没有共识的架构?


王启斌:我觉得部分是这样的,现在有主流的架构,但是不是主流架构在一定的阶段是一个绝对垄断性的架构,还值得探讨。底层架构的有效性是不是这么强?本身是需要数据的验证的。Transformer的架构能够一直往下做是因为在GPT 3.5以后,尤其是一直到推理模型,后面加上强化学习这个范式里头吃掉了非常大的数据,能够验证。


我们现在做两个事情,一个事情就如何在复杂的空间里头做操作?这个事情现在大家认为基于数据量的world action model可能是一个好的探索。我们在讲人类语言里说一句话,如何类人的把它拆解了能够制作,这是什么样的架构?其实之前大家觉得语言模态很重要,我觉得还是要有定量数据量支撑起来,再验证这个架构。


卫诗婕:美国的具身大脑公司确实比中国的大脑公司领先一个身位。中国有机会在大脑层面做得更好吗?中美在具身大脑的训练叙事上,会有不同的故事吗?


王启斌:其实是有这样的机会的。大语言模型上面,我们看到DeepSeek其实在R1的推理模型上快速的赶超了美国,而且是在一个算力资源受限的情况下。所以在中国的生态里头,具身模型的大脑现在其实还在非常早期的阶段,大家都会快速的迭代。中美之间到底后面会发生一个什么样的叙事逻辑?它是个动态的。


如果在中国,数据能在低成本下,快速地高质量化和起量,我们有可能在模型上是能够追的。


卫诗婕:中美具身在数据层面的成本差异是怎样的?


王启斌:半年前,在美国采一条同样的抓取的数据,它是按美元算的。比如我们做到两到三人民币,美国可能是两到三美元的计量单位。这个数据量就决定了整个数据的起量。现在大家看到,印度的人带着头环在给美国采数据。


数据不仅仅强调低成本,还要多样性。在国内,具身开始接触泛服务行业,物流流通行业,包括to C的数据,大家都开始做。如果做得好,和模型的耦合迭代是有机会可以在某个时间点去追赶或者持平的。


卫诗婕:你觉得具身行业现在进入拐点时刻了吗?


王启斌:我觉得已经到了曲线开始跑的时候,但还没有真正进入到拐点时刻。模型的第一个阶段会在今年年底,?到了一定的数据量之后。模型的整个泛化性会更强,今年的会有第一个阶段的检验。


卫诗婕:2026是开始了具身领域的数据军备竞赛吗?


王启斌:基于数据量增强上面的模型迭代的军备竞赛已经开始了。其实是3年以上的一个周期。因为大家对大脑的整个的未来的希望解决的问题是非常之广。


卫诗婕:你怎么看现在具身领域有一波联合创始人出走,自己创业的现象?


王启斌:道不同,不与谋。举个例子,在具身发展的理念上面,到底是做技术模型还是要更多的做硬件应用,其实有差异导致各自开山立派,能理解。


卫诗婕:我觉得这一轮创新,核心是么样吸引到真正优质的研究人员,激发他们去做出有效的探索。在这一点上,创业公司跟大厂有不同的优势?


王启斌:的确是的,回到底层,我们要找到足够的算法人员,这里招聘很top的talents是一个很大的挑战,包括在模型训练上面,我们跟头部的大厂之间也有过竞争。大家其实都想找训过大模型的人,能对超大体量的模型做过这种后训练的人。所以这里面会非常直接抢人。


(问:能抢得过大厂吗?)我能抢得过本质上想来创业公司的人,但是实际上有时候也抢不过。但是吸引人才从内到外有几个层次。大家可能初步的看到的是在比薪酬,但是在今天原生代的00年左右的这种算法人才,我觉得package是一部分,其实还有很多很内核的东西。第一个就是他一定有很希望做的事。我们做的这个事情(通用灵巧操作)是一个非常高的,相当于最王冠级的东西,非常有挑战。第二个我们在逐步build我们的口碑。业内很多猎头给我们的HR反馈,大家会认为灵初是第一个非常简单的公司。沟通成本非常低,技术的策略是非常清晰的。


卫诗婕:你怎么面试?


王启斌:基本上所有的候选人,我都会面。时长从30分钟到一个小时。


卫诗婕:问什么?


王启斌:不一样,我面试人有两个目的。第一个,我跟人交流,也在学习。第二点很重要的是,看这个人fit不fit。


卫诗婕:怎么判断他跟身边的人搭不搭?是一种直觉吗?


王启斌:两步,我会反复的问,你在你的组织中,承担的工作是怎么协同?你碰到最难的事情,是怎么去解决的?其实我不care他解决与不解决,我care的是他是以什么样的方式来解决的这个问题。还有一个他是不是真的用尽一切力气去解决的这些问题?


我个人很坦诚说,不太喜欢那种简历上非常光鲜,说出来事情一帆风顺的,没有经历过挑战的。因为我觉得这不符合做一个难的事情的底层逻辑。没有失败过的成功不可信。


卫诗婕:我去年在硅谷听到一个说法,research as a product,现在做AI的researcher也是有机会定义产品,。你觉得AI时代,产品定义者的画像是什么样的?研究人员可不可以做?


王启斌:我觉得单纯的研究人员做不了,真实的状况是OpenAI在2023年的后面就有产品团队。我听说Anthropic其实是把post training团队承担了部分产品的职责。我觉得本质上,产品经理这个角色他还是在的,但是他的能力扩得更宽了。


不管researcher是不是能做产品,或者产品经理是不是要更懂技术,我觉得底层是一样,做产品的人有三个圈:


第一,他要懂技术,不懂技术怎么能在这个时代做产品呢?第二点,他一定要懂UX,用户的交互。第三,一定要有商业思维,他知道这个模式怎么样能做到一个商业思维的闭环。今天的researcher如果能够很强的技术驱动,做到后面两个也有sense,肯定可以做产品的事情。那产品也是一样。所以这两年也是大家可以看到,我们公司现在也有产品经理,自己用AI工具画了所有的原型图,自己直接就开发了一些简单去验证模型。


卫诗婕:你会接受前几个时代的产品经理的,是吗?


王启斌:不是的,我还是在bet在更年轻的,其实AI原生代的,有很好的技术或者算法的sense,但是同时又有有用户、商业的sense。


卫诗婕:你说你们做的是皇冠上的事情,你好像没有用「皇冠上的明珠」这个词。


王启斌:因为这个词很俗啊,我觉得灵初在vision这一部分,一直没有做好描述。这是我的责任,因为我本人对描述很挑剔。


卫诗婕:通用灵巧操作在整个具身智能中,会是一个核心价值的锚定点吗?


王启斌:它一定是的。从人类进化的角度,语言再往上到视觉,一直到人类基于小脑层次上的,或者肌肉层上去操作东西,其实最难的。这个东西也一定是验证了这套算法的模型的难度,它一定是这波浪潮中,矩阵中的一个最核心的。


卫诗婕:如果做大脑的公司没有办法在模型和算法上保持明显的领先的话,我是不是可以认为它会掉下牌桌?


王启斌:是的。这是所有在做大脑公司的挑战。


卫诗婕:你怎么看本体公司也开始越来越有自研大脑的趋势?你认为这是他们必须做的事吗?


王启斌:我觉得这是有三个圈,这是他们一定想做的事情,这是不是他们一定能做的事情?是不是市场给他们机会做的事情?我不知道。


卫诗婕:你怎么判断一家具身企业是不是在画饼?


王启斌:我也不care别人画不画饼,我只是关注我自己是不是在画饼,或者在做一些真正重要的事情。


卫诗婕:刚才听起来你好像抗拒画饼。


王启斌:从我们公司的本质风格上来说,我们肯定要在自己非常convince自己的情况下持续做。画饼本身是个中性词,作为一个公司其实还是要给所有的投资人、包括潜在的想求知的人一个很强的愿景跟信心。这个东西一定还是从公司内部,以创始人为核心的,自己相信这些事情,持续把这件事情做好,再讲很好的叙事故事。


卫诗婕:你会怎么定义做大脑的具身头部?


王启斌:那当然还是看展示的模型能力,还有研究人才的能力、算力和数据的管线这些能不能做好。


卫诗婕:但不止一个业内人士跟我说过,demo并不能和模型能力挂等同。


王启斌:如果是真实的、可信的demo,其实还是在能够部分来展示模型的能力的。


卫诗婕:你怎么判断某一家的demo是不是真实可信?


王启斌:专业的人员,我们能是能够看出一些东西来的。里头是不是操作的有时延呀?遥操作和完全的policy的东西还是能看,但是有的时候如果是有部分的抖动时延,可能会更真实。


卫诗婕:2026上半年具身行业的水温和动向有什么变化?


王启斌:第一个共识会认为大脑的公司非常重要。第二个是数据,相应的数据非常重要,已经开始显现出来了。但是打开这里,其实又参差不齐,比如说什么样的数据更为重要?什么样的公司能够像你说的,验证它是一个好的大脑公司?这里头其实是有一些差异。大脑公司发的模型的效果好不好?到底它获取数据的飞轮是不是能够持续。


卫诗婕:我之前跟一个技术管理人聊,他跟我说了国内的大脑公司,其实都在等着美国最领先的大脑公司开源。你怎么看他的这两个判断?


王启斌:我觉得其实是大家太乐观了。目前开源的公司并没有开源它的模型,就不用说整个权重了,大家只会部分开源的数据集什么的。第二点,最近刚听到消息说(Generalist刚刚开源的)27万数据里头其实是有烟雾弹的,所以我觉得国内的大脑公司还是要招募很顶尖的人才,在这些技术路线上是要有自己的一些判断力。灵初为什么依然今天要给头部的基模公司供应数据?实际上作为一个数据的供应商,我也在看这个生态里头一些迭代和演进。


卫诗婕:你说的头部基模公司是指头部具身基模公司,还是头部大语言基模公司?


王启斌:头部的具身基模公司。



PART SEVEN


同一场AI史诗里,


各有各的活法


卫诗婕:今天中国的资本市场还是比较青睐年轻人的。甚至说得严重一点,有点年龄歧视。作为一个70后,你面对这种所谓年龄偏见,有什么想说的吗?


王启斌:在创业的初期的确会,会被投资人challenge(年龄)。今天我觉得已经不是一个问题了。实际上我能够创业,肯定是有我自己的价值。举一个例子,OpenAI在2022年的10月份发布的ChatGPT,在2023年年初就引进了Peter邓这样的顶级产品人,我觉得所有的产品最后都要完成一个从技术到产品到市场这样的一个这条路。实际上到一定阶段,像我的背景会有很强的优势来lead这个team。


卫诗婕:关于你们这个创业,有想讲述的浪漫的部分吗?


王启斌:我觉得永远浪漫的(部分)是在心里——作为一个70后,有机会参与这么一个非常史诗级别的征程。「7890」的组合还是个很好的组合,大家很和谐。


有一天早上我到公司,你的背后那堵墙,logo印在上面。那天早上,太阳从斜面上照进来,我就觉得,自己的绵尺的努力,有天能够有机会做成这么一件激动人心的事情,就觉得非常高兴。还有一天,一个头部客户非常认可我们的能力和价值。其实真正感动自己和团队的,永远不是宏大的叙事,而是自己的公司在一点一点的进步。


卫诗婕:有最害怕的事情吗?


王启斌:我其实是有过中年危机的。最怕的当然是,这个时代的洪流,已经与你无关。害怕的和激动的事情永远是一体两面。


卫诗婕:能不能分享一本你最喜欢的书?


王启斌:《Same as Ever(始终如一)》、《The Massive Ever(永恒的大多数)》。(注:美国财经作者摩根·豪泽尔的两本代表作,都围绕千百年来,永恒不变的人性与规律)他在讲整个人的底层的一些东西。当然我最近其实也读了很多讲美国的模型公司的事情,也挺有意思。


卫诗婕:有什么take away可以分享给大家的吗?


王启斌:OpenAI跟DeepMind,我觉得很有意思,为什么我刚才反复在讲,在AI的领域里头,其实是会有很多的生态和路径不一样,创始人的基因真的决定了公司的路径不一样。大家就会看到今天每个公司,从vision到mission,一直到产品的路径非常有差异,可以看到同一场AI史诗里,有各种各样的活法,非常有意思。又是因为创神自己的信念和自己的经历的事情,在面对各种挑战压力之下做的选择而不一样,导致了路径的不一样,最后看到的呈现的东西不一样。


卫诗婕:在一个如此火热、钱如此密集的行业,人性的B面是处处会发生的,如果你发现了,你怎么应对它、处理它、和它共生?


王启斌:作为一个创始人要自省,在外企待了这么多年,我特别不喜欢作为公司的一号位,有人开始服侍我,给我去买饭这个事情。我反复跟大家强调,大家不用跟我这样,一直倡导的就是透明,每个人对公司有贡献。


卫诗婕:现在灵初多少人?


王启斌:超过160个人,其中北大实验室有40个人,体量算中等。我知道现在有些基本上有三四百人,人数依然不是我关注第一要素,本质上我们反复要回答的一个问题是,在做这么一个复杂的系统,从硬件到数据到模型的异步开发的复杂系统里头,什么样是一个最好的从development一直到product的最合适的组织。


卫诗婕:我知道你非常认真地研究过OpenAI这家公司的成长和发展史,刚才你也讲你看了哈萨比斯(Deepmind创始人)的传记。对于现阶段的灵初来说,如果你能够让你的组织形态完全对标某一阶段的OpenAI或者是DeepMind,你会选择什么时候的哪一家公司?


王启斌:这两家公司都没有回答一个复杂硬件的耦合问题,做的最好的依然是特斯拉,更早之前是苹果。如果纯从模型侧,其实我个人还是希望OpenAI 2020年到2022年的上半年,大家只是在2022年的下半年10月份看到了ChatGPT,其实更早之前这个模型从2.0开始到3.5之间的这段路是很关键很关键的,我觉得其实是一个浮在水下最关键的一段时期。


卫诗婕:访谈的最初,你聊到了你在华盛顿的时候读的是钱穆先生的书,为什么要读历史相关的书呢?


王启斌:纯是一种个人的喜爱。钱穆先生其实跟我们今天聊的无关,我认为史学家的文笔也是很重要。无论过去多少年,我最喜欢的还是谭伯牛的《战天京》,野生派,让人读得酣畅淋漓,特别有特色。我觉得在那代人身上,既读到了历史的视野以及优美的文笔,更底下的可能是那代知识分子的身上,有一种深深的民族的自豪感。


其实很有意思的是,钱穆先生在五四运动这样一个西化的过程中,大家都在喊民主科学的时候,依然在仔细地审视历史。我个人坚信这一波AI的浪潮,会是未来50年里头最重要的一次范式。但底下促成这个范式变化的暗流涌动的因素,是我们非常不熟悉的,我们会感到非常的陌生和不适应。历史中,可能会有答案吧。

本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。