扫码打开虎嗅APP
本文来自微信公众号:星船知造 (ID:xingchuanzhizao),作者:清波,编辑:唐晓园,题图来自:视觉中国
人形机器人产业存在一个反直觉现象:目前的人形机器人本体玩家中,竟然既不包括远近闻名的工业机器人四大家族(发那科、ABB、安川、库卡),也少见国内排名靠前的几大机器人巨头(埃斯顿、埃夫特、广数、新松、汇川、新时达、钱江)的身影。
当下人形机器人本体处于领跑位置的玩家,是汽车行业大佬,如特斯拉、本田、丰田。或是科技企业,如小米、谷歌、亚马逊。
库卡等传统工业机器人巨头反而鲜有入局。
但另一方面,当人形机器人概念股迎来井喷时,率先引爆的却还是工业机器人老三样——控制器、伺服电机、精密减速机。比如生产线性关节的拓普集团;旋转关节的三花智控;空心杯电机的鸣志电器;滑动丝杠、行星滚柱丝杠、空心杯电机的江苏雷利;伺服电机的汇川科技;谐波减速机的绿的谐波等等,均在人形机器人概念的助力下,有不俗表现。
要解答这个反直觉现象,星船知造还得从人形机器人既传统硬核(工业机器人老三样)、又酷炫前沿(人工智能)的产业链角度进行分析:
1. 为什么说人形机器人是属于明天的产业,如何理解其巨大潜力?
2. 人形机器人iPhone时刻还远未到来,是卡在了哪些领域?
3. 人形机器人产业链各环节的当下情况
4. GPT技术在人形机器人中的场景应用和人形机器人终极猜想
一、人形机器人和具身智能
阿西莫夫的《钢穴》里有这样一段对话,大意是:
如果你要管理一座农场,你有两个选择。一是在拖拉机、收割机、翻土机、汽车、挤奶器这些机械上都装上一部“电子脑”,让它们成为智能机械。二是让收割机、翻土机、汽车、挤奶器都维持原样,但使用一个拥有“电子脑”的机器人去操作它们。聪明人会怎么选?
我们认为上述这段文字形象地表明了人形机器人的意义和优势:
与其把所有工具全部重新设计,不如生产出能模仿人类外形和行为方式的机器人。TA可以完美接入人类现有的生活,进入所有人类已经存在的场景,使用所有人类正在使用的工具。
一句话,我们一切的生活和生产都不需要为了这种机器人做任何多余、额外的改变。
作为一门集机、电、材料、计算机、传感器、控制技术等多门学科于一体的产业,人形机器人是国家高科技实力和发展水平的重要标志。全球发达国家都不惜投入巨资进行开发研究。
日、美、韩、英等国都在研制仿人形机器人方面进行了大量投入
今年5月的特斯拉股东大会上,马斯克通过视频向全世界的投资者展示了Tesla人形机器人的最新进展:
Optimus(擎天柱)已经可以完成分类物品的复杂任务,如捡起物品、环境发现和记忆等。较之去年9月底的亮相,其运动控制能力持续进化,AI能力提升。马斯克认为,特斯拉的未来长期价值可能都是Optimus给予的。
日本本田公司最新开发的新型机器人ASIMO(阿西莫),身高120厘米,体重43公斤,它的走路方式更加接近人。
source:本田
韩国KAIST的代表产品HUBO+,身高1.7m,体重80kg,具有32个自由度。
source:KAIST
美国波士顿动力研发的代表产品Atlas身高1.8m,体重80kg,具有28个关节,可完成原地起跳转身一周等高难度动作。
硬件结构上,Atlas拥有轻量级结构件皮肤和足部力控传感器,雷达与深度相机形成视觉感知,由28个液压关节驱动,可完成一系列敏捷动作,本体搭载3台NUC/工控机负责整体控制系统的运算。
软件方面,波士顿动力运用行为库、实时感知和模型预测控制(MPC)技术将相机、雷达等传感器接收的数据进行分析并对决策制定和动作规划提供支持。
source:波士顿动力,不得不说,波士顿动力的就是酷
我国人形机器人在科研领域,有国科大研发的“先行者”机器人,可完成静态和动态步行动作;哈工大推出的“HIT-III”机器人能完成上、下斜坡等动作;清华大学开发的“THBIP-II”具有24个自由度等。
在产业领域,深圳优必选推出的“Walker”机器人能完成上、下台阶等动作;小米于2022年8月公布的人形机器人Cyber One(铁大),升级后的运动控制算法可支配机器人全身的13个关节和21个自由度,实现双足运动姿态平衡;电机性能增强10倍,髋关节主要电机的动力扭矩峰值可达300Nm,峰值扭矩密度96Nm/kg;之江实验室展示的人形机器人能借助高精度视觉感知系统,定位琴键进行高精度手指运动。
深圳优必选“Walker”机器人
马斯克对于机器人市场的判断并非“空穴来风”。根据IFR数据,2022年,全球机器人市场规模已经达到了513亿元的高点,2017~2022年,CAGR达14%。
其中,工业机器人的市场规模为195亿美元,服务机器人市场规模达217亿美元,特种机器人市场规模超100亿美元。到2024年,全球机器人市场规模有望超过650亿美元。
另据Markets and markets预测,全球人形机器人市场规模(仅考虑单机)将从2022年15亿美元提升至2027年的173亿美元(约合人民币1038亿元),千亿市场的容量指日可待。
从零售端的价格来看,此前美国波士顿动力推出的四足机器人Spot Mini定价约为74500美元,上线一年卖出了大约400台,人形机器人Atlas并未上市。面对高昂的价格,马斯克曾公开表示,他的人形机器人将以低于2万美元的价格销售,并实现大规模生产。
做一个最为简单的推算:即使未来Optimus的销量只有马斯克所说100亿台的1/100,其市场规模也将有2万*1亿=2万亿(美元),这是何其壮观的数字。
source:特斯拉
目前人形机器人的iPhone时刻还远未到来。
从广义范畴来看,人形机器人在本质上并没有脱离机器的束缚,即便拥有了人体的形状,仍然是机器人的一种。只不过,装备了感知系统、驱动系统、末端执行系统、能源供应系统,运算系统及软件这五大系统之后,在人工智能度上,人形机器人较之我们更为熟悉的工业机器人有了长足的进步。
传统工业机器人更像一台机器而并非“人”。由于其所运行的轨迹都是被事先编程好的,只可以在固定区域、特定场所,做规定而重复的动作,不具备独立处置突发(非程序内)问题的能力,只能被归类为非智能机器人。
需要与环境(包括人)发生交互,做出反应,就要求人形机器人拥有相当程度的人工智能。用更为规范的学术语言描述,这样一种人工智能就叫做具身智能。
具身智能(Embodied Intelligence),指的是智能体通过与环境产生交互后,通过自身的学习,产生对于客观世界的理解和改造能力。
能够产生具身智能的假设前提是:智能行为可以被具有对应形态的智能体,通过适应环境的方式学习到。有鉴于此,地球上所有的生物都可以说是具身智能。
黄仁勋在2023年ITF世界大会上说:“人工智能和加速计算正在共同改变技术行业。下一波人工智能浪潮将是一种被称为具身AI的新型人工智能,即能够理解、推理并与物理世界互动的智能系统,即具身智能。”
具身智能是能够提升当前“弱人工智能”认知能力的重要方式,亦是产生超级人工智能的一条可能路径。
具身智能可以理解为人工智能发展的高阶形态,也有可能成为AI的终极形态。说得更加透彻一点,人形机器人的未来,就是赋能了具身智能的真正智能机器人。
如此智能的人形机器人会是如何接受指令,完成任务的呢?
首先,机器人的感知系统把机器人的各种“内部状态信息”和“环境信息”从“信号”转变为机器人自身或者机器人之间能够理解和应用的“数据”和“信息”。也即是说,让机器人理解周围的环境。
科学家(厂家)在机器人身上安装各类传感器,包括光、声音、温度、距离、压力、定位、接触等等,让机器人能通过“五官”来接近人类,收集感知外界的信息。
各类传感器应用技术的突飞猛进,保证了人形机器人得以发展。
传感器精度和可靠性的不断提高是当前亟待解决的难题之一。举例来说,在进水,进到粉尘或者颠簸之后,相机的校准就容易失效,长期使用之后像素点就容易坏死等硬件问题都会直接导致机器识别率在准确性上的丢失。
其次,机器人的驱动系统和末端执行系统需要协同工作,各司其职,就如同人类依靠身体各部位上的78个关节来行动。
用在机器人上的每一个关节的技术门槛和成本都很高,不仅要求体积小、精度高、重量轻,还同时要求抗摔耐撞。当机器人快速运动时,驱动力输出功率很高,要保证不会因为发热问题而烧坏,同时具备缓冲能力,保护“机器人关节”不怕撞击。
末端执行系统中的“手”,是技术难度非常高的部分。在实际抓、举、拿、捏等动作的操作过程中,机器人手指柔软度与抓握力度的协同性非常重要:抓轻了东西容易掉,抓得重了则直接破碎。
举例来说,特斯拉发布的Optimus展示出了与人手非常相似的机械手:
Optimus拥有11个精细的自由度,结合控制软件,能完成像人手一样复杂的操作,承担约9公斤负重。最新的demo视频中,我们也能看到特斯拉机器人在硬件上的一定优势,包括能控制力度地抓握很多物品,并且不会打碎鸡蛋。
再次,机器人的驱动系统和能源供应系统用于保障其动作的完成。按照波士顿动力官网的描述:Atlas机器人虽然各种炫技动作很酷,但必须配置功率很大的液压驱动。实际上,Atlas配置了28个液压驱动器才能让机器人完成各种爆发力超强的动作,而这样做的代价也是波士顿动力的老问题了:制造成本居高不下,难以走出实验室完成商业化。
马斯克在Optimus身上选用了稳定性、性价比更高的电机驱动方案,就是出于成本考虑。也正是因为这样,他才有底气把Optimus的目标售价定在2万美元,以此来满足巨大的潜在市场需求。
最后,用机器人的运算系统及软件来进行分析思考,并下达对应指令。
第一,理解需求和环境。机器人会通过传感器了解周围环境,搞清楚要做什么。
这一层的难点在于:视觉等环境识别和理解,包括识别未知物体以及识别物体的未知姿态。
第二,拆解任务和进行路径规划。
这一层的难点在于:人工智能输出时的不稳定性。因为在人工智能拆解任务的时候,每一次的解法可能都不相同,可能导致任务拆解的不一致,产生意想不到的结果。
第三,命令驱动硬件执行任务。需要把运动规划转变成机械指令发到机器人的驱动系统上,确定能量、动量、速度等合适后,开始执行任务。
这一层的难度在于:目前的人工智能还做不到100%的准确率,同时速度较慢,耗时耗力,但是硬件执行任务的驱动需要精准控制,要以100%的准确率作为基础,因此业内还是会采用传统的控制论方式来发号施令,执行任务。
由此可知,要让人形机器人身上的这四大硬件、一大软件系统有机地整合在一起,协同工作,相互配合,同时还要让合适的部位有合适的力量、速度和准确性来完成所需的任务,绝非易事。
仍拿特斯拉的Optimus来说。2021年8月,马斯克在特斯拉年度AI开放日上首次公开展示了Optimus的想法。仅过了一年时间,“擎天柱”原型机就于9月30日的特斯拉AI Day发布,硬件方面,“擎天柱”身高172CM,整体重量73KG;行走功率500W,坐下功率100W,整体参数与2021年概念机略有出入(概念机参数:身高172CM,体重57KG,负载20KG,行走速度最高可达每小时8公里)。
电机驱动上,Optimus拥有2.3KWH、52V电压的电池组,内置电子电器元件的一体单位,支持人形机器人工作一整天;选用28个定制关节驱动器,复用汽车动力总成设计经验,设计6种关节驱动器,包括3种不同规格的舵机(采用谐波减速器)和3种不同规格的直线执行器(采用永磁电机,可抬动1.5吨的三角钢琴),找到成本与效率的最佳组合。
目前特斯拉已把汽车的一些技术运用到了Optimus上,例如电池组、冷却系统等,还使用与汽车测试类似的技术来进行机器人的运动和对外部碰撞模拟。
特斯拉的全自动驾驶系统FSD也直接被应用在Optimus上,机器人采用了与汽车一样的视觉感知,使用摄像头输入数据,以神经网络进行计算。
未来对特斯拉人形机器人或许还有以下惊喜:特斯拉在新材料、电子技术上的研发能力较强,可能会用到特斯拉在火箭上的技术积累;给特斯拉带来持续爆款话题等。
二、人形机器人的产业链各环节分析
先说结论。未来人形机器人产品之间的竞争,归根到底是一场各个本体厂家在人工智能(AI)赛道上的竞争。
首先比的是人工智能水平的高低:能否像人一样,理解外部环境和内部中枢发出的信息和指令,理解,判断并做出正确反应。
其次比的是各个软硬件之间的协同工作能力:哪怕每一个部件都是同类中最好的,但总成不好,搭配不当,同样发挥不了最佳实用效果。
再次就是量产后的成本比拼了:人形机器人终究是一种商品,如果其最终成本达不到市场能接受的程度,那做得再好,充其量也只是一种没有商用价值的实验室产品。
人形机器人,作为机器人领域里新崛起的一个重要分支,其产业链也是由上中下游三个部分组成。
上游为核心软硬件,硬件包括伺服电机、减速器、控制器、传感器等;软件方面主要包括机器视觉、人机交互、机器学习、系统控制等。
中游则是人形机器人本体制造商,也就是能把上游的核心软硬件组合在一起,生产出能走、蹲、跑、跳、能捡东西、能抓物体的人形机器人的厂家。国内主要有优必选、北京钢铁科技、小米等,国外的则包括波士顿动力、美国敏捷机器人、特斯拉、日本丰田、本田等;
下游目前还未有特别成熟的商业应用:
从人形机器人当前的产业链状况来看,虽说马斯克推出的Optimus早已给期盼它正式上市的人们注入了一剂超级强心剂,然而在现实市场中,其上游产业链走的依然是常规工业机器人的路线。
主要硬件部分除了传感器之外,其他三样就是工业机器人的三大核心零部件(控制器、伺服电机和减速机)。由此,也就能发现,就算当下人形机器人的热度再大,风头再劲,“人”味再浓,最终采用的还是工业机器人的那套基本架构。
机器人能够灵活工作的核心之一在于对运动的精确控制,其技术难度最高的三大核心零部件分别是控制器、伺服电机和精密减速器,这三者成本的占比分别约为15%、20%、35%。
以2022年9月特斯拉发布的首款人形机器人Optimus为例:它拥有28个关节驱动器,使全身能够产生200个以上不同角度的动作。手部有五个手指,配备6个驱动器,拥有人类的灵巧性。
要实现这些功能,上述三大产业链核心零部件的性能必须要达到相当高的要求。
从成本上分析,人形机器人的成本大致可拆分为动力总成系统(占总成本比重的60%)、智能感应系统(占20%)、结构件及其他(占20%)三个部分。
其中,动力总成系统包括电池系统、电驱系统(这里动力总成的定义类似于电动车上的“三电系统”),预计这两者分别占到总成本的10%、50%。
综合技术与成本两个方面来看,核心零部件的重要性尤为突出。
一方面,人形机器人技术的本质是3D空间中高维度的感知与运动,高性能的核心零部件是实现感知与运动的基础。
另一方面,控制器、交流伺服电机和精密减速机这三个最重要的核心零部件在成本中所占的比例还是相当之高。
控制器是工业机器人的大脑,对机器人的性能起着决定性的影响。工业机器人控制器主要控制机器人在工作空间中的运动位置、姿态和轨迹,操作顺序及动作的时间等;
伺服电机在自动控制系统中,用作执行元件,把所收到的电信号转换成电动机轴上的角位移或角速度输出。机器人每个关节运动均需靠伺服电机驱动,以实现多自由度的运动;
精密减速器则是连接动力源和执行机构的中间机构,具有匹配转速和传递转矩的作用,也是机器人生产中壁垒最高的零部件,主要包括谐波减速器与RV减速器,但其工作原理和应用场景存在较大区别:
谐波减速器:由波发生器、柔轮和刚轮组成。当波发生器被放入柔轮内时,柔轮产生弹性变形弯曲成椭圆状。由于柔轮外侧的刚轮比其多2个齿,导致柔轮长轴部分正好可以与刚轮的齿轮啮合,而短轴部分与刚轮的齿轮呈脱离状态。
RV减速器:由两个减速部构成,在第一减速部中,输入轴的旋转从输入齿轮传递到直齿轮,按齿数比进行减速;在第二减速部中,有一个曲柄轴与直齿轮相连接,在曲柄轴的偏心部分,通过滚动轴承安装RV齿轮,曲柄轴会带动RV减速机做偏心运动。
六轴工业机器人,source:遨博机器人
除了以上的三大核心部件外,传感器在人形机器人身上的作用也极其重要。
人形机器人要具备对外界环境的识别能力,实现导航、避障、交互等功能,就需要使用传感器识别物体、测距等。
识别外部环境主要使用摄像头、激光雷达等传感器,其传感器方案和需求场景与自动驾驶存在类似之处,因此价值量较高的自动驾驶类传感器存在新的机遇。
自动驾驶传感器厂商、机器视觉厂商都是人形机器人传感器的参与者。
以三大核心零部件来分类的方式通常更适用于相对粗犷的工业机器人,要想更好地解析人形机器人,五大系统的分法其实更为科学。
感知系统,也即是传感器,如摄像头、麦克风、激光雷达、距离感应器等等,负责收集、传递信息,相当于人的眼、鼻、耳,即人的“五官”;
驱动系统,比如驱动轮子的马达,机械臂上液压动力系统或气动系统,相当于人的“肌肉”;
末端执行系统,既可以是机械手,也可以是机械臂上的一把螺丝刀或者喷枪,用以与外界环境进行物理交互,相当于人的“双手”或“四肢”;
能源供应系统,如电源或电池,是机器人的能量供应中心;
运算系统及软件,将上面所有的系统整合起来,完成指定任务,是机器人的“大脑”。
之所以需要用相当大的篇幅来介绍上游产业链中的核心零部件、软件及系统部分,就因为它们是人形机器人能够身轻如燕地跑跳蹲立,灵活自如地抓取捧举,聪明伶俐地辨物识人,言听计从地信手拈来的关键所在。
没有这些部件的缜密配合,外观再逼真的人形机器人也只能算绣花枕头,中看不中用。
相对于种类繁多的上游产业链,人形机器人的中游产业链显得简单明了:就是那些能够把这些核心零部件及软件组合在一起,使机器人能够发挥出最大仿人效能的本体制造商。
如本文开头所说,目前在人形机器人本体上处于领跑位置的玩家,要么是像特斯拉这样的汽车行业大佬,要么是小米这样的科技企业。工业机器人大佬反而鲜有入局。
以笔者的判断来看,虽然人形机器人脱胎于工业机器人,但由于前者在AI领域方面的要求远高于后者,所以反而是高科技企业(尤其是在AI领域有较高建树的)有后发优势。
当然,把特斯拉、丰田、本田归类为汽车企业未免太过片面,这几家都是具备了极强科研开发能力的高科技企业(尤其是特斯拉在全自动驾驶技术FSD上的超强实力,已经让人形机器人和汽车拥有了一样的视觉感知:以摄像头输入数据,通过神经网络进行计算)。
三、ChatGPT实体化和机器人终极猜想
在最近举办的一场人形机器人比赛中,由OpenAI支持的实体机器人公司1x出品的EVE,击败了特斯拉的Optimus机器人。
EVE机器人的部分软件功能由ChatGPT提供支持,也就是说将ChatGPT实体化,应用在现实场景中。
GPT技术在人形机器人中的场景应用打开了新的想象空间,引发了国内资本市场对机器人产业的高度关注。
从业内人士的角度来看,GPT大模型技术应用到人形机器人上,可以为机器人提供“常识”,使其具备理解与推理能力。
在边缘端布局面向机器人作业的中模型,能够较为快速处理机器人的传感信息,结合机器人端部署的运动规划与控制小模型,这样才能构建出“云边端”一体化的智能机器人系统,完成人形机器人的智能闭环。
由此再次巩固了我们的判断——人形机器人产品之间的竞争,归根到底就是一场各个本体厂家在人工智能(AI)赛道上的竞争。
先拼AI研发能力,再比各软硬件之间的协同工作能力,最后大家一起拼成本。
以笔者之见,人形机器人在不久的将来会有三个发展趋势:
一是成本越来越低,进到千家万户是大势所趋。
有鉴于当前人形机器人高昂的零售价格(未量产状态),即便其下游的产业链前景被资本市场长期看好,但至少在当下,能够实现商业化的场景还是屈指可数。
波士顿动力的Atlas单台价值为200万美金,本田Asimo的单台价值250万美元,小米Cyber One单台造价也高达60万~70万人民币。基本杜绝了普通人的购买奢望。
不过,假如Optimus在3-5年后通过量产,售价做到2万美元一台,且替代人类完成琐碎复杂的工作(非简单重复型),这样的下游产业链场景无疑会是相当广泛且极具商业价值的。
如马斯克所描绘的,在量产规模达到特斯拉汽车的水平(几百万台),各种更加经济实用的替代品被投放到原来昂贵易损的零部件位置之后,2万美金一台的价格将只是初级目标。毕竟,卡尔·弗里德里希·本茨(Karl Friedrich Benz)发明的世界上第一台内燃机汽车并不足以让它走入到千家万户,量产后的福特T型车才是。
二是智能越来越高,替代复杂繁琐的工作是民心所向。
与工业机器人主要用于取代工厂里简单、重复、危险的劳动定位不同,人形机器人更加适合用作替换与人类有直接接触,相对更为智能、繁琐、贴身的工作,如导购、接待、看护、喂养宠物等。(更多机器人进入下游应用领域,请点击阅读星船知造文章:《万亿级机器人赛道里:为什么它最卷?》)
随着人工智能水平提升,越来越多AI技术被运用到人形机器人身上,机器人越来越“人性化”,与人类的紧密度和契合度也会越来越高。
三是人工智能超越人类的智能会是未来的大概率事件。
无论是爆火的ChatGPT,还是曾击败李世石的AlphaGo,这些都属于弱人工智能。
强人工智能至今尚未出现。但综合来看,人工智能在与人脑的对抗中有以下三条优势:
首先是能耗,人工智能思考和解答问题比人脑消耗的能量低得多。大脑是人体能耗最大的一个器官,为什么人类总是讨厌学习和思考,这是求生本能决定的,为了避免过度思考带来的身体能量过度的消耗。
其次是存储,人会遗忘。但人工智能只要信息输入,就会存储下来。强人工智能还能通过学习关联更多知识和信息。
最后,也是最致命的优势,就是人工智能的时间效率。这里的效率有两个方面的理解,一是学习效率,相比人类需要娱乐、社交、睡觉等,AI 可以24小时不眠不休地进行学习和进化,昨天还是婴儿明天就是成人后天就是最强大脑。二是解决问题的效率,人工智能可以全天候处理问题和工作,未来人工智能会比人类更熟练地使用各类工具,可能你一辈子才精通的操作精密机床的手艺,AI一晚上就学会了。
最后,让我们回到阿西莫夫的机器人三部曲。
《钢穴》里,中年便衣刑警贝莱问机器人丹尼尔,为什么人类那么执着要造出有手有脚有脑袋的机器人?为什么他们多多少少总要做得像个人?
丹尼尔的回答很简单。至今为止一切为人类发明的东西,人型机器人直接就能用。
所以,是的,一切都是基于经济上的考虑。
本文来自微信公众号:星船知造 (ID:xingchuanzhizao),作者:清波,编辑:唐晓园