特斯拉AI Day随想-虎嗅网

本文来自微信公众号：穿云寻恒星（ID：cyxhx2022），作者：Max，头图来自：Tesla

关于人形机器人Optimus

特斯拉昨天发布的Optimus还在蹒跚学步，恐怕让媒体失望了，大家调侃错怪雷总了，特斯拉机器人路都走不好，还有三个护工，雷总的铁大好歹能正常走路。特斯拉AI Day不是产品发布会，而是技术发布和人才招聘会，产品不成熟是可以理解的。但我们不能将理解停留在这个层面上。

机器人为什么作为人形？特斯拉机器人有五指，有双足，这都是非常难设计和控制的。Q&A环节有人提问为什么不加入一些超能力，比如可以伸长的手臂。我想人的形态是一个最大公约数，不要低估千万年的生物进化史，五指、双足等形态有着很大的意义，可以在保持灵活性的同时又不会引入过多的复杂度。

特斯拉不仅要做出一款产品，而且是一款有用的、可量产的产品，一款价值大于成本的产品。这其中的难度超乎想象，从可用性、功能的定义，到量产制造，对于机器人这种没有清晰定义的产品，每一步都是天堑般的鸿沟。波士顿动力的产品看起来酷炫，但公司几经易手，产品也没有找到明确的出路。

Optimus最重要的特点是引入了机器学习，以类似自动驾驶的方式来驱动。发布会上的机器人视觉模型跟FSD高度接近，同样用到了occupancy network。在数据和算力充足的情况下，不要低估AI模型的进化速度，Optimus可以在工厂和模拟环境中不断迭代进步，毕竟从第一次迈步到AI Day的表现也只经历了半年时间。

Optimus从第一步迈出到现在仅半年时间

Optimus眼中的世界，利用了FSD中同样用到的occupancy network

可以想见，未来Optimus将在开放世界中发挥更大的作用，结合AI的最新进展，叠加上对语义和物理世界的理解，Optimus不仅可以完成预设动作，还可以模仿人类来做动作。借用一位在机器人行业的朋友的观点，如果有人为机器人建立模仿学习这样的超级底层APP，那么它的可能性将大幅延展。

从这个角度讲，人形态所具备的功能延展性就具备了极大价值，双足可以上下楼梯、跨过障碍物，具有五指的双手在拿各类物体上都具备优势。到未来某一天人形机器人足够成熟后，可以在此基础上加入不同的实体/软件扩展包，甚至可能由此诞生一个庞大的生态体系。

这样的能力无疑需要数据驱动，而发布会后半程很大一部分都是在讲FSD如何完成数据驱动，从缩短训练时间、关键数据识别到模拟仿真，都是完成数据闭环的关键举措。这部分能力完全可以搬到机器人上，加速机器人的迭代进步。

所以AI Day的三个部分，Optimus人形机器人、FSD智能驾驶、Dojo超算是完整的闭环。FSD所用到的算法模型和解题思路可以迁移到人形机器人，Dojo为两者提供云端训练支持。人形机器人在这两者的加持下，在行驶道路以外的更广阔的物理空间中拓展认知。

AI的发展最开始局限于文本、图形，后来拓展到视频、音频等多个领域，现在更有将多种形式结合在一起的多模态模型。微软的新成果BEiT-3作为多模态模型中的佼佼者，“在所有事情上打败了所有人”，成为一个可怕的六边形战士。BEiT-3所用数据集是公开数据集中的约500万张图像和2100万图像-文本对，仅靠公开数据就获得了多项领域的SOTA成果（目前最优水平）。

从我们外行的角度理解，多模态一起提取的信息比单一模态更有效，也就是汉语英语法语一起学对语言的理解要比只学一门语言要来得深，图像和文本一起学习要比只学文本的理解更深。

如特斯拉前AI总监Andrej Karpathy所讲，从视频（3D+时序）中识别2D图像要比直接识别2D图像的效果要好。添加越来越多层次的背景信息，可能是更多维度、更多模态，也就是利用正交的信息，去逼近“世界模型”。生物的进化原本也是在视觉（视频而非图像）、语音、温度、力等多维度信息输入状态下进行的。

有人工智能学者曾说：“感知的图像往往只占5%，提供一些蛛丝马迹；而后面的95%，包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的。”这是2D图像的固有局限，我们设想一只玻璃杯有一半落在桌子外面的情景，人可以脑补接下来杯子可能掉到地上摔碎，而通常的算法无法做出这样的推断。这是因为我们有足够的历史经验，理解杯子的材质和重力的作用，可以推导出图像以外的信息。

机器人的一个意义就在于拓宽机器对世界的理解维度，机器人会获得比车更深层次的感知，比如类似拿杯子、举箱子等力学层面上的交互是车无法完成的，机器人也会深入到工厂、家庭等车辆无法进入的场景，从而获得更多场景信息和情景意义。虽然我们不知道AGI（通用人工智能）还有多远，但今天的Optimus是走向AGI必不可少的一环。

AGI的本质是涌现

“AGI的本质是涌现”，这是马斯克在AI Day上讲的。在简单指导规则下，一个系统的个体数量急剧增加会使得群体突然出现之前没有的特征，这种现象被称为涌现。生命、智能就是涌现的结果，单一神经元所传达的信号极为有限，甚至无法被解读，但数百亿的神经元叠加在一起就形成了人类的智能。

人脑的生理结构在有记载的人类历史中没有发生过大的变化，而机器的运算速度则以每十年成百上千倍速度在发展，AI模型则以更快的速度膨胀，过了某个“奇点”之后，或许智能可以涌现而出。

2018年Open AI就发现了AI模型在以每2年上一个数量级的速度在膨胀

涌现是一种暴力美学，需要足够的数量才能从量变到质变。Deepmind最新的论文中发现了随着数据规模和参数的不断扩大，模型的test loss会越来越小，即效果会越来越好。这对人工智能领域的公司而言意义重大，这意味着未来必是巨头的，因为只有巨头才有足够的数据、算力和资金去支撑大模型的开发训练。而大模型也意味着未来对AI芯片，甚至电力本身都有着巨大的需求。

DeepMind's Chinchilla论文中阐释的scaling law

工具的重要性：迭代闭环、仿真、Dojo

AI Day上特斯拉与其说在发布产品，不如说在发布工具。FSD部分讲述了如何降低训练时间、如何利用模拟仿真、如何实现自动标准等等，而Dojo本身便是训练加速器。

Tim Urban在著名的“厨子与大厨”一文中曾以马斯克的口吻写道：

“曾经有一段时间，我在考虑是否要成为一个专业物理学家——我本科专业就是物理。但是，在这个时代，想要真的推进物理学的发展，你需要数据。物理学的前沿实际上由工程科学的进步决定。常见的辩论——工程师和科学家谁更牛？难道不是科学家更牛？难道爱因斯坦不是世界上最聪明的人？

事实上，我个人认为，工程科学更重要。因为，如果没有工程科学支撑，你不可能获得新数据。你会很早就遇到瓶颈。在你能获得的数据的范围之内，你可以充分发挥你的聪明才智。但是除非你找到发现更多数据的方法，你无法更进一步。比如说，看看伽利略。他制作了望远镜——帮助他发现木星和月亮的工具。所以，限制你进步的因素，是工程科学。如果你希望文明进一步发展，你必须要解决限制性因素。所以，你必须要解决工程问题。”

这正是特斯拉一直在做的——打造工具。自动驾驶并非科学难题，而是一项庞大的工程。实现这项工程不仅需要一群顶尖人才，更需要趁手的工具，从Andrej Karpathy数年前就讲过的“运营假期”（operation vacation）开始，特斯拉就一直在打造工具以加速数据训练、模型迭代的速度。

FSD Beta的最新情况是已经有480万个视频Clip，训练了超过75000个模型，部署了281个，推广到了16万车主。未来随着用户进一步扩大，云端和车端硬件进一步提升，数据量、模型体量都会更大，自动化训练工具的作用也越来越大。当然，进步速度也会越来越快。

FSD Beta从2021到2022

材料学中有个应力-应变曲线，延展性材料在力不断加大的情况下会逐步形变，直到最后超过拉伸极限，从而断裂。事物的发展通常有一个矛盾累积的过程，这个过程看起来接近线性，而一旦突破临界点，就会呈现出非线性发展的特征。

重大创新也是如此。快速地获得反馈实际是在缩短线性部分的时间，从而使非线性发展更早到来。特斯拉影子模式堪称经典，实现大规模的影子模式正是靠发布会上所讲的工具构成的训练闭环。随着工具的完善和用户规模的扩大（全球推广的时间越来越近），可以期待真正意义上可脱手的自动驾驶更早到来，至少是在局部地区。

历史上最好的时刻就是当下

会上有人问马斯克愿意回到历史上的哪个时刻，他的回答就是当下。

尽管全球发展有着诸多不确定性，但最有意思、最具可能的就是我们所处的当下。历史上从来没有一个时代像现在这样——如果一个人想学一样东西，在互联网上几乎都可以免费获取，人被赋予了无限的可能。

这份可能性在不久的未来将进一步得到延展。传统经济学所讲的经济增长的要素：人口、资本、技术可能迎来变革。如果机器人变为跟人具有同样生产力，甚至成为更高效的生产单位，经济体会发生什么？

我不知道答案，但或许会在有生之年见证这份可能性。

本文来自微信公众号：穿云寻恒星（ID：cyxhx2022），作者：Max

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

特斯拉AI Day随想

关于人形机器人Optimus

AGI的本质是涌现

工具的重要性：迭代闭环、仿真、Dojo

历史上最好的时刻就是当下

大 家 都 在 搜

大家都在搜