正确的提示信息

扫码打开虎嗅APP

从思考到创造
打开APP
搜索历史
删除
完成
全部删除
热搜词
2024-05-24 12:21

AI大模型催快的自动驾驶与搅局的马斯克

本文来自微信公众号:硅谷101(ID:TheValley101),作者:泓君、陈茜、侯晓迪,题图来自:视觉中国

文章摘要
本文讨论了自动驾驶行业的现状,包括侯晓迪对自动驾驶和马斯克的看法。同时探讨了大模型对自动驾驶技术的帮助以及世界模型的应用。

• 💡 自动驾驶行业进入低潮期,但技术仍在稳步发展

• 🚗 针对马斯克的质疑,探讨自动驾驶与辅助驾驶的区别

• 🤖 讨论大模型在自动驾驶技术中的应用和价值

自动驾驶行业备受关注的前图森联合创始人侯晓迪,在《硅谷101》的访谈中,透露了他的最新动向,他已经开始了新一次的创业,依旧是自动驾驶卡车,新公司的名字叫做Bot.Auto。


在《硅谷101》的访谈中,侯晓迪承认自动驾驶行业进入了低潮期,但这种低潮是由加息带来的纯资本问题,并预估在2026-2027年他的公司可以在特定场景下赚钱。


在大国科技交锋的⻛口浪尖上,图森未来的故事比Tiktok更加跌宕起伏,也更加艰难。无论是自动驾驶还是大模型的更新热点不断。侯晓迪在访谈中也详细解释了为什么他实名反对马斯克,以及他对大模型、世界模型、具身智能等诸多热点话题的看法。


以下是《硅谷101》与侯晓迪的对话(略有删编)


一、我为什么实名反对马斯克


《硅谷101》:为什么再次创业还是选了自动驾驶这个方向?


侯晓迪:因为看见所以相信。我在过去的七年中也看到了一些不变性,这是我最宝贵的财富,也是支持我做下一次事业的出发点。首先是技术管理的能力,更多的是行业里面的一些必然趋势,这些必然趋势让我觉得自动驾驶一定可以做出来。


自动驾驶这件事,之前的问题就在于大家都在做一个骗钱的生意,但是我们现在要做一个赚钱的生意。大概在未来的三四年,也就是2026年或者2027年,我觉得自动驾驶就可以实现商业化或者说就能开始在一些特定场景下赚钱了,真正的规模化我觉得应该在2030年前后可以实现。


当然了,这个时间节点是我和我们公司在一个理性乐观的情况下给出的预估,但是对于整个行业而言,我没有这么乐观地估计,因为这还是取决于具体的人和团队,而人和人的差距比人和狗的差距还大。


《硅谷101》:相比于自动驾驶刚刚成立的时候,这几年其实已经非常少看到这个行业拿到融资的情况了。你会觉得行业在一个寒冬期吗?


侯晓迪:我觉得是这样,穷有穷的活法,富有富的活法。大家可能都认为自动驾驶是一个高资金门槛的行业,烧钱烧得太贵了,但是在我看来不是这样。花了那么多钱,但是实际上这些钱有多少是用在探索上的?有多少钱是用在盲目扩张和其他并不有助于实际开发的事情的?我觉得行业内耗实际上是非常大的。那现在可能说得极端一点,就是在一个寸草不生的环境下,我们只需要做自己就可以了。


自动驾驶这个行业,过去七年不变的东西就是它的商业逻辑。这个商业逻辑让我非常坚信这件事一定能做出来,而且它做出来一定能让我们站着把钱挣了。


《硅谷101》:马斯克说他在今年8月份要去推Robotaxi,你怎么看?


侯晓迪:我觉得首先是这样,我是实名反对马斯克,我认为他做的事情不是一个利他主义的事情,他自己是做辅助驾驶的,但是总喜欢把自己打扮成自动驾驶。我们今天谈的是L4自动驾驶,去掉人并且由软件开发公司承担责任的方案才叫自动驾驶,而FSD叫辅助驾驶,它不是自动驾驶。所以我们做的其实根本不是一个东西。


如果特斯拉撞死人了怎么办?对于马斯克来讲,这不是他的责任。因为特斯拉写得很清楚,谁驾驶谁负责,所以撞死人了,是司机的责任。第二点,绕一大圈回来,他的商业逻辑还是卖车,怎么把车卖得更好是这个公司的核心战略,所以自动驾驶是为了辅助他卖车的,并不是这个公司的底色。它让你觉得它是自动驾驶,但它实际上是辅助驾驶。


再回到马斯克发表8月8日要做Robotaxi的陈述。如果他8月8日没做出来,投资人们一定会来问我,是不是这事做不出来啦?那第二种可能是8月8日真的运营了,然后第二天撞车了。投资人肯定也会担心:马斯克都撞车了,你们行不行啊?这事果然不安全啊。好,第三种情况是开始运营了,没撞车。那投资人们会说,你看马斯克都做出来了,人家降维打击你们,你们怎么办呀?


所以马斯克发出这个陈述的时候他就已经赢了,我们已经输了,或者说他没有赢,但我们已经输了。我觉得一个问题就在于,大家真的过多地去相信马斯克说的每句话,但是如果我们去看看马斯克之前说的事情,他有做成的地方,但是他做不成的东西更多。这个人做的很多事情还是以表演为主。他的很多言论肥了自己,但是实际上伤害到了自动驾驶整个行业。


比如说自动驾驶要不要上激光雷达这个问题,他说你有激光雷达你就弱,但是我认为黑猫白猫抓着耗子就是好猫,激光雷达弱不弱最后我们需要核算的是成本,如果加了激光雷达我们能赚钱,我们就加。我想告诉大家这件事的本源是怎样的,这有可能并不是一个最有效率的、最有利于对自己发展方向的手段,但是我们至少不应该去做一些有损整个行业前景的事情。


《硅谷101》:如果他们做成了,这个行业会不会就重新回暖了?


侯晓迪:首先我觉得做不成,因为之前那个车的租期到了,最近我太太特意换了辆特斯拉,我自己去开特斯拉,10分钟一次接管,以我做自动驾驶这么多年的标准,它目前根本不可能做成Robotaxi的运营,至少不可能在8月8日做成Waymo那种程度的运营。当然了,它可以在里面偷换很多概念。到时候开一个有辅助驾驶功能的出租车公司,这是有可能做到的,但是一定不是Waymo这种程度的。


《硅谷101》:不过特斯拉其实有在辅助驾驶上积累很多的数据,这些数据能不能帮它更快地解决一些在自动驾驶上的corner case(极端情况)


侯晓迪:我们认为自动驾驶是一个世界级的、竞赛水平很高的行业。在非常低的水平,当你做任务a的时候,它也许能够帮助任务b,但当你的水平越来越高的时候,你是做不到的。


在非常低水平,你确实可以说L2是有帮助的,谁也不能否认它是有帮助的。但是L4自动驾驶要解决的核心问题是什么呢?是安全性,是冗余,是当一个系统的每一个模块都有可能会失效的时候,这个系统还仍然能够保障最底线的安全,这才是L4最难和最关键的部分。所以在挣钱之前它要先解决安全性的问题,但是这件事情根本不是特斯拉的设计宗旨。


二、自动驾驶的核心难题:不是少数的大问题,而是大量的小问题


《硅谷101》:你觉得自动驾驶的错误观念跟正确观念是什么?


侯晓迪:我觉得首先自动驾驶现在需要解决的不是少数的大问题,而是大量的小问题。自动驾驶最大的问题之一是运营不稳定,而这个运营不稳定有可能是因为网线质量不行导致的,比如每天上传下载数据效率很低之类的,这个事情就太复杂了,但是它绝对不是一个一句话能讲清楚的大问题,而是由大量的小问题组成。我们在做的其实就是一个组织结构,这考验的就是你的组织是否进化到具备以变态高的效率去解决大量小问题的能力。


我们不断地去改变组织结构,去适应新的时代,最终的目的就是让组织用最少的人,能干最多的活,并且可以最快地去解决这个事。它必然是跟一些大公司的文化是对立的,什么时候如果一个公司认为你做不出来一个奇迹是不应该被批评的,因为我们要包容,我们要保证团队的气氛比较好,这个时候这个公司就已经死了,他就已经不是一个创业公司了。


《硅谷101》:我之前跟Cruise的人聊,他说其实Cruise内部在面临非常大的一个问题,也是运营问题。旧金山的自动驾驶事故让Cruise元气大伤,这件事有一点点巧合的因素在里面,我们就不展开说了。但是其实这个是大家能看到的,大家不能看到的就是不管是你剐蹭,或者是别人故意蹭你,他们都会有一个非常大的团队每天专门去处理这些个案性的自动驾驶汽车带来的问题。


侯晓迪:对,你看这不就是运营嘛?这就是自动驾驶的运营问题。如果你落地的时候有问题,你要么是自己去扛这个运营的问题,要么就是找一冤大头让他来扛这个问题。首先冤大头的数量是有限的,哪天冤大头自己发现亏钱了,他也不会继续冤下去了,所以我们不能坑我们的客户,我认为运营一定是要自动驾驶公司自己来担的,这是第一。


第二就是你说这种小的剐蹭问题,其实它根本反映的是什么呢?在城市交通里面,我们的交通规则是不完善的,再具体说就是交通规则的权责划分是不完善的。如果你在开车,右边有一个自行车道,然后你想右拐,是不是就应该往自行车道走?这时候谁有责,谁有路权,撞了以后是谁的责任?这件事是不清晰的,而且也不会清晰。因为你面对的是一个人,人们在做审判的时候总是倾向于认为机器应该是完美服从于人的。人可以犯各种错,人可以跟人共情,但人不会跟电脑共情。所以在这个问题上,自动驾驶在一个权责不清的交通环境下,它一定是非常难做的。


那么城区是权责不清最严重的地方,这就是为什么一开始我就做卡车,做了7年,我现在还做卡车。卡车其实就不会像在城市交通,尤其是拥堵的城市交通里面会遇到这么多权责不清的情况。我们的经验认为,即使是在最后一公里的状况下,卡车所面临的权责不清的交通场景也是非常非常少的。


《硅谷101》:所以你觉得高速是一个比城市更容易实现自动驾驶的地方?


侯晓迪:对,而且卡车的自动驾驶,我不用去解决这些不可解的问题——既要守交通规则,又要确保乘客的安全和乘客乘坐体验的舒适,同时我还要需要确保周边其他道路交通的参与者的安全,这三个东西放在一起就是不可解问题。


比如机器能否压双黄线这个问题。很多时候如果压双黄线,我就能够比较快速绕过去解决一个问题,但是压双黄线就是违反交通规则了。那如果我遵守交通规则慢慢等着,乘客可能会觉得我太慢了,然后给差评。此外,我还要跟其他不守交通规则的人去竞争,并且出事故以后,我会被放到一个非常不利的被审判的位置上,因为我是电脑,我就应该把事情做完美。这三个东西加起来,自动驾驶就很难了。


但是如果第一我没有乘客,第二我可以牺牲运营的时间和效率去确保我的安全和合规,只要这个矛盾发生的概率足够小,它就能是一个合理的商业模式。


三、大模型里有成千上百的小创新,自动驾驶都能用上


《硅谷101》:因为大模型特别火,你觉得大模型对自动驾驶的技术会有什么帮助吗?


侯晓迪:大模型非常火,但是我觉得绝大部分谈大模型的人根本不懂什么是大模型。我认为大模型不是一种参数越多就越厉害的东西,它是一种具备了迁移能力的模型。在计算机视觉领域,其实很久以前人们就已经发现,当一个模型训练到一定程度以后,它的内蕴表达是具有很高价值的,这个内蕴表达能够以比较低甚至是零成本迁移到另外一个任务上,这就是模型的迁移能力,是它推动了这一波大模型。


在以前没有迁移能力的时候,适应成本是非常高的。当你的系统学会了做一件事儿,想用它做第二件事时,需要把原来做好的系统再放到一个看起来相似但不完全相同的场景下,成本非常高。那么现在这种迁移成本变得越来越低。


迁移成本,也就是落地成本的降低,使得很多事情变得可做了,我觉得这就是人工智能这一次给大家带来的比较大的启示。但是我想说这不是一朝一夕的事情,其实在深度学习2012年被提出以后, 我们每几年就能发现迁移能力、泛化能力在不断提升。我作为一个从业者,看到的是一个渐变的过程,它不是一个突变的过程。


如果咱们做个科技考古,真正出圈的事情是ChatGPT,但是GPT-1、GPT-2从根本上跟GPT-3或者 ChatGPT背后的GPT-3.5,能力差距到底有那么大吗?我觉得其实没有。从学术角度来看,它是一个很连续的过程,但是ChatGPT出圈恰恰是因为它把问答这件事做好了,能让一个普通老百姓感受到语言模型的威力。


而讽刺的是问答这件事做好,背后的技术能力中我觉得最重要的是RLHF(Reinforcement Learning with Human Feedback)这个技术,这个技术的卖点恰恰是说我可以用1%的参数量就能达到一个跟之前更大的模型一样的效果。所以这件事儿其实反倒不是大模型给你带来的优势,而是说我可以提升学习的效率,使得我的模型能达到更好的效果。


所以在我看来的话,首先模型学习效率的提升是一个主旋律,在这个主旋律下,当到达了一个阈值以后,它进入到公众视野,大家就开始说这个事情变得很厉害,它可能突然能改变世界。但是从学术角度看的话,它是一系列的小创新叠加起来产生今天这样一个效果。


当然,我相信很多人会谈Scaling Law,但是这不是今天才发现的,任何非参数模型都有Scaling Law。10 年前我们谈Kernel Method,谈非参数学习,任何非参数学习里面你都可以说我们的参数量更大,我的学习效果就是更好,这是一个公认的事情,所以我觉得它只是陈述了一个必然现象,但是这个必然现象不应该是我们认为的唯一标准。


《硅谷101》:那么现在更大的模型出来了,它有在一些方向上表现出更好的效果,在这个过程中,你觉得已经训练出来的这些技术有没有可以用到自动驾驶的?因为你的研发分很多个环节,有没有哪个环节能够用到大模型,让它变得更好的?


侯晓迪:全部环节都能用上。首先我们把大模型打散,不要把大模型当成是一块大石头,大模型可能是一把沙子,它里边有成千上万的小创新。这里边几乎所有的小创新如果能够择其善者,它一定能全方位地提升一个公司的科技竞争力。


举一个具体一点的例子,比如预训练这件事,对于大模型来讲,可能有100篇paper在讲它在预训练过程中的各种奇技淫巧。那传统的范式是,我先招一个标定团队,标定1000万张照片,再把这1000万张照片放到深度学习里边,训练出一个结果来,然后完成一个神经网络的冷启动过程。而当这些paper中的各种奇技淫巧都叠加起来以后你会发现,好像我并不需要用传统的范式了,现在我可以有各种花式的方法降低我的标定成本,提升我对于未标定数据的消化能力。最终使得整体的开发成本降低。


我们并不是应用了大模型,而是应用了比如100个奇技淫巧中的36个,用上了这些小窍门,我们的冷启动问题就非常低成本高效率地解决了。


《硅谷101》:所以我理解其实在整个过程里面,你们不仅仅是用模型的结果或者接口,而是你们会去学研究方法,然后看研究方法能够从根本上去改变哪些问题。


侯晓迪:谁也不会直接用别人的模型,就你一定得自己搞自己的模型。2012年以后大家都在用神经网络,那我们也在用神经网络,但肯定用的是自家的神经网络,你怎么去训练呢?训练的过程里边有特别多的门道,你怎么把预训练的数据准备好、你怎么训练、要买多少张GPU、怎么做能够让训练变得更有效率……这些所有的东西都是创新的一部分。在我看来,新的时代就是在整个行业生命周期的各个部分,都赋予了我们新的提升效率的手段和新的思路。


四、别用具身智能画一个很大的饼


《硅谷101》:当你更着眼于长期的时候,其实短期跟长期之间是有一个平衡的。比如说你要去融资的时候,你有时候阶段性的需要冲到一些里程碑,你会觉得有在这两者之间发生冲突的时候吗?


侯晓迪:我觉得战略就是为了让这两者不发生冲突。如果从比较短期来看,那我现在最不该做的就是自动驾驶了。去做机器人,尤其是做两条腿的机器人现在是很容易融资的。人家一看两条腿的,具身智能。对,记住我这句话,凡是拿两条腿儿出来卖的都是骗子,我至今没有看到两条腿儿可以产生具体的商业价值。


人形机器人满足的是一种大家对科幻的幻想,我觉得这就跟会飞的汽车一样,是由几十年以来的科幻带给人类社会的价值,但是科幻从来不是从商业逻辑出发的,科幻是因为酷,所以才被提出来的,这件事情引起你的情感共鸣,但是它从来不是引起你的商业逻辑共鸣。


这个世界的悲惨之处就在于有很多投资人是投情感共鸣的,但是如果你真的作为创业者想把事情做出来,你要做的是商业逻辑上的正确性,这两者很多时候是矛盾的,我认为最典型的两个:一个是两条腿的机器人,一个是会飞的汽车。在科幻里,汽车能够飞来飞去,但是我们从物理上看,我们的能量储存、能量使用效率并没有达到能让车飞起来的一个状态。


《硅谷101》:所以你觉得马斯克的人形机器人Optimus还有波士顿动力都是骗子?


侯晓迪:波士顿动力是一个我非常敬佩的长期主义的公司,除了两条腿,它也有四条腿的机器人。它想先回答的问题是四条腿甚至两条腿的东西有没有可能做出来,它是在探索控制论的边界。所以这么多年它在做的事情是坚持不断地给自己加难度,去做一个科学探索。


但是我觉得不应该用具身智能突然画一个很大的饼,我认为我不喜欢的地方就是现在画的这个饼过大,而这个饼里边缺失的环节过多,但是大家在评估这个产业时,又会集体性选择忽视其中缺失的环节,它成为了一个暂时无法证伪的愿景。


如果你看到一个趋势就不加节制地外推是很愚蠢的,但凡你了解事情更根本的运行规律,并且能从第一性原则出发,实际上就能够推演出来很多决定性的限制因素。而这些限制因素会帮你更准确地预测未来,于是很多时候你就会看到你预测的未来比别人预测的未来结果要悲观很多。


但是我的本意并不想过度批判机器人,我觉得现在有很多的任务,我们确实发现了曙光,比如它的泛化能力变得比以前更强了,它能解决更多具体的问题了。但是我想说的是,如果今天就要做两条腿、并且拿两条腿作为卖点的机器人,这件事情我是坚决反对的。但是你说这个机器人可以在更大的规模上去替换掉在工厂里拧螺丝的人,这件事我是认同的,而且我觉得这件事在比较近的未来就会发生。


五、世界模型:新瓶装旧酒


《硅谷101》:现在全球的自动驾驶到了什么样的一个水平呢?它面临的主要问题跟瓶颈是什么?


侯晓迪:革命进入低潮期,面临着由加息带来的纯资本问题,但是资本又是很重要的一个问题。资本能浇灌一个行业,行业里边有了闲钱,人们的创造力就会得到解放,去发现一些可有可无的东西。早期技术的发展和产品的发展可能没有那么直接相关,很多时候你为了做一个技术,会发现产品最后一团糟,有的时候你为了做一个产品,你发现技术用在了你想象不到的地方。但是在这之后,技术就有可能就会被用在更正确的产品上。


不过这个低潮期跟技术没什么关系,技术还是稳步甚至加速发展。和大模型领域不同,自动驾驶行业的产品形态已经越来越清晰,这是我认为我过去几年最大的价值。


《硅谷101》:Sora 出来之后,这种世界模拟器的概念是不是能够赋能自动驾驶,可以发展得更快?


侯晓迪:咱们来个长议题,咱们谈谈世界模型。什么是世界模型呢?世界模型就是新瓶装旧酒,一九八几年的时候,机器视觉这个行业诞生的那个时刻, David Marr老师就提出来了一个叫做mid-level representation,他的这个概念也引导我入行,引导我读完整个本科初步的探索以及博士深入的探索。


在计算机视觉领域,我觉得mid-level representation是我最喜欢的一个议题。mid-level representation 后来也叫internal representation(内蕴表达)。过了几年深度学习出来了,大家认为深度学习解决的核心问题是什么呢?其实是表达的问题。于是有一个特别著名的会议在深度学习诞生以后提出来,叫做ICLRA, 这个会本身讲的就是the learning of the representation,就是说这个内蕴表达或者内蕴表征是可以被学到的,而且应该被学到,而怎么学就是我们探索的事情。


这件事情不断地被人包装,2024年的版本叫做世界模型,但是这个世界模型首先可大可小,它的精度也是可糙可细。所以我觉得世界模型这件事它确实是一个本质问题,但是这个本质问题不新,其实40年前就已经有了,而且确实是40年以来贯穿整个计算机视觉和模式识别发展的核心问题。


但是愚者的原罪在于外推,外推的地方就是说大家谈到世界模型就会把它认为是一个可以无限高精度的、无限远未来的外推模型,这是不对的,这就是我说的错误的外推世界模型。对外在世界的内蕴表达,这件事情是我们一直以来的追求,是我们整个行业几辈几代人一直以来的追求。但是不要把它的最终形态当成现在已经有的东西。


那我来再说说Sora是什么?Sora是一个学了一套东西,使得它让你看起来这个东西像那么回事。迪士尼有一部动画电影叫做《冰雪奇缘》。


这个电影它干的事是什么呢?是当时电影工业CG电脑特效,人们突然提出了一个新的算法,能够模拟雪这种非牛顿流体的流体力学,雪不是液体,也不是固体,它是一种有一定粘连性,但是又能散开的东西。如果你想用每一个粒子去模拟雪的动态过程的话,那累死了,机器做不了。


但是如果我们找到了一种简化的近似算法,让这坨雪看起来像是雪,那我们就觉得这件事情就是计算上足够便宜,可以用渲染集群渲染出一个动画片。所以是基于一个算法的创新,做了这个动画片,就为了这盘醋包了一锅饺子。可能我说得有点夸张,但是确实《冰雪奇缘》之所以能做出来,背后最大的创新是CG电脑特效的创新,但是这种创新并不能够让你用到比如说飞机的流体力学上,它跟真正的物理真实是两码事。它所做的只是看起来像是真的。那么,针对Sora,也就是说OpenAI做了一个模拟器,看起来像是真的,但是这件事情不是物理真实。


《硅谷101》:业界对于自动驾驶的长尾问题,现在还有什么好的方法去解决吗?


侯晓迪:我觉得长尾问题其实也是一个伪命题,很高兴你们提出来这个问题。在我看来长尾问题,比如说我见到鳄鱼怎么处理?我见到大象怎么处理?我见着一个固定翼飞机停在高速公路上,我怎么处理这件事情?大家都觉得它是长尾问题。比如在我的前进路径上,见到了一个没见过的物体,我怎么处理?但是如果你把它包裹成了一个更通用的一类问题,它是很好处理的。


比如说我们曾经就见到有固定翼飞机停在高速公路上,那我们的处理方法很简单,停车对吧?这是好处理的情况,但是其实人们感觉长尾问题很难处理,是很难当场让这个车做出一个人类经过深思熟虑以后认为最优的操作,再去跟这个场景进行交互,这件事情是难的。


首先机器的感知没那么难,尤其再加上激光雷达或者双目视觉以后,各种各样的问题你都能识别,但是你如何跟他进行交互?如果一个鳄鱼来了,一个骆驼来了,一个兔子来了你都要怎么操作?对于这种问题确实是你需要回答的长尾问题,但是我觉得我们的自动驾驶卡车是不需要做这样的回答的。


如果当你有乘客在自动驾驶轿车里面的时候,你要顾及一个不可能三角,就是交规要满足乘客的体验、要满足路上其他的道路参与者的安全和他们的感受,在这个不可能三角的情况下,确实存在有很多你需要特事特办的讨论。但是我觉得自动驾驶卡车如果在全局平均意义下来讲,我们的运营成本是可接受的。运营产生的额外成本,比如我见到飞机停在路边儿这件事情产生的成本,是能够被我的每英里成本所消化的,那我觉得这事儿就可以做。


本文来自微信公众号:硅谷101(ID:TheValley101),作者:泓君、陈茜、侯晓迪

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
打开虎嗅APP,查看全文

支持一下

赞赏

0人已赞赏

大 家 都 在 看

大 家 都 在 搜

好的内容,值得赞赏

您的赞赏金额会直接进入作者的虎嗅账号

    自定义
    支付: