扫码打开虎嗅APP
本文来自微信公众号:云见 Insight,作者:王海璐,原文标题:《对话 | 理想智驾副总裁郎咸朋:后进生,追赶特斯拉》,题图来自:视觉中国
2023 年 8 月,马斯克驾驶着一辆老款特斯拉 Model S,在硅谷上演了一场 FSD V12 的全球直播。他介绍,这一代系统通过 AI 实现,没有程序员写下一行代码,完全交给了神经网络。
45 分钟的直播中,马斯克只接管了一次。系统的拟人化表现,在自动驾驶行业引发了强烈反响。不少车企和自动驾驶公司自此开始研发端到端技术。
理想汽车智能驾驶副总裁郎咸朋也观看了那场直播。理想当时已经开始预研端到端技术,但还未正式立项。特斯拉 FSD V12 的表现,让郎咸朋更加坚定了对这个技术方向的信心。
彼时,理想汽车正在导航辅助驾驶功能(NOA)的开城竞速中。那一年,华为、小鹏、理想先后宣布大规模交付城市 NOA 功能。理想的目标最激进,要在年底前开 100 城。
但研发进度并没有预想中的顺利。理想先后尝试了 NPN(神经先验网络)、无图(高精地图)方案,始终无法把体验做到极致。那一年,小鹏率先完成了目标,华为在 2 个月后将开城范围覆盖到全国。而理想的无图 NOA,直到今年 7 月才向 AD Max 版车主全量推送。
一年迭代三个系统,也让郎咸朋清楚地看到每个技术方案的瓶颈。他认为现有技术对资源的消耗巨大,且永远有解决不完的长尾问题。未知场景是无法穷举的,要从根本上提升系统的能力,只能通过端到端。
端到端(End-to-End),指的是用人工智能模型取代传统的感知、规划、控制三大模块,系统不再按照工程师编写的代码去行驶,而是像人一样思考和行动。特斯拉的 FSD V12 正是用上千万个训练视频,取代了 30 多万行 C++ 代码。
在特斯拉之后,中国智能电动车公司也快速跟进这项技术。但实际落地的过程中,一些公司采用了渐进式的路线。华为和小鹏都在今年发布了自研的端到端系统,但两家公司都采用了分段式的端到端,将感知、规划模块分别用模型取代,中间通过人工编写的规则连接。
理想的端到端,是用一个模型取代感知和规划两个模块,比国内的同行多走了一步。没有把控制模块也包含在内,是为了过滤掉一些不安全因素,郎咸朋说。理想在控制器里做了一些校验和冗余,为安全兜底。“我们的模型里面,唯一用到规则的地方就是这个。”
为了让系统有更好的表现,理想还在端到端模型外,并联了一个视觉语言模型(VLM)。前者用来快速处理行驶中 95% 的常规问题;后者具备一定逻辑推理能力,用来解决 5% 的复杂问题。理想将其描述为——系统 1 和系统 2。
这个概念出自诺贝尔奖得主丹尼尔·卡尼曼的《思考,快与慢》。这位认知心理学家认为,人脑有两个系统,快系统是基于经验和习惯形成的直觉,慢系统是人类经过深入学习和理解形成的逻辑推理能力。理想的工程师受到启发,认为用双系统模拟人脑,更接近无人驾驶。
今年 4 月,理想的端到端研发项目正式立项。更早的时候,理想的端到端预研就已开启。郎咸朋说,理想智驾团队内部一直有个小的预研团队,每周开一次技术研讨会,工程师们自发地分享近期看到的论文或书籍。关于双系统的讨论,就是这样 “慢慢聊出来的”。
今年初,特斯拉正式在北美推送FSD V12之后,理想汽车也派出团队前去体验。郎咸朋评价,这个系统的表现惊艳,“也有开错道的情况,但是瑕不掩瑜。”
理想的测试人员还发现一个问题——特斯拉的 V12 系统在西海岸的接管率比东海岸要低两、三倍。他们猜测,这是由于西海岸有硅谷,开特斯拉的人多,数据样本量大。
端到端模型的效果受到数据的直接影响。数据的绝对数量、质量、配比,都会影响模型的表现。
双系统技术架构确立之后,理想围绕着模型重新梳理了研发体系和流程。郎咸朋说,理想从所有车主数据中筛选出优质数据,建立了一套 “老司机” 的评价标准。老司机既要具备好的驾驶技能,也要有好的驾驶习惯。只有不到 3% 的车主通过了考核。
郎咸朋自己没入选。他判断,可能是自己平时开车赶时间,会有急加速、急减速的行为,因此不符合数据筛选的要求。“我们挑选的还比较严格。” 他说。
除了数量、质量,数据的配比也直接影响模型的效果。理想的测试车曾经出现过一个问题:等红灯的时候,系统总想并线、加塞。研发人员起初觉得很奇怪,因为他们从没给系统输入这样的数据。后来他们发现,导致这个问题的原因是他们把用户长时间等红灯的数据删除了。系统没学会等红灯,混淆了等红灯和堵车时的场景。堵车也会堵到停,这时候变道、加塞就会很常见。补充这部分数据后,问题消失了。
除了完善数据体系,理想也围绕着新的技术架构,对测试流程进行了优化。
从前一个小的系统版本出来,研发人员会先自测几百、几千公里,验证系统是否存在重大问题。这之后做上百万公里的路测,验证系统的泛化性。最后,让少量用户参与到鸟蛋、早鸟版本的测试中。
现在,理想学习特斯拉引入了世界模型,用仿真代替了研发人员自测,曾经在一周内迭代了 15 个版本,大大提升了系统的进化速度。“这在原来的研发过程中是不可想象的。” 郎咸朋说。
让大模型在车上跑起来,光有软件还不够。目前主流的智驾芯片都不是为了大模型设计的,理想的 VLM 模型有 22 亿参数,在英伟达 Orin X 芯片跑下来要 4 秒——这是智能驾驶不可接受的一个时延。
理想尝试了很多技术方案,查阅大量论文,将模型量化,还找英伟达一起优化了算子的运行效率。最终,把推理时间从 4 秒降低到了 0.3 秒。
理想将英伟达 Orin X芯片的推理时间从 4 秒降低到 0.3 秒
理想过去一直是后进生,到了端到端,开始体会到第一个吃螃蟹的烦恼。
过去,理想循着前人的脚印追赶,开发的是成熟技术。在研发和供应链上都有后发优势。但到了端到端,前面的人越来越少,路也越来越难走了。
虽然模型的能力上限每天都会带给团队一些惊喜,但其能力下限也让理想智驾团队时刻警惕。
与传统的技术方案相比,端到端往往被认为上限高、下限低。就像特斯拉 FSD V12 有拟人的惊艳表现,但也会发生闯红灯的低级错误。
这些问题查找起来也更麻烦。模型没有一行行清晰的代码,更像是一个黑盒。理想把控制解耦,过滤掉了一部分不安全行为,但更多还要靠系统的能力提升。
工程师们没有太多时间。今年底、明年初,理想将正式向用户交付这套双系统方案。
郎咸朋知道,更大的考验还在后面。用户不会因为理想用了端到端、VLM 技术,就认为理想领先。影响他们心智的,只有产品的最终效果和体验。
“我们接下来的重点,第一需要把产品体验做得更好一点。” 郎咸朋说。
以下是《云见 Insight》与理想汽车智能驾驶副总裁郎咸朋的对话整理(经编辑)。
一、追赶特斯拉
云见 Insight:今年年初,特斯拉在北美推送 FSD V12 ,中国自动驾驶行业很多 CEO 和高管都去体验了,你们去了吗?
郎咸朋:我们团队是分三次去体验的,V11, V12 体验两次。体验下来也验证了我们的判断。第一就是它在东海岸和西海岸的表现不太一样,有很大区别。西海岸是硅谷,可能用的人多,数据量也大一些,道路条件比较好。到东边,尤其像纽约这样的城市,它的表现并不是特别好,大概在 12 公里还 12 英里接管一次,我们自己的统计数据是这样的。但是西边的接管率可能是两三倍的提升。
这里面就是我刚才说的,数据配比和数据质量会带来端到端系统的效果差异。怎么解决?一是从数据本身去解决。另外,我还是觉得应该用双系统的方案。这种差异并不是说你直接给数据就行了,还是得让它有这种应对未知场景的能力。
云见 Insight:整体体验上,试驾了 V12 的团队怎么评价这套系统?
郎咸朋:有一个词出现频率非常高,就是拟人。这个系统感觉非常像人开的。也会开错道什么的,一些简单的 case 会出现问题,但是瑕不掩瑜。
云见 Insight:2023 年 8 月,马斯克第一次在硅谷直播试驾 FSD V12 的 Beta 版,你当时看下来什么感受?
郎咸朋:非常惊艳。确实这是非常正确的一个方向。因为当时我们自己也在思考端到端这些事情。2023 年下半年,我们已经有预研团队在做这些事情。
很多人说理想自动驾驶为什么最近进展比较快?突然就从后进生变成好学生?实际上我觉得是跟我们之前所处的状态,和我们的一些方法分不开的。
云见 Insight:什么状态、什么方法?
郎咸朋:我们一上来就是后进生。2021 年才开始自研,其他人比我们早。但是我们是一个比较勤奋的学生,而且认知一直都是在线的。只不过资源、时间,对我们来说是很大的挑战。
对比一下我们跟特斯拉,我觉得非常相似。特斯拉 2013 年、2014 年还是供应商 Mobileye 的方案,2015 年 2016 年两家公司分手,开始自研,断断续续迭代了一年左右的时间,才做到当初 Mobileye 的体验。然后到 2019 年,它的 Hardware 3.0,从自研芯片开始,它的算力终于足够了,可以用来做人工智能。一直迭代到去年年底、今年年初,它的端到端方案标志着,在现有理念上达到了一个比较极致的版本。
从 2014 年到 2024 年,特斯拉大概用了 10 年时间。我们从 2019 年交付理想 One,用供应商方案,2021 年开始自研,从地平线 J3 芯片开始交付第一个 ADAS (基础辅助驾驶)系统。但是我们迭代速度非常快,2022 年我们交付了 Orin X 这套系统,有了足够的算力去做 AI 算法。我认为我们的 2022 年可以对标特斯拉的 2019 年,那时候还差了三年时间。
特斯拉从 2014 年起步,我们从 2019 年,大概差了 5 年。追到 2022 年,差三年。2023 年,我们的有图、无图、NPN 三代系统全都在这一年,从高速 NOA 追到城市 NOA,一直追到今年上半年,把端到端交付了鸟蛋版本,标志着我们基本上达到了特斯拉去年底、今年年初的水平。
我觉得如果单看端到端的表现,我们和特斯拉可能也就是半年左右的差距。我们用了大概 5 年时间,把跟特斯拉的差距追到差半年。
云见 Insight:你的意思是,如果特斯拉那边按下暂停,半年之后你们就能追上它了?
郎咸朋:我觉得我们现在在整体技术方案上是略有超出的,因为我们是双系统,如果只看现在的辅助驾驶,我觉得端到端可能是一个比较不错的架构。但是如果说想真正解决自动驾驶的问题,我们的答案是用双系统。
特斯拉好久没出来说了,所以我们只是从现在看,只有端到端这个系统 1 的话,可能还不足以解决自动驾驶的问题。但是它也说了,下一代会有更大算力的芯片去做其他事情。
云见 Insight:你认为你们的这套技术架构,比特斯拉的端到端更强?这能在什么时间点验证吗?
郎咸朋:我们今年年底,最晚明年年初会交付端到端加 VLM 的产品。大家可以体验。我们已经把鸟蛋推给了 20 多个内外部车主,从他们的测试视频上,也看到很多非常惊艳的能力上限部分了。
云见 Insight:如果 FSD 来中国,你们有信心能够和特斯拉竞争吗?
郎咸朋:我们当然有信心。因为特斯拉是系统 1 的方案,最大的问题就是需要大量数据去训练,特斯拉中国的数据我觉得应该不是特别充足,短时间内可能很难达到中国头部这几家的水平。
特斯拉我觉得它之所以之前做得好、做得快,核心优势是它在北美的这套训练和迭代体系。但是中国对它来说是一个全新的流程和挑战,势必会减弱这方面的优势。它的迭代速度可能不会那么快。最终的产品效果,我是有疑问的。
云见 Insight:大模型火了以后,中国科技公司的 AI 能力和美国公司的差距实际上在拉大。你觉得自动驾驶行业,在端到端之后,中国公司和特斯拉的差距是在拉大还是缩小?
郎咸朋:我觉得我们一直在缩小跟特斯拉的差距。原来我们差好多年,现在只差半年左右。
我们也不好评判特斯拉现在的能力,只不过他第一次发端到端测试,大概是去年年底,我们现在也发了端到端的版本,产品的节奏有半年的 gap(差距)。
云见 Insight:体验上也是半年的 gap 吗?
郎咸朋:体验上我觉得大家可能彼此不同,但是我们从一些视频看,肯定是比(特斯拉)前一代有很大提升。第二,我们现在的方案,跟特斯拉现在的版本相比,是有自己的优势的,我们至少是一个面向自动驾驶的双系统方案,特斯拉只是一个端到端的方案。
云见 Insight:之前特斯拉每次开 AI day,整个行业就跟着 “抄作业”。AI DAY 两年没开了,大家还能追得上特斯拉吗?或者知道技术方向该往哪边走吗,会不会走偏?
郎咸朋:我觉得理想发布双系统方案之后,可能逐渐走到这个行业最前沿的位置了。现在很多自动驾驶企业也在参考双系统方案,特斯拉当然可能也会有自己的技术特点,但是我们认为双系统方案还是非常有竞争力的。
云见 Insight:你们不认为特斯拉是这个方阵的棋手,所有人都应该跟着它后面走?
郎咸朋:我觉得之前可能是棋手,端到端肯定还是有的。但是之后,因为大家都在往自动驾驶走了,端转端只是系统 1,在辅助驾驶这个方向上可能是做到头的感觉。再往后走,你一定要让系统解决未知场景。
云见 Insight:如果特斯拉 10 月开一个 AI Day,解决了未知场景的问题,但不是用你们的方法。你们会把算法重新写吗?
郎咸朋:我觉得可能也不见得。但是如果真有那一天,我们肯定也会看一看,它的方案是什么样的?但是我觉得没准它的方案跟我们差不多。
云见 Insight:为什么之前大家都认为特斯拉是旗手,但是在端到端之后,技术方案分叉了?
郎咸朋:在解决非自动驾驶的需求上,我觉得 One Model 端到端是一个非常极致的方案,再往后走,如果想解决自动驾驶的问题,这一个系统不可能做到,必须还有一个系统处理未知场景。理想给的答案是用 VLM。
小鹏或者说特斯拉想解决未知场景,是不是有自己的思路?不过现在还没有看到。
二、快出危险的时候,帮你踩脚刹车
云见 Insight:大家都在喊端到端。端到端有分段式的、有 One Model、你们的是双系统,这之间的区别是什么?
郎咸朋:我认为最大区别是,One Model 端到端是第一次用人工智能的方式做自动驾驶,里边没有任何规则,其他都是有规则的。分段式的端到端,可能感知是一个模型、规划是一个模型,中间是由规则串在一起的。
云见 Insight:小鹏跟华为发布的应该都是分段式的。
郎咸朋:根据它们的公开资料来看是这样的。
云见 Insight:特斯拉的 One Model 输入的是感知信息,输出的控制指令吗?
郎咸朋:据我们的了解,它没控制端,到了规划端。
云见 Insight:你们怎么发现这个的?
郎咸朋:我们有一些特斯拉的朋友,相互之间讨论,得到了一些经验。
云见 Insight:你们的系统原理图,输入的是感知信号,输出的是行驶轨迹。所以你们也把控制这一块拨出去了?
郎咸朋:是的。
云见 Insight:控制解耦的好处是什么?
郎咸朋:最大的好处是可能会过滤掉一些不安全因素。如果把执行的过程都模型化了,万一有一些错误干扰,会造成很严重的后果。我们根据轨迹来做最终的控制,控制执行里边加了一些安全校验和冗余的模块。我们的模型里面唯一用到规则的地方就是这个。
理想的双系统技术原理图
云见 Insight:双系统模型这个技术路线只有你们在做,这个技术方向你们是怎么摸索出来的?
郎咸朋:去年下半年,我们在做 NPN、无图方案的时候,发现无论怎么做,还是会出现问题,未知场景永远处理不好。这样永远无法走到自动驾驶。所以我们就去寻求能走到自动驾驶的方案,也结合了《思考,快与慢》那本书。
云见 Insight:谁先看到那本书的?
郎咸朋:我们团队的其他同学,詹锟他们那个团队看到的。他们是我们的预研团队。
我们自动驾驶一直都有一个小的预研团队,人数或多或少,大家在做交付的过程中,自发去看一些书或论文。我们每周都会有一个论文分享会或者技术研讨会,这些东西其实就是慢慢聊出来的。
去年下半年我们有一个讨论,发现用双系统来解决可能会更好一点。系统 1 能解决我们现在的问题,系统 2 能解决未知场景的问题。
云见 Insight:端到端的预研一开始投入了多少人?
郎咸朋:很少,因为去年下半年我们交付城市 NOA,很多人都在那上面。今年 4 月,我们正式成立了端到端小组。
我们是从去年 9 月的战略会,提出来自动驾驶领先的战略。在那个时候,确立了 RD(Research Development,技术研发) 和 PD (Product Development,产品研发)的研发方式。但实际上自动驾驶团队内部早就开始了。
云见 Insight:你们和清华赵行老师的团队一起撰写了 VLM 的论文,你们是怎么合作的?
郎咸朋:我们跟赵行老师很早就有一些交流,倒不是合作方面的。我们经常跟这些专家交流和讨论。赵行老师,包括其他的一些业界科学家,对人工智能都有很强的能力、好奇心。
应该是从 2022 年左右。赵行老师回国工作之后,我们有些方向聊的比较投机,干脆就合作,做一些预研工作。他出学生,我们这边也有一些员工,一起来做这个事情。大家在思路和认知上碰撞和交流,产生了一些成果。清华那边基本上还是做论文技术方向的研究,具体的实施和落地,我们这边出的资源多一些。
云见 Insight:你们的双系统模型,在具体实施的时候,两个系统是怎么协作的?
郎咸朋:我们现在还是以端到端这个系统为主。系统 2 有两个作用。第一,系统 1 可以主动去问它一些问题,比方说前面不会开了,去问这系统 2 我应该怎么办?就跟你用 ChatGPT 是一样的。系统 2 会给一些行动上的建议。第二,系统 2 也会时时刻刻去看路面的情况,主动给系统 1 提示,跟驾校教练似的,当他看你快出危险的时候,帮你踩脚刹车。
云见 Insight:系统 1 是端到端模型,输入感知信号,输出行驶轨迹。系统 2 是在哪个环节去把它的思考给到系统 1 的?
郎咸朋:它是以不同的频率去工作的。系统 1 可以理解成一个实时系统,大概每秒钟 10 帧左右。系统 2 我们现在跑了大概是 3 赫兹到 4 赫兹,比系统 1 帧率慢一点,但它会不断去把自己的建议和指令返回到系统 1。在这个过程当中,有一个交互。
三、交付倒计时,开始
云见 Insight:端到端从立项到现在初步上车,克服了哪些挑战?
郎咸朋:第一个是数据。我们在找什么数据、怎么找数据这块,迭代出了五星级司机的评价标准。在过程当中,在数据的配比方面逐渐找到了一些感觉。
第二是大模型的优化上车。现在的车端芯片,包括 Orin X 在内,并不是为大模型去设计和优化的。在这里边要跑实时的数据,它的算子运行效率是一个难题。我们做了很多优化的工作。
第三是测试方面,我们搭建了一套跟原来不一样的考试系统。我们用世界模型去把之前研发自测的路线模拟化了,直接在仿真系统里面跑一遍就行了。我们模型迭代速度非常快,曾经一周之内迭代了 15 个版本,每天都有两个版本。这在原来的研发过程中是不可想象的。
云见 Insight:把这个系统继续做到可交付的状态,工程落地上还有什么难度?
郎咸朋:挺多的。端到端加 VLM,说到底是一个技术方案。最终对于我们的车主来说,他看的不是这个。不是说你用 VLM 就领先,还是要看产品的实际效果和体验,我们接下来的重点,我觉得第一需要把产品体验做得更好一点。
虽然说我们看到 VLM 和端到端有很好的能力上限,确实它每天都在给我们带来一些小的惊喜,但在自动驾驶的大背景下,车跟人之间的信任关系怎么建立?我觉得这是一个很重要的话题。比方说人车交互,产品的设计,肯定跟之前辅助驾驶有很多不一样的地方。这也是我们下一步研发的重点。
云见 Insight:把模型的体验做好,难在什么地方?
郎咸朋:其实还是整个研发体系和流程的变更。人工智能是按照能力驱动的方式,以前是需求、产品驱动的方式。这里边有几个问题,第一,能力怎么获取?现在都说通过数据训练,那么数据的质量、规模还有配比,怎么去做这些事情?
第二,能力怎么考核?之前我有明确的产品设计需求,可以去验证它有没有达到。但是能力怎么评价?我不可能把所有知识点都列出来考一遍,而且也列不完。这两个我觉得非常困难。
云见 Insight:你们是怎么做的?
郎咸朋:数据方面,我们在所有数据里边筛选老司机的数据。我们有一套评判系统,就跟评价专车司机一样。你上了专车,肯定不担心他驾驶技能的问题,也不担心选路不合理的问题,也不担心他遇到突发事件不会处理,对吧?我们大概的思路也是这样。
我们老司机的比例只有不到 3%,拿他们的数据去做样本的处理和提取。包括我们自己也打分了,我这个分数是进不了老司机的。
云见 Insight:你是哪一点没有达到老司机的标准?
郎咸朋:我开车的时候可能有急加速、急减速,比如上班快迟到的时候。我们现在挑选的还比较严格,是按照人挑的。将来可能会根据片段挑,数据的质量和筛选也是不断迭代的。
云见 Insight:小马智行的 CEO 彭军说,端到端最难的是数据处理。最怕 Garbage In, Garbage Out。你们怎么解决这个问题?
郎咸朋:筛选老司机是一个思路。我们的数据肯定相对其他人多一些,因为我们车多,可挑选的范围比较大。如果数据质量不高,可能训练出的模型质量也不高。
还有训练方法的问题。举个例子,我们训练端到端的初期,发现红灯停的时候,系统老想去并线、加个塞儿什么的。后来思考了一下,是因为我们把一些认为没用的数据删掉了。有很多等红灯的数据,可能等 1 分钟、 2 分钟,什么也没干,这数据是不是就没用?你得让模型知道,有红灯的时候要静止等待。我们就补充了一些在红灯停止时等待的数据,之后这个现象就消失了。
云见 Insight:端到端模型的上限高,下限低,有时候会乱开。特斯拉 V12 也被曝出一些这样的情况,你们是怎么处理下限的问题的?
郎咸朋:这是我们量产交付过程中的主要工作。一是通过更加合理的数据配比,提升它的下限。第二,在控制模块那部分,有一些安全约束的规则,避免这个车做出不安全的行为。
总而言之,还是能力提升为主。就跟学习一样,最终还是素质教育,不是说靠刷题能出来一个能力特别强的人。
四、能买到什么卡,用什么卡
云见 Insight:你觉得未来车端需要多少算力、云端需要多少算力?
郎咸朋:端到端这一侧,我们的参数量基本上是几亿规模,零点几个 billion。我们认为端到端使用和训练的算力基本上是 Eflop 级别的,现在我们 cover 这块算力没有任何问题。理想整个公司大概现在是 4 EFlops 多一点、不到 5 EFlops 的算力。
云见 Insight:怎么看特斯拉今年 10 月就会把 Dojo 的算力提升到 100 EFlops?
郎咸朋:我们认为端到端的训练几个 EFlops 就够了,但是 VLM 的参数量是端到端的 10 倍以上,可能需要几十 EFlops 算力。
特斯拉说 100 EFlops 算力,我觉得对应我们现在的 VLM ,但还不止。到了世界模型,是没有上限的。世界模型越复杂、越逼真,训练和评价体系越好。将来我们的思路是,在真实世界里获取数据,用来训练世界模型。世界模型里边的数据,用来训练 L4 系统。
云见 Insight:你们的模型比特斯拉更耗算力?可以这么理解吗。
郎咸朋:不一定,特斯拉也有世界模型。它现在公开还没有说它有 VLM 模型,但是我们认为大家都会走这一步。
云见 Insight:你们用的是什么卡?
郎咸朋:我们能买什么卡用什么卡。
云见 Insight:这会影响计算效率吗?
郎咸朋:多少会影响一点,但还好。我们现在主要还是卡的绝对数量的问题,并不是卡与卡之间运算效率的问题。
云见 Insight:你们去测过不同的卡吗?哪些是你们可用的吗?
郎咸朋:我们肯定会做评测。要看单个效果,确实可能有一些特点,但是我们现在的训练体系和架构已经是英伟达的。如果单纯从算力上看,可能差不太多,但是背后这套训练方法、体制架构优化完全是不一样的。
云见 Insight:如果用自己的芯片,有这个问题吗?所有的工具链也要重新开发。
郎咸朋:有可能。但是你的芯片是不是可以按照英伟达的方式去做一些设计?我觉得这可能是一些(方法)。
云见 Insight:你怎么看舱驾一体?
郎咸朋:舱驾一体很多企业在提,但提的并不是太多人工智能企业。如果站在传统的辅助驾驶 ADAS 方案上,座舱里边的人工智能不是那么先进的前提下,我觉得可能有一些效率或成本上的考虑,愿意往舱驾一体去做。
但是现在我的感觉是,自动驾驶往 L4 走,对算力的要求越来越大,可能还有一些方案的不确定性。智能空间的一些应用,对算力的要求其实也在不断成长中。现在你把两个都不太确定的东西往一块安,我觉得可能对于 AI 的发展不是那么有利。
云见 Insight:未来会吗?
郎咸朋:现在不好说。因为智能空间的探索才刚开始。首先你要解决人不开车这件事,把人解放出来之后,可能就会有很多你现在无法想象的舱内应用了。只要驾驶位上人还花很大精力去开车,那舱内的应用永远没法解放思想去做。
云见 Insight:英伟达汽车业务负责人吴新宙博士有一个观点,说 One Model 端到端是最终的技术趋势,但在未来几年,之前的一套基于规则的系统仍然会存在,和端到端相辅相成,相当于一个老师,去验证这个学生哪里做的不好。你同意这个观点吗?
郎咸朋:我觉得看他想做什么,做辅助驾驶的话,我觉得可能某种情况下是对的,但我的想法是做自动驾驶,我的评判、验证和考试系统应该是按照自动驾驶去打造的。我可能用世界模型去做这个事情,就是用更高维度去做这个事情,而不是用一个低维的去验证一个高维的。
云见 Insight:你怎么看特斯拉做 Robotaxi(自动驾驶出租车)?
郎咸朋:它是一个很好的商业创新,我们也希望看看它在这个 case (案例)上有没有好的表现。
云见 Insight:你们会做这个场景吗?
郎咸朋:暂时不会。我们做人工智能跟企业的使命愿景是一致的,创造移动的家、创造幸福的家。如果我们创造幸福的家,代价是让很多人不幸福,那不行。如果做 Robotaxi ,很多司机是不是就会失业、下岗?这不是我们想看到的。
云见 Insight:这就是百度萝卜快跑遭遇的舆论。
郎咸朋:对,我觉得中国的国情也不太一样。
五、做技术,还是做能落地的产品?
云见 Insight:你在百度干了 5 年,这段经历对你的锻炼是什么?
郎咸朋:很多人说郎博你以前在百度的经历应该跟理想完全不一样,但我觉得是非常一致的。我 2013 年 4 月 24 号进百度,当时要做百度街景,面临着两大竞品挑战。一个是 Google 街景,一个是腾讯街景,腾讯比我们早上线半年。
8 月 25 号百度世界大会,如果我们有这个产品,Robin(百度 CEO 李彦宏)肯定会跟大家介绍。但是如果没做好,那就不讲了。话外音,这个产品可能就永远消失掉。我们的挑战,就是怎么用四个月做好这件事。
当时只有四个人,一个做后台服务,一个做前端,我做算法,还有一个做数据。我们第一个难题是人,整个 5 月都用来招人。周一到周五做自己的事,周六、周日全天面试。我们的面试在百度食堂,桌子接在一起。一面三、五个人,二面三个人,三面是一个人,流水线作业。HR 领进来 5 个人开始面,一面淘汰的出门右转,没淘汰的到这个桌子再继续二面,通过的人再到三面,不通过人出门。
云见 Insight:当场告诉他吗?
郎咸朋:当场告诉他。当时就必须这么面,才能快速招到所有人。每天晚上都是虚脱状态。这么弄了一个月,到 6 月 1 号,终于有大概 100 人了,还从别的部门借了一些人,开始干这个事。
我们 delay (推迟)了所有节点,因为那些节点是用传统的产品研发方式排的,根本就不适应资源又少、时间又短的开发条件。但最后的节点守住了。8 月 24 号凌晨三、四点钟,我们终于接近交付上线。之后,那天就去百度大会介绍了一下。
这不是结束,恰恰是开始。当时我的感觉是为了满足目标,一定要打破常规做一些事情,而不是依照一些传统的流程。
第二,当时在做街景的时候,我们有一个技术创新。如果你打开街景,里边每个车的车牌号都是模糊掉的,明显的人脸是模糊掉的,保证你的隐私不被侵害。这当时是人来做的,我们有个很大的外包团队,上百人。
那时候很少人做深度学习。我们当时找余凯,当时他是百度 IDL (深度学习研究院)院长,找他帮忙去解决人脸的问题。
凯哥那边用了当时最先进的深度学习模型,做到 86% 左右的准确率。虽然比传统方法好很多,但是人能做到 95%。86% 还达不到人的水平,后来我们自己去做了一些模型的尝试。我们用的模型其实不如凯哥好,但是我们的数据足够好。当时精标了好多数据,把模型的体验提升到 99%。
云见 Insight:你从导航地图到高精地图,然后到百度 L3 事业部。在百度 L3 时做了哪些事?
郎咸朋:L3 做的是跟车企的量产交付。其实 L3 做的更像特斯拉,L4 做的是 Waymo,百度当时想的很好,要特斯拉有特斯拉、要 Waymo 有 Waymo。
云见 Insight:你需要对接车企吗?
郎咸朋:要对接车企,当时谈了好多车企。谈完了之后我就决定来理想了。
在百度你想把这种技术应用起来,其实很难。在百度的后期,我就在想到底是做技术,还是做产品。我做街景的时候,还是个很小的工程师,挣得也不多,级别也不高,但交付之后,我现在还很自豪。每一张图片都是用我的程序去处理的,这给我带来的愉悦感和自我价值是非常大的。
自动驾驶也是,我如果留在百度,依然可以做很先进的技术,但现在其实还是没落地。我还是比较愿意去做实际的产品。
云见 Insight:来理想之后,你怎么组建理想的智能驾驶团队?
郎咸朋:第一个阶段是供应商阶段,我们没有太多 head count(招聘名额),也没有太多资源,我那时候找了一些非常核心的人,像贾老师(理想智能驾驶技术研发负责人贾鹏)是 2020 年来的。他跟我认知类似,就是在英伟达也可以有很好的待遇,但是自动驾驶永远都做不到车上去。
王佳佳(理想智能驾驶量产研发负责人)是 2021 年,我们交付完第一款车之后来的。他在博世,只能做他们德国总部在中国的一些匹配。如果想做自动驾驶,那只能来新势力。
我觉得我们头上这几个人,都是因为对自动驾驶有巨大的热爱,特别是对它能落地量产,千家万户都能用到,有非常一致的价值观和认知。从 2021 年自研开始,我们团队打造出了非常高的执行力。
云见 Insight:现在几百人的团队,你觉得管理上最大的挑战是什么?
郎咸朋:怎么能让所有人的目标能一致。前面那些老人还好,但是最近这两年来的新人非常多。我们统计了一下,“卫城”(理想第一次自研基础辅助驾驶功能的 “战役”)时期的人只剩下 50 个人左右了。我们每年基本上都翻一翻。2021 年刚开始交付第一个量产项目时候大概 100 人,到年底大概 300 人, 2022 年底将近 600 人,2023 年底达到一个峰值,大概 1 000 人左右。新人怎么能在接受我们的文化的前提下,更好地发挥作用,是一个挑战。
但现在做得还挺好的。我觉得虽然新人来的多,我们的交付战斗力,技术上涌现的新东西,一点都没耽误。我觉得还是跟我们内部的组织文化有关系。
六、下一个阶段,不是人的战争
云见 Insight:这几年,你跟李想在自动驾驶方面有过哪些重要的谈话?
郎咸朋:我觉得今年年初算一个。我们对将来怎么做自动驾驶方案,有了比较明确的共识。
当时李想问我,郎博,你觉得咱需要那么多人吗?在我看来肯定不需要。我们如果看着现在这套架构,那确实需要很多人。但我觉得这个方案肯定不是最终走到自动驾驶的方案。我们的自动驾驶方案,应该是一个自我能迭代、数据驱动的方案。而且我们自己也有双系统这个思路,不管是端到端,还是 VLM,都不需要太多人参与。
但前提是,我们的考试系统、数据规模、算力储备够,才可以。它上升到这个维度的战争,不是人的战争。特斯拉自始至终这么多年,也没有上过 1000 人,它的核心研发也就两三百人规模。我觉得特斯拉一定是围绕着怎么高效实现自动驾驶,有一套研发流程的。
云见 Insight:特斯拉的两三百人,是不是一个人能顶 10 个人?
郎咸朋:我觉得特斯拉单拿出一个人来,不见得比我们的算法人员强多少。最主要的是它背后这套体系,有了这套高效的研发和流程体系,它的数据样本的制作、模型的训练以及问题的迭代,都是非常高效的。
云见 Insight:如果又有人、又有体系呢?就是华为。
郎咸朋:这是矛盾的。你有体系,不需要人。华为跟我们也不太一样。华为是供应商,它可能对应不同车型、不同厂商,需要有很多人去做方案的适配或迭代。不像我们跟特斯拉,都是围绕自己的产品去迭代的。
云见 Insight:理想之前提出 2026 年要有 2600 人的团队。这个计划还在继续吗?
郎咸朋:那是去年下半年的时候提的。最新我们也没有什么人数目标。
云见 Insight:未来的研发流程围绕着模型,应该如何搭建团队?
郎咸朋:我们希望将来我们的能力都迭代到系统上。我们有两条线,一个是预研更多人工智能方案或可行性,另外是大规模优化我们的交付效率。
团队现在有三拨人,交付团队现在还有几百人规模,负责 AD Max 和 AD Pro 两个平台的交付。
Pro 项目轻舟做了很多研发执行的工作。去年到今年上半年,轻舟去接我们 Pro 平台,他们之前没有量产交付的经验,我们利用之前的交付经验,用了不少人,和他们一起协作完成了交付。交付完了,我们还有一些人去帮他们看问题的修复,包括我们也用现在这套系统能力帮他们赋能。
我们当下的研发,就是 VLM 加端到端的研发。交付是交付这一代系统,研发是研发即将要交付的一代。我们还有预研团队,预研接下来的一些事情。比方说,我们的 VLM 现在是 2.2 个 billion 的参数量,这其实是受限于当前硬件的。接下来如果上了英伟达 Thor 或者其他芯片,可能会有一个团队去预研更大参数量、能够用在系统 2 上的大模型。
云见 Insight:你去年还去硅谷招聘了,现在在招人吗?
郎咸朋:我们曾经有想法去硅谷招聘,现在没这个想法了。
之前我们还处于追赶状态,随着越做越好,外界的认可度越来越高,现在很多头部人才也愿意到理想来。所以我们没必要非要去美国招聘,中国本土的人也很多。就像今年,我们会有 240 个校招的孩子来。他们都是 QS (Quacquarelli Symonds 世界大学排名)前 100 的学校,甚至可能大部分都是 QS 前 50 的。
这些人培养两三年后,我觉得肯定非常优秀。我们不用再去外面找。美国回来的人,如果愿意来理想,我们也会看一看。
云见 Insight:但你们不考虑在硅谷设一个办公室了?
郎咸朋:现在不在我们的计划之内。
云见 Insight:如果 Andrej Karpathy 愿意来理想,你们会在硅谷为他设立一个办公室吗?
郎咸朋:我觉得第一他可能不会来,第二我们还是看必要性。
云见 Insight:你在理想这五年,理想智能驾驶走过几个阶段,路标是什么?
郎咸朋:第一个阶段是我们自研之前,用供应商的方案。挑战是怎么借助供应商的能力去交付产品。我们在这里面其实发展了一个自己核心的能力,就是以数据驱动为核心的数据闭环的能力。
我不知道你以前听过没有,我们理想 One 上旁边还有摄像头。很多人当时都以为理想用的是什么双目视觉方案,其实不是的。我们有个 Mobileye 摄像头,旁边放了一个自己的摄像头,其实那就是我们的数据闭环系统。
云见 Insight:用来做影子模式的。
郎咸朋:对,或者数据分析系统的。虽然很多人都说,理想起步晚,其实在数据驱动方面我们一点都不晚。从 2019 年交付第一辆车,我们就部署了影子模式。迭代到现在,已经做了五年,形成了非常高效的数据闭环体系。
第二个阶段,就是自研阶段。 2021 年我们用 J3 交付了第一套自动驾驶系统,走过 0 到 1 。2022 年交付了 Orin X,拥有了跟别人一样的算力,因为 J3 这个算力就几个 TOPS,我们要打小鹏这种几十个 TOPS,还要跟它产品持平。到了 Orin 这一代,我们终于跟别人算力上持平了,可以去做更好的算法。
到了 2023 年,我们用一年时间走完了有图、NPN、无图这三代,走完之后,基本上就到第一梯队了。今年,我们用了半年时间,不管是这一代的无图,还是下一代的端动端加 VLM,已经开始甩开一些竞争对手,站到了行业的最前线,开始探索一些未知的边界了。
云见 Insight:最前线站着几家公司?
郎咸朋:今年 6 月之前,我们还在追赶阶段。以前可能前面的人比较多,蔚来、小鹏都在我们前面。后来慢慢的前面人越来越少,可能华为在我们前边。到了现在这个时刻,我觉得可能就是特斯拉,华为,在跟我们差不多的位置上。
本文来自微信公众号:云见 Insight,作者:王海璐