2024-08-02 14:25

后进生理想，追赶特斯拉

云见Insight

本文来自微信公众号：云见 Insight，作者：王海璐，原文标题：《对话 | 理想智驾副总裁郎咸朋：后进生，追赶特斯拉》，题图来自：视觉中国

2023 年 8 月，马斯克驾驶着一辆老款特斯拉 Model S，在硅谷上演了一场 FSD V12 的全球直播。他介绍，这一代系统通过 AI 实现，没有程序员写下一行代码，完全交给了神经网络。

45 分钟的直播中，马斯克只接管了一次。系统的拟人化表现，在自动驾驶行业引发了强烈反响。不少车企和自动驾驶公司自此开始研发端到端技术。

理想汽车智能驾驶副总裁郎咸朋也观看了那场直播。理想当时已经开始预研端到端技术，但还未正式立项。特斯拉 FSD V12 的表现，让郎咸朋更加坚定了对这个技术方向的信心。

彼时，理想汽车正在导航辅助驾驶功能（NOA）的开城竞速中。那一年，华为、小鹏、理想先后宣布大规模交付城市 NOA 功能。理想的目标最激进，要在年底前开 100 城。

但研发进度并没有预想中的顺利。理想先后尝试了 NPN（神经先验网络）、无图（高精地图）方案，始终无法把体验做到极致。那一年，小鹏率先完成了目标，华为在 2 个月后将开城范围覆盖到全国。而理想的无图 NOA，直到今年 7 月才向 AD Max 版车主全量推送。

一年迭代三个系统，也让郎咸朋清楚地看到每个技术方案的瓶颈。他认为现有技术对资源的消耗巨大，且永远有解决不完的长尾问题。未知场景是无法穷举的，要从根本上提升系统的能力，只能通过端到端。

端到端（End-to-End），指的是用人工智能模型取代传统的感知、规划、控制三大模块，系统不再按照工程师编写的代码去行驶，而是像人一样思考和行动。特斯拉的 FSD V12 正是用上千万个训练视频，取代了 30 多万行 C++ 代码。

在特斯拉之后，中国智能电动车公司也快速跟进这项技术。但实际落地的过程中，一些公司采用了渐进式的路线。华为和小鹏都在今年发布了自研的端到端系统，但两家公司都采用了分段式的端到端，将感知、规划模块分别用模型取代，中间通过人工编写的规则连接。

理想的端到端，是用一个模型取代感知和规划两个模块，比国内的同行多走了一步。没有把控制模块也包含在内，是为了过滤掉一些不安全因素，郎咸朋说。理想在控制器里做了一些校验和冗余，为安全兜底。“我们的模型里面，唯一用到规则的地方就是这个。”

为了让系统有更好的表现，理想还在端到端模型外，并联了一个视觉语言模型（VLM）。前者用来快速处理行驶中 95% 的常规问题；后者具备一定逻辑推理能力，用来解决 5% 的复杂问题。理想将其描述为——系统 1 和系统 2。

这个概念出自诺贝尔奖得主丹尼尔·卡尼曼的《思考，快与慢》。这位认知心理学家认为，人脑有两个系统，快系统是基于经验和习惯形成的直觉，慢系统是人类经过深入学习和理解形成的逻辑推理能力。理想的工程师受到启发，认为用双系统模拟人脑，更接近无人驾驶。

今年 4 月，理想的端到端研发项目正式立项。更早的时候，理想的端到端预研就已开启。郎咸朋说，理想智驾团队内部一直有个小的预研团队，每周开一次技术研讨会，工程师们自发地分享近期看到的论文或书籍。关于双系统的讨论，就是这样 “慢慢聊出来的”。

今年初，特斯拉正式在北美推送FSD V12之后，理想汽车也派出团队前去体验。郎咸朋评价，这个系统的表现惊艳，“也有开错道的情况，但是瑕不掩瑜。”

理想的测试人员还发现一个问题——特斯拉的 V12 系统在西海岸的接管率比东海岸要低两、三倍。他们猜测，这是由于西海岸有硅谷，开特斯拉的人多，数据样本量大。

端到端模型的效果受到数据的直接影响。数据的绝对数量、质量、配比，都会影响模型的表现。

双系统技术架构确立之后，理想围绕着模型重新梳理了研发体系和流程。郎咸朋说，理想从所有车主数据中筛选出优质数据，建立了一套 “老司机” 的评价标准。老司机既要具备好的驾驶技能，也要有好的驾驶习惯。只有不到 3% 的车主通过了考核。

郎咸朋自己没入选。他判断，可能是自己平时开车赶时间，会有急加速、急减速的行为，因此不符合数据筛选的要求。“我们挑选的还比较严格。” 他说。

除了数量、质量，数据的配比也直接影响模型的效果。理想的测试车曾经出现过一个问题：等红灯的时候，系统总想并线、加塞。研发人员起初觉得很奇怪，因为他们从没给系统输入这样的数据。后来他们发现，导致这个问题的原因是他们把用户长时间等红灯的数据删除了。系统没学会等红灯，混淆了等红灯和堵车时的场景。堵车也会堵到停，这时候变道、加塞就会很常见。补充这部分数据后，问题消失了。

除了完善数据体系，理想也围绕着新的技术架构，对测试流程进行了优化。

从前一个小的系统版本出来，研发人员会先自测几百、几千公里，验证系统是否存在重大问题。这之后做上百万公里的路测，验证系统的泛化性。最后，让少量用户参与到鸟蛋、早鸟版本的测试中。

现在，理想学习特斯拉引入了世界模型，用仿真代替了研发人员自测，曾经在一周内迭代了 15 个版本，大大提升了系统的进化速度。“这在原来的研发过程中是不可想象的。” 郎咸朋说。

让大模型在车上跑起来，光有软件还不够。目前主流的智驾芯片都不是为了大模型设计的，理想的 VLM 模型有 22 亿参数，在英伟达 Orin X 芯片跑下来要 4 秒——这是智能驾驶不可接受的一个时延。

理想尝试了很多技术方案，查阅大量论文，将模型量化，还找英伟达一起优化了算子的运行效率。最终，把推理时间从 4 秒降低到了 0.3 秒。

理想将英伟达 Orin X芯片的推理时间从 4 秒降低到 0.3 秒

理想过去一直是后进生，到了端到端，开始体会到第一个吃螃蟹的烦恼。

过去，理想循着前人的脚印追赶，开发的是成熟技术。在研发和供应链上都有后发优势。但到了端到端，前面的人越来越少，路也越来越难走了。

虽然模型的能力上限每天都会带给团队一些惊喜，但其能力下限也让理想智驾团队时刻警惕。

与传统的技术方案相比，端到端往往被认为上限高、下限低。就像特斯拉 FSD V12 有拟人的惊艳表现，但也会发生闯红灯的低级错误。

这些问题查找起来也更麻烦。模型没有一行行清晰的代码，更像是一个黑盒。理想把控制解耦，过滤掉了一部分不安全行为，但更多还要靠系统的能力提升。

工程师们没有太多时间。今年底、明年初，理想将正式向用户交付这套双系统方案。

郎咸朋知道，更大的考验还在后面。用户不会因为理想用了端到端、VLM 技术，就认为理想领先。影响他们心智的，只有产品的最终效果和体验。

“我们接下来的重点，第一需要把产品体验做得更好一点。” 郎咸朋说。

以下是《云见 Insight》与理想汽车智能驾驶副总裁郎咸朋的对话整理（经编辑）。

一、追赶特斯拉

云见 Insight：今年年初，特斯拉在北美推送 FSD V12 ，中国自动驾驶行业很多 CEO 和高管都去体验了，你们去了吗？

郎咸朋：我们团队是分三次去体验的，V11， V12 体验两次。体验下来也验证了我们的判断。第一就是它在东海岸和西海岸的表现不太一样，有很大区别。西海岸是硅谷，可能用的人多，数据量也大一些，道路条件比较好。到东边，尤其像纽约这样的城市，它的表现并不是特别好，大概在 12 公里还 12 英里接管一次，我们自己的统计数据是这样的。但是西边的接管率可能是两三倍的提升。

这里面就是我刚才说的，数据配比和数据质量会带来端到端系统的效果差异。怎么解决？一是从数据本身去解决。另外，我还是觉得应该用双系统的方案。这种差异并不是说你直接给数据就行了，还是得让它有这种应对未知场景的能力。

云见 Insight：整体体验上，试驾了 V12 的团队怎么评价这套系统？

郎咸朋：有一个词出现频率非常高，就是拟人。这个系统感觉非常像人开的。也会开错道什么的，一些简单的 case 会出现问题，但是瑕不掩瑜。

云见 Insight：2023 年 8 月，马斯克第一次在硅谷直播试驾 FSD V12 的 Beta 版，你当时看下来什么感受？

郎咸朋：非常惊艳。确实这是非常正确的一个方向。因为当时我们自己也在思考端到端这些事情。2023 年下半年，我们已经有预研团队在做这些事情。

很多人说理想自动驾驶为什么最近进展比较快？突然就从后进生变成好学生？实际上我觉得是跟我们之前所处的状态，和我们的一些方法分不开的。

云见 Insight：什么状态、什么方法？

郎咸朋：我们一上来就是后进生。2021 年才开始自研，其他人比我们早。但是我们是一个比较勤奋的学生，而且认知一直都是在线的。只不过资源、时间，对我们来说是很大的挑战。

对比一下我们跟特斯拉，我觉得非常相似。特斯拉 2013 年、2014 年还是供应商 Mobileye 的方案，2015 年 2016 年两家公司分手，开始自研，断断续续迭代了一年左右的时间，才做到当初 Mobileye 的体验。然后到 2019 年，它的 Hardware 3.0，从自研芯片开始，它的算力终于足够了，可以用来做人工智能。一直迭代到去年年底、今年年初，它的端到端方案标志着，在现有理念上达到了一个比较极致的版本。

从 2014 年到 2024 年，特斯拉大概用了 10 年时间。我们从 2019 年交付理想 One，用供应商方案，2021 年开始自研，从地平线 J3 芯片开始交付第一个 ADAS （基础辅助驾驶）系统。但是我们迭代速度非常快，2022 年我们交付了 Orin X 这套系统，有了足够的算力去做 AI 算法。我认为我们的 2022 年可以对标特斯拉的 2019 年，那时候还差了三年时间。

特斯拉从 2014 年起步，我们从 2019 年，大概差了 5 年。追到 2022 年，差三年。2023 年，我们的有图、无图、NPN 三代系统全都在这一年，从高速 NOA 追到城市 NOA，一直追到今年上半年，把端到端交付了鸟蛋版本，标志着我们基本上达到了特斯拉去年底、今年年初的水平。

我觉得如果单看端到端的表现，我们和特斯拉可能也就是半年左右的差距。我们用了大概 5 年时间，把跟特斯拉的差距追到差半年。

云见 Insight：你的意思是，如果特斯拉那边按下暂停，半年之后你们就能追上它了？

郎咸朋：我觉得我们现在在整体技术方案上是略有超出的，因为我们是双系统，如果只看现在的辅助驾驶，我觉得端到端可能是一个比较不错的架构。但是如果说想真正解决自动驾驶的问题，我们的答案是用双系统。

特斯拉好久没出来说了，所以我们只是从现在看，只有端到端这个系统 1 的话，可能还不足以解决自动驾驶的问题。但是它也说了，下一代会有更大算力的芯片去做其他事情。

云见 Insight：你认为你们的这套技术架构，比特斯拉的端到端更强？这能在什么时间点验证吗？

郎咸朋：我们今年年底，最晚明年年初会交付端到端加 VLM 的产品。大家可以体验。我们已经把鸟蛋推给了 20 多个内外部车主，从他们的测试视频上，也看到很多非常惊艳的能力上限部分了。

云见 Insight：如果 FSD 来中国，你们有信心能够和特斯拉竞争吗？

郎咸朋：我们当然有信心。因为特斯拉是系统 1 的方案，最大的问题就是需要大量数据去训练，特斯拉中国的数据我觉得应该不是特别充足，短时间内可能很难达到中国头部这几家的水平。

特斯拉我觉得它之所以之前做得好、做得快，核心优势是它在北美的这套训练和迭代体系。但是中国对它来说是一个全新的流程和挑战，势必会减弱这方面的优势。它的迭代速度可能不会那么快。最终的产品效果，我是有疑问的。

云见 Insight：大模型火了以后，中国科技公司的 AI 能力和美国公司的差距实际上在拉大。你觉得自动驾驶行业，在端到端之后，中国公司和特斯拉的差距是在拉大还是缩小？

郎咸朋：我觉得我们一直在缩小跟特斯拉的差距。原来我们差好多年，现在只差半年左右。

我们也不好评判特斯拉现在的能力，只不过他第一次发端到端测试，大概是去年年底，我们现在也发了端到端的版本，产品的节奏有半年的 gap（差距）。

云见 Insight：体验上也是半年的 gap 吗？

郎咸朋：体验上我觉得大家可能彼此不同，但是我们从一些视频看，肯定是比（特斯拉）前一代有很大提升。第二，我们现在的方案，跟特斯拉现在的版本相比，是有自己的优势的，我们至少是一个面向自动驾驶的双系统方案，特斯拉只是一个端到端的方案。

云见 Insight：之前特斯拉每次开 AI day，整个行业就跟着 “抄作业”。AI DAY 两年没开了，大家还能追得上特斯拉吗？或者知道技术方向该往哪边走吗，会不会走偏？

郎咸朋：我觉得理想发布双系统方案之后，可能逐渐走到这个行业最前沿的位置了。现在很多自动驾驶企业也在参考双系统方案，特斯拉当然可能也会有自己的技术特点，但是我们认为双系统方案还是非常有竞争力的。

云见 Insight：你们不认为特斯拉是这个方阵的棋手，所有人都应该跟着它后面走？

郎咸朋：我觉得之前可能是棋手，端到端肯定还是有的。但是之后，因为大家都在往自动驾驶走了，端转端只是系统 1，在辅助驾驶这个方向上可能是做到头的感觉。再往后走，你一定要让系统解决未知场景。

云见 Insight：如果特斯拉 10 月开一个 AI Day，解决了未知场景的问题，但不是用你们的方法。你们会把算法重新写吗？

郎咸朋：我觉得可能也不见得。但是如果真有那一天，我们肯定也会看一看，它的方案是什么样的？但是我觉得没准它的方案跟我们差不多。

云见 Insight：为什么之前大家都认为特斯拉是旗手，但是在端到端之后，技术方案分叉了？

郎咸朋：在解决非自动驾驶的需求上，我觉得 One Model 端到端是一个非常极致的方案，再往后走，如果想解决自动驾驶的问题，这一个系统不可能做到，必须还有一个系统处理未知场景。理想给的答案是用 VLM。

小鹏或者说特斯拉想解决未知场景，是不是有自己的思路？不过现在还没有看到。

二、快出危险的时候，帮你踩脚刹车

云见 Insight：大家都在喊端到端。端到端有分段式的、有 One Model、你们的是双系统，这之间的区别是什么？

郎咸朋：我认为最大区别是，One Model 端到端是第一次用人工智能的方式做自动驾驶，里边没有任何规则，其他都是有规则的。分段式的端到端，可能感知是一个模型、规划是一个模型，中间是由规则串在一起的。

云见 Insight：小鹏跟华为发布的应该都是分段式的。

郎咸朋：根据它们的公开资料来看是这样的。

云见 Insight：特斯拉的 One Model 输入的是感知信息，输出的控制指令吗？

郎咸朋：据我们的了解，它没控制端，到了规划端。

云见 Insight：你们怎么发现这个的？

郎咸朋：我们有一些特斯拉的朋友，相互之间讨论，得到了一些经验。

云见 Insight：你们的系统原理图，输入的是感知信号，输出的是行驶轨迹。所以你们也把控制这一块拨出去了？

郎咸朋：是的。

云见 Insight：控制解耦的好处是什么？

郎咸朋：最大的好处是可能会过滤掉一些不安全因素。如果把执行的过程都模型化了，万一有一些错误干扰，会造成很严重的后果。我们根据轨迹来做最终的控制，控制执行里边加了一些安全校验和冗余的模块。我们的模型里面唯一用到规则的地方就是这个。

理想的双系统技术原理图‍‍

云见 Insight：双系统模型这个技术路线只有你们在做，这个技术方向你们是怎么摸索出来的？

郎咸朋：去年下半年，我们在做 NPN、无图方案的时候，发现无论怎么做，还是会出现问题，未知场景永远处理不好。这样永远无法走到自动驾驶。所以我们就去寻求能走到自动驾驶的方案，也结合了《思考，快与慢》那本书。

云见 Insight：谁先看到那本书的？

郎咸朋：我们团队的其他同学，詹锟他们那个团队看到的。他们是我们的预研团队。

我们自动驾驶一直都有一个小的预研团队，人数或多或少，大家在做交付的过程中，自发去看一些书或论文。我们每周都会有一个论文分享会或者技术研讨会，这些东西其实就是慢慢聊出来的。

去年下半年我们有一个讨论，发现用双系统来解决可能会更好一点。系统 1 能解决我们现在的问题，系统 2 能解决未知场景的问题。

云见 Insight：端到端的预研一开始投入了多少人？

郎咸朋：很少，因为去年下半年我们交付城市 NOA，很多人都在那上面。今年 4 月，我们正式成立了端到端小组。

我们是从去年 9 月的战略会，提出来自动驾驶领先的战略。在那个时候，确立了 RD（Research Development，技术研发）和 PD （Product Development，产品研发）的研发方式。但实际上自动驾驶团队内部早就开始了。

云见 Insight：你们和清华赵行老师的团队一起撰写了 VLM 的论文，你们是怎么合作的？

郎咸朋：我们跟赵行老师很早就有一些交流，倒不是合作方面的。我们经常跟这些专家交流和讨论。赵行老师，包括其他的一些业界科学家，对人工智能都有很强的能力、好奇心。

应该是从 2022 年左右。赵行老师回国工作之后，我们有些方向聊的比较投机，干脆就合作，做一些预研工作。他出学生，我们这边也有一些员工，一起来做这个事情。大家在思路和认知上碰撞和交流，产生了一些成果。清华那边基本上还是做论文技术方向的研究，具体的实施和落地，我们这边出的资源多一些。

云见 Insight：你们的双系统模型，在具体实施的时候，两个系统是怎么协作的？

郎咸朋：我们现在还是以端到端这个系统为主。系统 2 有两个作用。第一，系统 1 可以主动去问它一些问题，比方说前面不会开了，去问这系统 2 我应该怎么办？就跟你用 ChatGPT 是一样的。系统 2 会给一些行动上的建议。第二，系统 2 也会时时刻刻去看路面的情况，主动给系统 1 提示，跟驾校教练似的，当他看你快出危险的时候，帮你踩脚刹车。

云见 Insight：系统 1 是端到端模型，输入感知信号，输出行驶轨迹。系统 2 是在哪个环节去把它的思考给到系统 1 的？

郎咸朋：它是以不同的频率去工作的。系统 1 可以理解成一个实时系统，大概每秒钟 10 帧左右。系统 2 我们现在跑了大概是 3 赫兹到 4 赫兹，比系统 1 帧率慢一点，但它会不断去把自己的建议和指令返回到系统 1。在这个过程当中，有一个交互。

三、交付倒计时，开始

云见 Insight：端到端从立项到现在初步上车，克服了哪些挑战？

郎咸朋：第一个是数据。我们在找什么数据、怎么找数据这块，迭代出了五星级司机的评价标准。在过程当中，在数据的配比方面逐渐找到了一些感觉。

第二是大模型的优化上车。现在的车端芯片，包括 Orin X 在内，并不是为大模型去设计和优化的。在这里边要跑实时的数据，它的算子运行效率是一个难题。我们做了很多优化的工作。

第三是测试方面，我们搭建了一套跟原来不一样的考试系统。我们用世界模型去把之前研发自测的路线模拟化了，直接在仿真系统里面跑一遍就行了。我们模型迭代速度非常快，曾经一周之内迭代了 15 个版本，每天都有两个版本。这在原来的研发过程中是不可想象的。

云见 Insight：把这个系统继续做到可交付的状态，工程落地上还有什么难度？

郎咸朋：挺多的。端到端加 VLM，说到底是一个技术方案。最终对于我们的车主来说，他看的不是这个。不是说你用 VLM 就领先，还是要看产品的实际效果和体验，我们接下来的重点，我觉得第一需要把产品体验做得更好一点。

虽然说我们看到 VLM 和端到端有很好的能力上限，确实它每天都在给我们带来一些小的惊喜，但在自动驾驶的大背景下，车跟人之间的信任关系怎么建立？我觉得这是一个很重要的话题。比方说人车交互，产品的设计，肯定跟之前辅助驾驶有很多不一样的地方。这也是我们下一步研发的重点。

云见 Insight：把模型的体验做好，难在什么地方？

郎咸朋：其实还是整个研发体系和流程的变更。人工智能是按照能力驱动的方式，以前是需求、产品驱动的方式。这里边有几个问题，第一，能力怎么获取？现在都说通过数据训练，那么数据的质量、规模还有配比，怎么去做这些事情？

第二，能力怎么考核？之前我有明确的产品设计需求，可以去验证它有没有达到。但是能力怎么评价？我不可能把所有知识点都列出来考一遍，而且也列不完。这两个我觉得非常困难。

云见 Insight：你们是怎么做的？

郎咸朋：数据方面，我们在所有数据里边筛选老司机的数据。我们有一套评判系统，就跟评价专车司机一样。你上了专车，肯定不担心他驾驶技能的问题，也不担心选路不合理的问题，也不担心他遇到突发事件不会处理，对吧？我们大概的思路也是这样。

我们老司机的比例只有不到 3%，拿他们的数据去做样本的处理和提取。包括我们自己也打分了，我这个分数是进不了老司机的。

云见 Insight：你是哪一点没有达到老司机的标准？

郎咸朋：我开车的时候可能有急加速、急减速，比如上班快迟到的时候。我们现在挑选的还比较严格，是按照人挑的。将来可能会根据片段挑，数据的质量和筛选也是不断迭代的。

云见 Insight：小马智行的 CEO 彭军说，端到端最难的是数据处理。最怕 Garbage In， Garbage Out。你们怎么解决这个问题？

郎咸朋：筛选老司机是一个思路。我们的数据肯定相对其他人多一些，因为我们车多，可挑选的范围比较大。如果数据质量不高，可能训练出的模型质量也不高。

还有训练方法的问题。举个例子，我们训练端到端的初期，发现红灯停的时候，系统老想去并线、加个塞儿什么的。后来思考了一下，是因为我们把一些认为没用的数据删掉了。有很多等红灯的数据，可能等 1 分钟、 2 分钟，什么也没干，这数据是不是就没用？你得让模型知道，有红灯的时候要静止等待。我们就补充了一些在红灯停止时等待的数据，之后这个现象就消失了。

云见 Insight：端到端模型的上限高，下限低，有时候会乱开。特斯拉 V12 也被曝出一些这样的情况，你们是怎么处理下限的问题的？

郎咸朋：这是我们量产交付过程中的主要工作。一是通过更加合理的数据配比，提升它的下限。第二，在控制模块那部分，有一些安全约束的规则，避免这个车做出不安全的行为。

总而言之，还是能力提升为主。就跟学习一样，最终还是素质教育，不是说靠刷题能出来一个能力特别强的人。

四、能买到什么卡，用什么卡

云见 Insight：你觉得未来车端需要多少算力、云端需要多少算力？

郎咸朋：端到端这一侧，我们的参数量基本上是几亿规模，零点几个 billion。我们认为端到端使用和训练的算力基本上是 Eflop 级别的，现在我们 cover 这块算力没有任何问题。理想整个公司大概现在是 4 EFlops 多一点、不到 5 EFlops 的算力。

云见 Insight：怎么看特斯拉今年 10 月就会把 Dojo 的算力提升到 100 EFlops？

郎咸朋：我们认为端到端的训练几个 EFlops 就够了，但是 VLM 的参数量是端到端的 10 倍以上，可能需要几十 EFlops 算力。

特斯拉说 100 EFlops 算力，我觉得对应我们现在的 VLM ，但还不止。到了世界模型，是没有上限的。世界模型越复杂、越逼真，训练和评价体系越好。将来我们的思路是，在真实世界里获取数据，用来训练世界模型。世界模型里边的数据，用来训练 L4 系统。

云见 Insight：你们的模型比特斯拉更耗算力？可以这么理解吗。

郎咸朋：不一定，特斯拉也有世界模型。它现在公开还没有说它有 VLM 模型，但是我们认为大家都会走这一步。

云见 Insight：你们用的是什么卡？

郎咸朋：我们能买什么卡用什么卡。

云见 Insight：这会影响计算效率吗？

郎咸朋：多少会影响一点，但还好。我们现在主要还是卡的绝对数量的问题，并不是卡与卡之间运算效率的问题。

云见 Insight：你们去测过不同的卡吗？哪些是你们可用的吗？

郎咸朋：我们肯定会做评测。要看单个效果，确实可能有一些特点，但是我们现在的训练体系和架构已经是英伟达的。如果单纯从算力上看，可能差不太多，但是背后这套训练方法、体制架构优化完全是不一样的。

云见 Insight：如果用自己的芯片，有这个问题吗？所有的工具链也要重新开发。

郎咸朋：有可能。但是你的芯片是不是可以按照英伟达的方式去做一些设计？我觉得这可能是一些（方法）。

云见 Insight：你怎么看舱驾一体？

郎咸朋：舱驾一体很多企业在提，但提的并不是太多人工智能企业。如果站在传统的辅助驾驶 ADAS 方案上，座舱里边的人工智能不是那么先进的前提下，我觉得可能有一些效率或成本上的考虑，愿意往舱驾一体去做。

但是现在我的感觉是，自动驾驶往 L4 走，对算力的要求越来越大，可能还有一些方案的不确定性。智能空间的一些应用，对算力的要求其实也在不断成长中。现在你把两个都不太确定的东西往一块安，我觉得可能对于 AI 的发展不是那么有利。

云见 Insight：未来会吗？

郎咸朋：现在不好说。因为智能空间的探索才刚开始。首先你要解决人不开车这件事，把人解放出来之后，可能就会有很多你现在无法想象的舱内应用了。只要驾驶位上人还花很大精力去开车，那舱内的应用永远没法解放思想去做。

云见 Insight：英伟达汽车业务负责人吴新宙博士有一个观点，说 One Model 端到端是最终的技术趋势，但在未来几年，之前的一套基于规则的系统仍然会存在，和端到端相辅相成，相当于一个老师，去验证这个学生哪里做的不好。你同意这个观点吗？

郎咸朋：我觉得看他想做什么，做辅助驾驶的话，我觉得可能某种情况下是对的，但我的想法是做自动驾驶，我的评判、验证和考试系统应该是按照自动驾驶去打造的。我可能用世界模型去做这个事情，就是用更高维度去做这个事情，而不是用一个低维的去验证一个高维的。

云见 Insight：你怎么看特斯拉做 Robotaxi（自动驾驶出租车）？

郎咸朋：它是一个很好的商业创新，我们也希望看看它在这个 case （案例）上有没有好的表现。

云见 Insight：你们会做这个场景吗？

郎咸朋：暂时不会。我们做人工智能跟企业的使命愿景是一致的，创造移动的家、创造幸福的家。如果我们创造幸福的家，代价是让很多人不幸福，那不行。如果做 Robotaxi ，很多司机是不是就会失业、下岗？这不是我们想看到的。

云见 Insight：这就是百度萝卜快跑遭遇的舆论。

郎咸朋：对，我觉得中国的国情也不太一样。

五、做技术，还是做能落地的产品？

云见 Insight：你在百度干了 5 年，这段经历对你的锻炼是什么？

郎咸朋：很多人说郎博你以前在百度的经历应该跟理想完全不一样，但我觉得是非常一致的。我 2013 年 4 月 24 号进百度，当时要做百度街景，面临着两大竞品挑战。一个是 Google 街景，一个是腾讯街景，腾讯比我们早上线半年。

8 月 25 号百度世界大会，如果我们有这个产品，Robin（百度 CEO 李彦宏）肯定会跟大家介绍。但是如果没做好，那就不讲了。话外音，这个产品可能就永远消失掉。我们的挑战，就是怎么用四个月做好这件事。

当时只有四个人，一个做后台服务，一个做前端，我做算法，还有一个做数据。我们第一个难题是人，整个 5 月都用来招人。周一到周五做自己的事，周六、周日全天面试。我们的面试在百度食堂，桌子接在一起。一面三、五个人，二面三个人，三面是一个人，流水线作业。HR 领进来 5 个人开始面，一面淘汰的出门右转，没淘汰的到这个桌子再继续二面，通过的人再到三面，不通过人出门。

云见 Insight：当场告诉他吗？

郎咸朋：当场告诉他。当时就必须这么面，才能快速招到所有人。每天晚上都是虚脱状态。这么弄了一个月，到 6 月 1 号，终于有大概 100 人了，还从别的部门借了一些人，开始干这个事。

我们 delay （推迟）了所有节点，因为那些节点是用传统的产品研发方式排的，根本就不适应资源又少、时间又短的开发条件。但最后的节点守住了。8 月 24 号凌晨三、四点钟，我们终于接近交付上线。之后，那天就去百度大会介绍了一下。

这不是结束，恰恰是开始。当时我的感觉是为了满足目标，一定要打破常规做一些事情，而不是依照一些传统的流程。

第二，当时在做街景的时候，我们有一个技术创新。如果你打开街景，里边每个车的车牌号都是模糊掉的，明显的人脸是模糊掉的，保证你的隐私不被侵害。这当时是人来做的，我们有个很大的外包团队，上百人。

那时候很少人做深度学习。我们当时找余凯，当时他是百度 IDL （深度学习研究院）院长，找他帮忙去解决人脸的问题。

凯哥那边用了当时最先进的深度学习模型，做到 86% 左右的准确率。虽然比传统方法好很多，但是人能做到 95%。86% 还达不到人的水平，后来我们自己去做了一些模型的尝试。我们用的模型其实不如凯哥好，但是我们的数据足够好。当时精标了好多数据，把模型的体验提升到 99%。

云见 Insight：你从导航地图到高精地图，然后到百度 L3 事业部。在百度 L3 时做了哪些事？

郎咸朋：L3 做的是跟车企的量产交付。其实 L3 做的更像特斯拉，L4 做的是 Waymo，百度当时想的很好，要特斯拉有特斯拉、要 Waymo 有 Waymo。

云见 Insight：你需要对接车企吗？

郎咸朋：要对接车企，当时谈了好多车企。谈完了之后我就决定来理想了。

在百度你想把这种技术应用起来，其实很难。在百度的后期，我就在想到底是做技术，还是做产品。我做街景的时候，还是个很小的工程师，挣得也不多，级别也不高，但交付之后，我现在还很自豪。每一张图片都是用我的程序去处理的，这给我带来的愉悦感和自我价值是非常大的。

自动驾驶也是，我如果留在百度，依然可以做很先进的技术，但现在其实还是没落地。我还是比较愿意去做实际的产品。

云见 Insight：来理想之后，你怎么组建理想的智能驾驶团队？

郎咸朋：第一个阶段是供应商阶段，我们没有太多 head count（招聘名额），也没有太多资源，我那时候找了一些非常核心的人，像贾老师（理想智能驾驶技术研发负责人贾鹏）是 2020 年来的。他跟我认知类似，就是在英伟达也可以有很好的待遇，但是自动驾驶永远都做不到车上去。

王佳佳（理想智能驾驶量产研发负责人）是 2021 年，我们交付完第一款车之后来的。他在博世，只能做他们德国总部在中国的一些匹配。如果想做自动驾驶，那只能来新势力。

我觉得我们头上这几个人，都是因为对自动驾驶有巨大的热爱，特别是对它能落地量产，千家万户都能用到，有非常一致的价值观和认知。从 2021 年自研开始，我们团队打造出了非常高的执行力。

云见 Insight：现在几百人的团队，你觉得管理上最大的挑战是什么？

郎咸朋：怎么能让所有人的目标能一致。前面那些老人还好，但是最近这两年来的新人非常多。我们统计了一下，“卫城”（理想第一次自研基础辅助驾驶功能的 “战役”）时期的人只剩下 50 个人左右了。我们每年基本上都翻一翻。2021 年刚开始交付第一个量产项目时候大概 100 人，到年底大概 300 人， 2022 年底将近 600 人，2023 年底达到一个峰值，大概 1 000 人左右。新人怎么能在接受我们的文化的前提下，更好地发挥作用，是一个挑战。

但现在做得还挺好的。我觉得虽然新人来的多，我们的交付战斗力，技术上涌现的新东西，一点都没耽误。我觉得还是跟我们内部的组织文化有关系。

六、下一个阶段，不是人的战争

云见 Insight：这几年，你跟李想在自动驾驶方面有过哪些重要的谈话？

郎咸朋：我觉得今年年初算一个。我们对将来怎么做自动驾驶方案，有了比较明确的共识。

当时李想问我，郎博，你觉得咱需要那么多人吗？在我看来肯定不需要。我们如果看着现在这套架构，那确实需要很多人。但我觉得这个方案肯定不是最终走到自动驾驶的方案。我们的自动驾驶方案，应该是一个自我能迭代、数据驱动的方案。而且我们自己也有双系统这个思路，不管是端到端，还是 VLM，都不需要太多人参与。

但前提是，我们的考试系统、数据规模、算力储备够，才可以。它上升到这个维度的战争，不是人的战争。特斯拉自始至终这么多年，也没有上过 1000 人，它的核心研发也就两三百人规模。我觉得特斯拉一定是围绕着怎么高效实现自动驾驶，有一套研发流程的。

云见 Insight：特斯拉的两三百人，是不是一个人能顶 10 个人？

郎咸朋：我觉得特斯拉单拿出一个人来，不见得比我们的算法人员强多少。最主要的是它背后这套体系，有了这套高效的研发和流程体系，它的数据样本的制作、模型的训练以及问题的迭代，都是非常高效的。

云见 Insight：如果又有人、又有体系呢？就是华为。

郎咸朋：这是矛盾的。你有体系，不需要人。华为跟我们也不太一样。华为是供应商，它可能对应不同车型、不同厂商，需要有很多人去做方案的适配或迭代。不像我们跟特斯拉，都是围绕自己的产品去迭代的。

云见 Insight：理想之前提出 2026 年要有 2600 人的团队。这个计划还在继续吗？

郎咸朋：那是去年下半年的时候提的。最新我们也没有什么人数目标。

云见 Insight：未来的研发流程围绕着模型，应该如何搭建团队？

郎咸朋：我们希望将来我们的能力都迭代到系统上。我们有两条线，一个是预研更多人工智能方案或可行性，另外是大规模优化我们的交付效率。

团队现在有三拨人，交付团队现在还有几百人规模，负责 AD Max 和 AD Pro 两个平台的交付。

Pro 项目轻舟做了很多研发执行的工作。去年到今年上半年，轻舟去接我们 Pro 平台，他们之前没有量产交付的经验，我们利用之前的交付经验，用了不少人，和他们一起协作完成了交付。交付完了，我们还有一些人去帮他们看问题的修复，包括我们也用现在这套系统能力帮他们赋能。

我们当下的研发，就是 VLM 加端到端的研发。交付是交付这一代系统，研发是研发即将要交付的一代。我们还有预研团队，预研接下来的一些事情。比方说，我们的 VLM 现在是 2.2 个 billion 的参数量，这其实是受限于当前硬件的。接下来如果上了英伟达 Thor 或者其他芯片，可能会有一个团队去预研更大参数量、能够用在系统 2 上的大模型。

云见 Insight：你去年还去硅谷招聘了，现在在招人吗？

郎咸朋：我们曾经有想法去硅谷招聘，现在没这个想法了。

之前我们还处于追赶状态，随着越做越好，外界的认可度越来越高，现在很多头部人才也愿意到理想来。所以我们没必要非要去美国招聘，中国本土的人也很多。就像今年，我们会有 240 个校招的孩子来。他们都是 QS （Quacquarelli Symonds 世界大学排名）前 100 的学校，甚至可能大部分都是 QS 前 50 的。

这些人培养两三年后，我觉得肯定非常优秀。我们不用再去外面找。美国回来的人，如果愿意来理想，我们也会看一看。

云见 Insight：但你们不考虑在硅谷设一个办公室了？

郎咸朋：现在不在我们的计划之内。

云见 Insight：如果 Andrej Karpathy 愿意来理想，你们会在硅谷为他设立一个办公室吗？

郎咸朋：我觉得第一他可能不会来，第二我们还是看必要性。

云见 Insight：你在理想这五年，理想智能驾驶走过几个阶段，路标是什么？

郎咸朋：第一个阶段是我们自研之前，用供应商的方案。挑战是怎么借助供应商的能力去交付产品。我们在这里面其实发展了一个自己核心的能力，就是以数据驱动为核心的数据闭环的能力。

我不知道你以前听过没有，我们理想 One 上旁边还有摄像头。很多人当时都以为理想用的是什么双目视觉方案，其实不是的。我们有个 Mobileye 摄像头，旁边放了一个自己的摄像头，其实那就是我们的数据闭环系统。

云见 Insight：用来做影子模式的。

郎咸朋：对，或者数据分析系统的。虽然很多人都说，理想起步晚，其实在数据驱动方面我们一点都不晚。从 2019 年交付第一辆车，我们就部署了影子模式。迭代到现在，已经做了五年，形成了非常高效的数据闭环体系。

第二个阶段，就是自研阶段。 2021 年我们用 J3 交付了第一套自动驾驶系统，走过 0 到 1 。2022 年交付了 Orin X，拥有了跟别人一样的算力，因为 J3 这个算力就几个 TOPS，我们要打小鹏这种几十个 TOPS，还要跟它产品持平。到了 Orin 这一代，我们终于跟别人算力上持平了，可以去做更好的算法。

到了 2023 年，我们用一年时间走完了有图、NPN、无图这三代，走完之后，基本上就到第一梯队了。今年，我们用了半年时间，不管是这一代的无图，还是下一代的端动端加 VLM，已经开始甩开一些竞争对手，站到了行业的最前线，开始探索一些未知的边界了。

云见 Insight：最前线站着几家公司？

郎咸朋：今年 6 月之前，我们还在追赶阶段。以前可能前面的人比较多，蔚来、小鹏都在我们前面。后来慢慢的前面人越来越少，可能华为在我们前边。到了现在这个时刻，我觉得可能就是特斯拉，华为，在跟我们差不多的位置上。

本文来自微信公众号：云见 Insight，作者：王海璐

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

文集：

新能源汽车，未来已来

频道：车与出行