理想加入“端到端”竞赛，虽只是PPT-虎嗅网

出品丨虎嗅汽车组

作者丨肖漫

头图丨视觉中国

文章摘要

理想汽车发布了基于端到端模型、VLM 视觉语言模型和世界模型的全新自动驾驶技术架构。

• 💡 理想汽车采用了“快系统”和“慢系统”进行协同自动驾驶，模拟人类的思考和决策过程

• 🚗 理想的 VLM 模型参数量达到 22 亿，推理时间从 4.1 秒优化至 0.3 秒

• 🔍 理想首个公开端到端技术方案的车企，领先布局在智能驾驶能力上追赶的机会

“端到端”的风正在席卷中国智驾行业。

进入 2024 年下半年，如果有车企谈智能驾驶时不谈“端到端”，那大概率会被视为落后了。

7月5日，理想汽车发布了基于端到端模型、VLM 视觉语言模型和世界模型的全新自动驾驶技术架构。这基本是理想汽车端到端路径的一次方法论输出，较为完整地呈现出理想智驾下一步发展路径。

在虎嗅汽车看来，此次发布有三大值得关注的焦点——理想的“端到端”和其它玩家的有何不同？理想的智驾研发到了什么程度？以及，理想为何在此时强调智驾技术能力？

相较华为，理想方案更为激进

先看理想全新的自动驾驶技术架构。其受诺贝尔奖得主丹尼尔·卡尼曼的快慢系统理论启发，在自动驾驶领域模拟人类的思考和决策过程，采用了“快系统”和“慢系统”进行协同。

快系统，即系统 1，善于处理简单任务，是人类基于经验和习惯形成的直觉，足以应对驾驶车辆时 95% 的常规场景。
慢系统，即系统 2，是人类通过更深入的理解与学习，形成的逻辑推理、复杂分析和计算能力，在驾驶车辆时用于解决复杂甚至未知的交通场景，占日常驾驶的约 5%。

在这一架构原型下，系统 1 由端到端模型实现，通过接收传感器输入，并直接输出行驶轨迹用于控制车辆。系统 2 由 VLM 视觉语言模型实现，其接收传感器输入后，经过逻辑思考，输出决策信息给到系统 1。双系统构成的自动驾驶能力将在云端利用世界模型进行训练和验证。

据理想的说法，其系统 1 的端到端模型采用的是 One Model 方案，主要由摄像头和激光雷达构成，多传感器特征经过 CNN 主干网络的提取、融合，投影至 BEV 空间。

另外理想在输入端还加入了车辆状态信息和导航信息，经过 Transformer 模型的编码，与 BEV 特征共同解码出动态障碍物、道路结构和通用障碍物，并规划出行车轨迹。

相较于华为、小鹏等厂商采用的是分段式端到端方案，理想采用的 One Model 方案更为激进。特斯拉同样是 One Model 方案，但其“输入图像、输出控制”的方案比理想的“输入传感器信息、输出行驶轨迹”更进一步。

需要指出的是，目前各家厂商在端到端上采用不同的路径只是选择上的差异，并无优劣之分。（关于端到端的技术原理，虎嗅汽车团队曾在《特斯拉，要跟华为开战了》一文中有过详细解析）

理想这套架构的特别之处其实是系统 2，其基于的 VLM 视觉语言模型的算法架构由一个统一的 Transformer 模型组成，将 Prompt（提示词）文本进行 Tokenizer（分词器）编码，并将前视相机的图像和导航地图信息进行视觉信息编码，再通过图文对齐模块进行模态对齐，最终统一进行自回归推理，输出对环境的理解、驾驶决策和驾驶轨迹，传递给系统 1 辅助控制车辆。

在实际场景中，如果系统二发现行驶过程中地面路面非常坑洼不平时候，其会给系统 1 发一个降速的提醒，并告知驾驶员前方的坑洼路车辆将慢速行驶，减少颠簸；又或者是能够识别公交车道的位置以及辨别潮汐车道等。

用理想的话说，系统 2 相当于副驾坐了个驾校的教练时刻监督驾驶行为。值得一提的是，小鹏的大语言模型 XBrain、毫末的自动驾驶语义感知大模型也有类似能力。

据悉，理想的 VLM 模型参数量达到 22 亿，VLM 模型在车端的推理时间也从 4.1 秒优化至 0.3秒。

双系统之外，理想还介绍了端到端方案的测试和验证方法。业内主流的做法是通过 3D 虚拟环境、重建式仿真、生成式仿真等进行仿真测试。理想的做法则是结合了重建仿真和生成仿真两种技术路径，相当于做了重建的真题和生成的模拟题。

事实上，特斯拉也利用了大模型生成连续视频，打造 World Model 即世界模型；自动驾驶公司 Wayve 的自动驾驶大模型 GAIA-1（已拥有 90 亿个参数）也同样可以生成驾驶场景视频，描述场景以及做出预测。

总的来看，理想的技术架构是在车端布局双系统，ONE Model 的端到端模型让其自动驾驶系统拥有了像人类老司机的行为能力；VLM 模型能够让自动驾驶系统拥有像人类一样的逻辑思考能力；而世界模型则是提供了学习和考试的环境，拥有快速迭代的能力。

据理想智能驾驶负责人郎咸朋透露，其端到端方案从去年下半年就在内部孵化并启动预研，目前已经完成了模型的原型验证和实车的部署。

不过，这一方案还难以交付给用户，理想在本月给 AD Max 用户的，是推送无图 NOA 方案。

智能驾驶迎来超车时刻

“端到端”正在成为各家厂商智能驾驶追逐战的重要方向。

今年 3 月，元戎启行能够将端到端模型成功上车；华为在 4 月发布乾崑 3.0 时就表示技术转向 GOD/PDP 网络全新架构，实现预决策规划一张网；小鹏 5 月在 AI DAY 上宣布端到端大模型已经量产上车。另外，包括蔚来、小米、小鹏等厂商都对智驾团队进行了调整以开展端到端的布局。

可以看到，包括特斯拉在内的各家厂商在端到端技术方向上目前都处在探索当中，尽管在方案、路径上的选择各有不同，但可以肯定的是，端到端已经成为智驾前进的方向。

不过，端到端会放大智驾系统的上限与下限，其能够带来智驾能力提升的同时，也带来的难以解决的安全问题，端到端是一个神经网络黑箱，其不可解释性带来了一部分安全隐患。

在各家争相布局之际，理想是首个公开端到端技术方案的车企，李想本人上个月在重庆论坛就公开了两大系统的做法引起了业内热议，此次更是将全套技术架构方案公示，可谓是趁热打铁。

考虑到理想在下半年不会有新品发布，其率先在智驾能力上的输出既能让企业保持热度，或也有维持其现有产品竞争力的考量。另外，端到端技术路径的布局也给了理想在智驾能力上追赶的机会。

相较于华为、小鹏等采用分段式端到端做法，理想的端到端模型实现难度更大，其从PPT到走向量产落地要耗时多久，效果如何，还需要保持观察。

根据辰韬资本发布的《端到端自动驾驶行业研究报告》，国内自动驾驶公司的模块化端到端方案上车量产时间可能会在 2025年。是骡子是马，明年就到了拉出来遛遛的时候了。

如对本稿件有异议或投诉，请联系tougao@huxiu.com

理想加入“端到端”竞赛，虽只是PPT

最新评论

大 家 都 在 看

大 家 都 在 搜

大家都在看

大家都在搜