对话理想智能驾驶研发团队将用户体验放在首位不断迭代和优化

2024-09-02 11:14:56 [ 中关村在线原创 ] 作者：戴夫

2024年成都车展已经正式开幕了，国产新能源品牌成为了展会焦点。其中理想汽车展台相当火爆，聚集了大量观众。理想的火热，离不开以用户为中心的研发方向，持续为用户带来高品质有价值的产品。中关村在线参加了理想汽车就智能驾驶方向的专访活动，智能驾驶研发副总裁郎咸朋博士以及智能驾驶高级算法专家詹锟出席，为我们解答了VLM视觉语言模型及端到端技术的挑战与解决方案等大家关心的问题。

1 VLM视觉语言模型的挑战与突破

詹锟专家针对VLM视觉语言模型在车载应用中的巨大挑战分享了经验，由于VLM模型规模庞大，远超传统智驾模型，如何在有限的车载芯片上高效运行成为首要难题。通过半年的不懈努力，理想汽车团队成功将推理时延从初期的4秒一帧优化至0.3秒一帧，实现了13倍的效率提升。这一显著进步得益于团队在视觉与语言两个模块上的深度优化，包括记忆模块的引入、算子融合技术的应用，以及针对语言模型的大规模量化与投机采样策略。

2 端到端技术的本质与评价标准

谈及端到端技术，詹锟认为，真正的端到端意味着从输入到输出由单一模型完成，无需中间环节。理想汽车的一体化OneModel端到端技术，直接通过传感器输入进行模型推理，再将结果直接用于轨迹规划和车辆控制，实现了高度的集成与效率。郎咸朋博士认为，端到端技术不仅简化了系统架构，还减少了信息损失，提升了自动驾驶的整体性能。

3 技术领先性与用户体验的深度融合

面对市场上众多品牌自称智能驾驶引领者的现状，郎咸朋博士表示，理想汽车更关注用户的实际体验和产品价值。他提到，从高速NOA到城市NOA，理想汽车始终以满足用户需求为核心，不断探索无图方案，并通过端到端+VLM技术架构实现快速迭代。同时，世界模型的引入为自动驾驶的迭代提供了强大的支撑，通过生成和重建技术，构建了覆盖各种场景的错题集，有效提升了模型的适应性和安全性。

4 世界模型与未来自动驾驶的展望

世界模型的两大组成部分——重建模型和diffusion transformer生成模型，并指出其强大的想象能力和对未知场景的预测能力。对于未来世界模型在车上的应用，虽然当前受限于硬件条件，但VLM模型已在一定程度上替代了世界模型的作用。随着技术的发展和数据量的增加，未来在L4级别的自动驾驶中，世界模型将发挥更加重要的作用，成为系统模型的核心。