网站开发开票交税额,网站推广网络营销,零基础怎么学美工,wordpress语言包编辑点击下方卡片#xff0c;关注“自动驾驶之心”公众号戳我- 领取自动驾驶近30个方向学习路线作者 | Canyu Chen 等编辑 | 自动驾驶之心本文只做学术分享#xff0c;如有侵权#xff0c;联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球自动驾驶VLA的一个隐藏…点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线作者 | Canyu Chen 等编辑 | 自动驾驶之心本文只做学术分享如有侵权联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球自动驾驶VLA的一个隐藏问题过去一年自动驾驶研究正在快速转向一种新的技术范式Vision-Language-ActionVLA模型。在这一框架下自动驾驶被重新建模为一个统一的生成问题——模型接收多模态环境信息摄像头图像、车辆状态、导航指令等然后直接生成未来的驾驶轨迹。从 DriveGPT、EMMA到 AutoVLA、Orion、ReCogDrive一系列工作都在探索如何利用多模态大模型承担自动驾驶中的决策与规划任务。然而如果仔细观察当前主流VLA系统的技术路线会发现一个非常普遍的设计模式以多模态大模型MLLM作为语义理解与推理底座在其之上往往外挂一个专门的轨迹规划模块例如 Diffusion Planner 或其他生成式规划器。这种结构能够在一定程度上弥补语言模型在连续控制上的不足但同时也增加了系统复杂度并在一定程度上限制了模型能力随规模扩展的潜力。相比之下Curious-VLA选择了一条更加激进的技术路径完全依赖MLLM的自回归生成能力来完成轨迹规划而不引入额外的Action Token设计也不依赖Diffusion Planner等复杂规划模块。令人惊讶的是在这种更加简洁的模型结构下该方法依然能够在Navsim基准上取得VLA自动驾驶的SOTA性能。按理说在这种“纯MLLM自回归规划”的VLA模型中强化学习应该能够进一步提升模型的策略质量并帮助模型探索更加优越的驾驶行为。然而在许多相关工作中强化学习带来的提升却非常有限。有些模型在加入RL之后只获得了极小的性能改进甚至性能出现了下降。这就引出了一个关键问题为什么在自回归VLA模型中强化学习几乎没有发挥作用在论文《Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models》中作者给出了一个非常关键的解释——问题不在强化学习本身而在于策略已经在模仿学习阶段“塌缩”了。 换句话说当RL开始训练时模型其实已经只会一种驾驶方式。VLA应用本文提出强化学习方法ADASADAS val/reward与直接应用GRPORandom val/reward强化学习的效果对比图来源论文 补充材料Figure 6论文链接https://arxiv.org/pdf/2603.06049代码开源https://github.com/Mashiroln/curious_vla.git摘要CuriousVLA 揭示了 MLLM 自回归在自动驾驶中的探索坍塌问题并通过多样性驱动训练释放多模态大模型在自动驾驶中的 Scaling 潜力。一个被忽视的问题Narrow Policy在分析自动驾驶VLA训练流程时作者提出了一个此前几乎没有被系统讨论的问题Narrow Policy策略过窄。简单来说Narrow Policy指的是模型在决策时只会生成非常单一的一类驾驶轨迹缺乏必要的策略多样性。为了验证这一现象论文对现有两类代表性VLA模型进行了实验分析包括基于轨迹token生成的Qwen2.5-VL以及带外部规划器的ReCogDrive。研究者对同一个驾驶场景多次采样模型输出轨迹并统计这些轨迹之间的差异。结果发现无论是哪一类方法生成的轨迹都高度相似几乎集中在同一个模式上。即使旨在生成Multimodal轨迹端到端模型DiffusionDrive其最高置信度的“选中轨迹”也出现多样性堪忧Narrow Policy问题示意图来源论文 Figure 1(b)这意味着即使在一个存在多种合理驾驶策略的场景中模型仍然倾向于给出几乎相同的决策。论文将这种现象称为探索塌缩exploration collapse。更直观地说当模型面对一个路口时人类驾驶员可能会存在多种合理策略比如略微提前减速、稍微晚一点刹车、或者选择不同的通过轨迹。但在当前VLA模型以及部分端到端模型中多次推理得到的轨迹往往几乎重合。这种现象在论文的可视化Figure 1结果中非常明显基线模型生成的多条轨迹几乎重叠而作者方法生成的轨迹则呈现出明显的多样性。 为了系统分析这一问题论文提出了一组Behavioral Diagnostics 指标来量化策略探索能力第一是Diversity用于衡量模型生成轨迹之间的差异程度第二是Quality表示采样轨迹中与真实轨迹最接近的一条第三是Performance即整体驾驶性能指标例如 Navsim 的 PDMS。理想情况下一个优秀的自动驾驶模型应该同时具备三个特征既能够生成多样化的候选轨迹又能够在这些轨迹中找到高质量的驾驶策略最终实现整体驾驶性能的提升。但现实情况是大多数现有VLA模型在Diversity 指标上都非常低说明策略空间已经严重收缩。Narrow Policy分析来源论文 Figure 1(a)而这一问题的根源其实来自训练流程中的第一阶段——模仿学习Imitation Learning。为什么模仿学习会导致策略塌缩如果进一步追溯 Narrow Policy 的来源问题其实出现在训练流程的第一阶段——模仿学习Imitation Learning, IL。作者从两个方面展开了分析模仿学习的监督信号过强在当前主流VLA方法中模型通常通过监督微调SFT学习人类驾驶数据。训练目标非常简单给定环境输入让模型预测与数据集中真实驾驶轨迹Ground Truth trajectory一致的轨迹token。从优化角度来看这一过程本质上是在最小化Cross-Entropy loss也就是说模型在训练过程中会被持续鼓励去生成唯一正确的轨迹。 问题在于自动驾驶并不是一个只有单一正确答案的任务。在大多数真实驾驶场景中往往存在多种同样安全、合理的驾驶策略。例如在一个路口减速时稍微早一点刹车或晚一点刹车都可能是完全合理的行为。但在模仿学习框架下训练数据只提供了一条轨迹其它策略都会被当作“错误答案”。这就导致模型逐渐学到一种极端行为对数据中的那条轨迹产生高度自信而忽略所有其它可能策略。论文将这种现象称为optimization objective mismatch——优化目标与真实驾驶策略空间之间存在明显不匹配。轨迹表示的时间尺度不均衡问题除了监督目标本身作者还指出了另一个容易被忽略的问题轨迹时间尺度的不均衡horizon scale mismatch。在自动驾驶任务中模型通常预测未来几秒的多个waypoints。由于预测采用自车坐标系越远的时间步其位置分布的方差就越大。例如论文中指出4秒后的轨迹位置变化可能比0.5秒后的变化大几个数量级。结果是在训练过程中远距离轨迹的误差会主导整体loss而近距离轨迹真正决定转向与控制精度的部分反而贡献较小。 这进一步削弱了模型对驾驶行为细节的学习能力也减少了策略的多样性。当这样的策略进入强化学习阶段时问题就会进一步放大。强化学习通常通过采样多条轨迹来估计策略梯度。如果模型已经只会生成一种几乎相同的轨迹那么这些样本的奖励也会非常接近。此时奖励方差会趋近于零GRPO优势函数也会随之消失当时最终导致策略梯度几乎消失。 这就是为什么很多自动驾驶VLA工作在加入强化学习后几乎没有明显提升——因为模型在进入RL阶段之前其策略空间其实已经被模仿学习严重压缩。换句话说强化学习并没有真正的“探索空间”。Curious-VLA让自动驾驶模型重新学会探索既然问题出在策略探索能力不足那么解决思路其实就非常明确在训练过程中重新引入探索能力。基于这一思路论文提出了一个新的训练框架Curious-VLA。与现有方法不同这一框架并没有改变VLA模型的结构而是从训练流程入手系统性地提升策略多样性。整个方法可以概括为一句话在模仿学习阶段增加轨迹多样性在强化学习阶段鼓励策略探索。具体来说Curious-VLA包含两个关键部分。CuriousVLA整体框架图来源论文 Figure 2第一部分是Feasible Trajectory ExpansionFTE用于改造模仿学习阶段的数据分布。传统模仿学习只使用一条真实驾驶轨迹作为监督信号而FTE的核心思想是将真实轨迹视为众多合理驾驶行为中的一种并主动生成更多“可行轨迹”。通过这种方式模型在训练时能够看到多种合理驾驶策略从而避免策略过度集中。第二部分是Diversity-Aware Reinforcement Learning用于提升强化学习阶段的探索能力。论文通过新的采样策略和奖励设计使强化学习更关注具有多样性的策略样本从而持续推动模型探索新的驾驶行为。这两个部分分别对应训练流程中的两个阶段在模仿学习阶段重点解决数据层面的策略单一问题在强化学习阶段重点解决策略更新中的探索不足问题。这种设计背后的逻辑其实非常简单。如果模仿学习阶段就已经把策略压缩到一个非常窄的分布那么强化学习几乎不可能再重新扩展策略空间。因此Curious-VLA首先通过数据扩展让模型看到更多合理轨迹然后再通过强化学习逐步优化这些策略。在接下来的两节中我们分别来看这两个关键模块是如何实现的。Feasible Trajectory Expansion FTE为了从根本上缓解 Narrow Policy 问题论文首先从训练数据入手提出了 Feasible Trajectory ExpansionFTE。 其核心思想非常直接不要只学习一条真实驾驶轨迹而是学习一组合理的驾驶轨迹。在传统模仿学习中每个训练样本只包含一条人类驾驶轨迹这会使模型逐渐收敛到一个极其狭窄的策略分布。而在真实驾驶环境中同一个场景往往存在多种合理的驾驶行为例如不同的减速时机、略微不同的转向路径等。因此论文将真实轨迹视为众多可行驾驶策略中的一个样本并通过数据生成的方式扩展策略空间。具体来说作者首先从 Navsim 训练集约10万条数据中筛选出约 1.2万段具有挑战性的驾驶片段例如多车道场景、复杂路口以及遮挡环境等。随后利用基于 diffusion 的规划模型生成多个候选轨迹并通过 PDMS 安全评分进行过滤确保这些轨迹在安全和交通规则上是可行的。最终训练数据被扩展为 约14.2万条多样化轨迹样本。不过当训练数据中包含大量不同轨迹时又会出现一个新的问题不同时间步的轨迹尺度差异非常大。远距离预测点的坐标变化远大于近距离预测点导致训练时的梯度主要来自远端轨迹。为了解决这一问题论文提出了 Step-wise NormalizationSN。该方法对每个时间步的轨迹坐标分别进行标准化处理使不同时间步的误差处于相似的数值尺度从而避免远端轨迹主导训练过程。具体来说作者首先统计了NAVISM数据集中的每一条轨迹在1-T每一个时间步上动作的平均值和方差接下来对训练VLA所使用的每一条轨迹的每一个时间步的动作执行如下标准化操作如果第步的轨迹动作为, 那么标准化后则表示为VLA的预测对象就从变成了,而在测试的时候再重新利用计算回非标准化的尺度。通过这三个设计——数据扩展、推理结构化以及逐步归一化——模型在模仿学习阶段能够接触到更加丰富的驾驶策略从而显著缓解策略塌缩问题。作者还进一步发现时间轨迹的调整对于多样性提升有着相当明显的帮助。Step-wise Normliaztion效果图统计Navtrain数据集的轨迹分布变化来源论文 Figure 3但即便如此如果强化学习阶段仍然只关注少数策略样本探索能力依然会受到限制。因此论文在强化学习阶段又进一步提出了一套新的探索机制。Adaptive Diversity-Aware SamplingADAS即便在模仿学习阶段引入了更多轨迹数据如果强化学习阶段仍然使用传统训练方式策略探索能力依然可能很快再次塌缩。为了解决这一问题论文在强化学习阶段提出了一套Diversity-Aware Reinforcement Learning机制其中包含两个关键设计Adaptive Diversity-Aware SamplingADAS和Spanning Driving RewardSDR。首先来看ADASAdaptive Diversity-Aware Sampling。在传统强化学习训练中训练数据通常是随机采样的。但在自动驾驶任务中不同场景的探索潜力其实差异很大。有些场景无论如何采样模型生成的轨迹几乎完全相同而在另一些复杂场景中策略空间则更加丰富。如果大量训练步骤都发生在那些“没有探索空间”的场景上那么策略更新就会非常低效。为此论文提出了一种基于奖励分布的场景筛选机制。在每一轮训练开始前模型会对每个场景进行多次离线采样并统计这些轨迹的奖励分布。如果某个场景中所有轨迹的奖励都非常接近说明该场景几乎没有策略多样性此时该样本就会被暂时移出训练集合。从数学角度来看ADAS 的核心目标是保证每个训练场景能够产生足够的奖励分布方差从而避免强化学习中的 advantage collapse。具体来说对于一个驾驶输入模型会从当前策略中采样条轨迹 并计算对应的奖励。通过这些样本可以估计该场景的奖励统计量包括平均奖励与标准差。为了刻画该场景的策略多样性论文将轨迹结果简化为一个Bernoulli过程每条轨迹要么成功高PDMS要么失败低PDMS。如果成功概率为则在一个大小为的采样组中所有结果完全一致全部成功或全部失败的概率为如果这个概率过高就说明该场景几乎不会产生策略差异因此探索价值很低。因此ADAS只会选择满足以下条件的场景进入训练集这一条件保证在强化学习采样时不同轨迹之间具有足够的策略差异。与此同时为了避免奖励估计不稳定论文还增加了一个统计一致性约束其中表示奖励范围该约束用于确保实际奖励分布与理论 Bernoulli 方差保持一致。通过这两个条件ADAS 能够自动筛选出具有高探索潜力的训练场景从而维持强化学习中的奖励方差并避免策略梯度消失问题。那些能够产生明显奖励差异的场景会被优先用于强化学习训练。通过这种方式训练过程会自动集中在具有更高探索价值的驾驶场景上从而保持奖励分布的方差并避免强化学习中的梯度消失问题。 除了采样策略之外论文还重新设计了强化学习中的奖励函数。在 Navsim 基准中自动驾驶性能通常通过PDMS 指标计算该指标综合考虑安全性、效率以及舒适度等多个因素。但原始奖励函数的数值差异往往比较小这会削弱强化学习对不同策略质量的区分能力。因此论文提出Spanning Driving RewardSDR通过类似 focal loss 的形式对奖励进行非线性变换这种设计会放大高质量轨迹与普通轨迹之间的差异使奖励函数对驾驶质量更加敏感从而增强强化学习的优化信号。通过多样性采样策略ADAS与跨度奖励函数SDR的结合强化学习阶段能够持续保持足够的策略探索空间并逐步优化模型的驾驶行为。在下一节中我们来看这些设计在实验中的实际效果。实验结果Curious-VLA如何释放探索能力为了验证 Curious-VLA 的有效性论文在多个自动驾驶基准数据集上进行了系统实验其中最主要的评估平台是Navsim benchmark与老牌的nuScene benchmark。在 Navsim v1 基准上Curious-VLA 在仅使用单前向摄像头输入的情况下取得了PDMS 90.3 的成绩达到了当前VLA方法中的SOTA水平。相比此前使用相同基础模型的 AutoVLAPDMS 89.1该方法提升了1.2 PDMS。 在nuScene基准上Curious-VLA则实现了0.33%的碰撞率安全系数相比于业内SOTA大幅度提升13%0.380.33。更值得注意的是在 Best-of-N 评估设置下即从多个候选轨迹中选择最优轨迹Curious-VLA 的 PDMS 达到了94.8几乎与Human Ground Truth 的 94.8持平。这一结果说明当模型能够生成多样化的候选策略时它实际上已经具备了接近人类水平的驾驶决策能力。除了整体性能指标之外论文还重点分析了策略探索能力的变化。通过前文提出的 Behavioral Diagnostics 指标可以看到在引入 Curious-VLA 后模型在轨迹多样性Diversity和轨迹质量Quality两个维度上都取得了明显提升。例如在轨迹多样性指标上平均 pairwise FDE 从原始模型的约0.20–0.33m提升到了1.41m说明模型确实能够生成更加分散且多样的候选轨迹。同时在质量指标上最佳轨迹与真实轨迹之间的误差也显著下降。论文的消融实验进一步说明了不同模块的作用。在模仿学习阶段仅仅增加数据扩展并不能带来明显提升只有在加入Step-wise Normalization之后模型才能真正有效利用这些多样化轨迹数据。而在强化学习阶段若采用随机采样策略训练很容易出现性能崩溃只有ADAS 采样机制能够稳定提升模型表现。模仿学习消融实验来源论文 Table 5这些实验结果共同表明策略探索能力确实是自动驾驶VLA性能提升的关键因素。当模型能够生成更加多样化的候选驾驶策略时强化学习才能真正发挥作用从而不断优化驾驶决策质量。结语长期以来大多数自动驾驶VLA模型都采用多模态大模型底座外挂Diffusion Planenr模块的方式实现自动驾驶。然而Curious-VLA则在不依赖额外Action Token、不引入Diffusion Planner等复杂规划模块的情况下仅依赖MLLM的自回归生成能力就能够实现VLA自动驾驶的SOTA性能。作者的独特贡献在于从SFT和RL两个方面分别消除了这条技术路径上的障碍使得自动驾驶模型可以完全利用MLLM时代的所有红利。这对于自动驾驶模型的Scaling有莫大的意义和好处。自动驾驶之心求点赞求分享求喜欢