自己建网站做电商还赚钱吗网站建设网页模板
自己建网站做电商还赚钱吗,网站建设网页模板,wordpress仿站抓取软件,网页游戏开服表怎么关闭点击下方卡片#xff0c;关注“自动驾驶之心”公众号戳我- 领取自动驾驶近30个方向学习路线作者 | Yinan Zheng等编辑 | 自动驾驶之心本文只做学术分享#xff0c;如有侵权#xff0c;联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球本文介绍清华AIR和小米…点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线作者 | Yinan Zheng等编辑 | 自动驾驶之心本文只做学术分享如有侵权联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球本文介绍清华AIR和小米汽车的团队最新工作Hyper Diffusion Planner(HDP)一个面向真实道路部署的扩散模型端到端自动驾驶规划框架。不同于大量停留在开环指标或仿真结果的方法HDP直接面向实车表现 从模型设计、训练范式都做了系统性探索目标是回答一个关键问题扩散模型在自动驾驶规划中的潜力是否被真正发挥出来了在这项研究中清华AIR和小米汽车的团队系统地探索了如何训练和设计基于扩散模型的自动驾驶端到端模型并成功在 Xiaomi SU7 上完成部署并进行了实车验证。HDP的目标是充分发挥扩散模型本身的能力因此摒弃了诸如 goal、anchor 等强先验设计而是基于“纯”扩散模型系统研究了 扩散模型的 loss 设计和轨迹表示方法对模型性能的影响。在企业级规模数据的支持下我们进一步验证了模型性能的 scaling 特性并发现只有在数据规模足够大时扩散模型的多模态能力才能被充分激发而这一能力在现有 benchmark 的数据规模下往往难以体现。此外HDP还引入 强化学习 进一步提升模型能力并同样通过实车实验进行了验证。经过 200 km 的实车测试结果表明相比于最基础的模型我们的框架在真实道路环境中的性能提升达到 10 倍验证了 扩散模型用于自动驾驶端到端系统的可行性与潜力。论文链接https://arxiv.org/pdf/2602.22801项目主页https://zhengyinan-air.github.io/Hyper-Diffusion-Planner/背景为什么我们还需要重新审视“扩散 自动驾驶”扩散模型在生成与决策任务中已经展现出强大能力但在自动驾驶领域很多工作仍然局限在开环回放或仿真环境。要真正跑到实车上挑战并不小能力与效率要同时满足既要理解复杂场景又要满足车端实时要求闭环误差会累积放大一点偏差可能在连续决策中演化为明显风险过度工程掩盖模型能力现有的工程落地方案依赖锚点、目标点等额外先验条件或重后处理难以验证扩散模型本体上限。我们希望走一条更“干净”的路线在不过度堆叠先验的前提下系统释放扩散模型在端到端规划中的潜力。方法总览HDP 做了什么1) 重新审视扩散损失空间规划任务要用“对的目标”训练扩散模型常见的训练目标来自图像生成范式但自动驾驶规划和图像生成有本质差异规划轨迹是低维、强约束、强时序相关的决策输出。如果直接沿用“通用配置”很容易出现训练不稳定、轨迹抖动和闭环表现退化。为此我们系统比较了 9 种 prediction-loss 组合tau0/v/epsilon预测与监督的全组合结论非常明确在规划任务中tau0-pred tau0-loss的收敛速度和稳定性明显更好生成轨迹更平滑末段抖动更少几何质量更高这一配置更符合“轨迹数据流形本身”的学习规律而不是被噪声空间牵着走。这一步的意义在于先把扩散模型的“基础训练坐标系”调准后续的表征设计与数据扩展才能真正起效。2) 轨迹表示双优融合Hybrid Loss 同时兼顾几何与动力学在轨迹表示上我们观察到一个非常典型的 trade-offwaypoint 表示更利于几何对齐但速度曲线容易抖动velocity 表示更平滑但对全局轨迹形状恢复不够充分。如果只选一边就会在“轨迹形状”与“动力学平顺”之间做妥协。因此我们提出Hybrid Loss模型仍然输出速度但训练时同时施加两类监督直接监督速度误差保证局部动力学一致性通过积分后的 waypoint 监督全局几何趋势避免轨迹偏形。理论上我们证明了Hybrid Loss 仍然对应有效的扩散学习目标工程上在实车闭环测试中它显著拉升成功率与稳定性是从“能跑”到“跑得稳”的关键一步。3) 数据规模带来“涌现”近亿级真实帧的系统验证我们做了从 10M 到 70M 帧的受控扩展实验重点回答一个问题真实数据规模到底能带来什么实验结果显示小数据下扩散规划容易模式塌缩数据规模上来后多模态行为能力明显增强开环与闭环指标均持续提升验证真实场景中的 scaling 特性。更重要的是数据扩展不仅提升“平均分”还提升了模型对长尾交通交互的覆盖能力同一场景下可以生成更合理的多种可行行为而不是单一僵化策略。这说明扩散规划在工业级数据条件下具备稳定、持续的可扩展潜力。4) RL 后训练进一步强化安全能力模仿学习可以学到“像人开车”但在安全关键场景中仍然需要更直接的目标优化。因此在 IL 预训练之后我们加入与 Hybrid Loss 兼容的 RL 后训练策略重点针对安全相关行为做强化。如果用一个更“公式化”的方式来描述我们先在旧策略基础上写出一个带 KL 正则的离线 RL 优化目标用来约束新策略不要偏离原来的模仿策略这个目标的闭式最优解可以写成一条简单的“加权重采样”形式在原策略的基础上用 (\exp(\beta r)) 对高回报轨迹进行放大在具体实现上我们并不显式采样这条新策略而是把它“折叠”进扩散训练得到一个带权重的混合回归损失回报越高的样本对应的扩散监督权重越大这里的范数与前文 Hybrid Loss 使用的是同一个加权范数这样就把“更安全”的偏好自然注入到了同一套扩散 混合损失框架中我们在论文中给出了详细的证明。相比之下很多针对扩散模型的 RL 方法会把整个去噪过程当成一个多步 MDP将每个 denoise step 拆成一个时间步再用 PPO 等 RL 算法去优化整条“去噪轨迹”。这类方法一方面实现复杂需要在采样过程中显式建模中间状态另一方面必须使用足够细的时间离散才能保证高斯近似成立导致计算量和显存开销都显著增加。我们的做法只是在原本的 IL diffusion loss 外面乘上一个简单的回报权重相当于“加权监督学习”既兼容现有训练管线又能在几乎不增加工程复杂度的前提下让扩散规划器朝着更安全的方向偏移。最终我们得到HDP-RL在真实闭环场景中模型在安全相关任务上的表现进一步提升实现从“能开”到“开得更稳、更安全”的持续进化。safety-related success rate improvementclosed-loop scenario success case 1losed-loop scenario success case 2注红色轨迹表示 HDP蓝色轨迹表示 HDP-RL。实车结果不是仿真更优而是真路更强HDP 在真实道路闭环测试中覆盖多类城市场景取得了显著收益相比基础扩散规划器闭环性能提升约 10x在仅使用轻量后处理的情况下依然保持高质量表现验证了扩散模型在真实复杂交通中的可部署性与可扩展性。一句话总结HDP通过充分的实车实验证明了经过精心设计和训练的扩散模型可以成为自动驾驶的强大且可扩展的Planner。自动驾驶之心求点赞求分享求喜欢