中国建设工程协会标准网站,如何建设微商网站,10大营销理论,公司建一个网站要多少钱2026 年具身智能的一个主流共识是#xff1a;强化学习#xff08;RL#xff09;正在成为进一步提升智能的关键路径。 但当 RL 真正落到机器人上#xff0c;研究者普遍卡在两条路线#xff1a; 路线 A#xff1a;在仿真器里学。 仿真便宜、可并行、可规模化#xff0c…2026 年具身智能的一个主流共识是强化学习RL正在成为进一步提升智能的关键路径。但当 RL 真正落到机器人上研究者普遍卡在两条路线路线 A在仿真器里学。仿真便宜、可并行、可规模化这是 RL 最舒服的土壤但现实代价是仿真到现实非常难迁移——为了对齐真实世界往往需要复杂的建模、调参、域随机化与反复迭代投入大量时间与工程成本但是最终结果仍然差强人意。路线 B在真实世界里学。直接与真实机器人交互最“对”但会立刻碰到工程与数据效率的天花板试错成本高安全、磨损、重置、人力、数据效率低、训练速度慢导致进展往往缓慢且难以规模化。随着世界模型的发展随着世界模型的快速发展第三条路线逐渐形成 —— 用学习到的世界模型当模拟器在“想象里”做强化学习——既想保留仿真器的规模化又想更贴近现实世界的动力学和分布。然而这条路线还存在不可忽视的问题阻碍了其实际应用世界模型的闭环自回归执行会产生“幻觉”——画面看起来像成功甚至给出成功奖励但现实执行是失败。一旦把这种“幻觉轨迹”喂给强化学习优化信号会被系统性污染策略学到的不是完成任务而是学会利用模型漏洞。原文链接RLinf团队新作让 VLA的RL任务在想象里训练又不被骗清华大学、中国科学院自动化研究所和北京中关村学院联合提出 WoVRWorld Models as Reliable Simulators for Post-Training VLA Policies with RL一种基于可靠世界模型的VLA 强化学习后训练框架核心聚焦一个痛点世界模型的闭环自回归执行会产生“幻觉”如何让强化学习在着这种不完美的世界中实现有效训练arXiv: https://arxiv.org/abs/2602.13977Code (RLinf): https://github.com/RLinf/RLinfHuggingFace: https://huggingface.co/collections/RLinf/wovrWoVR不再假设世界模型是忠实模拟器而是把问题当成“可靠性”问题来解——研究强化学习应该如何与不完美的想象动态交互。WoVR 从三个相互关联的层面同时约束“幻觉”1模拟器层把世界模型做得更稳、更可控2交互层不一定从起点想象——关键帧初始化 KIR3对齐层策略在变模拟器也要跟上——PACE 共进化WoVR核心方法1把模拟器做得更稳、更可控基于 Wan 的动作可控世界模型基于先进的 Wan2.2-TI2V-5B作为网络的主干将动作嵌入通过两个通道进行注入与扩散时间步相加后通过AdaLN-Zero调制将原始的文本嵌入替换为动作嵌入通过交叉注意力注入。为了抑制累计误差模型的自回归生成使用首帧锚定的上下文即context由固定的序列首帧和上一个chunk生成的最后4帧组成因为自注意力机制在去噪时会更多关注第一帧。此外在训练时我们向context的后4帧注入噪声提升鲁棒性。再在策略优化时主动避开幻觉关键帧初始化长时自回归生成的累计误差会导致世界模型的生成产生物理上不正确的转变影响RL质量。在VLA交互中许多决定性的交互往往发生在夹爪与物体接触的关键帧附近能否准确模拟这一段的交互对于世界模型最终的生成质量至关重要为此引入 Keyframe-Initialized Rollouts (KIR)直接从任务关键帧附近初始化再开始执行“想象”缩短有效误差深度让学习更关注“关键接触段”而不是被长前缀的漂移带偏。RL方法上采用GRPO更新策略对于成功的轨迹我们会掩码成功之后的步骤并用有效长度对每条轨迹归一化。这种方法补充了KIR因为其往往用更少的有效步骤完成任务使用这种方法可以增加KIR轨迹每步的贡献进而让梯度由短且关键的任务段主导而非长且容易偏移的延续段主导。最后解决策略–模型分布错配提出 PACE 让模拟器跟得上策略演化虽然策略优化完全在学习到的世界模型中进行但策略分布会在训练过程中不断演变随着策略偏移用于训练初始世界模型的数据分布这种分布不匹配会降低想象rollout的可靠性。为此引入PACE(Policy-Aligned Co-Evolution)PACE 采用低频率、阶段式的共进化首先用基础VLA收集的轨迹训练初始世界模型 WMBase在WMBase中完成第一阶段策略优化后我们根据更新后的策略收集额外rollout进一步优化世界模型得到WMEvo。这种低频率的优化只需要再次收集一次数据不需要持续的人类监督降低操作开销同时在不牺牲训练稳定性的前提下保持了模拟器的可靠性。我们在RLinf上构建了WoVR以实现高效的训练和推理。实验验证1世界模型的性能指标WoVR在rollout 128/256/512帧的情形下性能超过EVACCosmos-Predict2和WMPO中所采用的OpenSora。2仿真环境性能在 libero suite 上进行实验每类套件上我们限制世界模型和仿真器的交互轨迹数量以此来模拟真实世界中轨迹昂贵的情况。 WoVR 和 WMPO 作为基于世界模型的方法使用的轨迹都只用来训练世界模型再在世界模型中训练策略而 GRPO 则是通过和环境进行交互来优化性能。在相同的轨迹条数限制下WoVR在4个套件上均实现超过WMPO和GRPO。真机实验真机上基于 Franka 开展了两个经典的 pick and place 的任务在引入少量轨迹无需在线交互只在世界模型中训练策略的情况下 WoVR实现了策略性能提升。1世界模型组件消融实验在消融实验中验证了首帧锚定的上下文机制和训练时的噪声帧机制的必要性。2策略优化机制消融实验这里还验证了KIR关键帧初始化机制和PACE世界模型和策略协同进化机制对于策略性能的提升效果。写在最后世界模型用于 RL 的关键不仅仅是把视频生成做得更像而是把“幻觉如何影响优化信号”这件事控制住。WoVR 给出了从模拟器、交互协议到对齐机制的系统解法。具身求职内推来啦近50家主流具身公司校招社招实习均可国内最大的具身智能全栈学习社区来啦具身智能之心知识星球国内最大的具身智能全栈技术社区来啦推荐阅读从零部署π0,π0.5好用高性价比面向具身科研领域打造的轻量级机械臂工业级真机教程VLA算法实战pi0/pi0.5/GR00T/世界模型等具身智能算法与落地平台来啦国内首个面向科研及工业的全栈具身智能机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~MuJoCo具身智能实战从零基础到强化学习与Sim2Real从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法Diffusion Policy在具身智能领域是怎么应用的为什么如此重要具身智能视觉语言动作模型VLA怎么入门视觉语言导航的主流方法有哪些是怎么用的1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等