宁晋网站建设代理价格孟村县网站建设公司
宁晋网站建设代理价格,孟村县网站建设公司,没有网站可以做搜索引擎营销吗,qq可以上网Jim Fan团队新作#xff01;英伟达提出世界动作模型DreamZero#xff0c;零样本泛化能力两倍碾压π0.5
原创 关注具身智能 智猩猩AI 2026年2月10日 18:47 北京 1人
智猩猩AI整理
编辑#xff1a;华严 当前视觉-语言-动作#xff08;VLA#xff09;模型发展迅速#xf…Jim Fan团队新作英伟达提出世界动作模型DreamZero零样本泛化能力两倍碾压π0.5原创 关注具身智能 智猩猩AI2026年2月10日 18:47北京1人智猩猩AI整理编辑华严当前视觉-语言-动作VLA模型发展迅速但往往缺乏对物理世界的深刻理解在面对新环境时尤其是新动作或新技能的泛化性仍存在局限性。为此NVIDIA Jim Fan团队提出一个世界动作模型WAMDreamZero基于拥有140亿参数的预训练视频扩散模型Wan 2.1所构建。与传统的VLA不同DreamZero能够通过预测未来世界的状态和动作来学习将视频作为世界演变的密集表征。通过模型与系统层面的优化优化DreamZero实现了38倍的推理加速支持以7Hz进行实时闭环控制。在真机实验中与顶尖VLA模型π0.5相比DreamZero对新任务和新环境的泛化性提升2倍以上。更厉害的是DreamZero仅在30分钟的play data上即可将基于AgiBot G1预训练的模型迁移到全新的机器人本体上同时保持零样本泛化能力。论文标题《World Action Models are Zero-shot Policies》论文链接https://dreamzero0.github.io/DreamZero.pdf项目主页https://dreamzero0.github.io/01方法基于预训练的视频扩散模型构建世界-动作模型面临视频-动作对齐、架构设计和实时推理三大挑战。DreamZero的设计基于这三项核心挑战训练了一个端到端的统一模型确保模态间深度融合采用自回归架构并充分利用闭环控制的特性通过一系列软硬件优化方案实现了38倍推理加速实时控制达到7Hz。1.1 DreamZero模型架构DreamZero模型架构如图4所示以自回归方式训练用于预测视频帧和对应动作。DreamZero仅对视频模态引入自回归建模避免来自闭环动作预测的误差传播。DreamZero采用流匹配作为训练目标在视频和动作模态间共享去噪时间步这有助于在训练初期更快收敛。此外采用Teacher Forcing作为训练目标模型学习在给定已去噪的前序数据块的条件下对当前含噪块进行去噪。在推理时DreamZero联合去噪视频和动作块并利用KV缓存提升效率。1.2 DreamZero的实时执行基于扩散的世界动作模型继承了视频基础模型的强大泛化能力但其迭代去噪过程与反应式机器人控制之间存在根本矛盾。研究人员对以下两个问题进行了研究1是什么阻碍了世界动作模型成为反应式策略2如何解决这个问题以实现实时控制反应式策略必须在数十毫秒内对环境变化做出响应。在单GPU上地实现 DreamZero每个动作数据块大约需要5.7秒这种延迟使得闭环控制无法实现。为此研究人员通过异步闭环执行将推理与动作执行解耦。这种结构将延迟约束从“机器人动作前推理必须完成”转变为“机器人动作执行与模型推理并行进行”目标是将推理延迟控制在约200毫秒以下以确保有足够的重叠时间来实现平滑、反应式的控制。基于异步执行结构通过并行化和缓存来优化推理吞吐量再通过编译器和内核增强进一步降低延迟。在模型层面DreamZero-Flash通过在训练过程中解耦视频和动作的噪声调度来解决扩散步骤的数量问题。在推理时模型只需要进行1步扩散去噪就能输出高质量的动作而不需要等待视频完全清晰。总体的加速效果如表1所示系统和实现级优化在H100上带来了约9倍加速在GB200上约16倍加入DreamZero-Flash 后在GB200上实现了38倍加速将延迟从5.7秒降低到150毫秒。02实验研究人员评估了DreamZero的零样本泛化性能并与基线模型进行对比旨在探究以下研究问题Q1. 世界动作模型能否更好地从多样化数据中学习在包含于预训练数据中的任务上但在具有未见过的物体的零样本新环境中直接评估预训练模型的开箱即用性能。结果如图8所示。在AgiBot G1机器人上VLA模型在所有任务类别中任务进度都接近零。相比之下DreamZero能够成功地从异构数据中学习取得了62.2%的平均任务进度相较于VLA基线π0.527.4%高两倍以上。Q2. 世界动作模型能否泛化到未见过的任务上研究人员评估了模型对完全不在预训练数据分布内的泛化能力包括解鞋带、熨烫、绘画和握手等10个任务。如图9所示。在AgiBot G1上VLA模型取得的任务进度接近零而 DreamZero达到了39.5%。Q3. 世界动作模型是否能提升后训练性能研究人员探究了世界动作模型在针对特定任务数据进行微调后是否仍能保持其泛化能力。图10展示了在三种具有不同数据分布多样性的任务上的结果。Q4. 世界动作模型能否具有很强的跨具身迁移能力以应对未见任务实验分为从YAM机器人迁移到AgiBot G1机器人和从人迁移到AgiBot G1机器人并分别对9个未见任务收集了72条多视角轨迹。实验结果如表2所示两种方式均提高了DreamZero的性能。从机器人到机器人迁移任务完成度从38.3%提升至55.4%。Q5. 世界动作模型能否实现少量样本适配到的新机器人本体仅使用11个任务的55条轨迹约30分钟数据在新的YAM机器人上对 DreamZero-AgiBot进行了后训练如图12所示。尽管数据有限且多样性不足但后训练之后的策略仍保持了强大的语言指令跟随能力甚至能泛化到未见过的新物体。03总结本文介绍了一个拥有140亿参数的世界动作模型DreamZero基于预训练视频扩散模型Wan 2.1所构建能够从多样化的机器人数据中有效学习。与顶尖VLA模型π0.5相比DreamZero的零样本泛化上的提升超过了2倍。通过模型与系统层面的优化优化DreamZero实现了38倍的推理加速支持以7Hz进行实时闭环控制。此外还实现了少量样本能快速适配到的新机器人本体在AgiBot G1上预训练的DreamZero仅用30分钟的play数据就能适应一个全新的机器人本体。END