宁晋网站建设代理价格孟村县网站建设公司

张

张建站

2026/4/12 11:44:06

10分钟阅读

宁晋网站建设代理价格,孟村县网站建设公司,没有网站可以做搜索引擎营销吗,qq可以上网Jim Fan团队新作#xff01;英伟达提出世界动作模型DreamZero#xff0c;零样本泛化能力两倍碾压π0.5 原创关注具身智能智猩猩AI 2026年2月10日 18:47 北京 1人智猩猩AI整理编辑#xff1a;华严当前视觉-语言-动作#xff08;VLA#xff09;模型发展迅速#xf…Jim Fan团队新作英伟达提出世界动作模型DreamZero零样本泛化能力两倍碾压π0.5原创关注具身智能智猩猩AI2026年2月10日 18:47北京1人智猩猩AI整理编辑华严当前视觉-语言-动作VLA模型发展迅速但往往缺乏对物理世界的深刻理解在面对新环境时尤其是新动作或新技能的泛化性仍存在局限性。为此NVIDIA Jim Fan团队提出一个世界动作模型WAMDreamZero基于拥有140亿参数的预训练视频扩散模型Wan 2.1所构建。与传统的VLA不同DreamZero能够通过预测未来世界的状态和动作来学习将视频作为世界演变的密集表征。通过模型与系统层面的优化优化DreamZero实现了38倍的推理加速支持以7Hz进行实时闭环控制。在真机实验中与顶尖VLA模型π0.5相比DreamZero对新任务和新环境的泛化性提升2倍以上。更厉害的是DreamZero仅在30分钟的play data上即可将基于AgiBot G1预训练的模型迁移到全新的机器人本体上同时保持零样本泛化能力。论文标题《World Action Models are Zero-shot Policies》论文链接https://dreamzero0.github.io/DreamZero.pdf项目主页https://dreamzero0.github.io/01方法基于预训练的视频扩散模型构建世界-动作模型面临视频-动作对齐、架构设计和实时推理三大挑战。DreamZero的设计基于这三项核心挑战训练了一个端到端的统一模型确保模态间深度融合采用自回归架构并充分利用闭环控制的特性通过一系列软硬件优化方案实现了38倍推理加速实时控制达到7Hz。1.1 DreamZero模型架构DreamZero模型架构如图4所示以自回归方式训练用于预测视频帧和对应动作。DreamZero仅对视频模态引入自回归建模避免来自闭环动作预测的误差传播。DreamZero采用流匹配作为训练目标在视频和动作模态间共享去噪时间步这有助于在训练初期更快收敛。此外采用Teacher Forcing作为训练目标模型学习在给定已去噪的前序数据块的条件下对当前含噪块进行去噪。在推理时DreamZero联合去噪视频和动作块并利用KV缓存提升效率。1.2 DreamZero的实时执行基于扩散的世界动作模型继承了视频基础模型的强大泛化能力但其迭代去噪过程与反应式机器人控制之间存在根本矛盾。研究人员对以下两个问题进行了研究1是什么阻碍了世界动作模型成为反应式策略2如何解决这个问题以实现实时控制反应式策略必须在数十毫秒内对环境变化做出响应。在单GPU上地实现 DreamZero每个动作数据块大约需要5.7秒这种延迟使得闭环控制无法实现。为此研究人员通过异步闭环执行将推理与动作执行解耦。这种结构将延迟约束从“机器人动作前推理必须完成”转变为“机器人动作执行与模型推理并行进行”目标是将推理延迟控制在约200毫秒以下以确保有足够的重叠时间来实现平滑、反应式的控制。基于异步执行结构通过并行化和缓存来优化推理吞吐量再通过编译器和内核增强进一步降低延迟。在模型层面DreamZero-Flash通过在训练过程中解耦视频和动作的噪声调度来解决扩散步骤的数量问题。在推理时模型只需要进行1步扩散去噪就能输出高质量的动作而不需要等待视频完全清晰。总体的加速效果如表1所示系统和实现级优化在H100上带来了约9倍加速在GB200上约16倍加入DreamZero-Flash 后在GB200上实现了38倍加速将延迟从5.7秒降低到150毫秒。02实验研究人员评估了DreamZero的零样本泛化性能并与基线模型进行对比旨在探究以下研究问题Q1. 世界动作模型能否更好地从多样化数据中学习在包含于预训练数据中的任务上但在具有未见过的物体的零样本新环境中直接评估预训练模型的开箱即用性能。结果如图8所示。在AgiBot G1机器人上VLA模型在所有任务类别中任务进度都接近零。相比之下DreamZero能够成功地从异构数据中学习取得了62.2%的平均任务进度相较于VLA基线π0.527.4%高两倍以上。Q2. 世界动作模型能否泛化到未见过的任务上研究人员评估了模型对完全不在预训练数据分布内的泛化能力包括解鞋带、熨烫、绘画和握手等10个任务。如图9所示。在AgiBot G1上VLA模型取得的任务进度接近零而 DreamZero达到了39.5%。Q3. 世界动作模型是否能提升后训练性能研究人员探究了世界动作模型在针对特定任务数据进行微调后是否仍能保持其泛化能力。图10展示了在三种具有不同数据分布多样性的任务上的结果。Q4. 世界动作模型能否具有很强的跨具身迁移能力以应对未见任务实验分为从YAM机器人迁移到AgiBot G1机器人和从人迁移到AgiBot G1机器人并分别对9个未见任务收集了72条多视角轨迹。实验结果如表2所示两种方式均提高了DreamZero的性能。从机器人到机器人迁移任务完成度从38.3%提升至55.4%。Q5. 世界动作模型能否实现少量样本适配到的新机器人本体仅使用11个任务的55条轨迹约30分钟数据在新的YAM机器人上对 DreamZero-AgiBot进行了后训练如图12所示。尽管数据有限且多样性不足但后训练之后的策略仍保持了强大的语言指令跟随能力甚至能泛化到未见过的新物体。03总结本文介绍了一个拥有140亿参数的世界动作模型DreamZero基于预训练视频扩散模型Wan 2.1所构建能够从多样化的机器人数据中有效学习。与顶尖VLA模型π0.5相比DreamZero的零样本泛化上的提升超过了2倍。通过模型与系统层面的优化优化DreamZero实现了38倍的推理加速支持以7Hz进行实时闭环控制。此外还实现了少量样本能快速适配到的新机器人本体在AgiBot G1上预训练的DreamZero仅用30分钟的play数据就能适应一个全新的机器人本体。END

网站推广策略方法精选商城app下载

1. IC总线的工程起源：从芯片互连困境到标准化通信协议在嵌入式系统开发实践中，IC（Inter-Integrated Circuit）总线早已成为板级芯片互连的事实标准。但若仅将其视为“两根线加两个上拉电阻”的简单接口，便极易在实际项目…...

2026/4/12 11:43:28 阅读更多 →

vs2010网站开发调试打不开页面浏览器错误河南旅游网站建设

快速体验LiuJuan20260223Zimage文生图模型的惊艳效果本文展示LiuJuan20260223Zimage文生图模型的实际生成效果，通过多个真实案例带你领略AI绘画的魅力 1. 模型效果概览 LiuJuan20260223Zimage是一个基于Xinference部署的专业文生图模型，专门针对LiuJua…...

2026/4/12 11:42:51 阅读更多 →

开源网站模板cms效果图培训

GLM-4V-9B图片识别实战：上传即问即答体验 1. 为什么你需要一个真正好用的本地图片识别工具你有没有遇到过这样的场景：在处理一批商品图片时，需要快速知道每张图里有什么；或者在整理老照片时，想确认某张模糊图片中的…...

2026/4/12 11:42:14 阅读更多 →

贵阳网站建设贵阳宁波建设公司网站

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…...

2026/4/12 0:00:31 阅读更多 →

wordpress网站地图百度插件商务网站建设评估的指标

3步掌握小智语音客户端：从安装到多设备协同【免费下载链接】py-xiaozhi python版本的小智ai，主要帮助那些没有硬件却想体验小智功能的人项目地址: https://gitcode.com/gh_mirrors/py/py-xiaozhi py-xiaozhi是一款基于Python开发的小智AI语音客…...

2026/4/12 0:01:07 阅读更多 →