网站建设内容工作总结,做一万个网站,怎么推广我的网站吗,wordpress插件图库Dyn-O 文章总结与翻译 一、主要内容 Dyn-O 是一种基于对象中心表示(object-centric representations)构建的结构化世界模型,旨在解决现有世界模型多依赖整体表示(monolithic representations)、难以有效捕捉环境中对象交互动态的问题。其核心目标是在复杂视觉场景中(如…Dyn-O 文章总结与翻译一、主要内容Dyn-O 是一种基于对象中心表示(object-centric representations)构建的结构化世界模型,旨在解决现有世界模型多依赖整体表示(monolithic representations)、难以有效捕捉环境中对象交互动态的问题。其核心目标是在复杂视觉场景中(如 Procgen 游戏)实现更精准的轨迹预测、更好的组合泛化能力,以及对对象特征的细粒度操控。核心框架对象中心表示学习:采用预训练的 Cosmos 编码器提取图像补丁特征,结合 Slot Attention 机制生成与对象绑定的“槽位特征”(slots);训练中引入 SAM2 分割模型的先验指导,同时通过退火调度策略逐步减少对分割掩码的依赖,避免推理时的计算开销。动态建模:基于 Mamba 架构的状态空间模型(SSM)建模槽位特征的时序转换,保持对象的置换等变性;将每个槽位特征解耦为静态组件(捕捉纹理等时不变属性)和动态组件(捕捉位置等时变属性),支持细粒度特征操控。训练优化:通过重建损失优化表示学习,通过预测损失优化世界模型,结合对比学习、对抗训练等方式实现静态-动态特征的解纠缠。