深圳建网站兴田德润可信,c#做交易网站,58同城招聘网找工作附近,wordpress中文官网上将预测未来动态的世界建模能力和具身策略模型 (VLA) 相结合对提升机器人推理能力和泛化能力至关重要。然而#xff0c;当前的方法面临两个主要问题#xff1a;1. 训练目标迫使模型过度关注像素级重建#xff0c;这限制了语义学习和泛化能力#xff1b;2. 在推理过程中依赖预…将预测未来动态的世界建模能力和具身策略模型 (VLA) 相结合对提升机器人推理能力和泛化能力至关重要。然而当前的方法面临两个主要问题1. 训练目标迫使模型过度关注像素级重建这限制了语义学习和泛化能力2. 在推理过程中依赖预测的未来观察结果往往会导致误差积累。为了解决这些挑战本文提出了通过并行渐进扩展实现的未来表示对齐 (FRAPPE) 方法。在 RoboTwin 基准测试和实际任务中的实验表明经过 FRAPPE 训练后的策略在性能上超越了RDT-1B, π0.5等先进模型并在长时程和未见过的场景中表现出强大的泛化能力。论文题目FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment论文链接https://arxiv.org/abs/2602.17259项目主页https://h-zhao1997.github.io/frappe/论文时间Feb, 20, 2025作者单位浙江大学西湖大学香港科技大学广州华南理工大学上海科技大学清华大学原文链接浙大 × 西湖大学最新超越π0.5融合人类数据与世界模型的高效VLA训练框架️ 方法概述FRAPPE的设计哲学是通过渐进式扩展来提升模型的世界建模能力和参数方案聚焦于训练机制和模型结构两个层面对已有的基础模型进行后训练优化1. 训练机制隐式世界建模Implicit World Modeling模型不采取显式生成未来观测的像素这一显式建模而是通过对未来观测在隐空间的表征进行对齐使模型能够在统一的语义空间中理解动作与视觉信息提升跨任务泛化能力。2. 模型结构并行扩展Parallel ScalingFRAPPE 将具有单一推理流的VLA模型进行扩展通过复制多个输入进行并行的前向计算每个流对齐一个独立的视觉编码器实验中采取的并行度为3分别对齐DINOv2CLIP和ViT的表征同时学习多个教师表征避免模型学习单一的归纳偏置。 训练方案具体实践中FRAPPE 采取渐进式扩展训练Mid-Training阶段模型进行全参数微调并和单一的视觉编码器 Theia 进行对齐这一步保证了预训练模型可以适应世界建模训练的训练范式Post-Training阶段引入并行扩展机制通过多个prefix和LoRA模块将模型转换为混合专家架构并进行多教师特征对齐的并行训练。 实验验证1. 仿真结果在RoboTwin Benchmark的8个子任务中FRAPPE 在平均成功率上超越了采用naive fine-tuning的VLA base modelRDT-1B、π0、π0.5、小模型基线 (DP) 以及基于预测表征的生成式基线 (VPP)。在更小参数模型的仿真实验中RDT-130M使用 FRAPPE 进行后训练在RoboTwin上的性能可以与RDT-1B持平展现出了该方案在小参数模型中仍然适用并对性能和泛化性有显著提升。2. 真机实验在真机实验中FRAPPE 的性能在四个基本的双臂操作任务上超过了 RDT-1B 和 π0.5并且在未见的复杂场景下展示出了更优越的泛化性。在包含三个子任务的长程任务中在最终成功率上 FRAPPE 和 π0.5 表现相当。作为对比RDT-1B 则无法成功按顺序完成三个子任务。3. 人类数据协同训练与其他工作类似没有动作标签的人类视频也可以增益训练世界模型的训练过程。本文在大规模的人类视频擦操作数据集 (Ego (Web)) 和人类执行相同下游任务的数据 (Ego (Task)) 两种数据源上都进行了实验。实验表明两种数据都能够提升下游任务的成功率可以极大的减少遥操作数据的采集规模降低数据成本。⚡️ 计算效率尽管在推理中由于并行扩展架构引入了额外的参数和计算量模型仍然可以保持和RDT-1B相近的推理延迟以及可接受的显存占用。✅ 总结与展望FRAPPE提出了一种面向VLA模型的高效微调新范式通过表征对齐与多源数据顺滑融合在可接受的推理开销的前提下显著提升模型的泛化能力、长时序能力与隐式世界建模能力。具身求职内推来啦近50家主流具身公司校招社招实习均可国内最大的具身智能全栈学习社区来啦具身智能之心知识星球国内最大的具身智能全栈技术社区来啦推荐阅读从零部署π0,π0.5好用高性价比面向具身科研领域打造的轻量级机械臂工业级真机教程VLA算法实战pi0/pi0.5/GR00T/世界模型等具身智能算法与落地平台来啦国内首个面向科研及工业的全栈具身智能机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~MuJoCo具身智能实战从零基础到强化学习与Sim2Real从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法Diffusion Policy在具身智能领域是怎么应用的为什么如此重要具身智能视觉语言动作模型VLA怎么入门视觉语言导航的主流方法有哪些是怎么用的1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等