深圳罗湖网站建设公司哪家好,杭州公司,网站没有icp备案怎么访问,搜索引擎有哪几个网站模拟提供了一种可扩展且低成本的方式#xff0c;用于丰富VLA的训练#xff0c;减少对昂贵的真实机器人演示依赖。然而#xff0c;大多数模拟-真实联合训练方法都依赖于监督式微调#xff08;SFT#xff09;#xff0c;这种方法将模拟视为静态的演示来源#xff0c;并未利…模拟提供了一种可扩展且低成本的方式用于丰富VLA的训练减少对昂贵的真实机器人演示依赖。然而大多数模拟-真实联合训练方法都依赖于监督式微调SFT这种方法将模拟视为静态的演示来源并未利用大规模的闭环交互。因此实际应用中的收益和泛化能力往往受到限制。近日清华大学于超团队提出了一种基于强化学习RL的模拟-真实联合训练RL-Co框架该框架在保留实际应用能力的同时充分利用了交互式模拟。方法遵循通用的两阶段设计首先使用真实和模拟演示的混合数据通过SFT对策略进行预热启动然后在模拟环境中通过强化学习对其进行微调同时针对真实世界数据添加辅助监督损失以锚定策略并减轻灾难性遗忘问题。实验使用两种具有代表性的VLA架构OpenVLA和π0.5在四个真实桌面操作任务上验证了该框架观察到与仅基于真实数据的微调以及基于SFT的联合训练相比提出的方法均取得了持续改进其中OpenVLA在真实世界中的成功率提升了24%π0.5提升了20%。除了更高的成功率外RL联合训练还展现出了对未见任务变体的更强泛化能力并显著提高了真实世界的数据利用效率为利用模拟来增强真实机器人部署提供了一条实用且可扩展的途径。原文链接在“仿真数据”与“海量真机”之外寻找第三条路RL-CoVLA 真机提升新范式论文标题Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models关键词VLA视觉-语言-动作/ 后训练 / 仿真-真机协同训练 / 强化学习 / 真机成功率 / 数据效率论文链接: https://arxiv.org/abs/2602.12628Codes: https://github.com/RLinf/RLinfRL-Co的核心优势一句话用监督微调SFT先把路铺好再用仿真里的强化学习RL把能力练扎实同时用少量真机数据“拉住”别跑偏——把仿真的“可交互”优势真正用起来。真机性能飞跃SFT co-training → RL-CoOpenVLA成功率40.0% → 64.0%24.0%π 0.5 \pi_{0.5}π0.5​成功率45.9% → 66.2%20.3%泛化更稳在未见物体/未见初始状态下π 0.5 \pi_{0.5}π0.5​的掉点显著更小。更省真机数据Open Drawer 上RL-Co20 条真机的效果能对标/不弱于基线200 条真机。低成本仿真路线不追求高成本的“细粒度孪生”用 ManiSkill 构建任务对应环境只抓住关键几何与相机视角不去 1:1 还原材质、光照等低层视觉细节。在“高成本重建”与“海量真机”之外寻找第三条路当前具身智能正处于一场激烈的“数据与路线之争”中。为了解决 VLA 模型在真机上“不敢动、学得慢、泛化难”的痛点行业内主要分化出了两条截然不同的技术路线一条是“重构建”的极致仿真路线近期基于 3D 高斯泼溅3DGS等技术的高保真数字孪生备受关注。这条路线主张通过扫描真实场景、构建像素级对齐的“赛博空间”让机器人在完美的仿真中“疯狂试错”。这种方法效果虽好但对环境建模的精度要求极高流程复杂难以快速复用到每一个新场景。另一条是“堆真机”的暴力美学路线依赖大规模的真机遥操作数据采集。但这如同无底洞边际成本极高且单纯的模仿学习BC始终难以突破演示数据的分布边界。那么有没有一种更“轻量”、更“普适”的解法在上述“高举高打”的争论之外另一支研究力量正在探索仿真-真机协同训练Sim-Real Co-Training的潜力。这条路线不追求 1:1 还原现实的极致画质而是使用低成本的粗糙仿真试图通过“混合双打”来解决问题。然而传统的协同训练往往走入了误区它仅仅把仿真当成了“静态数据生成器”。大多数工作只是把仿真轨迹混入真机数据中继续做 SFT监督微调。这种做法虽然增加了数据量却丢掉了仿真最核心的优势——可交互性。如果不利用强化学习RL在仿真里进行闭环探索模型就永远只能是对轨迹的拙劣模仿一旦遇到分布偏移Distribution Shift依然会发生误差累积。RL-Co 正是在这个背景下诞生的。也试图回答一个关键问题如果我们既不想花大价钱搞“全拟真数字孪生”又不想做“真机数据苦力”能不能把 Sim-Real Co-Training 的范式升级一下RL-co给出的答案是用 Sim 里的 RL 练“内功”交互能力用 Real 里的 SFT 练“招式”规范动作。 通过这种范式证明了并不需要昂贵的“完美孪生”只要把低成本仿真里的交互用对一样能实现真机性能的飞跃。RL-Co 是什么两阶段把“交互”和“真机能力”同时抓住RL-Co 的核心很简单先用 SFT 把策略“扶上马”初始化再用仿真里的 RL 让它“跑得更稳”交互优化同时用少量真机数据做正则让它别在训练过程中把真机能力忘了。设计 1Stage I 用“仿真 真机”做 SFT 初始化从预训练的 VLA 模型起步混合真机演示D real \mathcal{D}_{\text{real}}Dreal​和 仿真演示D sim \mathcal{D}_{\text{sim}}Dsim​进行监督微调。这一步不求完美但求“上道”先把任务相关的真机知识快速灌进去同时也让策略在仿真里达到“至少能做成一点”的水平给后续 RL 一个靠谱的起点。设计 2Stage II 在仿真里做 RL同时用真机 SFT 正则“拉住”分布我们在仿真 RL 的优化目标里加入一项真机 SFT 的正则项L total L RL β L SFT ( θ ; D real ) \mathcal{L}_{\text{total}} \mathcal{L}_{\text{RL}} \beta \, \mathcal{L}_{\text{SFT}}(\theta; \mathcal{D}_{\text{real}})Ltotal​LRL​βLSFT​(θ;Dreal​)L RL \mathcal{L}_{\text{RL}}LRL​靠仿真闭环交互最大化任务回报把执行能力和鲁棒性练出来L SFT \mathcal{L}_{\text{SFT}}LSFT​用少量真机轨迹做“锚点”缓解 RL 过程中对真机能力的遗忘实验四个真机任务 对应轻量仿真在 4 个桌面真机任务上验证 RL-Co并用 ManiSkill 搭建一一对应的仿真环境。值得注意的是仿真侧重点是交互完整与相机/布局对齐而不是追求逼真渲染。1 任务真机Pick and Place抓取物体并放入目标容器Push Cube via Instruction按语言指令推动指定颜色方块Open Drawer打开抽屉接触丰富Close Drawer关闭抽屉2 数据真机 仿真真机演示D real \mathcal{D}_{\text{real}}Dreal​SpaceMouse 遥操作采集每个任务20–50条成功轨迹仿真演示D sim \mathcal{D}_{\text{sim}}Dsim​MimicGen 扩增先把真机轨迹在仿真里 replay 当 seed再剪掉长段无效自由空间运动每个任务生成1000条成功轨迹结果真机更强、分布外更稳、训练更不挑参数结果一真机成功率提升OpenVLA 与π 0.5 \pi_{0.5}π0.5​都受益平均成功率SR提升OpenVLAReal-only 16.5 → SFT 协同 40.0 →RL-Co 64.0相对 SFT 协同24.0π 0.5 \pi_{0.5}π0.5​Real-only 26.7 → SFT 协同 45.9 →RL-Co 66.2相对 SFT 协同20.3分任务直观表现SROpenVLARL-CoPickPlace58.8Push Cube68.3Open Drawer35.0Close Drawer95.0π 0.5 \pi_{0.5}π0.5​RL-CoPickPlace81.3Open Drawer65.0Close Drawer100.0Push Cube 仍偏难结果二分布外泛化更稳未见物体/未见初始状态掉点更小我们在Pick and Placeπ 0.5 \pi_{0.5}π0.5​上测试两类分布外未见物体、未见初始状态。RL-Co 在两种情况下的性能下降幅度更小结果三训练更稳SFT 比例敏感但 RL 阶段收益更稳定SFT 的混合比例α \alphaα会显著影响协同训练的真机效果而在完成 SFT 初始化后RL-Co 在不同正则权重β \betaβ下都能带来稳定收益并把成功率拉到高于各类 SFT-only 设置的水平数据效率20 条真机 RL-Co对标 200 条真机基线我们把真机专家数据扩展到200条观察两类基线随真机数据量增长的效果并与“固定 20 条真机”的 RL-Co 对照结论很直接真机数据当然越多越好但把仿真里的交互用对往往更划算。消融两阶段各自解决什么问题这里重点检查两件事**没有“初始化”RL 还能不能练起来**以及没有“真机锚点”RL 会不会把真机能力练丢1 没有仿真 SFT 初始化RL 很难有效推进如果 Stage I 不用仿真数据做 SFT 初始化直接从“只见过少量真机演示”的策略开始在仿真里做 RL训练会变得非常慢样本效率显著下降长时间都难以学到有效行为见图 8。2 没有真机 SFT 正则仿真里越练越强真机上反而会忘如果 Stage II 去掉真机 SFT 正则策略会出现明显的“真机能力遗忘”。在消融设置里成功率从81.38%降到40.25%见图 9。这说明仿真交互能把策略推向更高回报但如果没有真机数据把分布“拉住”提升可能无法稳定转化为真机收益。总结RL-Co 的关键信息、意义与下一步回到开头的问题我们希望更充分地利用仿真的优势可交互、可规模化同时让提升真实发生在真机上。RL-Co 给出的答案是一个“更工程可落地”的组合范式方法上两阶段流程——Stage I 用真机仿真做 SFT 初始化Stage II 在仿真里做 RL 交互优化并用真机 SFT 正则把策略分布锚定住。效果上在 4 个桌面真机任务、两类代表性 VLAOpenVLA 与π 0.5 \pi_{0.5}π0.5​上RL-Co 带来一致的真机成功率提升同时在分布外设置下掉点更小、训练对超参更不敏感在 Open Drawer 上也体现了更好的真机数据效率20 条真机即可对标更大规模真机数据的基线。机制上仿真 RL 负责“把能力上限练出来”真机正则负责“把能力留在真机分布里”仿真 SFT 初始化则让后续 RL 变得可学、可收敛。更重要的是这个结果给出一个清晰信号仿真不一定要走高成本的细粒度孪生路线。只要把“交互”这件事用好并配合少量真机数据做锚定轻量仿真也能稳定带来真机收益。未来方向更长序列、更复杂接触任务在抽屉类任务之外把 RL-Co 扩展到更长时序、更多阶段的真机操作检验交互带来的累积优势。更通用的协同训练配方进一步减少对α / β \alpha/\betaα/β等超参选择的依赖让“初始化 交互 真机锚定”更自动、更稳健。更广的场景与本体在更多物体变化、视角变化、甚至不同机器人平台上验证让“仿真交互 → 真机提升”的收益更可迁移、更可复用。具身求职内推来啦近50家主流具身公司校招社招实习均可国内最大的具身智能全栈学习社区来啦具身智能之心知识星球国内最大的具身智能全栈技术社区来啦推荐阅读从零部署π0,π0.5好用高性价比面向具身科研领域打造的轻量级机械臂工业级真机教程VLA算法实战pi0/pi0.5/GR00T/世界模型等具身智能算法与落地平台来啦国内首个面向科研及工业的全栈具身智能机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~MuJoCo具身智能实战从零基础到强化学习与Sim2Real从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法Diffusion Policy在具身智能领域是怎么应用的为什么如此重要具身智能视觉语言动作模型VLA怎么入门视觉语言导航的主流方法有哪些是怎么用的1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等