宿迁建设局网站a类证查询网站交互式
宿迁建设局网站a类证查询,网站交互式,达州注册公司,怎么修改wordpress上海交通大学 MINT 实验室联合 Evo-Tech#xff0c;首次在 SO101 低成本机械臂上完成 Pi*star0.6 RECAP 真机强化学习流程复现#xff0c;并开源可复现工程链路。
在具身智能快速发展的大背景下#xff0c;很多团队都在关注一个核心问题#xff1a; 真实机器人上的强化学习…上海交通大学 MINT 实验室联合 Evo-Tech首次在 SO101 低成本机械臂上完成 Pi*star0.6 RECAP 真机强化学习流程复现并开源可复现工程链路。在具身智能快速发展的大背景下很多团队都在关注一个核心问题真实机器人上的强化学习能不能不仅“做出来”还能“被更多人复现出来”Evo-RL 这次尝试给出了一个务实答案不是只给一段视频、一个结果曲线而是把从数据采集、价值建模、策略训练到部署纠错再训练的整条链路放到可运行的工程系统中并面向社区持续开放。原文链接上交团队推出Evo-RL低成本机械臂上首次实现pi*0.6真机强化学习任务Evo-RL 真机强化学习总体流程上图对应 Evo-RL 的四层闭环Infrastructure基础设施层机器人平台、传感器与相机、计算服务。Human-in-the-Loop Data人在环数据层遥操作、介入纠错、成功/失败标注。Variation Inference Training价值推理与训练层Value 训练、Advantage 推理、Indicator 更新。Policy Inference Training策略学习与部署层Policy 学习、任务文本融合、部署测试。这四层串起来形成了真实场景中的“训练-部署-纠错-再训练”持续迭代闭环。这次开源核心做了什么1. 在 LeRobot 架构上实现 RECAP 风格纠错数据采集Evo-RL 将 RECAP 思路落地为可执行的数据闭环机制机器人在推理阶段发生错误时支持人工即时接管。接管后可切换到采集模式对当前轨迹进行修正。将“错误轨迹 - 修正轨迹”整段写回数据集作为下一轮训练样本。这意味着模型不是靠“离线一次训练”硬撑而是在真实任务失败中持续学习。2. 在 LeRobot 中集成 Pi*star0.6 的训练流程Evo-RL 已在工程上打通以下环节Value Function 训练学习任务回报结构。Value Inference对轨迹进行 value/advantage 推理。Indicator 构造把 advantage 转成可训练的二值指示信号。Advantage-Conditioned Policy 训练策略学习时显式使用 indicator 条件信息。最终让“论文机制”变成“命令行可复现流程”。3. 以“可复现”为第一目标建设开放社区Evo-RL 明确把项目定位为长期开放工程面向真实机器人 RL 的代码与流程持续开源。逐步开放模型和数据资产。通过社区共建把方法复现、平台迁移、任务评估做成公共能力。2策略建模与训练结构示意技术视角策略侧的关键建模思想多模态输入统一编码视觉输入、文本任务描述、机器人状态共同进入模型。状态与动作条件化建模在时序块中结合当前状态与动作序列提升策略稳定性。可迭代优化接口通过 value/advantage 反馈把“执行后信息”重新用于下一轮策略更新。从工程角度看这正是 Evo-RL 可持续迭代的关键。Evo-RL Focus为什么这个项目值得关注Evo-RL 对外强调三件事在多个机械臂本体上推进真机RL目前已包含SO101 与 AgileX PiPER 本体未来会适配更多本体。代码、模型、数据一体化开放不仅开代码还会逐步释放可复用资产降低进入门槛。算法与社区共进化一边复现已有方法一边在真实任务中持续提出并验证新方法。这三点的共同目标是把“少数团队可做”的真机强化学习变成“更多团队可参与、可复用、可验证”的共同工程。Evo-RL 的技术闭环A. 数据采集阶段Human Teleoperation 初始化使用人工遥操作先采集基础演示数据。记录成功/失败与关键过程信息形成第一轮可训练数据池。B. Value 训练与推理阶段在当前数据集上训练 value 模型。对已有轨迹做 value 推理得到逐帧价值估计。进一步生成 advantage 信号并按比例构造 indicator 标签。在工程实现中数据集会新增类似字段示例命名complementary_info.value_TAGcomplementary_info.advantage_TAGcomplementary_info.acp_indicator_TAG这些字段让“策略学习”不再只看原始轨迹还能利用轨迹质量信号。C. Policy 学习阶段Advantage-Conditioned训练时将 indicator 信息注入任务文本条件。通过条件化学习让模型更好地区分“高质量行为模式”与“待纠正行为模式”。使用 indicator dropout 等机制增强泛化避免模型过度依赖单一标签。D. 部署与纠错回流阶段RECAP 核心把当前策略部署到真机执行。出现偏差时人工接管并修正。将修正轨迹并入下一轮训练集进入新一轮 valuepolicy 更新。这就是 Evo-RL 的核心价值不把失败样本丢掉而是把失败样本转化成系统持续进化的燃料。Evo-RL 开源仓库入口项目仓库GitHub: https://github.com/MINT-SJTU/Evo-RL当前进展SO101 真机 RL baseline 与可复现 CLI workflow 已发布项目意义从“能做”走向“可复现、可传播、可共建”对具身智能社区而言Evo-RL 的价值不只是一条新结果曲线而是提供了一套更可落地的方法论用低成本平台验证真实 RL 的工程可行性。用 RECAP 式人在环机制把失败转化为增量数据资产。用开源工作流推动更多团队参与复现、对比与扩展。未来MINTSJTU 与 Evo-Tech 将继续在更多平台和任务场景中推进这一方向持续开放代码、流程与社区实践。关注与参与如果你正在做真实机器人训练、策略部署或数据闭环工程欢迎加入一起共建 Evo-RL。重磅VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等推荐阅读我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~MuJoCo具身智能实战从零基础到强化学习与Sim2Real从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法Diffusion Policy在具身智能领域是怎么应用的为什么如此重要具身智能视觉语言动作模型VLA怎么入门视觉语言导航的主流方法有哪些是怎么用的具身智能与传统机器人任务有什么区别主流方案有哪些1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等