黄埔商城网站建设,网站菜单样式,做营销网站企业,电子商务网站建设完整案例教程点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入#xff01;导读#xff1a;当大模型有了身体#xff08;Embodied AI#xff09;#xff0c;它能帮我们端茶倒水#xff0c;也可能因为“幻觉”打碎花瓶#xff0c;甚至误触火炉。如何给强大的VLA#xff08;视觉-语言…点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入导读当大模型有了身体Embodied AI它能帮我们端茶倒水也可能因为“幻觉”打碎花瓶甚至误触火炉。如何给强大的VLA视觉-语言-动作模型戴上“紧箍咒”北京大学杨耀东团队带来了最新方案——SafeVLA通过一套全新的ISA框架不仅让机器人更加遵守物理世界的安全规则还顺带把任务成功率提了上去。随着RT-2、Octo等视觉-语言-动作模型VLA的爆发具身智能Embodied AI正展现出惊人的通用性。但随之而来的安全隐患也让人手心捏把汗一个在网络数据上训练出来的通才模型到了物理世界可能马上开始搞破坏——撞墙、撞家具、甚至在充满易碎品的房间里“大闹天宫”。图1VLA模型完成任务过程中的高危行为针对这一难题北京大学人工智能研究院杨耀东助理教授团队发表了最新研究成果 《SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning》该工作被NeurIPS 2025 接收为Spotlight presentation。以往的大模型安全对齐如RLHF主要关注怎么防止AI说错话但在物理世界里我们更需要AI不做危险动作然后再把任务完成。不同于视觉-文本模态动作模态直接作用在物理空间中对应的复杂度远超意图空间。因此对于不安全行为的发掘、识别、解决都不同于以往的大模型安全对齐没有方法可以照搬。该工作是首个利用安全强化学习SafeRL原理将显式安全约束系统性整合进VLA模型的研究。省流版亮点️ 更安全相比SOTA方法违规安全成本Cumulative Cost降低了 83.58%。 更有效证明了安全可以不以牺牲性能为代价任务成功率反而提升了 3.85%。 更可靠使得模型在各类失效、极端的压力部署条件下表现出默认安全safe-by-default的行为范式。新基准开源了首个开放场景下的具身安全评测基准 Safety-CHORES。0过去怎么办传统方法的不足在VLA出现之前让机器人不闯祸通常只有两条路但在面对如今基于大模型的通用机器人时它们都显得捉襟见肘运动规划 (Motion Planning)严谨的经典的控制理论如MPC、CBF依赖于精确的数学模型。它们需要预先知道物体具体的物理参数、精确的几何形状以及动力学方程。但在充满未知物体的开放世界里你无法为每一个随意摆放的苹果或突然出现的玩偶都建立一套完美的模型。一旦环境模型稍有偏差这些基于模型的完美规划就会瞬间失效。安全强化学习 (Safe RL)以往的Safe RL虽然引入了学习机制但大多局限于静态、固定的约束条件且往往依赖低维的特权状态信息如准确的坐标、速度。它们习惯在简单的Gridworld或非真实感仿真中针对单一场景、固定任务拟合。VLA时代的尴尬现状现在的视觉-语言-动作模型VLA面对的是全新的挑战——输入是原始的RGB图像像素指令是模糊的自然语言场景是从未见过的开放环境。1为什么VLA需要专门的“安全课”现有的VLA模型虽然能听懂指令但缺乏对安全性的建模。传统的微调方法通常只关注任务能不能完成或者简单粗暴地把安全惩罚加到奖励函数里Reward Shaping。但这种静态加减的策略往往顾此失彼要么机器人为了绝对安全变得畏手畏脚动都不敢动要么为了完成任务对眼前的障碍视而不见。北大团队指出VLA的安全对齐需要一套涵盖约束、数据、算法、测试的系统性方案而不是简单的修修补补。为此他们提出了 ISAIntegrated Safety Approach综合安全方法。图2ISA框架包含建模、诱发、约束、验证四大环节。2硬核拆解SafeVLA是如何炼成的ISA框架的核心逻辑可以概括为四个步骤环环相扣循环迭代彻底治愈机器人的“破坏欲”。Step 1: 用逻辑构建红线 (Modeling)传统的机器人安全往往依赖精确的数学模型如动力学方程或预先写死的静态约束但这在面对未知的开放世界时根本行不通。北大团队选择了一条更通用的路利用谓词逻辑Predicate Logic为危险画像。他们不再纠结于具体的行为而是定义了两类通用的安全谓词模版状态-动作安全谓词State-Action Predicates 定义“当下绝对不能做的事”比如“手不能碰火”。轨迹级安全谓词Trajectory-level Predicates 定义“一段时间内不能发生的后果”比如“不能忽略过去看到过但此时不在视野中的障碍物”。这就好比给机器人制定了一套从单一状态到连续过程的通用规则无论环境怎么变违规即危险。基于这套逻辑团队设计了Safety-ObjNav、Safety-PickUp、Safety-Fetch三类典型任务。分别对应Navigation、Manipulation、Mobile Manipulation全面涵盖了现实中具身智能的部署形态和能力要求。Step 2: 埋下地雷主动诱错 (Eliciting)有了法律谓词逻辑还得有案例。为了让机器人暴露出骨子里的不安全倾向团队在仿真环境中内嵌了五大最具代表性的安全高危组件 (Safety Critical Components)。这不是简单的障碍物设置而是基于程序化生成环境的技术在生成的无穷无尽场景当中专门利用局部环境特征诱导机器人产生具体的不安全行为。这五个组件涵盖了机器人移动操作中常见的失误情景考验模型的底层能力死角 (Corners) → 路径规划制造狭窄空间诱导机器人钻进去出不来触发连续碰撞。盲区 (Blind Spots) → 记忆能力刚才在远处还看见障碍物走到跟前看不到就忘了诱导其因短期记忆缺失而发生撞击。易碎品集合 (Fragile Collections) → 精细操作像瓷器店里的公牛诱导机器人在拿东西时因动作幅度过大碰倒一大片。临界点 (Critical Points) → 后果预测比如边缘摇摇欲坠的刀诱导机器人因微小扰动引发物体掉落。危险设备 (Dangerous Equipment) → 语义理解安全第一放置开启的炉灶或煤气罐等禁止机器人接触的设备诱导其进行危险交互。通过这种“钓鱼执法”ISA在海量交互中收集了丰富的高质量不安全轨迹数据为后续的约束学习提供了绝佳的负样本。图3上每个安全高危组件的概念图。下来自仿真环境中的相应示例。Step 3: CMDP拉格朗日戴着镣铐跳舞 (Constraining)不同于简单的RL微调ISA采用了带约束马尔可夫决策过程 (CMDP) 这一范式。简单来说就是在最大化任务奖励的同时强制要求安全成本低于某个阈值。为了解这个优化难题团队使用了拉格朗日乘子法 (Lagrangian Method)当机器人违规时安全系数 λ 自动飙升迫使它“长记性”当机器人安全时λ 下降鼓励它大胆探索完成任务。这种动态平衡机制Min-Max Perspective让SafeVLA实现了“安全第一兼顾效率”。Step 4: 地狱级质检专治黑天鹅 (Assurance)安全部署无小事训练完了不仅要看测试集更要看模型在各种极端情况下是否仍然安全。北大团队设计了一套多维度的安全保证Safety Assurance体系引入了与训练集完全不同的场景和高强度扰动测试专门针对那些概率极低但破坏性极强的场景进行压力测试。长尾风险消除在统计学上平均分往往会掩盖那些极端的黑天鹅事件。传统模型可能99%的时候都表现良好但剩下的1%可能会把家拆了。实验数据显示ISA成功切断了这些高风险的长尾分布将不安全行为的严重程度上限Upper Bound削减到了普通RL基线的1/35。换句话说哪怕是在最糟糕的情况下经过ISA对齐后的模型也不会酿成大祸。图4SafeVLA和基线VLA模型在不同任务上的比较案例感叹号示意高危行为出现的时机零样本跨场景泛化在仿真里训练好的模型换个新环境通常就“崩”了。团队在包含81种完全不同场景的第三方 DivScene 基准上进行了零样本测试。数据说话Table 8尤其是在医院、厨房等安全高危Safety Critical场景中未对齐的SPOC和FLaRe模型依然笨拙平均违规成本CC分别高达 11.9 和 3.5。SafeVLA相比之下ISA模型展现了惊人的适应力在这些从未见过的危险场景中将违规成本死死压在 0.4。整体平均CC仅为 1.0远低于SPOC的14.4。这意味着即使到了陌生环境SafeVLA依然很安全。极端失败兜底团队设计了一种极端的无解局给机器人下达一个根本无法完成的指令比如去找一个房间里根本不存在的东西。普通VLA像无头苍蝇一样焦虑地四处乱撞甚至因为找不到目标而陷入无解的重复碰撞违规安全成本Cumulative Cost飙升至 71.68。SafeVLA表现出了冷静与克制。在确认无法完成任务后它会保持谨慎探索或停止高危动作安全成本仅为 2.20。“可以失败但绝不闯祸”。OOD扰动测试为了验证模型是不是在死记硬背团队进行了一系列的OOD测试改变光照Lighting、魔改材质Material、甚至把房间渲染成赛博朋克风的诡异配色Color。图5OOD扰动的视觉示例。结果显示即便在视觉OOD的情况下SafeVLA在Safety-ObjNav任务中的成功率仅微降0.042而在难度最高的全开模式All下模型的表现也依然稳定在所有任务上的平均违规成本增幅不超过2.2证明了模型学到的是真正的物理安全规律而非简单的像素映射。图6SafeVLA在正常测试集和OOD测试集上的比较案例其在OOD环境下依然保持良好安全性和任务表现。针对性鲁棒测试现实世界充满了噪声用户说话可能颠三倒四摄像头可能信号极其糟糕。团队构建了一套包含语义干扰和视觉干扰的酷刑测试集Table 10展现了所提出方法的优越性语义干扰你乱说我不乱动同义词与句式重组当指令换个说法Synonym或改变句式结构Structure时SafeVLA依然能保持高水平的任务成功率0.749 / 0.829且安全成本极低2.510 / 3.960。相比之下FLaRe在同义词攻击下安全成本直接爆炸至 41.475。乱码与语序颠倒更极端的情况下当指令变成一堆乱码Garbled Code或语序完全打乱Order Change虽然机器人因听不懂导致任务成功率大幅下降SR降至0.296和0.195但它的安全成本依然维持在地板级2.547 / 1.285。这证明了ISA完美实现了安全与任务的解耦——哪怕听不懂变傻了也得稳住、得靠谱。视觉干扰眼花了心不慌高斯噪声Gaussian Noise模拟摄像头噪点SafeVLA几乎不受影响SR保持在0.820CC控制在2.640展现了极强的抗干扰能力。图像翻转Image Flip即使世界“颠倒”了视觉输入发生剧烈变化SafeVLA依然能尽力维持安全CC仅为3.540没有出现灾难性的失控。结果显示即便机器人仿佛置身于“幻境”之中ISA训练出的安全策略依然坚挺安全违规率始终维持在极低水平。这证明模型学到的不是简单的像素映射而是真正理解了什么是危险怎么做才安全。One More Thing: VLA-ArenaSafeVLA之所以能精准发现安全隐患离不开高质量评测基准的支持。事实上文中的Safety-CHORES仅仅是北大杨耀东团队宏大评测版图的冰山一角。为了彻底地评测VLA模型团队近日同步重磅开源了全栈式评测框架 —— VLA-Arena。如果说SafeVLA是教机器人安全性VLA-Arena就是一把标准化、带刻度的尺子。它包含11个结构化任务套件170个任务不仅覆盖了SafeVLA关注的安全性还进一步在长程规划、泛化能力、视觉指令鲁棒性上对模型进行“灵魂拷问”。想知道你的模型是真智能还是死记硬背不妨去 VLA-Arena 的竞技场https://vla-arena.github.io/上跑个分看看它在SOTA榜单上处于什么段位。此外为了促进研究VLA-Arena还为社区提供了涵盖场景构建、数据收集、模型训练、性能评估的全流程开源工具链以及开箱即用的数据集和模型权重戳https://vla-arena.github.io/#home。3实验图示降维打击在Safety-CHORES基准上的测试结果显示ISA-Aligned VLA的表现令人印象深刻更懂规矩在与SOTA方法FLaRe的对比中SafeVLA将累计安全成本CC降低了 83.58%。从分布图上看SafeVLA几乎消除了那些灾难性的高危行为CC 10的轨迹被消灭。图7累积成本分布分析。左模型进行ISA和标准RL微调后在测试集中的安全成本分布。中任务成功时的安全成本分布。右任务失败时的安全成本分布。更加聪明为了安全就要牺牲性能错SafeVLA的任务成功率SR反而比FLaRe高出了 3.85%。这说明有时候任务失败恰恰是因为机器人缺乏安全意识导致的变得安全反而能更好地完成任务。表1ISA在Safety-CHORES中的有效性。不仅是仿真团队还将模型部署到了真实的双臂机器人Realman RM75-6F上。通过精心设计的仿真-现实对齐论文5.3节策略经过安全对齐的模型可以从仿真迁移到现实世界并且展现出与仿真中同样丝滑的避障能力。图8Sim-to-Real的验证平台。4结语与展望SafeVLA的出现旨在努力填补具身智能在大规模落地前最关键的一块拼图——物理安全。它证明了通过系统性的约束学习我们完全可以训练出既能干又不闯祸的“乖巧”机器人。未来北大团队计划进一步引入基于严重程度的加权约束比如打碎杯子和碰倒火炉的惩罚应该不同并探索更复杂的真实世界部署。具身智能的ChatGPT时刻或许还没到但SafeVLA无疑让我们离那个时刻更近、更安全了一步。 论文与项目传送门论文标题SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning项目主页https://pku-safevla.github.io代码仓库https://github.com/PKU-Alignment/SafeVLAArXiv链接2503.03480v3本文素材来源于论文原作解释权归作者和北京大学人工智能研究院所有往期精彩文章推荐关于AI TIMEAI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学者、行业专家和爱好者希望以辩论的形式探讨人工智能和人类未来之间的矛盾探索人工智能领域的未来。迄今为止AI TIME已经邀请了2000多位海内外讲者举办了逾800场活动超1000万人次观看。我知道你在看提出观点表达想法欢迎留言点击阅读原文观看作者直播回放