建了一个网站 如何找到放图片的文件夹,微网站和手机网站的区别,设计上海2021门票,大型网站制作怎么样文章#xff1a;Visual Planning: Let’s Think Only with Images代码#xff1a;https://github.com/yix8/VisualPlanning单位#xff1a;剑桥大学、伦敦大学学院、谷歌一、问题背景#xff1a;多模态AI的“文字依赖症”#xff0c;空间推理拉胯的根源如今的多模态大语言…文章Visual Planning: Let’s Think Only with Images代码https://github.com/yix8/VisualPlanning单位剑桥大学、伦敦大学学院、谷歌一、问题背景多模态AI的“文字依赖症”空间推理拉胯的根源如今的多模态大语言模型MLLMs即便能接收图像输入核心推理过程仍在文字维度完成看一张迷宫图先描述出“起点在左下角、终点在右上角、中间有三道墙”再根据文字描述规划路径。这种模式在处理空间、几何、物理动态类任务时存在明显的天然缺陷模态鸿沟视觉信息转文字会丢失细节复杂的空间关系很难用文字精准表达效率低下冗余的文字描述会增加推理步骤还容易出现描述错误导致后续规划偏差泛化性差面对更复杂的空间环境比如更大的迷宫、多步骤导航文字推理的准确率会急剧下降。而从认知科学角度人类的思考本就有文字和视觉两个通道面对空间任务时人们更倾向于通过脑补画面、勾画轨迹完成规划这也为AI的视觉规划研究提供了思路。二、方法创新纯视觉规划范式两阶段强化学习让AI用图像思考研究团队提出的Visual Planning核心思路很简单让AI彻底脱离文字直接以图像为载体通过生成图像序列完成规划推理就像人类脑补“下一步的画面”一样用视觉状态的连续转换替代文字的步骤描述。为了实现这一范式团队设计了全新的VPRLVisual Planning via Reinforcement Learning两阶段强化学习框架基于纯视觉训练的大视觉模型LVM进行优化全程无任何文字数据参与阶段1策略初始化练出“合理探索”能力用环境中随机行走的视觉轨迹训练模型让模型学会生成视觉上连贯、符合环境规则的图像序列核心是保证模型能在空间中做有效探索同时避免生成明显违背规则的画面比如穿墙、踩坑。阶段2强化学习优化练出“目标导向”能力基于GRPO算法用进度奖励函数引导模型规划给朝着目标前进的最优视觉转换加奖励给无进展但合规的转换零奖励给穿墙、踩坑等无效转换重罚。模型会生成多组候选的下一个视觉状态通过对比筛选出最优解逐步学会以最短路径向目标推进完成高效规划。整个过程中模型无需生成任何文字仅通过“输入初始图像→生成后续视觉序列”就能输出完整的规划轨迹从根本上消除了视觉转文字的模态鸿沟。三、实验结果完胜文字推理复杂任务下优势更显著研究团队在三个经典的空间规划任务上做了全面测试FROZENLAKE冰面避坑路径规划、MAZE迷宫导航、MINIBEHAVIOR多步骤机器人导航含拾取/放置动作并与Gemini 2.0/2.5 Pro、Qwen 2.5-VL等主流多模态模型的文字推理方式做对比核心结果如下整体性能一骑绝尘VPRL在三个任务上的精确匹配率EM平均达80.6%进度率PR平均达84.9%远超所有文字推理的模型即便是表现最好的Gemini 2.5 ProEM也仅43.7%差距显著复杂环境下更稳健随着任务难度提升比如迷宫网格从3×3扩大到6×6文字推理模型的准确率断崖式下跌而VPRL的性能下降极其平缓6×6冰面规划的EM仍达82.4%大幅减少无效操作VPRL能将规划中因无效操作穿墙、踩坑导致的失败率降低至少24%相比纯微调的视觉规划模型VPFT对环境规则的遵守能力大幅提升泛化性更强面对训练中未见过的更大网格、部分遮挡的图像输入VPRL仍能生成合理的规划轨迹而文字推理模型和纯微调视觉模型则基本失效。此外实验还发现给文字推理模型增加坐标、ASCII等结构化描述或用强化学习优化也无法弥补模态鸿沟性能仍远不如纯视觉规划。四、优势与局限开辟新方向仍有优化空间核心优势消除模态鸿沟直接在视觉维度推理避免了视觉转文字的信息丢失和错误更适配空间、几何类任务的本质需求性能与泛化双优不仅在基准任务上准确率更高面对复杂环境、未见过的场景时稳健性也远超文字推理模式推理更直观高效以图像序列为推理载体更贴合人类处理空间任务的思维方式同时无需生成冗余文字推理步骤更简洁。现存局限模型与任务范围有限目前仅基于70亿参数的纯视觉模型LVM做实验暂未拓展到更大规模模型和更复杂的现实场景如真实机器人导航计算成本较高生成图像序列相比输出文字会带来一定的计算开销需通过更紧凑的图像表示方式优化动态解释器较简单目前采用基于规则的动态解释器判断视觉转换是否合规面对更复杂的真实视觉环境还需设计更鲁棒的解释器。五、一句话总结这项研究提出的纯视觉规划范式打破了多模态AI推理对文字的过度依赖证明了图像可以作为独立的推理载体完成高效的空间规划为多模态AI在机器人导航、计算机视觉、自动驾驶等空间相关领域的应用开辟了全新方向也让AI的推理方式更贴近人类的认知习惯。