制作微信的网站有哪些问题学做网站最好的网站
制作微信的网站有哪些问题,学做网站最好的网站,wordpress微信群二维码,傻瓜式在线做网站Towards Learning a Generalist Model for Embodied Navigation摘要研究痛点#xff1a;
以前的具身导航模型都是“专才”#xff0c;只能做特定任务。模型缺乏泛化能力#xff0c;遇到没见过的场景或任务就容易失败。解决方案#xff1a;
提出了 NaviLLM#xff0c;这是该…Towards Learning a Generalist Model for Embodied Navigation摘要研究痛点以前的具身导航模型都是“专才”只能做特定任务。模型缺乏泛化能力遇到没见过的场景或任务就容易失败。解决方案提出了NaviLLM这是该领域第一个通用模型。核心技术用 LLM 作为主体架构并提出了一种Schema-based Instruction基于图式的指令。原理这种技术将各种截然不同的导航和视觉任务全部统一转化为语言模型的生成问题。这使得模型可以用统一的方式处理导航、问答、描述等多种任务。训练优势由于任务格式统一模型可以利用多种来源的数据集进行混合训练。这让模型能够学习到更广泛的知识和能力。实验成果刷新纪录在 CVDN、SOON、ScanQA 三大主流榜单上均达到 SOTA 水平。巨大提升在 CVDN 上比前人最好成绩高出29%。泛化强在未训练过的任务如3D场景描述、具身问答上也能表现出色1. Introduction核心问题与动机AGI目标创造能像人一样在物理世界中互动和学习的智能体。现状现有的具身导航模型大多是专才。它们针对特定任务如按指令走、找物体、回答问题训练虽然在各自领域表现尚可但无法泛化。痛点缺乏一个能处理多种任务、适应未见场景的通才Generalist模型。解决方案——NaviLLM切入点利用 LLM 强大的文本理解和生成能力。核心策略将所有不同的导航任务统一转化为生成式建模 (Generative Modeling)问题。关键技术Schema-based Instruction基于图式的指令。设计了一套通用的模版包含任务描述、视觉观察、导航历史等。通过这个模版将视觉和动作需求转化为文本生成问题例如把“导航”转化为“生成方向词”把“定位”转化为“生成物体ID”。方法优势统一性一个模型就能干所有事。数据利用可以把不同任务的数据集CVDN, R2R, SOON等混在一起训练解决了单一任务数据不足的问题。灵活性模型能理解不同格式、不同粗细粒度的指令。实验成果SOTA 表现在 CVDN、SOON、ScanQA 三大榜单上实现SOTA结果。指标提升在 CVDN 任务上性能比前人最好成绩提升了29%。强泛化性在 Unseen tasks 测试中在 SOON 数据集上做零样本测试成功率比基线提升了136%。展示了原本没教过的能力如 3D 场景描述。主要贡献提出了NaviLLM这是该领域第一个通用的具身导航模型。设计了Schema-based instruction成功利用 LLM 统一了多种异构任务。通过混合训练实现了 SOTA 性能并证明了模型具有极强的泛化能力。2. Related Work2.1. Vision-Language Navigation任务类型现有的研究涵盖了多种侧重点不同的具身能力任务R2R (Room-to-Room):要求智能体遵循细粒度的指令一步步导航。CVDN (Cooperative Vision-and-Dialog Navigation):要求智能体根据对话历史进行导航。SOON REVERIE:除了导航还要求智能体定位指令中查询的具体物体。EQA (Embodied Question Answering):要求通过主动探索环境来回答关于3D环境的问题。现有方法的局限Specialist Models以前的方法主要致力于为每一个单独的任务设计特定的模型。缺乏泛化性这些模型往往难以迁移到其他任务上泛化能力差。方法对比对比 MT-RCMMT-RCM 是一个为了减少过拟合设计的多任务模型。NaviLLM 与其区别在于利用了LLM来增强泛化性且覆盖的任务范围更广。对比 Pipeline 方法现有的一些工作利用现成的基础模型串联起来解决问题。NaviLLM 是一个统一的、端到端的具身模型而不是多个独立模型的拼凑。2.2. Multimodal Instruction Tuning现有进展LLM 在文本理解和生成上已革命性突破且已扩展到处理 2D 图像如 LLaVA和视频。本文的创新性多模态 LLM 主要关注图像或视频而忽略了Embodied AI特别是导航和 3D 理解。对比 3D-LLM虽然 3D-LLM 将 LLM 适配到了 3D 数据上但它没有解决连续决策的问题。连续决策和静态任务的对比连续决策智能体不能只做一次决定而是要在一系列的时间步中根据每一步产生的变化连续不断地做出新的决定。静态任务它是上帝视角或静态视角。它是一次性把场景看完了做出一次决策或者回答。2.3. Large Language Models as Embodied Agents路线一Frozen LLMs 转换将视觉信息翻译成文本然后喂给参数冻结的 LLM让其生成计划、路标或代码。路线二Fine-tuning直接在包含动作序列的数据集上微调 LLM。这条路线目前主要集中在manipulation上。本文也采用微调的方法。区别本文专注于解决具身导航中的各种任务而不是机器人操作。3. Method3.1 Problem Fromulation在具身导航中位于3D环境中的具身智能体需要完成用自然语言描述的任务。输入Past Trajectories 现在看到的画面Current Observations。输出下一步动作Action。动作包括导航移动、物体的边界框和文本响应。3.2 NaviLLMNaviLLM 包含两个模块场景编码器Scene Encoder和LLM。场景编码器以当前的视觉观察为输入并将其转化为一系列场景表示。利用这些场景表示我们为不同的任务构建各种图式Schemas这些图式作为 LLM 的输入以产生下一个动作。核心流程图片 - 向量 -模版Schema- LLM - 动作。3.2.1 Scene Encoding场景编码器从由一组图像{Ii}i1n\{I_i\}_{i1}^n{Ii}i1n组成的观察中提取场景表示每个图像代表一种viewpoint。机器人通常看一圈全景图切分成几个方向这里nnn就是方向的数量。第一步单张图片处理。用 ViT 把每张图变成特征向量第二步不同视角的这些特征进行多视角融合Multi-view Fusion产生场景表示{si}i1n\{s_i\}_{i1}^n{si}i1n3.2.1.1 Visual Feature ExtractionViT 的处理过程Patching - 加 [CLS] token - Transformer - 取 [CLS] 输出。fiViT(Ii) f_i \text{ViT}(I_i)fiViT(Ii)这里选用的是 [CLS] token 作为一个Image的特征表示3.2.1.2 Multi-view Fusion目的模型需要理解不同图片的联系比如“图片A”是“图片B”的左边。这一步就是为了捕捉不同视角之间复杂的相互依赖关系。核心机制Transformer Encoder输入之前通过 ViT 提取出的所有单张图像特征{fi}i1n\{f_i\}_{i1}^n{fi}i1n。处理将这些特征作为一个序列喂给一个Transformer Encoder。作用利用Self-Attention学习到它们之间的空间关系。数学表达{si}i1nTransformer-Encoder({fi}i1n) \{s_i\}_{i1}^n \text{Transformer-Encoder}(\{f_i\}_{i1}^n){si}i1nTransformer-Encoder({fi}i1n)fif_ifi只是第iii张图原本的视觉特征孤立的。sis_isi是融合了周围环境上下文后的第iii个视角的场景表示全局的。Geometric Information角度信息:知道每张图是朝哪个方向拍的。GPS 信息:知道当前所处的绝对或相对坐标。这些信息被编码后加入到场景编码中帮助模型建立更精确的三维空间感。3.2.2 Schema-Based Instruction核心理念设计一种统一的输入格式。不同任务都会被转化成同一种结构喂给 LLM。目的这种灵活性使得模型可以输入各种不同来源的数据实现通用性。作者将输入信息拆解为以下四个部分Task定义用自然语言描述智能体需要执行的命令。形式一段文本序列。Observation这是智能体现在看到的东西。难点LLM 只能读文本读不懂图片特征向量。解决方案加 ID。作者把当前视角的图像特征{si}\{s_i\}{si}序列化。关键操作在每一个图像特征前面加一个对应的ID EmbeddingID嵌入向量。格式[Emb(1),s1,Emb(2),s2,...,Emb(n),sn] [\text{Emb}(1), s_1, \text{Emb}(2), s_2, ..., \text{Emb}(n), s_n][Emb(1),s1,Emb(2),s2,...,Emb(n),sn]这里Emb(1)\text{Emb}(1)Emb(1)代表数字“1”的向量s1s_1s1代表方向1的图像特征。作用这样 LLM 就能通过输出数字 ID来代表它选择了“方向1”的画面从而实现了“视觉选择”。History这是智能体过去看到的东西。定义记录截止到当前第ttt步的所有过去视觉观察序列。作用提供时间上下文。帮助智能体知道自己走过了哪些地方避免Looping。让智能体通过对比历史和现在获得行为的反馈。格式同样采用加 ID 的方式但这里的 ID 代表时间步。[Emb(1),h1,...,Emb(t),ht] [\text{Emb}(1), h_1, ..., \text{Emb}(t), h_t][Emb(1),h1,...,Emb(t),ht]表示第1步看到了h1h_1h1…第ttt步看到了hth_tht。Output Hint定义提示模型预期的输出格式。作用将生成问题约束在特定范围内对齐任务需求。例子导航时提示“Select a viewpoint ID.”请选一个视角ID问答时提示“Answer the question.”请回答问题总结时提示“Summarize the trajectory.”请总结路径整个过程可视作给LLM写一个非常详细的prompt如[Task]:“请找到厨房里的微波炉。”[History]:“你第1步看到了走廊(图像特征A)第2步看到了客厅(图像特征B)…”[Observation]:“现在你面前有1号方向是墙(图像特征C)2号方向是门(图像特征D)…”[Output Hint]:“请输出你下一步想去的方向编号 (ID)。”3.3 Multi-task Learning核心思想万物皆生成。所有任务都被转化为根据提示生成文本或ID的问题并使用统一的交叉熵损失函数进行优化。Vision-Language Navigation输入 SchemaTask:导航指令Observation:当前位置所有可到达视角的场景表示带ID。Output Hint:提示词如“从观察中选择一个方向”。输出机制LLM 预测一个数字 ID。这个 ID 对应某个可视方向代表智能体决定往那里走。Object Localization这个任务通常发生在导航到达目的地之后要求智能体指出具体物体在哪里。输入 SchemaHistory:之前的导航路径。Task:定位指令。Observation:变为当前视野内所有可见物体的表示不再是方向。注物体特征通过预训练 ViT 提取并映射到词向量维度。Output Hint:提示词如“从观察中选择一个物体”。输出机制LLM 生成被选中的物体 ID。Trajectory Summarization这是导航的逆向任务。给定一段走过的路让 AI 生成指挥这段路的指令。输入 SchemaHistory Observation:同 VLN提供路径信息。Task:描述总结的风格如“细粒度”或“粗粒度”。Output Hint:提示词如“总结上述路径”。输出机制LLM 生成自然语言文本即一段导航指令。3D Question Answering这是一个静态任务不需要移动只要求根据当前场景回答问题。输入 SchemaHistory:不需要。Task:关于室内场景的一个问题。Observation:不同视角的场景表示全景图。Output Hint:提示词如“根据场景回答问题”。输出机制LLM 生成自然语言文本答案。Embodied Question Answering定义智能体需要先走到问题所指的地方然后再回答问题。两阶段策略 (Two Stages)导航阶段使用VLN Schema让模型生成 ID 进行移动直到到达目标。问答阶段到达后切换到3D-QA Schema让模型观察环境并生成文本答案。4. Experiment4.1 Experiment Setup4.1.1 Implementation Details模型架构LLM 底座:基于Vicuna-7B-v0视觉部分:场景编码器中的 ViT 使用EVA-CLIP-02-Large且在训练过程中保持冻结。物体特征提取使用 ViT-B16。多视角融合模块使用一个 2 层的 Transformer Encoder (Hidden size 1024)。训练策略采用两阶段训练预训练:10,000 步使用 Teacher-forcing。多任务微调:5,000 步交替使用 Teacher-forcing 和 Student-forcing。硬件与时间:8 张 Nvidia A100 GPU训练约 80 小时。推理策略:SOON 和 REVERIE 任务使用采样策略 (Temperature 0.01) 以鼓励探索。其他任务使用贪婪策略 (Greedy strategy)。训练数据构建:数据来源:混合了 CVDN, SOON, R2R, REVERIE, ScanQA 以及 LLaVA-23k 等多个数据集。任务转换技巧:路径总结:将 VLN 的“指令-路径”对翻转变成“路径-指令”对进行训练。3D-QA:除了 ScanQA还利用 R2R 的细粒度注释构建了额外的问答对。留出集 (Held-out):特意不使用 EQA 数据集进行训练专门用来测试模型的“零样本”泛化能力。4.1.2 Setup for VLN数据集:选取了四个具有代表性的数据集分别对应不同的挑战CVDN:基于多轮对话历史进行导航。SOON:根据详尽的语义描述寻找物体。R2R:遵循一步步的细粒度指令进行导航。REVERIE:根据简短的高层指令寻找远处物体。评估指标:SR (Success Rate):成功率。SPL (Success Rate Weighted by Path Length):路径加权成功率主要指标用于 R2R, SOON, REVERIE。GP (Goal Progress):目标进程向目标靠近了多少米主要用于CVDN。OSR:Oracle 成功率。TL:轨迹长度。Baselines:与各数据集上最新的 SOTA 方法进行对比排除那些使用了预探索或额外环境增强的方法。4.1.3 Setup for 3D-QA数据集:使用ScanQA数据集。评估指标:标准的自然语言处理指标包括EM, METEOR, ROUGE-L, CIDER, BLEU-4。基线方法:对比 VoteNetMCAN, ScanReferMCAN 以及当前的 SOTA 模型3D-LLM。4.1.4 Setup for EQA测试性质:零样本推理。因为模型在训练时没见过这个任务的数据。数据集:MP3D-EQA。作者手动过滤了其中终点不准确的无效数据。评估指标:导航阶段SR, SPL。问答阶段ACC (Accuracy)准确率。基线方法:对比全监督的 VQA 模型和零样本的 DUET 模型。4.2 Experiment Results