全国建设项目竣工验收公示网站,联图二维码生成器,淄博网站开发网泰快,wordpress数据库点击下方卡片#xff0c;关注「3D视觉工坊」公众号选择星标#xff0c;干货第一时间送达本文经作者授权发布 | 来源#xff1a;3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) #xff01;星球内有20多门3D视觉系统课程、300场顶会讲解、顶会论文最新解读、海量3D视…点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达本文经作者授权发布 | 来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、300场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入引言在3D视觉领域基于点图Pointmap的3D大模型正展现出颠覆性的潜力。然而现有的多视角Transformer模型往往面临两大痛点一是缺乏显式的空间几何推理二是计算复杂度随图像数量呈二次方增长面对大规模的图像序列时往往力不从心。为了解决这一问题在最新工作AMB3R中作者团队受经典密集重建框架的启发为神经网络引入了一个稀疏但紧致的3D后端赋予了模型强大的3D显式几何推理能力。同时根据基于pointmap大模型的特性作者团队还提出了AMB3R-VO和AMB3R-SfM两个无需训练无需优化的即插即用框架打破了3D大模型序列长度的桎梏。标题AMB3R: Accurate Feed-forward Metric-scale 3D Reconstruction with Backend作者Hengyi Wang, Lourdes Agapito单位Department of Computer Science,University College London主页https://hengyiwang.github.io/projects/amber主要贡献稀疏体素后端AMB3R (Base model) 引入了一个稀疏且紧凑的体积场景表示作为神经网络后端赋予了基于 pointmap 的网络在紧凑 3D 空间中进行显式几何推理的能力轻量真实尺度还原设计了一个轻量级的尺度头来从特征中恢复场景在真实世界中的物理尺寸超低训练成本利用VGGT的权重作为初始化AMB3R 中的后端以及尺度头的训练总计仅需约80个H100 GPU小时无缝扩展千图级VO/SfM提出AMB3R-VO和AMB3R-SfM两个无需训练与模型无关的框架。它们可以搭配任意 VGGT 类型的 3D 大模型实现处理任意长度序列的视觉里程计VO和运动恢复结构SfM方法深度解析AMB3R (Base model)实现3D显示几何推理1. 后端稀疏体素表示引入AMB3R 整体采用了冻结的 VGGT 作为前端来输出 pointmap 及其对应的特征 。其最核心的突破在于其后端网络的处理流程体素化与序列化首先将 pointmap 和特征平均聚合成一个稀疏体素网格Sparse voxel grid。随后通过空间填充曲线Space-filling curves将这些稀疏体素序列化为一维特征序列。Transformer特征融合利用 Transformer 高效地在紧凑的体素空间中处理这些一维序列特征随后利用 KNN 插值将处理后的特征重新映射回 2D 视角。零卷积Zero-convolution特征回传通过零卷积将融合后的特征重新注入冻结的前端解码器Decoder中 。这样不仅完美复用了预训练权重还保留了前端学习到的置信度从而将后端的训练开销大幅压缩至约 50 H100 小时 。2. 轻量尺度头告别全局拟合解耦尺度预测为了还原预测与真实场景的尺度差以往的方法往往尝试直接拟合全局尺度差。但这需要聚合所有帧的 decoder 特征容易导致训练困难且极易过拟合 。AMB3R 采取了另一种的解耦策略寻找预测目标找到每帧预测深度中位数所对应的像素独立拟合对每帧仅回归该像素对应的真实度量深度。由于这个深度是输入图片本身的固有属性不依赖模型的全局几何预测且每帧都可以用 encoder 特征独立还原大幅降低了训练难度 。测试推理在推理时利用每帧中位数深度对应的真实尺度深度预测来还原尺度差通过所有帧尺度差的中位数进而得出鲁棒的真实全局尺度 。AMB3R-VO打破二次复杂度限制的视觉里程计多视图Transformer面临着计算复杂度随图像数量呈二次方增长的致命缺陷 。以往的方法如VGGT-SLAM通常采用滑动重叠子图并使用 Kabsch 算法对齐不同子图的坐标系 。但Kabsch对齐会引入显著误差漂移导致其严重依赖基于 BABundle Adjustment的后端优化。AMB3R团队发现基于 pointmap 的模型输出自带“第一帧坐标系”的先验。因此根本无需进行极易产生漂移的 Kabsch 相对变换对齐只需估计尺度即可 基于此团队提出了 AMB3R-VO其核心机制在于关键帧选取与混合内存Hybrid Memory局部与全局内存维护一个包含少量关键帧的 Active memory与新帧共同作为网络输入以及一个存储全局显式几何信息的 Global memory。稳定的坐标对齐预测后若新 map 坐标系非第一帧则根据 Active memory 中的第一帧对应全局地图位姿将全局地图转换到新map的坐标系中对齐尺度差。之后算出全局和新map对应关键帧的置信度加权相对位姿将新 map 映射回全局坐标系 。最后以加权平均的方式更新 Global memory。帧率恒定不掉速只有 Active memory 中的关键帧会作为模型输入。当 Active memory 满时会根据最新关键帧从全局历史中重采样甚至包含闭环的后向搜索 。这使得AMB3R-VO 成功逃脱了二次复杂度的诅咒。一个直观的总结是相比VGGT-SLAM这种滑动重叠子图的方式AMB3R-VO的重叠帧永远是那组精选的关键帧显著减少 driftAMB3R-VO并没有使用Kabsch估计相对变换而是通过预测出的pose和置信度直接加权混合内存策略令AMB3R-VO可以逃脱二次复杂度的诅咒帧率并不随视频长度改变同时全局的显式几何保证了全局一致性AMB3R-SfM分治策略征服无序图像集AMB3R-SfM整体是遵循AMB3R-VO的memory设计并额外提出了一个分治策略来针对大规模的无序图片集的重建整体思路如下图片聚类 (Image Clustering)利用 encoder 特征构建相似度矩阵并通过 FPS (Farthest Point Sampling) 算法进行聚类确保每个 Cluster 图像数量适中 。粗配准 (Coarse Registration)选取置信度最高的 Cluster 进行初始化。随后利用特征相似度选取 Top-k clusters 与关键帧一起预测。若全局关键帧过多则会根据位姿距离打散为小 cluster 辅助后续匹配始终保留置信度最高的那组cluster预测结果更新地图。全局预测优化 (Global Mapping)为了提升精度对关键帧根据置信度和位姿距离执行 BFS广度优先搜索依次预测并更新全局地图。最后对每个非关键帧选取 Top-k 关键帧再次预测更新。 AMB3R-SfM整个过程都无需任何传统的非线性优化实验AMB3R作者团队在13个涵盖室内、室外、静态与动态场景的公开数据集上对模型进行了多达8项3D视觉任务的全面评估。结果显示无论是作为一个基础网络还是作为 VO/SfM 的前馈框架AMB3R 都展现出了极优秀的性能。整体实验所用的数据和代码也已一并开源。单目估计相机位姿估计多视角深度估计多视角真实尺度深度估计3D重建动态重建视觉里程计/SLAM 在线重建其中这里在7scenes上amb3r-vo的性能甚至超越了7scenes数据集原本的pseudo GT。运动恢复结构 SfM总结AMB3R 成功地将稀疏且紧凑的体积场景表示融合到了前馈模型的后端之中 。事实证明这种空间紧凑性可以显著提升在位姿估计深度估计、3D 重建等众多核心 3D 视觉任务上的表现。同时AMB3R-VO和AMB3R-SfM这两个即插即用的框架也成功的突破了3D大模型二次复杂度的限制实现了单卡千图以上VO/SfM的同时无需任何优化模块。这无疑为构建一个真正可扩展、大一统且具备高度泛化能力的前馈 3D 感知系统迈出了重要的一步 。目前模型代码测试代码以及数据已经全部开源https://github.com/HengyiWang/amb3r/。欢迎大家尝试本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。