品牌网站建设哪好,不会百度吗网页生成,网页版梦幻西游贴吧,c程序设计教学网站怎么做IDEA 研究院张磊团队与光影焕像谭平团队联手#xff0c;重磅推出开放世界 3D 场景生成框架 SceneMaker。该框架以视启未来的万物检测模型 DINO-X 和光影焕像的万物 3D 物体生成模型 Triverse 为基础#xff0c;打破传统 3D 场景生成局限于室内场景和有限物体类别的困境#…IDEA 研究院张磊团队与光影焕像谭平团队联手重磅推出开放世界 3D 场景生成框架 SceneMaker。该框架以视启未来的万物检测模型 DINO-X 和光影焕像的万物 3D 物体生成模型 Triverse 为基础打破传统 3D 场景生成局限于室内场景和有限物体类别的困境实现了从任意开放世界图像涵盖室内、室外、桌面等场景甚至合成图像、文生图、真实拍摄图像到基于物体 mesh 的 3D 场景重建不仅解决了严重遮挡下几何质量衰退的核心痛点还具备文本可控的去遮挡能力为计算机感知和建模真实世界Real-to-Sim带来了重要突破。● 论文链接https://arxiv.org/abs/2512.10957● 项目主页https://idea-research.github.io/SceneMaker/● 开源代码https://github.com/IDEA-Research/SceneMaker● 开源数据https://huggingface.co/datasets/LightillusionsLab/SceneMakerscenemaker_wo_logo一、3D 场景生成的“室内魔咒”如何让计算机感知和建模真实世界Real-to-Sim一直是人工智能领域的核心挑战而 3D 场景生成正是这一挑战中的关键任务之一。该任务旨在从输入的场景图像中恢复完整的三维结构模型需要生成开放世界下任意场景中各个物体的显式三维几何表示如 mesh同时估计其在空间中的位姿信息最终重构出可交互、可编辑的 3D 场景。不同于传统二维视觉理解3D 场景生成不仅要求模型具备对物体语义的准确感知还需要深入理解物体的几何形态及其空间关系从而具备更强的空间智能能力。因此该方向在具身智能、虚拟现实以及游戏工业等领域有着不可估量的应用价值。但 3D 场景数据的采集和标注成本极高导致现有技术长期受限于数据规模往往只能处理室内场景和少数家具类物体无法应对开放世界中千奇百怪的物体和复杂环境比如1场景受限只能处理客厅、卧室这类熟悉的室内场景遇到街道、公园、桌面摆件等开放场景束手无策。2遮挡难题现实中物体互相遮挡是常态现有模型缺乏足够的 “遮挡常识”面对这种情况往往只能生成残缺、扭曲的 3D 几何形状。3泛化不足对于没见过的物体比如小众手办、特殊工具模型无法准确重建其 3D 结构更谈不上估计其在空间中的位置和姿态。二、SceneMaker: 从室内走向开放世界1. 技术原理SceneMaker 框架的目标是给定任意场景的图像输出重建的 3D 场景包含物体的三维几何和位姿信息。其核心思路是回归万物检测的原点重新拆解难题打造一条高效的 3D 场景生产线。如图 2 所示整个框架分为三大模块场景感知、三维物体重建和位姿估计1场景感知让模型“看清”输入图像里有什么。团队使用 DINO-X 万物检测模型精准识别图像中所有物体并进行分割再通过深度估计模型得到对应的 3D 点云。2三维物体重建给遮挡物体还原全貌。使用解耦的图像去遮挡模型对分割后的物体进行去遮挡得到完整物体图像输入 Triverse 万物重建模型完成任意物体的 3D 重建获得显式几何mesh和纹理信息。3位姿估计给物体找准位置。基于场景图像和点云估计重建 3D 物体在场景中的旋转、平移和尺寸等位姿信息并将所有物体按照位姿关系组合得到最终 3D 场景。图2 SceneMaker 场景生成框架2. 核心创新受限于有限的 3D 场景数据当前 3D 场景生成的核心问题是缺少开放世界下的去遮挡和位姿估计先验。即面对千奇百怪的陌生场景模型既不会处理物体互相遮挡的情况也搞不懂物体的位置关系。为此SceneMaker 提出三大创新大幅提升模型的去遮挡能力和开放世界的重建能力1解耦的去遮挡模块现实场景里物体互相遮挡是常态。传统 3D 模型因为缺乏足够的 3D 遮挡数据训练只能生成残缺、扭曲的 3D 形状。比如把被挡住一半的杯子最终重建出 “少个杯壁” 的畸形模型。SceneMaker 的解决方案很简单将去遮挡模型从 3D 重建中解耦出来充分利用图像数据集丰富的开放集先验先对物体图像去遮挡再进行3D重建。具体而言首先构建一个包含三种常见遮挡情况物体遮挡、图像边角和用户涂抹的图像去遮挡数据集再基于海量图像数据训练“文本-图像”编辑模型使其能精准还原被挡住的部分。如图 3 所示相较于原生的 3D 重建方案SceneMaker 具备更强的去遮挡能力和更高精度的几何。同时如图 4 所示SceneMaker 还进一步支持文本可控的物体生成能够控制不可见部分的内容花盆颜色、玩具背部等。图3 在严重遮挡下对物体重建能力的对比。SceneMaker具有更完整和精细的几何表面。图4 文本可控的3D物体重建2统一的位姿估计模型如果说 3D 重建是造零件那么位姿估计就是组装零件让每个物体知道“自己该在哪个位置、转多少角度、多大尺寸”。传统模型在这一步常犯两个低级错误一是漏估尺寸比如“把手机建成平板电脑那么大”或者“把椅子建成凳子那么高”二是位置混乱比如“让杯子悬浮在茶几上方”完全不符合现实空间物理逻辑。问题的根源在于传统模型不会针对性关注信息。比如在估算物体旋转角度时不该被整个房间的场景干扰但估算物体位置时又必须参考周围环境。为此SceneMaker 的解决方案是让模型结合全局和局部注意力机制即图 2 中提及的统一的位姿估计模型。让它该专注细节时不分心该顾全大局时不遗漏。具体实现上SceneMaker 用扩散模型作为基础把场景图像、物体几何和点云作为条件变量通过去噪的方式精准算出物体的位姿数据。如图 5 所示在扩散模型中每个物体由几何 token 和位姿 token平移、旋转、尺寸唯一决定每个 DiT Block 包含四种注意力机制注意力机制相互分工合作局部自注意力让单个物体的位姿和几何 token 在内部对齐确保估计位姿时充分考虑物体的几何信息让模型拿着物体初始模板去匹配位姿全局自注意力让所有物体互相参考比如杯子要放在茶几上、书本要放在桌子上不会出现 “物体互相穿透”、“悬浮在空中” 等荒谬场景局部交叉注意力估算旋转角度时只关注物体本身的图像和尺寸不被周围环境干扰。比如不管杯子放在客厅还是卧室它的旋转角度都能被精准计算全局交叉注意力估算位置和尺寸时紧盯整个场景的点云和图像。比如根据茶几的大小判断杯子的尺寸是否合理根据房间的布局确定椅子该放在桌子旁边还是墙角。表 1 的消融实验证明每个注意力模块的对模型性能都有提升。图5 位姿估计模型的全局和局部注意机制表1 位姿估计模型消融实验3自建大规模开放世界 3D 场景数据集由于当下缺乏足够规模的开放世界 3D 场景数据集团队基于 Objaverse[6] 3D 物体数据集自行构建了 20 万个合成场景数据集用于模型训练。如图 6 所示每个场景放置 2 到 5 个物体包含每个物体的几何、位姿以及20 个不同相机视角下的 RGB 图像、分割图和深度图并且完全开源。图6 SceneMaker 3D 场景数据集样例三、实验结果如图 7、表 2 和表 3 所示在可视化和量化对比中SceneMaker 突破现有方案对室内等使用场景的限制实现从任意开放世界图像室内、室外、桌面场景到基于物体mesh的3D场景重建且都达到 SOTA 表现。SceneMaker进一步展示了覆盖合成图像、文生图、真实世界拍摄图像的强大泛化能力和更加高质量和可控的去遮挡能力。图7 SceneMaker与现有方案MIDI3D[4] Part-Crafter[5]在室内和开放世界场景下的可视化对比结果表2 SceneMaker与现有方案在室内和开放世界场景的量化对比结果表3 SceneMaker与现有方案在MIDI3D数据集上的量化对比结果四、应用场景1. 具身智能具身智能的核心是让机器人理解真实物理空间并完成交互任务。SceneMaker 能从真实场景图像中重建高精度、带位姿信息的 3D 场景包含室内、室外、桌面等环境为机器人提供可交互的数字孪生环境助力机器人完成路径规划、物体抓取、场景导航等任务解决具身智能在开放世界环境感知与建模的核心痛点。2. 自动驾驶/无人机自动驾驶、无人机等领域需要大量仿真场景进行算法训练但真实场景数据采集成本高、标注难度大。SceneMaker 能将真实道路、城市街区、园区环境的图像转化为高精度 3D 仿真场景同时解决现实中物体遮挡导致的模型失真问题为自动驾驶仿真测试、无人机路径模拟提供高保真的虚拟训练环境。3. 游戏工业建模游戏开发中开放世界地图和场景建模是耗时耗力的环节。SceneMaker 可实现街道、公园、野外等开放游戏场景的快速 3D 重建还能精准还原小众道具如手办、特殊武器的几何形态与空间位姿帮助游戏厂商提升场景制作效率丰富游戏内物体的多样性。结语SceneMaker 依托 DINO-X 万物检测与 Triverse 3D 生成技术通过解耦去遮挡模块、统一位姿估计模型及大规模开放数据集三大核心创新攻克 3D 场景生成中场景受限、遮挡难题与泛化不足的痛点实现从真实拍摄、合成图像到文生图的全场景 3D 重建突破打开开放世界重建的大门。从有限到无限的 3D 场景突破意味着具身智能的数字孪生、自动驾驶的仿真训练、游戏工业的高效建模等场景将被重新定义。人工智能将更精准感知真实世界模糊虚拟与现实的边界为产业落地注入无限可能。[1] Shi, Yukai, et al. SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model.arXiv preprint arXiv:2512.10957(2025).[2] DINO-X: https://cloud.deepdataspace.com/.[3] Triverse: https://triverse.ai/.[4] Huang, Zehuan, et al. Midi: Multi-instance diffusion for single image to 3d scene generation.Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.[5] Lin, Yuchen, et al. PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers.arXiv preprint arXiv:2506.05573(2025).[6] Deitke, Matt, et al. Objaverse: A universe of annotated 3d objects.Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023.