CVPR 2026 | 提速100倍!首个端到端Real-to-Sim物体级感知与重建框架

张开发
2026/4/15 22:52:37 15 分钟阅读

分享文章

CVPR 2026 | 提速100倍!首个端到端Real-to-Sim物体级感知与重建框架
1. Real2Sim的主要问题出发点具身智能的落地离不开精准的Real-to-Sim跨域感知与重建。然而现有的 3D 重建方案大多依赖“检测-分割-重建”的多级pipeline这不仅容易产生误差累积且难以高效处理多物体场景。原文链接CVPR 2026 | 提速100倍首个端到端Real-to-Sim物体级感知与重建框架为解决上述挑战来自NTU、腾讯的研究团队提出了一种全新的端到端物体级感知与重建框架 UniPR。仅需输入一对双目立体图像UniPR 即可在单次前向推理中并行完成全场景物体的检测、位姿估计与 3D 几何重建。相比传统串行pipelineUniPR 摒弃了繁琐的中间模块将全场景的处理速度提升了最高 100 倍同时得益于双目几何约束与位姿感知形状表示PASR其在物理形状比例的准确度上实现了3倍的提升为机器人真实的物理交互与抓取提供了可靠保障。目前该工作已被CVPR 2026接收代码已开源。论文链接 https://arxiv.org/abs/2603.19616项目主页 https://xingyoujun.github.io/unipr代码: https://github.com/xingyoujun/unipr主要背景在具身智能与机器人操作领域精准的Real-to-Sim重建是关键环节。机器人不仅需要获取二维视觉信息还需要感知场景中物体的精确三维几何、真实物理尺寸以及空间位姿。然而现有的 3D 感知与重建方案主要面临以下两个挑战挑战一模块化pipeline带来的误差累积与计算低效现有的大多数方法将感知与重建拆分为多个独立的子模块2D检测 - 分割 - 形状重建 - 位姿估计。这种模块化的管线通常串行处理局部信息容易丢失全局上下文。前置模块的偏差如检测或分割错误会向后传递导致最终的 3D 重建和位姿估计产生明显误差。此外面对多物体场景时逐个处理目标的方式导致整体计算效率较低。挑战二单目视觉的尺度模糊与预定义类别空间的局限目前的单目 Image-to-3D 生成模型如 Trellis、Hunyuan3D 等虽然具备较高的视觉保真度但由于单目图像固有的尺度模糊重建出的三维模型难以保持真实的物理比例。同时传统的位姿估计和重建方法往往依赖预定义的类别标准空间或者物模型作为输入导致现有方法通常仅能处理有限的几个类别限制了模型对未知类别和真实世界复杂场景的泛化能力。针对上述问题UniPR应运而生这是首个端到端的物体级Real-to-Sim立体感知与重建框架。仅需输入一对双目立体图像UniPR 即可在单次前向推理中并行处理全场景的多个物体。网络利用双目几何约束解决尺度模糊问题从而同时完成物体的检测、位姿估计与形状重建。实验结果表明相比传统串行方法UniPR 在多物体场景下的处理速度实现了最高100倍的提升并在三维空间定位精度与 3D 几何重建质量尤其是物理形状比例准确度上取得了显著改进。此外UniPR 输出的高精度、具备真实物理尺度的感知与重建结果可以直接用于指导真实机械臂执行抓取等物理操作。UniPR 方法解析UniPR 的核心思想在于通过统一的网络架构消除传统感知与重建任务间的模块壁垒实现从双目图像到物理世界三维结构的一步到位单次前向推理的并行管线UniPR 摒弃了“先检测、再分割、后重建”的串行步骤。模型基于 Transformer Decoder 架构利用 Object Query 从双目特征构建的全局三平面中并行提取多实例特征。在单次推理中网络可同时输出场景内所有物体的语义标签、3D 空间坐标、绝对物理尺度以及形状特征有效避免了多模块拼接带来的误差累积并大幅提升了多物体场景的处理效率。位姿感知形状表示传统的 3D 重建方法通常依赖为每个物体类别预定义标准空间这限制了模型处理未知类别的能力。UniPR 提出了 PASR (Pose-Aware Shape Representation)通过引入球面体素空间来规范化物体。这种表示方法将物体的几何形状与空间位姿统一编码在当前的观察空间中有效消除了物体旋转带来的尺度模糊。模型无需依赖特定类别的几何先验即可准确恢复物体的真实物理比例。提出大规模双目数据集 LVS6D为了弥补大词汇量Large-Vocabulary立体视觉重建数据的空白本文构建并开源了 LVS6D 数据集。区别于以往通常仅包含个位数类别的数据集LVS6D 涵盖了 192 个日常类别、超过 6300 个物体提供了丰富的双目图像与详尽的 3D 标注为突破类别限制的 Real-to-Sim 算法提供了基础数据支撑。通过整合双目几何约束与 PASR 表示UniPR 成功实现了高效、高精度、且不受类别限制的具身三维感知流程。深度解析位姿感知形状表示 (PASR)在 UniPR 的架构中位姿感知形状表示是解决传统重建方法泛化性瓶颈的关键设计。它改变了网络理解和表示 3D 几何的方式具体体现在以下三个核心层面极简的特征压缩仅用 64 维特征编码 3D 物体传统的 3D 形状通常依赖高分辨率的体素或海量点云来描述数据维度极高难以与主流的 2D 目标检测框架高效融合。PASR 通过变分自编码器将复杂的物体表面点云压缩为一个仅包含 64 维的轻量级隐式特征分布。这种极致的压缩使得完整的 3D 形状信息能够像边界框坐标一样无缝嵌入到检测网络的物体查询Object Query中实现了感知与重建的完全闭环。位姿与重建的物理融合规避“正方向”定义难题现有方法通常将位姿估计与形状重建解耦先要求网络在预先定义的标准空间Canonical Space中重建出标准朝向的物体例如强行规定所有杯子的把手必须朝向同一个坐标轴随后再预测一个相对旋转矩阵。这种强依赖人工干预的做法在面对结构相似或对称的未知类别物体时极易产生旋转预测上的混淆。PASR 彻底摒弃了标准空间直接在当前的观察空间下编码带有真实旋转姿态的物体。为了解决旋转后物体可能超出立方体边界的问题PASR引入了球面体素空间。通过单位球面进行归一化无论物体如何旋转都能确保其始终处于统一的边界内从而巧妙且彻底地规避了人工定义“正方向”的难题。结构化的隐空间表达具备旋转与类别的插值能力在训练这一 3D 形状隐空间表示时模型仅通过几何占用率Occupancy进行监督全程未显式注入任何关于物体类别的标签信息。然而得益于 KL 散度正则化对隐空间的有效约束网络自主学习到了物体底层的 3D 拓扑关系。实验表明该连续隐空间展现出了优异的生成与泛化性能。它不仅能够平滑地插值出单一物体在不同姿态下的连续旋转过程甚至支持跨类别的几何插值例如从一个形状的物体平滑过渡到另一个完全不同类别的物体。这证明了 PASR 具有强大的底层几何特征表达能力而非简单的形状记忆。双目数据集LVS6DLVS6D 涵盖 192 个类别和 6,300 多个物体实例是目前规模最大的双目类别级数据集之一。数据集整合了 OmniObject3D 与 Google Scanned Objects 的高质量三维模型提供了丰富的几何多样性。根据物体几何结构的复杂程度数据集被划分为 Easy、Medium 和 Hard 三个难度等级为模型性能提供多维度的评估基准。实验效果为了验证 UniPR 的实际性能从三维形状重建质量与全场景多目标感知两个维度与当前的主流基线方法进行了严谨的定量对比。1. 形状重建与物理比例对比将 UniPR 与当前领先的单目 Image-to-3D 生成大模型进行了对比验证。结果直观地展现了 UniPR 的三大核心优势零前置依赖主流生成大模型高度依赖完美的 2D 边界框、分割掩码以及相机位姿输入而 UniPR 完全摆脱了这些束缚实现了从原始双目图像直接输入到 3D 重建的真正端到端。物理比例更精准得益于双目几何约束与 PASR 表示UniPR 的形状比例误差SPE降低至 0.109几何保真大幅领先重建出的物体尺寸更加符合真实的物理世界。极致的推理效率在处理包含多个物体的整幅图像时传统的串行生成方法耗时从几十秒到数分钟不等而 UniPR 并行处理全场景仅需0.63 秒推理速度实现了数十乃至上百倍的飞跃。2. LVS6D 数据集全方位评估在构建的大规模数据集 LVS6D 上UniPR 与现有的双目 6D 位姿估计基线方法Coders进行了全面对比无论是在几何简单的 Easy 子集还是中等难度的 Medium 子集UniPR 在三维检测精度AP、定位误差APE以及重建误差ACD上均显著优于基线方法。unipr-results.mp4真实场景中的检测与重建结果展示结语与未来展望UniPR 通过创新的端到端架构与位姿感知形状表示PASR成功打破了传统三维感知与重建流水线在推理效率与真实物理比例上的双重瓶颈。我们期待这一开源框架与 LVS6D 数据集能为具身智能领域的精准 Real-to-Sim 转移提供可靠的基座支持进一步推动机器人在真实物理世界中的复杂交互与灵巧操作。团队介绍本研究由南洋理工大学NTU王子为Ziwei Wang老师团队与腾讯 Robotics X 实验室联合发布。NTU PINE Lab长期聚焦于具身智能的核心前沿领域研究方向涵盖Real-to-Sim世界模型World Models与强化学习RL欢迎大家交流合作~重磅全网首个具身智能开源知识库来啦技术/产业/投融资/上下游推荐阅读VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等具身智能的WAM与世界模型一份完整指南一览具身智能的行业全局从产品经理的角度出发我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法具身智能与传统机器人任务有什么区别主流方案有哪些1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等

更多文章