CVPR 2026 Oral 满分论文!CoSMo3D:基于规范感知的3D物体语义分割

张开发
2026/4/17 13:20:05 15 分钟阅读

分享文章

CVPR 2026 Oral 满分论文!CoSMo3D:基于规范感知的3D物体语义分割
点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐论文CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling论文arxiv.org/abs/2603.01205代码https://github.com/JinLi998/CoSMo3D作者Li Jin*Weikai Chen*Yujie Wang†Yingda YinZeyu HuRunze ZhangKeyang LuoShengju QianXin WangXueying Qin†* 共同一作† 通讯作者单位山东大学SDU、腾讯 LIGHTSPEED、北卡罗来纳大学教堂山分校UNC Chapel Hill会议CVPR 2026任务介绍开放世界可提示 3D 语义零件分割用自然语言描述目标零件如「椅子腿」「门把手」对 3D 物体做零件级分割。特点包括可提示文本即查询、开放词汇不限预定义类别、零件级细粒度语义、3D 分割在三维几何上直接理解与分割。动机人类是怎么认识 3D 零件的图 1CoSMo3D 引入正则空间感知在多项开放世界可提示 3D 分割设置下达到领先表现相对仅依赖几何—语言直接映射的方法优势显著。早在 1971 年认知心理学的经典实验Shepard MetzlerScience, 1971[1] 就揭示当判断两个三维物体是否相同时人们会在心智中将物体旋转到正则姿态canonical pose再比较旋转角度越大反应时间越长——说明人类对三维物体的识别依赖内化的正则参考系。以「椅子腿」为例我们不仅看细长几何更依赖其在正则空间中的功能位置——在座椅下方、起支撑作用。翅膀向两侧延伸把手从侧面突出腿部从下方支撑……人类对零件语义的判断天然锚定在这样的正则空间里。然而这种正则空间推理在多数现有 3D 分割模型中几乎缺席。开放世界 3D 分割如 Find3D往往通过学习几何特征与语言嵌入的直接对齐实现分割隐含假设是「几何相近则语义相近」。该假设在真实场景中频繁失效椅子的扶手与椅腿几何相似语义却不同飞机机翼与鸟翅几何差异大语义却可以一致物体任意摆放倒置、旋转时若语义完全在输入传感器坐标系中推断特征不稳定分割性能明显下滑。开放世界可提示 3D 语义分割之所以脆弱很大程度上正是因为语义在输入姿态坐标中被推断而人类则在正则空间里按功能角色理解零件。CoSMo3D 要解决的核心问题是如何让模型像人类一样建立并利用正则空间先验从而获得更稳定、可迁移的开放世界零件语义方法让正则空间感知成为可学习的结构CoSMo3D 从两条线把正则空间注入模型构造数据与监督与归纳网络与损失一、LLM 引导的跨类别正则数据集图 2a以往方法多限于类别内对齐跨类别缺乏统一的正则参考b本文通过 LLM 对类别语义聚类按功能一致性做跨类别对齐。既有正则数据往往只在单类内对齐难以提供跨类别的统一参考系。本文构建覆盖200 类、约 17K 形状的统一正则数据集步骤包括用 GPT 将 200 类聚为19 个语义连贯的大类如交通工具、工具、动物等跨类对齐校验高层语义一致性如交通工具与动物类在「前进方向」等功能轴上的一致性施加坐标轴对齐形变以丰富形状多样性。该数据集提供正则坐标图、零件包围盒与语义关联等监督使模型从数据中归纳潜在正则参考系而非依赖手工指定的固定坐标系。二、正则感知双分支框架图 3CoSMo3D 双分支。特征提取分支PointTransformer SigLIP在训练与推理中均使用正则嵌入分支仅在训练阶段起作用通过正则空间上的监督将「正则性」压进主分支的特征里。模型采用双分支设计特征提取分支训练 推理以 PointTransformerV3 提取逐点 768 维特征以 SigLIP 提取文本嵌入经轻量 MLP 投影到同一嵌入空间完成几何—文本对齐。正则嵌入分支仅训练含两个预测头——正则坐标图canonical map预测头将 3D 形状特征映射为三个连续标量场常以 RGB 可视化刻画各点在学习到的正则参考系中的位置语义包围盒预测头以文本特征为 query预测各语义零件在正则空间中的 6D 包围盒。推理阶段不跑正则分支不增加额外推理开销。三、三重训练目标图 4对称物体上的正则坐标图锚定。a对称形状存在多种合法姿态逐点正则标签存在歧义b依赖人工对称轴的方法难以泛化到开放世界c本文用对排列不敏感的集合级匹配如双向 Chamfer在分布层面约束以零件整体分布对齐替代僵硬的逐点监督从而适应对称性带来的多解性。(1) 硬负样本语义对比对齐损失在零件边界附近加强判别性负样本Hard Negative Sampling缓解均匀采样对边界的忽视有利于边界精度与收敛。(2) 正则坐标图锚定损失canonical map anchoring将每个语义零件看作正则空间中的点云分布用双向 Chamfer Distance等匹配预测与真值的分布——比较的是分布形态而非逐点一一对应因而对对称等价姿态更友好无需对称轴标注适配开放词汇设定。(3) 正则包围盒校准损失canonical box calibration在正则空间中约束各语义零件的空间范围为分割提供稳定的几何包络先验抑制离群激活并与坐标图锚定互补——论文强调二者共同将姿态变化与对称性坍缩到更稳定的正则嵌入中。两大正则损失的消融可视化下面两组图直接对应论文中的canonical map anchoring与canonical box calibration在控制其它模块的前提下分别补回对应损失观察分割质量变化。图 5正则坐标图锚定损失的消融。上行去掉该损失的基线变体Variant B在「椅背」「滑板车把手」等提示下预测掩膜在表面出现明显错误着色/渗色橙黄色斑块放大区域可见边界破碎、与几何不对齐。下行加入Canonical Map Anchoring后同一提示下的掩膜与表面几何一致渗色与伪激活显著抑制。说明若没有将逐点特征锚定到学习到的正则坐标场模型更容易在输入姿态下产生漂移坐标图锚定为零件语义提供了全局一致的正则参照从而稳定开放词汇下的零件定位。图 6正则包围盒校准损失的消融。上行去掉该损失的基线变体Variant D在「桌腿」「弓弦」等细长或薄壁零件上同样出现大面积错误着色与边缘毛刺。下行加入Canonical Box Calibration后掩膜更贴合零件的真实空间范围薄结构上的噪声激活明显减少。直观上包围盒在正则空间里为每个文本提示的零件给出了显式的空间包络缺少该项时仅依赖点级或分布级信号难以约束细长部位的假阳性加入后校准了各零件在正则空间中的占用。实验验证正则空间真的有用吗定量结果在 4 个基准上与主流方法对比并同时报告正则姿态Canonical与任意旋转Rotated两种设置方法3D前馈3DCompat-CoarseCanonical3DCompat-CoarseRotatedShapeNet-PartCanonicalPartNet-ECanonicalPointCLIPV2✗14.0913.1716.9111.28PartSLIP✗6.125.891.435.12Find3D✓31.7232.4728.3916.86Find3D* (同时间重训版)✓37.1638.1930.6216.55CoSMo3D本文✓47.5147.7436.1617.59相对 **Find3D***同时间重训版的相对提升定义为(CoSMo3D − Find3D*) / Find3D* × 100%3DCompat-CoarseCanonical **27.85%**Rotated25.01%ShapeNet-PartCanonical**18.09%**结果表明把推理从「纯输入坐标」迁到正则嵌入后在旋转设置下仍保持强劲表现。定性对比图 7典型难点场景下的定性对比。从左到右几何相似但语义不同、强噪声下的细小零件、跨类别的「把手」泛化、任意姿态。本文方法整体优于基线。特征可视化图 8点云特征可视化。本文方法在不同形状与旋转下同一语义在正则特征空间中更聚集缺乏正则感知的对比方法则空间一致性较弱。方法限制本任务为开放词汇 3D 语义分割性能仍受训练数据规模与多样性约束带零件级标注的 3D 数据在类别数与实例数上均有限如 ComPat 约 200 类、PartNet 量级约数万实例。3D 语义标注成本高即便借助大模型辅助噪声仍难以避免。总结本文从认知科学中的正则心理旋转出发将Shepard Metzler1971所揭示的机制落到网络设计中提出 CoSMo3D推动分割从「仅在输入姿态坐标中推断语义」走向「在归纳出的正则嵌入空间中推断」。核心贡献可概括为LLM 引导的跨类别正则数据集把正则空间从单类推广到开放世界规模的数据构造正则感知双分支训练期注入正则监督推理不增算力三重目标协同硬负采样、canonical map anchoring、canonical box calibration其中后两者在消融中分别体现为表面掩膜质量与细长零件空间约束的质变见上文图 5、图 6。CoSMo3D 不仅是更强的分割器也是向「以可学习的正则参考系为第一层表征」推进的一步 3D 理解基础设施。[1]Roger N. Shepard, Jacqueline Metzler.Mental Rotation of Three-Dimensional Objects.Science, 171(3972):701–703, 1971.代码已开源github.com/JinLi998/CoSMo3D论文链接arxiv.org/abs/2603.01205本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看

更多文章