蚂蚁+武大ICCV 2025 | SkySense V2:统一多模态遥感基础模型

张开发
2026/4/15 21:25:31 15 分钟阅读

分享文章

蚂蚁+武大ICCV 2025 | SkySense V2:统一多模态遥感基础模型
️ SkySense V2统一多模态遥感基础模型ICCV 2025基本信息论文标题: SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing作者: Yingying Zhang、Lixiang Ru、Kang Wu、Lei Yu、Lei Liang、Yansheng Li、Jingdong Chen单位: 蚂蚁集团、武汉大学等时间: 2026.03链接: https://arxiv.org/pdf/2603.00988一、引言近年来多模态遥感基础模型MM-RSFM快速发展在城市规划、环境监测、灾害分析等任务中展现出强大能力。然而现有方法大多仍然沿用“多模态 多 backbone”的设计范式例如RGB → Swin Transformer多光谱MS→ ViTSAR → ViT这种设计虽然直观但存在两个核心问题参数冗余严重多个 backbone 重复学习相似表征跨模态融合困难特征空间不统一与此同时现有预训练方法大多直接迁移自然图像中的自监督学习SSL策略但忽略了遥感图像的关键特性遥感图像通常包含多个语义目标且空间分布复杂而非单一主体。SkySense V2 正是在这一背景下提出目标是构建一个统一、高效且适配遥感特性的多模态基础模型。二、核心思路SkySense V2 的核心可以概括为一句话用统一 Transformer Backbone 建模多模态数据并重新设计适用于遥感的自监督学习机制。其设计围绕三个关键目标展开统一性Unified一个 backbone 处理所有模态可区分性Disentangled不同模态仍保留特性语义一致性Semantic Alignment解决遥感多语义问题三、模型架构设计3.1 统一 Transformer BackboneSkySense V2 使用一个共享参数的层次化 Transformer 编码器前两层Swin Transformer局部建模后两层标准 Transformer全局建模这种设计的动机是高分辨率阶段 → 局部注意力更高效低分辨率阶段 → 全局注意力更有效最终实现一个 backbone 同时处理 RGB、MS、SAR 等多模态数据3.2 Adaptive Patch MergingAPM不同模态存在显著分辨率差异GSD不同直接共享 backbone 会导致对齐困难。APM 的核心作用是对高分辨率数据RGB进行下采样对低分辨率数据MS/SAR保持分辨率本质上它实现了跨模态 token 的空间对齐使得不同模态可以在同一特征空间中进行融合。3.3 Modality-specific Prompt Tokens完全共享 backbone 会带来一个新问题模态特征塌缩modality collapse。为此作者引入模态专属的可学习 Prompt Tokens具体做法每种模态RGB / MS / SAR都有独立 prompt在 Transformer 中通过 attention 与特征交互作用保留模态差异提升特征多样性避免统一建模带来的信息损失这一设计本质上是将 Prompt Learning 引入遥感多模态建模。3.4 Mixture of ExpertsMoE为了提升模型容量SkySense V2 并没有简单增加宽度或深度而是引入 MoE替换 Transformer 中的 FFN 层使用 Top-1 routing每个 token 选择一个 expert优势提升模型表达能力控制计算开销支持大规模扩展这表明MoE 已开始从 NLP 扩展到视觉基础模型领域四、预训练方法创新4.1 问题传统对比学习在遥感中失效在自然图像中不同 view 通常包含同一主体如一只狗但在遥感图像中不同 view 可能包含完全不同语义建筑 / 森林 / 水体这会导致对比学习对齐错误语义影响表示学习质量4.2 Query-based Semantic Aggregation Contrastive LearningQSACL为了解决这一问题SkySense V2 提出了 QSACL。核心思想用 query 聚合语义再进行对比学习具体流程引入多个 learnable queries对不同视图特征进行 cross-attention每个 query 聚合特定语义如建筑、水体等在“相同 query”的特征之间做对比学习即传统 CLimage-level 对齐QSACLsemantic-level 对齐4.3 本质理解QSACL 可以理解为在 SSL 中引入隐式语义槽semantic slots类似机制DETR queriesSlot AttentionPerceiver latent其关键价值在于将遥感中的“多语义问题”显式建模五、实验结果SkySense V2 在16 个数据集7 类任务分类 / 检测 / 分割 / 变化检测等上进行了评估。主要结论平均性能提升约1.8%相比 SkySense参数量从1.26B → 665M同时性能更优说明统一架构不仅更高效而且更强六、设计哲学总结SkySense V2 的核心设计可以总结为以下几点1. 统一是趋势但必须“带约束”用共享 backbone 提升效率用 Prompt 保持差异2. 遥感任务需要“语义感知”的 SSL自然图像方法不可直接迁移必须考虑多语义分布3. MoE 是基础模型扩展的重要方向不仅适用于 NLP在视觉任务中同样有效4. Prompt 正在成为通用建模工具从 NLP 到视觉再到遥感Prompt 已成为“低成本引入先验”的统一方式七、对多模态遥感研究的启发该工作对当前多模态遥感大模型设计具有重要参考价值1统一架构设计用单 backbone 替代多分支结构提高参数利用率2模态建模方式Prompt 可作为 modality adapter比纯结构分离更轻量3对齐机制Query-based 对齐优于传统对比学习更适合复杂语义场景4模型扩展MoE 提供了一种高效 scaling 路径八、总结SkySense V2 的核心贡献在于将多模态遥感问题统一为“共享表征 语义对齐”的建模问题。通过Unified BackboneModality PromptQSACLMoE构建了一套完整的多模态遥感基础模型范式。这一思路对于后续遥感大模型的发展具有较强的参考价值。

更多文章