蚂蚁+武大ICCV 2025 | SkySense V2：统一多模态遥感基础模型

张开发

• 2026/4/15 21:25:31 • 15 分钟阅读

分享文章

蚂蚁+武大ICCV 2025 | SkySense V2：统一多模态遥感基础模型

️ SkySense V2统一多模态遥感基础模型ICCV 2025基本信息论文标题: SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing作者: Yingying Zhang、Lixiang Ru、Kang Wu、Lei Yu、Lei Liang、Yansheng Li、Jingdong Chen单位: 蚂蚁集团、武汉大学等时间: 2026.03链接: https://arxiv.org/pdf/2603.00988一、引言近年来多模态遥感基础模型MM-RSFM快速发展在城市规划、环境监测、灾害分析等任务中展现出强大能力。然而现有方法大多仍然沿用“多模态多 backbone”的设计范式例如RGB → Swin Transformer多光谱MS→ ViTSAR → ViT这种设计虽然直观但存在两个核心问题参数冗余严重多个 backbone 重复学习相似表征跨模态融合困难特征空间不统一与此同时现有预训练方法大多直接迁移自然图像中的自监督学习SSL策略但忽略了遥感图像的关键特性遥感图像通常包含多个语义目标且空间分布复杂而非单一主体。SkySense V2 正是在这一背景下提出目标是构建一个统一、高效且适配遥感特性的多模态基础模型。二、核心思路SkySense V2 的核心可以概括为一句话用统一 Transformer Backbone 建模多模态数据并重新设计适用于遥感的自监督学习机制。其设计围绕三个关键目标展开统一性Unified一个 backbone 处理所有模态可区分性Disentangled不同模态仍保留特性语义一致性Semantic Alignment解决遥感多语义问题三、模型架构设计3.1 统一 Transformer BackboneSkySense V2 使用一个共享参数的层次化 Transformer 编码器前两层Swin Transformer局部建模后两层标准 Transformer全局建模这种设计的动机是高分辨率阶段 → 局部注意力更高效低分辨率阶段 → 全局注意力更有效最终实现一个 backbone 同时处理 RGB、MS、SAR 等多模态数据3.2 Adaptive Patch MergingAPM不同模态存在显著分辨率差异GSD不同直接共享 backbone 会导致对齐困难。APM 的核心作用是对高分辨率数据RGB进行下采样对低分辨率数据MS/SAR保持分辨率本质上它实现了跨模态 token 的空间对齐使得不同模态可以在同一特征空间中进行融合。3.3 Modality-specific Prompt Tokens完全共享 backbone 会带来一个新问题模态特征塌缩modality collapse。为此作者引入模态专属的可学习 Prompt Tokens具体做法每种模态RGB / MS / SAR都有独立 prompt在 Transformer 中通过 attention 与特征交互作用保留模态差异提升特征多样性避免统一建模带来的信息损失这一设计本质上是将 Prompt Learning 引入遥感多模态建模。3.4 Mixture of ExpertsMoE为了提升模型容量SkySense V2 并没有简单增加宽度或深度而是引入 MoE替换 Transformer 中的 FFN 层使用 Top-1 routing每个 token 选择一个 expert优势提升模型表达能力控制计算开销支持大规模扩展这表明MoE 已开始从 NLP 扩展到视觉基础模型领域四、预训练方法创新4.1 问题传统对比学习在遥感中失效在自然图像中不同 view 通常包含同一主体如一只狗但在遥感图像中不同 view 可能包含完全不同语义建筑 / 森林 / 水体这会导致对比学习对齐错误语义影响表示学习质量4.2 Query-based Semantic Aggregation Contrastive LearningQSACL为了解决这一问题SkySense V2 提出了 QSACL。核心思想用 query 聚合语义再进行对比学习具体流程引入多个 learnable queries对不同视图特征进行 cross-attention每个 query 聚合特定语义如建筑、水体等在“相同 query”的特征之间做对比学习即传统 CLimage-level 对齐QSACLsemantic-level 对齐4.3 本质理解QSACL 可以理解为在 SSL 中引入隐式语义槽semantic slots类似机制DETR queriesSlot AttentionPerceiver latent其关键价值在于将遥感中的“多语义问题”显式建模五、实验结果SkySense V2 在16 个数据集7 类任务分类 / 检测 / 分割 / 变化检测等上进行了评估。主要结论平均性能提升约1.8%相比 SkySense参数量从1.26B → 665M同时性能更优说明统一架构不仅更高效而且更强六、设计哲学总结SkySense V2 的核心设计可以总结为以下几点1. 统一是趋势但必须“带约束”用共享 backbone 提升效率用 Prompt 保持差异2. 遥感任务需要“语义感知”的 SSL自然图像方法不可直接迁移必须考虑多语义分布3. MoE 是基础模型扩展的重要方向不仅适用于 NLP在视觉任务中同样有效4. Prompt 正在成为通用建模工具从 NLP 到视觉再到遥感Prompt 已成为“低成本引入先验”的统一方式七、对多模态遥感研究的启发该工作对当前多模态遥感大模型设计具有重要参考价值1统一架构设计用单 backbone 替代多分支结构提高参数利用率2模态建模方式Prompt 可作为 modality adapter比纯结构分离更轻量3对齐机制Query-based 对齐优于传统对比学习更适合复杂语义场景4模型扩展MoE 提供了一种高效 scaling 路径八、总结SkySense V2 的核心贡献在于将多模态遥感问题统一为“共享表征语义对齐”的建模问题。通过Unified BackboneModality PromptQSACLMoE构建了一套完整的多模态遥感基础模型范式。这一思路对于后续遥感大模型的发展具有较强的参考价值。

更多文章

前端开发 2026/4/13 4:53:34

JDK安装与多版本管理：Phi-3-mini指导Java环境无缝切换

JDK安装与多版本管理：Phi-3-mini指导Java环境无缝切换 1. 为什么需要关注JDK环境管理 Java开发者经常遇到这样的困扰：新项目要求使用JDK 17，但老项目还在用JDK 8；刚配置好的环境突然报错"java命令不存在"；…

如何在5分钟内彻底优化Windows系统性能？Winhance中文版终极指南【免费下载链接】Winhance-zh_CN A Chinese version of Winhance. C# application designed to optimize and customize your Windows experience. 项目地址: https://gitcode.com/gh_mirrors/wi/Wi…

张开发

前端开发 2026/4/13 19:04:36

Excel 实战：用帕累托法则优化库存管理（二八定律应用）

1. 帕累托法则在库存管理中的核心价值第一次接触帕累托法则是在处理公司积压库存的时候。当时仓库里堆满了各种商品，但财务报告显示80%的利润居然只来自20%的产品。这个发现让我意识到，传统的"一刀切"库存管理方式需要彻底改变。帕累托法则&…

张开发

蚂蚁+武大ICCV 2025 | SkySense V2：统一多模态遥感基础模型

最新文章

功能安全——严重度（Severity）评估实战指南

中东电商入局指南：Noon vs Amazon，出海卖家该如何选择？

功放与喇叭匹配实战：从功率、阻抗到声压计算的系统选型指南

Claude Mythos 预览版不会颠覆网络安全，但最新分析揭示其如何压缩漏洞利用窗口并暴露管理缺陷。首席信息安全官们应提前布局。

别再只会ifconfig了！Linux网络排错保姆级指南：从ping不通到快速定位问题

丰田工机安全PLC编程软件PCWin Safe 14（中文版）——稀缺资源

推荐文章

CrossMgrLapCounter：嵌入式设备接入赛事计时系统的WebSocket协议库

Java Iterator

Mac上Xcode搞C++竞赛？手把手教你添加万能头文件stdc++.h（附完整代码）

利用BurpSuite Intruder模块实现验证码失效场景下的表单暴力破解

机器学习中的常用算法（非传统算法）

深度学习检测不准确智能电表:一个案例研究 python源代码，代码按照高水平文章复现

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

JDK安装与多版本管理：Phi-3-mini指导Java环境无缝切换

国际期货新手避坑指南

ROS机械臂六维力传感器集成与Gazebo仿真实践

Python 从入门到 AI 实战：构建「离线训练 + 在线服务」最小闭环的最佳实践

Dism++终极指南：16国语言Windows系统维护工具完全解析

拉丁超立方抽样（Latin Hypercube Sampling, LHS）MATLAB实现

Agent-Sandbox UI 上线，来看看有哪些的功能是你经常使用的？汉

trimesh split

如何构建毫秒级响应的大规模在线游戏：ET框架的预测同步技术终极指南

Nintendo Switch NAND管理终极指南：如何安全备份、恢复和优化你的Switch系统

如何在5分钟内彻底优化Windows系统性能？Winhance中文版终极指南

Excel 实战：用帕累托法则优化库存管理（二八定律应用）