阿布扎比AI大学:用双视觉“天眼“让计算机同时看懂内容和精准定位

张开发
2026/4/15 17:50:22 15 分钟阅读

分享文章

阿布扎比AI大学:用双视觉“天眼“让计算机同时看懂内容和精准定位
这项由阿布扎比穆罕默德·本·扎耶德人工智能大学领导的研究发表于2026年的计算机视觉顶级会议CVPR论文编号为arXiv:2604.03231v1有兴趣深入了解的读者可以通过该编号查询完整论文。一、当前AI视觉识别的困境就像只有一只眼睛的巨人当下的人工智能视觉系统面临着一个根本性问题就好比让一个只有一只眼睛的巨人同时完成两项完全不同的任务。现在大部分AI视觉系统都依赖单一的视觉编码器通常是CLIP这样的模型它就像一只训练有素但功能单一的眼睛。这种单眼视觉系统虽然在理解图片内容方面表现不错比如能告诉你图片里有什么物体但在精确定位这些物体的具体位置时就显得力不从心了。就像一个人能认出远处是一辆红色汽车却无法准确指出这辆车停在停车场的哪个具体位置。研究团队发现这个问题的根源在于现有系统试图用同一套视觉处理机制来解决两个本质不同的问题。理解图片内容需要的是全局语义信息就像欣赏一幅画时需要整体把握画面意境而精确定位则需要细致的空间几何信息就像用放大镜仔细观察画作中每个细节的确切位置。更令人头疼的是现有系统在处理需要精确坐标定位的任务时表现尤其糟糕。比如当你问AI请指出图片中那个透明鼻托的确切位置时很多先进的AI模型要么完全无法回应要么给出的坐标位置相去甚远。实验数据显示在需要3像素精度的指向任务中传统单编码器模型的准确率普遍较低这就像让一个近视眼的人在没有眼镜的情况下投飞镖一样困难。二、双视觉系统的灵感模仿人类的立体视觉机制阿布扎比AI大学的研究团队从人类视觉系统中获得了灵感。人类之所以能够同时理解场景内容和精确定位物体是因为我们的视觉系统实际上是一个复杂的多层次处理网络不同的神经通路负责处理不同类型的视觉信息。基于这个洞察研究团队提出了CoME-VL互补多编码器视觉语言系统。这个系统的核心思想是使用两个专门化的眼睛来分别处理不同类型的视觉任务就像人类左右脑分工合作一样。第一个眼睛是SigLIP编码器它专门负责理解图像的语义内容。这个编码器就像一个博学的艺术评论家能够深刻理解图片想要表达的含义、情感和概念。它通过对比学习的方式训练擅长将图像与文字描述进行匹配能够回答这是什么的问题。第二个眼睛是DINOv3编码器它专门负责精确的空间定位。这个编码器就像一个精密的测量师能够准确识别物体的边界、形状和相对位置关系。它通过自监督学习训练不需要人工标注就能学会识别物体的几何特征和空间结构。研究团队通过大量实验发现这两种编码器确实表现出了互补性。SigLIP编码器在图像的早期处理层就能捕获丰富的语义信息随着处理层数加深它越来越专注于识别有助于语义理解的关键特征。而DINOv3编码器则呈现出相反的模式它在深层网络中表现出更强的空间定位能力能够生成更加精确和一致的空间注意力图。三、熵值引导的智能层选择让每一层都发挥最佳作用在确定了双编码器架构后研究团队面临着一个新的挑战如何从每个编码器的众多处理层中选出最有价值的部分这就像在一个拥有数十个专业厨师的厨房里决定让哪几位厨师参与制作一道复杂的菜肴。研究团队引入了一个巧妙的解决方案——熵值引导的层选择机制。熵值在这里可以理解为信息的纯净度指标。高熵值意味着信息分布较为分散包含更多样化的特征低熵值则意味着信息更加集中和精确。通过分析每一层的熵值变化研究团队发现了一个有趣的现象。SigLIP编码器在所有层都保持相对较高的熵值这意味着它在各个处理阶段都能提供丰富的语义信息。因此系统选择使用SigLIP的所有层第0层到第27层来获得全面的语义理解。相比之下DINOv3编码器的熵值随着层数加深而显著降低在第10层到第23层之间达到最低点。这个低熵区域正是空间定位信息最为集中和可靠的区域。研究团队因此决定只使用DINOv3的这个特定层段避免了早期层中噪声较多的信息干扰。这种基于熵值的选择策略不是随意的而是有着深刻的信息论基础。当系统需要进行语义理解时更多样化的特征高熵能够提供更全面的上下文信息。而当系统需要进行精确定位时集中和一致的特征低熵能够提供更可靠的空间线索。四、正交化特征融合避免信息冗余的巧妙设计在获得了两个编码器的最佳层选择后如何将这些不同来源的视觉信息有效融合成为了下一个关键问题。这就像将两种不同乐器的音色完美融合既要保持各自的特色又要避免产生不和谐的共鸣。传统的特征融合方法往往简单地将不同层的信息相加或拼接但这种做法存在严重的信息冗余问题。相邻的网络层往往编码了高度相似的信息直接融合会导致某些特征被过度强调而其他重要特征则可能被掩盖。为了解决这个问题研究团队设计了正交化层Orthogonal Layer技术。这个技术的核心思想是确保不同层的特征在融合前先经过一个特殊的变换使得它们在数学意义上变得正交也就是说它们之间的相关性被最小化每一层都能贡献独特的信息。可以把正交化层想象成一个智能的信息过滤器。当多个信息源提供类似信息时这个过滤器会自动调整每个信息源的权重确保最终融合的结果既包含了所有重要信息又避免了重复和冗余。这种处理方式不仅提高了信息的利用效率还显著增强了系统的表达能力。在实际实现中正交化层使用了特殊的数学约束来保证变换矩阵的正交性。这种约束确保了特征变换过程中信息不会丢失或扭曲同时最大化了不同特征之间的独立性。实验结果显示加入正交化层后系统在各项任务上的表现都有了显著提升。五、RoPE增强的跨注意力对齐解决空间对应难题当两个不同的视觉编码器产生特征时它们往往具有不同的空间分辨率和token网格结构。SigLIP通常产生24×24的token网格而DINOv3可能产生14×14的网格。这就像试图将两幅不同尺寸的拼图完美拼接在一起存在天然的空间对应难题。传统的解决方案是直接将不同编码器的token连接起来然后交给语言模型处理。但这种方法存在两个严重问题首先它会显著增加语言模型需要处理的token数量导致计算成本急剧上升其次简单的连接无法保证来自不同编码器的token之间建立正确的空间对应关系。研究团队提出了RoPE增强的跨注意力对齐机制来解决这个问题。RoPERotary Position Embedding是一种先进的位置编码技术它能够将相对位置信息直接编码到注意力计算中。简单来说RoPE就像给每个token贴上了一个包含精确空间坐标的标签。在CoME-VL系统中SigLIP的token作为查询QueryDINOv3的token作为键值Key-Value。当计算跨注意力时RoPE确保了空间上相近的token之间会产生更强的注意力连接而空间上相远的token之间的连接则会被适当抑制。这样即使两个编码器的token网格大小不同系统也能建立准确的空间对应关系。这种设计的巧妙之处在于它不仅解决了空间对齐问题还显著提高了计算效率。通过跨注意力机制系统输出的token数量保持与SigLIP编码器一致避免了token数量的爆炸式增长。实验数据显示CoME-VL的推理时间仅比单编码器基准模型增加了0.26秒从1.26秒增加到1.52秒而性能提升却是显著的。六、门控残差连接确保训练稳定性在多编码器融合系统中训练稳定性是一个至关重要的考虑因素。当两个不同的信息流需要融合时如果处理不当可能会导致训练过程中的梯度爆炸或消失就像两股不同温度的水流突然汇合时可能产生的湍流。为了确保训练过程的稳定性研究团队采用了门控残差连接策略。这个策略的核心思想是在融合DINOv3信息时采用渐进式的方式。系统首先保留原有的SigLIP特征作为基础然后通过一个可学习的门控参数逐渐引入DINOv3的信息。门控参数在训练开始时被初始化为零这意味着系统最初只依赖SigLIP编码器的信息。随着训练的进行如果DINOv3的信息确实有助于改善性能门控参数会逐渐增大允许更多的DINOv3信息参与到最终的特征表示中。这种设计确保了训练过程的平滑性避免了因为突然引入大量新信息而导致的训练不稳定。同时门控机制还具有自适应性。在不同的任务或不同的输入情况下系统会自动调整两个编码器信息的混合比例。当需要更多语义理解时系统会更多地依赖SigLIP的信息当需要更精确的定位时系统会增加DINOv3信息的权重。七、实验验证全方位性能提升的令人瞩目表现研究团队在多个具有挑战性的视觉语言基准测试上对CoME-VL进行了全面评估结果展现出了令人印象深刻的性能提升。这些测试涵盖了从基础的图像理解到精确的物体定位等各个方面。在PixMo基准测试中CoME-VL在所有测试类别上都显著超越了基准模型Molmo。在图表理解任务中准确率从52.39%提升到57.24%提升了4.85个百分点。在文档理解方面从62.41%提升到66.94%。在表格分析任务中从66.25%提升到70.75%。这些提升看似不大但在AI领域几个百分点的改进往往代表着系统能力的显著跃升。更加令人瞩目的是CoME-VL在精确定位任务上的表现。在计数任务中准确率从83.31%提升到87.83%提升了4.52个百分点。而在最具挑战性的指向任务中CoME-VL实现了突破性进展。在3像素精度要求下准确率达到58.56%在5像素精度要求下达到75.94%。这些数字的意义在于CoME-VL成为了首个能够在如此严格精度要求下稳定工作的视觉语言模型。在专门的物体检测基准RefCOCO上CoME-VL同样表现优异。在验证集上达到92.57%的准确率在测试集A上达到95.36%在测试集B上达到90.51%全面超越了包括Qwen-VL在内的强基准模型。为了验证不同组件的贡献研究团队还进行了详细的消融实验。结果显示RoPE增强的对齐机制平均带来约2-3个百分点的性能提升正交化层融合贡献了额外的1-2个百分点提升。当这些技术组件协同工作时整体效果超过了各部分简单相加的结果展现出了良好的协同效应。八、定性分析从模糊回答到精确定位的质的飞跃除了量化的性能指标研究团队还通过具体的案例展示了CoME-VL在实际应用中的优势。这些案例清楚地展现了双编码器架构如何解决传统单编码器系统的局限性。在一个典型的指向任务示例中当被要求定位透明鼻托时传统的QWEN2-VL模型只能给出模糊的描述性回答比如图像显示了一副未来感的矩形眼镜连接两个镜片的透明框架结构但无法提供具体的坐标位置。LLaVA-1.5模型虽然能够识别出鼻托的存在但给出的坐标信息严重偏离实际位置。相比之下CoME-VL不仅能够准确识别目标物体还能提供精确的坐标定位。在同一个案例中CoME-VL给出了坐标(38.5, 52.8)与真实位置的误差在可接受的范围内同时还能提供清晰的物体描述。这种从描述性回答到精确定位的转变代表了视觉语言模型能力的质的飞跃。传统模型就像一个只能笼统描述场景的观察者而CoME-VL则像一个既能理解场景含义又能精确指出细节位置的专业分析师。在更复杂的场景中比如包含多个对象的图像CoME-VL展现出了卓越的细节处理能力。当处理一张包含多人的海滩照片时系统能够准确计数人数同时精确定位每个人的位置。当被问及照片中有多少人时系统能够给出准确的数字8并且在需要时还能指出特定人物的精确坐标。九、技术创新的深层意义开启多模态AI新纪元CoME-VL的技术创新不仅仅是性能数字上的提升更代表了多模态人工智能发展的一个重要里程碑。这项研究从根本上改变了我们对视觉语言模型架构设计的认知。首先这项研究证明了专业化分工在AI系统中的重要价值。就像人类社会中不同职业的专业分工能够提高整体效率一样让不同的AI组件专注于各自最擅长的任务然后通过巧妙的协调机制整合它们的能力能够实现单一系统难以达到的性能水平。其次CoME-VL展示了如何在保持计算效率的同时显著提升系统能力。通过精心设计的架构系统在增加有限计算成本的情况下实现了大幅的性能提升。这种设计思路对于AI技术的实际应用具有重要意义因为它证明了我们不需要简单地通过增加模型规模来提升性能而是可以通过更智能的架构设计来实现突破。更重要的是这项研究为未来的多模态AI系统设计提供了新的范式。它表明与其试图用单一的通用模型处理所有任务不如采用专业化模块协同工作的方式。这种思路可能会影响未来AI系统的整体架构设计从单一庞大的模型转向协调良好的专业化模块集合。从应用角度来看CoME-VL的精确定位能力为许多实际应用场景打开了新的可能性。在医疗图像分析中系统能够不仅识别病变区域还能精确标注其位置。在自动驾驶领域系统能够同时理解交通场景并精确定位各种交通要素。在工业质检中系统能够发现缺陷并准确定位其具体位置。十、局限性分析与未来发展方向尽管CoME-VL取得了显著的成果但研究团队也诚实地指出了当前系统的一些局限性。最主要的限制是计算开销的增加。相比单编码器基准模型CoME-VL的推理时间增加了约20%虽然这个增加幅度相对温和但在大规模部署时仍然是一个需要考虑的因素。另一个限制是系统架构的复杂性增加。双编码器系统需要更仔细的超参数调优和训练策略设计这增加了系统开发和维护的复杂度。对于希望快速部署AI解决方案的用户来说这可能会带来额外的技术门槛。此外当前的系统主要针对静态图像设计对于视频等动态内容的处理能力还有待进一步验证和优化。视频内容不仅包含空间信息还包含时间维度的信息如何在保持精确定位能力的同时处理时间序列信息是一个值得探索的方向。展望未来这项研究为多个发展方向奠定了基础。首先是计算效率的进一步优化研究团队正在探索如何通过模型压缩、知识蒸馏等技术减少计算开销。其次是扩展到更多模态的信息处理比如加入音频信息来实现更全面的多模态理解。另一个令人兴奋的方向是将这种专业化分工的思路扩展到更多的任务类型。除了语义理解和空间定位未来的系统可能会包含专门处理时间信息、情感信息、因果关系等不同类型信息的专业化模块。说到底CoME-VL这项研究最大的价值可能不在于具体的技术细节而在于它所代表的设计哲学转变。从追求单一模型的万能性转向专业化模块的协同合作这种思路变化可能会深刻影响未来AI系统的发展方向。正如人类社会从万金油式的通才转向专业分工的合作模式一样AI系统也许正在经历类似的进化过程。对于普通用户来说CoME-VL的成功意味着我们离真正实用的AI助手又近了一步。能够同时理解图像内容并精确定位物体位置的AI系统将为从医疗诊断到智能家居等各个领域带来实质性的改进。当你的手机相机不仅能告诉你画面中有什么还能精确指出每样物品的位置时许多原本需要人工完成的任务都将变得自动化和智能化。虽然距离完美的AI视觉系统还有很长的路要走但CoME-VL已经为我们展示了正确的前进方向。通过巧妙的架构设计和精心的工程实现我们可以让AI系统在保持理解能力的同时获得精确的定位能力这为构建更加智能和实用的AI应用奠定了坚实基础。QAQ1CoME-VL是什么ACoME-VL是阿布扎比AI大学开发的新型视觉语言模型它使用两个专门化的眼睛—SigLIP编码器负责理解图像内容DINOv3编码器负责精确定位就像人类立体视觉一样协同工作。Q2CoME-VL比传统AI视觉系统强在哪里A传统系统只能模糊描述图像内容CoME-VL能同时理解语义并精确定位。比如指向任务中传统系统要么无法回应要么位置偏差很大CoME-VL能给出精确坐标在3像素精度下准确率达58.56%。Q3CoME-VL会增加计算成本吗A会有适度增加但仍然高效。推理时间仅从1.26秒增加到1.52秒增幅约20%但性能提升显著。通过RoPE跨注意力机制避免了token数量爆炸比简单拼接方法更节省计算资源。

更多文章