AquaticCLIP: A Vision-Language Foundation Model and Dataset for Underwater Scene Analysis

张开发
2026/5/31 0:55:11 15 分钟阅读
AquaticCLIP: A Vision-Language Foundation Model and Dataset for Underwater Scene Analysis
AquaticCLIP水下场景分析的视觉语言基础模型与数据集代码链接https:// github.com/BasitAlawode/AquaticCLIP原文链接https://ieeexplore.ieee.org/stamp/stamp.jsp?tparnumber11380196创新点1.将CLIP模型引入到水下场景分析当中并自主构建大规模数据集然后通过“人工机器清洗”的混合策略保证了文本的准确性与丰富性2.引入“双引导”机制PGVE VGTE用学习到的视觉提示引导视觉特征聚合再用视觉特征引导文本特征细化实现了更深层次的跨模态交互3.引入对比损失同时优化图像→文本和文本→图像两个方向的匹配概率。主要框架图1 AquaticCLIP 架构和算法流程概述a 输入图像-文本对集合b 说明模型MGPT为图片生成文本描述c 输入图像被划分为多个片段并由图像编码器 Φv 处理以生成嵌入 Pi 的片段d 生成的文本描述Si由文本编码器Φt处理以生成文本嵌入e 和 f 文本描述 Si 随后通过图像-文本说明清理模块清理生成精细描述 Sˆ i随后与 GT 描述 Gi 结合生成丰富的文本描述数据 Ci图像和文本嵌入均通过h视觉引导文本编码和g提示引导视觉编码进行细化学习到的提示词Ei引导补丁嵌入的融合而初始化提示Qi则用于增强视觉表现i 最终图像和文本特征通过跨模态对比预训练损失Lcont进行比对确保文本与图像表示之间的关联更强。其中cd都为典型CLIP中的处理模块以下着重介绍g和h,这两个模块的主要作用就是加强信息的交互对特征进一步加强图2 a PGVE提示引导注意力机制结合了补丁特征Pi和初始化提示Qi通过层规范化和MLP随后是softmax生成最终的图像特征fi。b VGTE文本嵌入Ti通过视觉引导注意力机制进行细化patch特征Pi、学习提示Ei和文本嵌入Ti连接以计算注意力Ui 这进一步增强了Ti1.PGVE通过引入c模块学习到的视觉特征作为K值和V值文本提示作为查询Q值然后进入交叉注意力模块可以增强与初始文本提示之间的联系进而对patch根据语义相似度来进行排序更好的抑制无关特征捕捉更有效的上下文关系。2.VGTE在模块中丰富的文本描述Ci被输入CLIP文本编码器以获得对应第i张图像描述的文本表示Ti这些表征随后会通过视觉引导的注意力层进行细化该补丁包含Pi在PGVE模块学习到的提示词Ei被串接为ViVi作为关键Kt和值Vt而文本表示Ti作为查询然后进入注意力模块从而进一步优化文本特性增强了图像与文本之间的对齐。下面是自己书面整理的一个模块总结图3 模块总结GLIP运行结果展示COCO数据集运行结果对所有物体都有一个生成框外加一个描述但是正确率不高并且描述的不够丰富因为是做零样本目标检测无需微调就能直接检测出训练时没见过的类别和论文中的平均精度AP相似都为46左右。例图如下之后我引入了国内的大模型可以对图片生成更具体地描述

更多文章