AquaticCLIP: A Vision-Language Foundation Model and Dataset for Underwater Scene Analysis

张开发

• 2026/5/31 0:55:11 • 15 分钟阅读

分享文章

AquaticCLIP: A Vision-Language Foundation Model and Dataset for Underwater Scene Analysis

AquaticCLIP水下场景分析的视觉语言基础模型与数据集代码链接https:// github.com/BasitAlawode/AquaticCLIP原文链接https://ieeexplore.ieee.org/stamp/stamp.jsp?tparnumber11380196创新点1.将CLIP模型引入到水下场景分析当中并自主构建大规模数据集然后通过“人工机器清洗”的混合策略保证了文本的准确性与丰富性2.引入“双引导”机制PGVE VGTE用学习到的视觉提示引导视觉特征聚合再用视觉特征引导文本特征细化实现了更深层次的跨模态交互3.引入对比损失同时优化图像→文本和文本→图像两个方向的匹配概率。主要框架图1 AquaticCLIP 架构和算法流程概述a 输入图像-文本对集合b 说明模型MGPT为图片生成文本描述c 输入图像被划分为多个片段并由图像编码器 Φv 处理以生成嵌入 Pi 的片段d 生成的文本描述Si由文本编码器Φt处理以生成文本嵌入e 和 f 文本描述 Si 随后通过图像-文本说明清理模块清理生成精细描述 Sˆ i随后与 GT 描述 Gi 结合生成丰富的文本描述数据 Ci图像和文本嵌入均通过h视觉引导文本编码和g提示引导视觉编码进行细化学习到的提示词Ei引导补丁嵌入的融合而初始化提示Qi则用于增强视觉表现i 最终图像和文本特征通过跨模态对比预训练损失Lcont进行比对确保文本与图像表示之间的关联更强。其中cd都为典型CLIP中的处理模块以下着重介绍g和h,这两个模块的主要作用就是加强信息的交互对特征进一步加强图2 a PGVE提示引导注意力机制结合了补丁特征Pi和初始化提示Qi通过层规范化和MLP随后是softmax生成最终的图像特征fi。b VGTE文本嵌入Ti通过视觉引导注意力机制进行细化patch特征Pi、学习提示Ei和文本嵌入Ti连接以计算注意力Ui 这进一步增强了Ti1.PGVE通过引入c模块学习到的视觉特征作为K值和V值文本提示作为查询Q值然后进入交叉注意力模块可以增强与初始文本提示之间的联系进而对patch根据语义相似度来进行排序更好的抑制无关特征捕捉更有效的上下文关系。2.VGTE在模块中丰富的文本描述Ci被输入CLIP文本编码器以获得对应第i张图像描述的文本表示Ti这些表征随后会通过视觉引导的注意力层进行细化该补丁包含Pi在PGVE模块学习到的提示词Ei被串接为ViVi作为关键Kt和值Vt而文本表示Ti作为查询然后进入注意力模块从而进一步优化文本特性增强了图像与文本之间的对齐。下面是自己书面整理的一个模块总结图3 模块总结GLIP运行结果展示COCO数据集运行结果对所有物体都有一个生成框外加一个描述但是正确率不高并且描述的不够丰富因为是做零样本目标检测无需微调就能直接检测出训练时没见过的类别和论文中的平均精度AP相似都为46左右。例图如下之后我引入了国内的大模型可以对图片生成更具体地描述

AquaticCLIP: A Vision-Language Foundation Model and Dataset for Underwater Scene Analysis

最新文章

Java Loom响应式迁移全链路拆解（从线程模型颠覆到Project Loom生产就绪）

从开发到分发：手把手教你用Inno Setup为Qt应用制作专业安装包（附脚本自定义技巧）

告别‘Hello World’就卡住：保姆级Android Studio安装与环境变量配置（Win/Mac通用）

保姆级教程：用STM32CubeIDE搞定STM32F407的USB虚拟串口（CDC）通信与速度测试

从老式工控机到树莓派：一文理清RS-232、RS-485和TTL电平的‘前世今生’与适用场景

Vitis自定义IP编译过了，Debug却卡在QEMU文件缺失？一个手动创建空文件的“土办法”救了我

推荐文章

相关文章

分享文章

更多文章

5步掌握猫抓Cat-Catch：革新性浏览器资源嗅探工具全攻略

Java协议解析慢得离谱？5个被90%团队忽略的字节级优化陷阱，今天必须修复！

如何构建个人数据安全防线：WeChatMsg实现微信聊天记录自主管理

V数据库设计

Abaqus载荷映射实战：从流体压力到结构应力，Analytical Field耦合分析保姆级指南

通达信指标公式进阶：如何精准筛选龙字开头股票（避坑指南）

几何精度因子（GDOP）在GNSS定位中的关键作用与优化策略

广告词“我看起来娘但我是男子汉，我看起来娘因为我是个女的！”是用于做什么用的？

示波器眼图分析实战：如何从颜色分布一眼看穿信号质量（附实测案例）

Python+AI：自动分析财报数据的5个实战技巧

Qwen3-4B-Instruct-2507参数详解：36层GQA结构深度解析

LongCat-Image 图像生成模型，编辑能力登顶开源SOTA