-
题名基于拓展图文对比学习的多模态语义对齐
- 1
-
-
作者
安国成
江波
王晓龙
戴军
-
机构
上海华讯网络系统有限公司服务运作部
中国电子科技集团公司第三十二研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第11期152-162,共11页
-
基金
“十四五”国家重点研发计划项目(2023YFC3006700)。
-
文摘
基于对比语言-图像的预训练(CLIP)方法在大规模图文数据上使双流架构下的模型能够较好地学习到统一的高级语义表征,但CLIP模式仅约束图像-文本模态间的粗粒度语义对齐,在同一模态下的语义表征仍需改进。为了使网络学习到更好的潜在统一语义表征,提出一种基于拓展图文对比学习的多模态语义对齐方法。首先通过微调预训练的CLIP模型,针对指定数据集优化语义表征,设计双向匹配策略构造图文样本匹配拓扑图,然后利用拓扑图中关联度更高的图文样本将对比学习进行拓展,在图像-文本模态下进行粗粒度语义对齐,同时在相同模态中进行细粒度调整,并引入可学习参数调整各模态下的对比损失权重。通过在多个数据集下的实验结果表明,该方法在不影响多模态语义对齐的性能下能够改进相同模态下的语义表征,在分类、检索等下游任务上具有更好或相当的性能。
-
关键词
多模态学习
语义表征
对比学习
图文匹配
图像分类
-
Keywords
multi-modal learning
semantic representation
contrastive learning
image-text matching
image classification
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于改进PIDNet的水位线检测算法
- 2
-
-
作者
李仲
冒睿瑞
王晓龙
王根一
安国成
-
机构
上海华讯网络系统有限公司服务运作部
中国电子科技集团公司第三十二研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第8期102-112,共11页
-
基金
国家重点研发计划(2023YFC3006700)。
-
文摘
PIDNet是三分支网络构成的语义分割模型,在众多竞赛数据集中均保持优秀的分割精度。然而,积分分支中进行多次下采样和金字塔池化模块中多分支特征融合冗余的缺点限制了算法精度的提高。在水位线检测任务中,现有算法的缺点会导致局部细节信息丢失,使得水体边缘精细化检测的能力有所下降。为了缓解这个问题,提出一种基于改进PIDNet的水位线检测算法。首先设计一种结合通道注意力的轻量化像素增强模块,在积分分支下采样过程中进行像素增强,减少局部信息丢失。然后对金字塔池化模块进行重构,在减小池化输出特征大小的基础上减少并行分支数,同时在特征融合时结合通道注意力进一步加强关注重要特征的能力,提高水位线边缘的分割精度。此外,融合多场景的河流数据集,避免复杂场景下检测出的水位线位置发生偏移和断线。实验结果表明,所提方法(S和M)在水位线检测任务中相对原算法(S和M)在3个性能指标上都有所提高,以M规模为例,像素正确率提高了1.47个百分点,平均交并比提高了1.04个百分点,检测延迟降低了0.9 ms。
-
关键词
语义分割
水位线检测
金字塔池化模块
注意力
多场景
-
Keywords
semantic segmentation
water level line detection
pyramid pooling module
attention
multi-scene
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-