期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于拓展图文对比学习的多模态语义对齐
1
作者 安国成 江波 +1 位作者 王晓龙 戴军 《计算机工程》 CAS CSCD 北大核心 2024年第11期152-162,共11页
基于对比语言-图像的预训练(CLIP)方法在大规模图文数据上使双流架构下的模型能够较好地学习到统一的高级语义表征,但CLIP模式仅约束图像-文本模态间的粗粒度语义对齐,在同一模态下的语义表征仍需改进。为了使网络学习到更好的潜在统一... 基于对比语言-图像的预训练(CLIP)方法在大规模图文数据上使双流架构下的模型能够较好地学习到统一的高级语义表征,但CLIP模式仅约束图像-文本模态间的粗粒度语义对齐,在同一模态下的语义表征仍需改进。为了使网络学习到更好的潜在统一语义表征,提出一种基于拓展图文对比学习的多模态语义对齐方法。首先通过微调预训练的CLIP模型,针对指定数据集优化语义表征,设计双向匹配策略构造图文样本匹配拓扑图,然后利用拓扑图中关联度更高的图文样本将对比学习进行拓展,在图像-文本模态下进行粗粒度语义对齐,同时在相同模态中进行细粒度调整,并引入可学习参数调整各模态下的对比损失权重。通过在多个数据集下的实验结果表明,该方法在不影响多模态语义对齐的性能下能够改进相同模态下的语义表征,在分类、检索等下游任务上具有更好或相当的性能。 展开更多
关键词 多模态学习 语义表征 对比学习 图文匹配 图像分类
在线阅读 下载PDF
基于改进PIDNet的水位线检测算法
2
作者 李仲 冒睿瑞 +2 位作者 王晓龙 王根一 安国成 《计算机工程》 CAS CSCD 北大核心 2024年第8期102-112,共11页
PIDNet是三分支网络构成的语义分割模型,在众多竞赛数据集中均保持优秀的分割精度。然而,积分分支中进行多次下采样和金字塔池化模块中多分支特征融合冗余的缺点限制了算法精度的提高。在水位线检测任务中,现有算法的缺点会导致局部细... PIDNet是三分支网络构成的语义分割模型,在众多竞赛数据集中均保持优秀的分割精度。然而,积分分支中进行多次下采样和金字塔池化模块中多分支特征融合冗余的缺点限制了算法精度的提高。在水位线检测任务中,现有算法的缺点会导致局部细节信息丢失,使得水体边缘精细化检测的能力有所下降。为了缓解这个问题,提出一种基于改进PIDNet的水位线检测算法。首先设计一种结合通道注意力的轻量化像素增强模块,在积分分支下采样过程中进行像素增强,减少局部信息丢失。然后对金字塔池化模块进行重构,在减小池化输出特征大小的基础上减少并行分支数,同时在特征融合时结合通道注意力进一步加强关注重要特征的能力,提高水位线边缘的分割精度。此外,融合多场景的河流数据集,避免复杂场景下检测出的水位线位置发生偏移和断线。实验结果表明,所提方法(S和M)在水位线检测任务中相对原算法(S和M)在3个性能指标上都有所提高,以M规模为例,像素正确率提高了1.47个百分点,平均交并比提高了1.04个百分点,检测延迟降低了0.9 ms。 展开更多
关键词 语义分割 水位线检测 金字塔池化模块 注意力 多场景
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部