-
题名基于图神经网络和引导向量的图像字幕生成模型
被引量:2
- 1
-
-
作者
佟国香
李乐阳
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《数据采集与处理》
CSCD
北大核心
2023年第1期209-219,共11页
-
基金
国家重点研发计划项目(2018YFB1700902)。
-
文摘
近年来,深度学习已在图像字幕技术研究中展现其优势。在深度学习模型中,图像中对象之间的关系在图像表示中起着重要作用。为了更好地检测图像中的视觉关系,本文基于图神经网络和引导向量构建了图像字幕生成模型(YOLOv4-GCN-GRU,YGG)。该模型利用图像中被检测到的对象的空间和语义信息建立成图,利用图卷积神经网络(Graph convolutional network,GCN)作为编码器对图的每个区域进行表示。在字幕生成阶段,额外训练一个引导神经网络来产生引导向量,从而辅助生成模型自动生成语句。基于MSCOCO图像数据集的对比实验表明,YGG模型具有更好的性能,将CIDEr-D的性能从138.9%提高到了142.1%。
-
关键词
图像字幕
空间语义图
图卷积神经网络
引导向量
生成模型
-
Keywords
image caption
spatial semantic map
graph convolution neural network
guidance vector
generation model
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-