期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
区域敏感的场景图生成方法
1
作者 王立春 付芳玉 +2 位作者 徐凯 徐洪波 尹宝才 《北京工业大学学报》 CAS 北大核心 2025年第1期51-58,共8页
针对基于关系边界框提取的谓词特征粒度相对较粗的问题,提出区域敏感的场景图生成(region-sensitive scene graph generation,RS-SGG)方法。谓词特征提取模块将关系边界框分为4个区域,基于自注意力机制抑制关系边界框中与关系分类无关... 针对基于关系边界框提取的谓词特征粒度相对较粗的问题,提出区域敏感的场景图生成(region-sensitive scene graph generation,RS-SGG)方法。谓词特征提取模块将关系边界框分为4个区域,基于自注意力机制抑制关系边界框中与关系分类无关的背景区域。关系特征解码器在进行关系预测时不仅考虑了物体对的视觉特征和语义特征,也考虑了物体对的位置特征。在视觉基因组(visual genome,VG)数据集上分别计算了RS-SGG方法针对场景图生成、场景图分类和谓词分类3个子任务的图约束召回率和无图约束召回率,并与主流的场景图生成方法进行了比较。实验结果表明,RS-SGG的图约束召回率和无图约束召回率均优于主流方法。此外,可视化实验结果也进一步证明了所提出方法的有效性。 展开更多
关键词 像理解 场景图生成 物体分类 关系分类 区域感知 自注意力机制
在线阅读 下载PDF
基于关系特征强化的全景场景图生成方法
2
作者 李林昊 王逸泽 +2 位作者 李英双 董永峰 王振 《计算机应用》 北大核心 2025年第2期584-593,共10页
全景场景图生成(PSGG)旨在识别图像中所有对象并自动地捕获所有对象间的语义关联关系。语义关联关系建模依赖目标对象及对象对(subject-object pair)的特征描述,然而现行工作中存在以下不足:采用边界框提取方式获取的对象特征较模糊;仅... 全景场景图生成(PSGG)旨在识别图像中所有对象并自动地捕获所有对象间的语义关联关系。语义关联关系建模依赖目标对象及对象对(subject-object pair)的特征描述,然而现行工作中存在以下不足:采用边界框提取方式获取的对象特征较模糊;仅关注对象的语义和空间位置特征,忽略了对关系预测同样重要的对象对的语义联合特征和相对位置特征;未能针对不同类型的对象对(如前景-前景、前景-背景、背景-背景)进行差异化特征提取,进而忽略了它们之间的差异性。针对上述问题,提出一种基于关系特征强化的全景场景图生成方法(RFE)。首先,通过引入像素级掩码区域特征,丰富对象特征的细节信息,同时有效地融合对象对的联合视觉特征、语义联合特征和相对位置特征;其次,根据对象对的不同类型,自适应地选择最适合本类型对象对的特征提取方式;最后,获得强化后更精确的关系特征用于关系预测。在PSG数据集上的实验结果表明,以VCTree(Visual Contexts Tree)、Motifs、IMP(Iterative Message Passing)和GPSNet为基线方法,ResNet-101为骨干网络,RFE在具有挑战性的SGGen任务上召回率(R@20)指标分别提高了4.37、3.68、2.08和1.80个百分点,验证了所提方法在PSGG的有效性。 展开更多
关键词 全景场景图生成 对象对联合特征 关系特征强化 语义关联关系 自适应选择
在线阅读 下载PDF
结合对象属性识别的图像场景图生成方法研究
3
作者 周浩 罗廷金 崔国恒 《计算机科学》 CSCD 北大核心 2024年第11期205-212,共8页
场景图生成在视觉场景深度理解任务中发挥着重要的作用。现有的场景图生成方法主要关注场景中对象的位置、类别以及对象之间的关系,而忽略了对象属性蕴含的丰富场景语义信息。为了将图像属性语义融入场景图,提出了一种结合对象属性识别... 场景图生成在视觉场景深度理解任务中发挥着重要的作用。现有的场景图生成方法主要关注场景中对象的位置、类别以及对象之间的关系,而忽略了对象属性蕴含的丰富场景语义信息。为了将图像属性语义融入场景图,提出了一种结合对象属性识别的图像场景图生成方法。首先针对属性识别的多标签分类问题,提出了一种基于混合分类器的属性分类损失函数来进行属性识别,通过结合二值交叉熵函数训练的二分类器和改进的团组交叉熵函数训练的多分类器来实现单个属性分类的查准率和多个属性预测的查全率全面提升。其次,通过将属性识别分支与原有场景图框架进行融合,将提取的属性信息作为额外的上下文语义与对象特征进行融合后辅助对象之间关系的识别。最后,模型在VG150数据集上与多个基准模型进行了对比实验,结果表明所提模型的对象属性预测和关系识别均取得了更优的结果。 展开更多
关键词 场景图生成 对象属性识别 属性融合 关系预测 多标签分类 团组交叉熵函数
在线阅读 下载PDF
基于多模态对比学习的场景图生成方法
4
作者 朱旭东 赖腾 《计算机科学》 CSCD 北大核心 2024年第S02期501-505,共5页
场景图生成方法(SGG)主要研究图像中的实体及其关系,广泛应用于视觉理解与图像检索等领域。现有的场景图生成方法受限于视觉特征或单一视觉概念,导致关系识别准确率较低,且需要大量的人工标注。为解决上述问题,文中融合图像和文本特征,... 场景图生成方法(SGG)主要研究图像中的实体及其关系,广泛应用于视觉理解与图像检索等领域。现有的场景图生成方法受限于视觉特征或单一视觉概念,导致关系识别准确率较低,且需要大量的人工标注。为解决上述问题,文中融合图像和文本特征,提出了一种基于多模态对比学习的场景图生成方法MCL-SG(Multimodal Contrastive Learning for Scene Graph)。首先,对图像和文本输入进行特征提取,得到图像和文本特征;然后,使用Transformer Encoder编码器对特征向量进行编码和融合;最后,采用对比学习的自监督策略,计算图像和文本特征的相似度,通过最小化正样本和负样本之间的相似度差异完成训练,无需人工标注。通过大型场景图生成公开数据集VG(Visual Genome)的3个不同层次子任务(即SGDet,SGCls和PredCls)的实验表明:在mean Recall@100指标中,MCL-SG的场景图检测准确率提升9.8%,场景图分类准确率提升14.0%,关系分类准确率提升8.9%,从而证明了MCL-SG的有效性。 展开更多
关键词 场景图生成 Transformer模型 多模态 对比学习 目标检测
在线阅读 下载PDF
基于双分支多头注意力的场景图生成方法
5
作者 王立春 付芳玉 +2 位作者 徐凯 徐洪波 尹宝才 《北京工业大学学报》 CAS CSCD 北大核心 2024年第10期1198-1205,共8页
针对已有场景图生成模型获取上下文信息有限的问题,提出一种有效的上下文融合模块,即双分支多头注意力(dual-stream multi-head attention, DMA)模块,并将DMA分别用于物体分类阶段和关系分类阶段,基于此提出基于双分支多头注意力的场景... 针对已有场景图生成模型获取上下文信息有限的问题,提出一种有效的上下文融合模块,即双分支多头注意力(dual-stream multi-head attention, DMA)模块,并将DMA分别用于物体分类阶段和关系分类阶段,基于此提出基于双分支多头注意力的场景图生成网络(dual-stream multi-head attention-based scene graph generation network, DMA-Net)。该网络由目标检测、物体语义解析和关系语义解析3个模块组成。首先,通过目标检测模块定位图像中的物体并提取物体特征;其次,使用物体语义解析模块中的节点双分支多头注意力(object dual-stream multi-head attention, O-DMA)获取融合了节点上下文的特征,该特征经过物体语义解码器获得物体类别标签;最后,通过关系语义解析模块中的边双分支多头注意力(relationship dual-stream multi-head attention, R-DMA)输出融合了边上下文的特征,该特征经过关系语义解码器输出关系类别标签。在公开的视觉基因组(visual genome, VG)数据集上分别计算了DMA-Net针对场景图检测、场景图分类和谓词分类3个子任务的图约束召回率和无图约束召回率,并与主流的场景图生成方法进行比较。实验结果表明,所提出的方法能够充分挖掘场景中的上下文信息,基于上下文增强的特征表示有效提升了场景图生成任务的精度。 展开更多
关键词 场景图生成 上下文融合 双分支多头注意力(dual-stream multi-head attention DMA) 目标检测 物体分类 关系分类
在线阅读 下载PDF
基于多尺度时空Transformer的视频动态场景图生成模型
6
作者 王朱佳 余宙 +1 位作者 俞俊 范建平 《计算机应用》 CSCD 北大核心 2024年第1期47-57,共11页
为应对动态视频中物体间关系在时间维度上的动态变化,提出一种基于多尺度时空Transformer的视频动态场景图生成模型,在经典的Transformer架构基础上引入了多尺度建模思想,以实现对视频动态细粒度语义的精确建模。首先,在空间维度上保留... 为应对动态视频中物体间关系在时间维度上的动态变化,提出一种基于多尺度时空Transformer的视频动态场景图生成模型,在经典的Transformer架构基础上引入了多尺度建模思想,以实现对视频动态细粒度语义的精确建模。首先,在空间维度上保留了传统模型对物体在全局空间相关性的关注;同时还对物体间的相对位置进行了局部空间相关性建模,以便更好地理解人和物之间的交互动态,提供更准确的语义分析结果。其次,在时间维度上,除了保留传统模型对视频中物体短期时间相关性的关注外,还关注了同一对物体在完整视频中的长期时间相关性,通过更全面地建模物体之间的长期关系,生成更准确、连贯的场景图,在一定程度上缓解了由遮挡、重合等引起的场景图生成问题。最后,通过空间编码器与时间编码器的共同作用,更加精准地建模视频动态细粒度语义,克服了传统的单尺度模型的局限性。实验结果显示,在Action Genome基准数据集上,与基线模型STTran相比,在谓词分类、场景图分类与场景图检测三个任务的Recall@10指标上分别提升了5.0、2.8、2.9个百分点。实验结果表明,多尺度建模思想能够更加精确地建模,并有效地提高在视频动态场景图生成任务上的性能。 展开更多
关键词 动态场景图生成 注意力机制 多尺度建模 视频理解 语义分析
在线阅读 下载PDF
外部信息引导和残差置乱的场景图生成方法 被引量:5
7
作者 田鑫 季怡 +2 位作者 高海燕 林欣 刘纯平 《计算机科学与探索》 CSCD 北大核心 2021年第10期1958-1968,共11页
场景图因其具有的表示视觉场景内容的语义和组织结构的特点,有助于视觉理解和可解释推理,成为计算机视觉研究热点之一。但由于现存的视觉场景中目标和目标之间关系标注的不平衡,导致现有的场景图生成方法受到数据集偏置影响。对场景图... 场景图因其具有的表示视觉场景内容的语义和组织结构的特点,有助于视觉理解和可解释推理,成为计算机视觉研究热点之一。但由于现存的视觉场景中目标和目标之间关系标注的不平衡,导致现有的场景图生成方法受到数据集偏置影响。对场景图数据失衡问题进行研究,提出一种基于外部信息引导和残差置乱相结合的场景图生成方法(EGRES),缓解数据集偏置对场景图生成的负面影响。该方法利用外部知识库中无偏置的常识性知识规范场景图的语义空间,缓解数据集中关系数据分布不平衡的问题,以提高场景图生成的泛化能力;利用残差置乱方式对视觉特征和提取的常识性知识进行融合,规范场景图生成网络。在VG数据集上的对比实验和消融实验证明,提出的方法可以有效改善场景图生成。对于数据集中不同标签的对比实验证明,提出的方法可以改善绝大多数关系类别的生成性能,尤其是中低频关系类别下的场景图生成性能,极大地改善了数据标注失衡的问题,比现有的场景图生成方法具有更好的生成效果。 展开更多
关键词 数据集偏置 残差置乱 外部知识库 场景图生成
在线阅读 下载PDF
一种结合多尺度特征图和环型关系推理的场景图生成模型 被引量:4
8
作者 庄志刚 许青林 《计算机科学》 CSCD 北大核心 2020年第4期136-141,共6页
场景图为描述图像内容的结构图(Graph),其在生成过程中存在两个问题:1)二步式场景图生成方法造成有益信息流失,使得任务难度提高;2)视觉关系长尾分布使得模型发生过拟合、关系推理错误率上升。针对这两个问题,文中提出结合多尺度特征图... 场景图为描述图像内容的结构图(Graph),其在生成过程中存在两个问题:1)二步式场景图生成方法造成有益信息流失,使得任务难度提高;2)视觉关系长尾分布使得模型发生过拟合、关系推理错误率上升。针对这两个问题,文中提出结合多尺度特征图和环型关系推理的场景图生成模型SGiF(Scene Graph in Features)。首先,计算多尺度特征图上的每一特征点存在视觉关系的可能性,并将存在可能性高的特征点特征提取出来;然后,从被提取出的特征中解码得到主宾组合,根据解码结果的类别差异,对结果进行去重,以此得到场景图结构;最后,根据场景图结构检测包含目标关系边在内的环路,将环路上的其他边作为计算调整因子的输入,以该因子调整原关系推理结果,并最终完成场景图的生成。实验设置SGGen和PredCls作为验证项,在大型场景图生成数据集VG(Visual Genome)子集上的实验结果表明,通过使用多尺度特征图,相比二步式基线,SGiF的视觉关系检测命中率提升了7.1%,且通过使用环型关系推理,相比非环型关系推理基线,SGiF的关系推理命中率提升了2.18%,从而证明了SGiF的有效性。 展开更多
关键词 场景图生成 多尺度特征 环型关系推理 卷积神经网络 像理解
在线阅读 下载PDF
基于多模态特征转换嵌入的场景图生成 被引量:1
9
作者 张若楠 安高云 《信号处理》 CSCD 北大核心 2023年第1期51-60,共10页
场景图生成是计算机视觉领域中的热点研究方向,可连接上、下游视觉任务。场景图由形式为<主语-谓语-宾语>的三元组组成,模型需要对整幅图像的全局视觉信息进行编码,从而辅助场景理解。但目前模型在处理一对多、多对一和对称性等... 场景图生成是计算机视觉领域中的热点研究方向,可连接上、下游视觉任务。场景图由形式为<主语-谓语-宾语>的三元组组成,模型需要对整幅图像的全局视觉信息进行编码,从而辅助场景理解。但目前模型在处理一对多、多对一和对称性等特殊的视觉关系时仍存在问题。基于知识图谱与场景图的相似性,我们将知识图谱中的转换嵌入模型迁移至场景图生成领域。为了更好地对此类视觉关系进行编码,本文提出了一种基于多模态特征转换嵌入的场景图生成框架,可对提取的视觉和语言等多模态特征进行重映射,最后使用重映射的特征进行谓语类别预测,从而在不明显增加模型复杂度的前提下构建更好的关系表示。该框架囊括并补充了现存的几乎所有转换嵌入模型的场景图实现,将四种转换嵌入模型(TransE、TransH、TransR、TransD)分别应用于场景图生成任务,同时详细阐述了不同的视觉关系类型适用的模型种类。本文所提框架扩展了传统应用方式,除独立模型之外,本文设计了新的应用方式,即作为即插即用的子模块插入到其他网络模型。本文利用大规模语义理解的视觉基因组数据集进行实验,实验结果充分验证了所提框架的有效性,同时,得到的更丰富的类别预测结果表明了本文所提框架有助于解决数据集中的长尾偏差问题。 展开更多
关键词 场景图生成 知识 转换嵌入模型 像语义 场景理解
在线阅读 下载PDF
基于语义连通图的场景图生成算法
10
作者 姜有亮 张锋军 +1 位作者 沈沛意 张亮 《南京师范大学学报(工程技术版)》 CAS 2022年第2期48-55,共8页
提出了基于语义连通图的场景图生成算法.将关系检测过程分为关系建议和关系推理两步;以目标检测算法得到的候选对象为节点集合,构建一个全连接图;使用物体的类别信息和相对空间关系计算物体之间存在关系的概率;通过设置阈值来删除图中... 提出了基于语义连通图的场景图生成算法.将关系检测过程分为关系建议和关系推理两步;以目标检测算法得到的候选对象为节点集合,构建一个全连接图;使用物体的类别信息和相对空间关系计算物体之间存在关系的概率;通过设置阈值来删除图中的无效连接,得到稀疏的语义连通图;使用图神经网络聚合物体节点的特征进行聚合,融合上下文信息.根据语义连通图的连接关系,结合更新后的主语和宾语特征以及两个物体联合区域的特征,构建关系特征,预测图中的每条边对应的关系类别. 展开更多
关键词 场景图生成 卷积神经网络 目标检测 视觉关系检测 场景语义理解
在线阅读 下载PDF
一种空间关系增强的场景图生成方法
11
作者 陶琪 靳华中 +2 位作者 李文萱 黎林 袁福祥 《湖北工业大学学报》 2022年第4期36-42,共7页
为了充分利用目标间的空间信息,更准确描述场景目标之间的关系,提出一种空间关系增强的场景图生成方法。该方法主要贡献包括目标间的关系统计和空间关系增强两个方面。其一,通过数据库建立目标对的关系数值矩阵,利用关系数值矩阵简化目... 为了充分利用目标间的空间信息,更准确描述场景目标之间的关系,提出一种空间关系增强的场景图生成方法。该方法主要贡献包括目标间的关系统计和空间关系增强两个方面。其一,通过数据库建立目标对的关系数值矩阵,利用关系数值矩阵简化目标对的数量,以便目标间的关系检测;其二,由目标对的坐标信息计算两者之间的相对大小、相对位置和交并比,从而增强目标间的空间关系。实验结果表明,在Visual Genome数据集上,提出方法比Neural Motifs模型在场景图生成、场景图分类和谓词分类任务上均有提升。 展开更多
关键词 场景图生成 空间信息 空间关系 关系统计 关系检测
在线阅读 下载PDF
基于增强语义信息理解的场景图生成
12
作者 曾军英 陈运雄 +4 位作者 秦传波 陈宇聪 王迎波 田慧明 顾亚谨 《电子技术应用》 2023年第5期52-56,共5页
场景图生成(SGG)任务旨在检测图像中的视觉关系三元组,即主语、谓语、宾语,为场景理解提供结构视觉布局。然而,现有的场景图生成方法忽略了预测的谓词频率高但却无信息性的问题,从而阻碍了该领域进步。为了解决上述问题,提出一种基于增... 场景图生成(SGG)任务旨在检测图像中的视觉关系三元组,即主语、谓语、宾语,为场景理解提供结构视觉布局。然而,现有的场景图生成方法忽略了预测的谓词频率高但却无信息性的问题,从而阻碍了该领域进步。为了解决上述问题,提出一种基于增强语义信息理解的场景图生成算法。整个模型由特征提取模块、图像裁剪模块、语义转化模块、拓展信息谓词模块四部分组成。特征提取模块和图像裁剪模块负责提取视觉特征并使其具有全局性和多样性。语义转化模块负责将谓词之间的语义关系从常见的预测中恢复信息预测。拓展信息谓词模块负责扩展信息谓词的采样空间。在数据集VG和VG-MSDN上与其他方法进行比较,平均召回率分别达到59.5%和40.9%。该算法可改善预测出来的谓词信息性不足问题,进而提升场景图生成算法的性能。 展开更多
关键词 场景图生成 像裁剪 语义转化 拓展信息
在线阅读 下载PDF
无偏差场景图生成方法综述
13
作者 康慷 杨有 +2 位作者 张汝荟 左心悦 姜维维 《伊犁师范大学学报(自然科学版)》 2022年第3期55-66,共12页
场景图是自然图像的一种结构化描述,有助于提高下游图像理解任务的性能和准确度.场景图的研究是当前计算机视觉和深度学习的重要内容,场景图生成是研究工作的重点和难点.由于数据集的长尾效应导致生成的对象关系准确性存在偏差,严重地... 场景图是自然图像的一种结构化描述,有助于提高下游图像理解任务的性能和准确度.场景图的研究是当前计算机视觉和深度学习的重要内容,场景图生成是研究工作的重点和难点.由于数据集的长尾效应导致生成的对象关系准确性存在偏差,严重地限制了场景图的生成质量,所以无偏差场景图得以重视.在介绍视觉关系、场景图和长尾效应三个概念的基础之上,根据无偏差场景图生成流程,将现有的无偏差场景图生成分为数据平衡、无偏差训练、关系推理三种方法.进一步,对这三类方法中常见算法的优点和特点进行了总结与分析,对比了算法之间的性能.最后指出,融入外部知识、区分谓词粒度、提高小样本识别能力和构建更加平衡的数据集,是无偏差场景图生成未来研究重点. 展开更多
关键词 无偏差场景 场景图生成 视觉关系 长尾问题
在线阅读 下载PDF
基于关联信息增强与关系平衡的场景图生成方法
14
作者 李林昊 韩冬 +2 位作者 董永峰 李英双 王振 《计算机应用》 2025年第3期953-962,共10页
利用场景图的上下文信息可以帮助模型理解目标之间的关联作用;然而,大量不相关的目标可能带来额外噪声,进而影响信息交互,造成预测偏差。在嘈杂且多样的场景中,即使几个简单的关联目标,也足够推断目标所处的环境信息,并消除其他目标的... 利用场景图的上下文信息可以帮助模型理解目标之间的关联作用;然而,大量不相关的目标可能带来额外噪声,进而影响信息交互,造成预测偏差。在嘈杂且多样的场景中,即使几个简单的关联目标,也足够推断目标所处的环境信息,并消除其他目标的歧义信息。此外,在面对真实场景中的长尾偏差数据时,场景图生成(SGG)的性能难以令人满意。针对上下文信息增强和预测偏差的问题,提出一种基于关联信息增强与关系平衡的SGG(IERB)方法。IERB方法采用一种二次推理结构,即根据有偏场景图的预测结果重新构建不同预测视角下的关联信息并平衡预测偏差。首先,聚焦不同视角下的强相关目标以构建上下文关联信息;其次,利用树型结构的平衡策略增强尾部关系的预测能力;最后,采用一种预测引导方式在已有场景图的基础上预测优化。在通用的数据集Visual Genome上的实验结果表明,与3类基线模型VTransE(Visual Translation Embedding network)、Motif和VCTree(Visual Context Tree)相比,所提方法在谓词分类(PredCls)任务下的均值召回率mR@100分别提高了11.66、13.77和13.62个百分点,验证了所提方法的有效性。 展开更多
关键词 场景图生成 信息增强 有偏预测 关系平衡 预测优化
在线阅读 下载PDF
附加偏见预测器辅助的均衡化场景图生成
15
作者 王文彬 王瑞平 陈熙霖 《中国科学:信息科学》 CSCD 北大核心 2022年第11期2075-2092,共18页
场景图是以场景中的物体为结点、以物体之间的关系为边构成的图结构,在视觉与语言交互理解和推理相关任务中具有广泛的应用前景.近年来,场景图自动生成逐渐受到关注,但生成结果中对于关系的描述受到长尾分布带来的偏见的影响,偏向于样... 场景图是以场景中的物体为结点、以物体之间的关系为边构成的图结构,在视觉与语言交互理解和推理相关任务中具有广泛的应用前景.近年来,场景图自动生成逐渐受到关注,但生成结果中对于关系的描述受到长尾分布带来的偏见的影响,偏向于样本量较大的头部关系.然而头部关系往往过于空泛,描述不够准确,容易造成误解.由于这种关系价值不高,生成的场景图近似于退化为场景中物体信息的堆叠,不利于其他应用在图结构上进行结构化推理.为了使场景图生成器在这种不均衡的数据条件下,能够更均衡地学习,给出更加多样化的特别是尾部的更准确的关系,本文提出一种附加偏见预测器(additional biased predictor,ABP)辅助的均衡化学习方法.该方法利用一条有偏见的关系预测分支,令场景图生成器抑制自身对头部关系的偏好,并更加注重尾部关系的学习.场景图生成器需要为指定的一对物体预测关系,这是一种实例级的关系预测,与之相比,有偏分支以更简洁的方式预测出图像中的关系信息,即不指定任何一对物体,直接预测出图像中存在的关系,这是一种区域级的关系预测.为此,本文利用已有的实例级的关系标注,设计算法自动构造区域级的关系标注,以此来训练该有偏分支,使其具有区域级关系预测的能力.在不同场景图生成器上应用ABP方法,并在多个公开数据集(Visual Genome,VRD和OpenImages等)上进行实验,结果表明,ABP方法具有通用性,应用ABP方法训练得到的场景图生成器能够预测出更加多样化的、更准确的关系,进而生成更有价值、更实用的场景图. 展开更多
关键词 场景图生成 长尾分布 附加偏见预测器 均衡化学习 区域级关系
原文传递
图像内容精细化感知及其安全关键技术研究 被引量:1
16
作者 王蕊 荆丽桦 +2 位作者 邹聪 吕飞霄 朱子璇 《人工智能》 2024年第1期9-23,共15页
图像内容精细化感知是计算机视觉领域内的一个基础性问题,旨在对图像中包含的信息进行精细化理解,具有重要的研究价值和广阔的应用场景。根据关注范围的不同,图像内容精细化感知主要包括细粒度识别、场景图生成和图像描述等方面。本文... 图像内容精细化感知是计算机视觉领域内的一个基础性问题,旨在对图像中包含的信息进行精细化理解,具有重要的研究价值和广阔的应用场景。根据关注范围的不同,图像内容精细化感知主要包括细粒度识别、场景图生成和图像描述等方面。本文首先对各关键技术的研究进展和现状进行综述;然后讨论了直接影响感知模型预测结果的安全威胁,概述了相关攻击及防御技术的研究进展;最后对该领域的未来发展趋势作出展望。 展开更多
关键词 像识别 细粒度感知 场景图生成 像描述 对抗攻击及防御 后门攻击及防御
在线阅读 下载PDF
图注意力网络的场景图到图像生成模型 被引量:5
17
作者 兰红 刘秦邑 《中国图象图形学报》 CSCD 北大核心 2020年第8期1591-1603,共13页
目的目前文本到图像的生成模型仅在具有单个对象的图像数据集上表现良好,当一幅图像涉及多个对象和关系时,生成的图像就会变得混乱。已有的解决方案是将文本描述转换为更能表示图像中场景关系的场景图结构,然后利用场景图生成图像,但是... 目的目前文本到图像的生成模型仅在具有单个对象的图像数据集上表现良好,当一幅图像涉及多个对象和关系时,生成的图像就会变得混乱。已有的解决方案是将文本描述转换为更能表示图像中场景关系的场景图结构,然后利用场景图生成图像,但是现有的场景图到图像的生成模型最终生成的图像不够清晰,对象细节不足。为此,提出一种基于图注意力网络的场景图到图像的生成模型,生成更高质量的图像。方法模型由提取场景图特征的图注意力网络、合成场景布局的对象布局网络、将场景布局转换为生成图像的级联细化网络以及提高生成图像质量的鉴别器网络组成。图注意力网络将得到的具有更强表达能力的输出对象特征向量传递给改进的对象布局网络,合成更接近真实标签的场景布局。同时,提出使用特征匹配的方式计算图像损失,使得最终生成图像与真实图像在语义上更加相似。结果通过在包含多个对象的COCO-Stuff图像数据集中训练模型生成64×64像素的图像,本文模型可以生成包含多个对象和关系的复杂场景图像,且生成图像的Inception Score为7.8左右,与原有的场景图到图像生成模型相比提高了0.5。结论本文提出的基于图注意力网络的场景图到图像生成模型不仅可以生成包含多个对象和关系的复杂场景图像,而且生成图像质量更高,细节更清晰。 展开更多
关键词 场景图生成 注意力网络 场景布局 特征匹配 级联细化网络
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部