-
题名视觉注意与语义感知联合推理实现场景文本识别
被引量:1
- 1
-
-
作者
佟国香
董田荣
胡珩彰
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《数据采集与处理》
CSCD
北大核心
2023年第3期665-675,共11页
-
基金
国家重点研发计划(2018YFB1700902)。
-
文摘
场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明,所提出的方法可以有效地对任意形状和低质量的场景文本进行识别,并且在多个基准数据集上获得了具有竞争力的结果。特别地,对于包含低质量文本的数据集SVT和SVTP,识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比,准确率分别提升了3.5%和3.9%,充分表明了语义信息对于文本识别的重要性。
-
关键词
场景文本识别
不规则文本
视觉注意模块
语义感知模块
多模态
-
Keywords
scene text recognition
irregular text
visual attention module
semantic perception module
multimodal
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-