面向识别的长弯曲文本预处理算法

Preprocessing algorithm for long curve text recognition

下载PDF

导出

摘要光学字符识别(Optical Character Recognition,OCR)是对文本图片进行扫描,然后对图像进行分析处理,获取到其中的文字内容的过程。但是目前的OCR算法对于弯曲的长文本普遍识别效果不佳,为此,提出了一种面向识别的长弯曲文本预处理算法,即在文本行识别之前添加长弯曲文本处理模块(Long Curve Text Processing,LCTP),以提升图像中所有文本行识别的准确率。首先,在进行文本区域检测后,获取单条长弯曲文本行并清除干扰信息;其次,根据单条长弯曲文本行的特征计算每条弯曲文本行的关键拐点;进而,使用关键拐点对单条文本行进行切分和融合;最后,将经过切分与融合后的文本行输入文本行识别模型中得到最终识别结果。通过手动采集长弯曲文本图像形成的数据集Long Curve Text与目前主流OCR框架PP-OCR和Tesseract OCR进行对比实验可知,LA、MED、NED指标均有提升,相比于PP-OCR,LA提升49.5%,MED和NED分别降低了44115和0.182;相比于Tesseract OCR,LA提升3.2%,MED和NED分别降低了30282和0.125。同时,也在Long Curve Text数据集中进行了消融实验以验证本文提出LCTP的有效性以及进行了LCTP各个结构的时间对比实验以验证本文提出LCTP的高效性。结果表明LCTP可以提高长弯曲文本识别准确率,总体上可以地获得更加准确、有效的识别结果。 Optical Character Recognition(OCR)is the process of scanning text images,analyzing and processing the images to extract the textual content.However,current OCR algorithms generally have poor performance in recognizing long and curved texts.To address this issue,a pre-processing algorithm called Long Curve Text Processing(LCTP)is proposed,which aims to improve the accuracy of text line recognition in images.Firstly,after performing text region detection,a single long and curved text line is obtained and noise information is removed.Secondly,the key inflection points of each curved text line are calculated based on their features.Subsequently,the text lines are segmented and merged using the key inflection points.Finally,the segmented and merged text lines are fed into a text line recognition model to obtain the final recognition results.A comparative experiment is conducted between the manually collected dataset,Long Curve Text,and the state-of-the-art OCR frameworks,namely PP-OCR and Tesseract OCR.The experiments show improvements in the LA(Localization Accuracy),MED(Minimum Edit Distance),and NED(Normalized Edit Distance)metrics.Compared to PP-OCR,LA is improved by 49.5%,while MED and NED decrease by 44115 and 0.182,respectively.Compared to Tesseract OCR,LA is improved by 3.2%,while MED and NED decrease by 30282 and 0.125,respectively.Additionally,ablation experiments are performed on the Long Curve Text dataset to validate the effectiveness of LCTP,and time comparison experiments are conducted to demonstrate the efficiency of the proposed LCTP structures.The results indicate that LCTP can enhance the accuracy of long and curved text recognition,providing more precise recognition results in general.

作者刘新天冯杰朱明航马汉杰郑雅羽 LIU Xintian;FENG Jie;ZHU Minghang;MA Hanjie;ZHENG Yayu(School of Computer Science and Technology(School of Artificial Intelligence),Zhejiang Sci-Tech University,Hangzhou 310018,China;College of Information Engineering,Zhejiang University of Technology,Hangzhou 310023,China)

机构地区浙江理工大学计算机科学与技术学院(人工智能学院) 浙江工业大学信息工程学院

出处《智能计算机与应用》 2024年第12期10-17,共8页 Intelligent Computer and Applications

基金浙江省科技计划项目(2021C01163)。

关键词长弯曲文本干扰信息关键拐点切分融合 long curve text noise information key inflection points segmented merged

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1王建新,王子亚,田萱.基于深度学习的自然场景文本检测与识别综述[J].软件学报,2020,31(5):1465-1496. 被引量：44
2徐倩,郭必然,贾泓波.面向票据的OCR识别算法研究与实现[J].计算机科学与应用,2022,12(12):2778-2787. 被引量：2
3贾智彬,吕学强,何健,董志安.基于两点法的医疗化验单倾斜校正算法[J].计算机与数字工程,2022,50(10):2280-2284. 被引量：1

二级参考文献24

1王阳,李振东,杨观赐.基于深度学习的OCR文字识别在银行业的应用研究[J].计算机应用研究,2020,37(S02):375-379. 被引量：22
2李庆峰,付忠良,刘琴.一种高效的倾斜图像校正方法[J].计算机工程,2006,32(21):194-196. 被引量：14
3周冠玮,平西建,程娟.基于改进Hough变换的文本图像倾斜校正方法[J].计算机应用,2007,27(7):1813-1816. 被引量：33
4潘梅森,肖政宏.一种新的车牌号码倾斜校正方法[J].光电子．激光,2008,19(8):1116-1120. 被引量：8
5张顺利,李卫斌,吉军.基于投影的文档图像倾斜校正方法[J].计算机工程与应用,2010,46(3):166-168. 被引量：21
6王文华.浅谈OCR技术的发展和应用[J].福建电脑,2012,28(6):56-56. 被引量：17
7王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽.自然场景图像中的文本检测综述[J].自动化学报,2018,44(12):2113-2141. 被引量：55
8曾凡锋,吴飞飞,肖珂,王晓.一种快速文本图像倾斜校正方法[J].计算机应用与软件,2015,32(4):181-185. 被引量：12
9张勇红.基于霍夫变换的铭牌OCR图像旋转矫正方法[J].电测与仪表,2015,52(8):125-128. 被引量：14
10郭丽丽,丁世飞.深度学习研究进展[J].计算机科学,2015,42(5):28-33. 被引量：204

共引文献44

1田萱,王子亚,王建新.基于语义分割的食品标签文本检测[J].农业机械学报,2020,51(8):336-343. 被引量：11
2白志程,李擎,陈鹏,郭立晴.自然场景文本检测技术研究综述[J].工程科学学报,2020,42(11):1433-1448. 被引量：13
3李佳琪,杨超宇.基于深度学习的工业工件字符识别[J].黑龙江工业学院学报（综合版）,2021,21(4):86-91.
4王宇.基于深度学习的银行卡发卡审核应用[J].电脑编程技巧与维护,2021(8):124-126.
5李威.基于深度学习和时空关联的大数据分析系统研究[J].通信技术,2021,54(10):2431-2436.
6孟月波,金丹,刘光辉,徐胜军,韩九强,石德旺.共享核空洞卷积与注意力引导FPN文本检测[J].光学精密工程,2021,29(8):1955-1967. 被引量：4
7孟月波,石德旺,刘光辉,徐胜军,金丹.多维度卷积融合的密集不规则文本检测[J].光学精密工程,2021,29(9):2210-2221. 被引量：6
8伍锡如,邱涛涛.改进Faster R-CNN的汽车仪表指针实时检测[J].智能系统学报,2021,16(6):1056-1063. 被引量：5
9扎西多吉,格桑多吉,西热旦增,米次.藏文手写乌梅体字母预处理和特征提取研究[J].高原科学研究,2021,5(4):104-110. 被引量：2
10安胜彪,娄慧儒,陈书旺,白宇.基于深度学习的旋转目标检测方法研究进展[J].电子测量技术,2021,44(21):168-178. 被引量：8

1刘凌远.基于深度学习的车牌检测与识别[J].现代信息科技,2024,8(23):53-57.
2刘沛,刘昌华,林俏伶.基于优化特征堆叠与集成学习的车联网入侵检测模型[J].计算机工程与科学,2024,46(12):2186-2195.
3张尧洲.基于深度学习的高速公路交通标线智能施工系统研究[J].中文科技期刊数据库（全文版）工程技术,2024(12):118-121.
4倪章灵.基于OCR识别的医院信息化自助报告系统设计与实现[J].中国新通信,2024,26(21):60-62.

智能计算机与应用

2024年第12期

浏览历史

内容加载中请稍等...

面向识别的长弯曲文本预处理算法

参考文献3

二级参考文献24

共引文献44

相关作者

相关机构

相关主题

浏览历史