基于Tesseract的医学化验单内容识别技术被引量：16

Recognition technology of the laboratory sheet based on Tesseract

下载PDF

导出

摘要目的由于化验单内容可以真实地记录患者健康状态,因此将纸质的化验单转为医疗电子档案进行存储在进行保险理赔、转院、远程会诊、建立健康档案时都具有重要作用。但目前在临床上尚缺乏能识别化验单内容,把化验单直接转成医疗电子档案的工具,为此本文设计了一套完整的自动化医学化验单内容的光学字符识别(optical character recognition,OCR)方法。方法首先对化验单图像进行预处理,利用大津法对化验单图像进行二值化、用霍夫变换对图像进行抗扭斜和特征提取,然后使用Tesseract的集束搜索算法和 K 邻近算法对化验单内容进行识别,对字库进行训练,利用医学词典文件与模糊字文件来对识别内容进行纠错,并以此建立医学化验单OCR引擎。最后利用从上海某社区医院收集的302条化验单数据对OCR引擎的准确率进行了评估。结果经评估验证,本文方法的识别准确率为92.72%,可基本满足临床需求。结论基于Tesseract建立的医学化验单OCR引擎可以免去手动输入化验单数据的麻烦,医生仅需拍照上传化验单照片,即可将化验单中的内容转成结构化医疗电子档案,极大提高了医生的工作效率,有助于数据的进一步利用。 Objective As the contents of the laboratory sheet can truly record patients’ health status, it plays an important role to convert the paper laboratory sheet into medical electronic files for storage in insurance claims, transfer, remote consultation, and establishment of health records. However, there is no tool to identify the contents of laboratory sheet and convert the laboratory sheet directly into structured medical electronic files at present. For this reason, this paper designs a complete optical character recognition(OCR)identification methods for automatic identification of medical laboratory sheet. Methods First, the image of laboratory sheet was preprocessed, binarized by Otsu method. A deskew and feature extraction was performed by Hough transform, then the content of laboratory sheet was identified by Tesseract’s beam search algorithm and K-neighboring algorithm, the word bank was trained, and the recognition content was corrected by the medical dictionary file and the unicharambigs file. Based on this, an OCR engine for laboratory sheets was built. Finally, the accuracy of OCR engine was evaluated by using 302 laboratory sheets collected from a community hospital in Shanghai. Results The recognition accuracy of this method was 92.72%, which could basically meet the clinical needs. Conclusion The OCR engine based on Tesseract can avoid the trouble of manually inputting the laboratory sheet data. Doctors only need to take photos of laboratory sheets and upload these photos by internet, the OCR engine can transform the contents of the laboratory sheet into structured medical electronic files, which greatly improves the efficiency of doctors and helps to further use the data.

作者张淙悦尹梓名孙大运戴维 ZHANG Congyue;YIN Ziming;SUN Dayun;DAI Wei(School of Meical Instrument and Food Engineering,University of Shanghai for Science and Technology,Shanghai 200093)

机构地区上海理工大学医疗器械与食品学院

出处《北京生物医学工程》 2019年第3期283-289,共7页 Beijing Biomedical Engineering

基金国家自然科学基金(81801797)资助

关键词化验单光学字符识别图像处理错误校正 laboratory sheet optical character recognition image processing error correction

分类号 R318.08 [医药卫生—生物医学工程] TP391.5 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1黄宇.OCR技术在金融领域的应用[J].金融电子化,2001(1):86-88. 被引量：1
2郭佳,刘晓玉,吴冰,付晓薇.一种光照不均匀图像的二值化方法[J].计算机应用与软件,2014,31(3):183-186. 被引量：64
3罗松,王俊峰,唐鹏,陈懿.面向条码识读的自适应二值化改进算法[J].计算机工程与设计,2013,34(4):1324-1330. 被引量：12
4邬满.基于跳变检测和Tesseract的机打发票识别算法[J].信息与电脑（理论版）,2015(18):43-45. 被引量：4

二级参考文献29

1张引.基于空间分布的最大类间方差牌照图像二值化算法[J].浙江大学学报（工学版）,2001,35(2):219-219. 被引量：39
2Kwok Bun Yue, Zahabia Damania. The use of free and open source software in real-world capstone projects [J]. Consortium for Computing Sciences in Colleges, 2011, 26 (4) : 85-92.
3Keng Tan, Chai D. Designing a color barcode for mobile applications [J]. IEEE Pervasive Computing, 2012, 11 (2): 50-55.
4OTSU N. A threshold selection method from gray-Level histo-grams [J]. IEEE Trans Syst, Man Cybern, SMC-9, 1979 (8): 62-66.
5Derek Bradley. Adaptive thresholding using the integral image [J]. Journal of Graphics, GPU, and Game Tools, 2007, 12 (2) : 13-21.
6NIBLACK W. An introduction to image processing [M]. NJ: Prentice-Hall, Englewood Cliffs, 1986: 115-116.
7Sauvola J, Pietikainen M. Adaptive document image binarization [ J ]. Pattern Recognition,2000,33 ( 2 ) :225 - 236.
8Sahoo P K, Soltani S, Wong A K C, et al. Survey of thresholding tech- niques[ J]. Computer Graphics, Vision and Image Processing, 1988 (41) :233 -260.
9Trier, Jain Ak. Goal-directed evaluation of binarization methods [ J ]. IEEE Trans Pattern Analysis and Machine Intelligence, 1995,17 ( 12 ) : 1191 - 1201.
10赵建蕾,王汇源,方颖.偏暗或泛白背景的车牌图像二值化方法[J].计算机工程,2008,34(6):210-211. 被引量：5

共引文献74

1刘晓玉,王欢欢.光照不均匀钢坯缺陷图像的二值化方法[J].控制工程,2018,25(12):2147-2152. 被引量：7
2张力飞,张晓东.光学水准尺图像数字化处理及其自动化读数实现[J].测绘地理信息,2019,44(1):65-68. 被引量：2
3胡智宏,李军涛.平移匹配在倾斜条码快速识别中的应用研究[J].包装工程,2014,35(19):130-134. 被引量：2
4季婧婧,娄震.基于二次分割的银行票据彩色印章的滤除[J].现代电子技术,2014,37(22):5-9. 被引量：8
5龚泽挚,陈陇敏,颜洪胜,郑雅羽.可应用于动物实验的人工视觉系统[J].计算机工程与设计,2015,36(4):930-936. 被引量：1
6孙羽羿.基于线性CCD循迹的智能车系统设计[J].电子技术与软件工程,2015(10):140-141. 被引量：1
7李莹.基于图像处理的指针式仪表示数自动判读算法研究[J].电子产品世界,2015,22(6):46-49.
8李龙光,苏静,韩海伦,乔海强,钱帆.不同光照条件下二值化技术研究及应用[J].电子世界,2015(20):145-149. 被引量：4
9曾凡锋,王战东,郭正东.非均匀光照文档图像快速二值化方法[J].计算机应用与软件,2015,32(11):185-188. 被引量：9
10杨芳,滕桂法,田学东.视觉乐谱图像动态多阈值二值化方法[J].计算机科学,2016,43(1):310-314. 被引量：4

同被引文献149

1邱晓欢,吴啟超.一种基于改进EAST网络和改进CRNN网络的火车票站名识别系统[J].南方职业教育学刊,2019,0(6):81-88. 被引量：3
2王阳,李振东,杨观赐.基于深度学习的OCR文字识别在银行业的应用研究[J].计算机应用研究,2020,37(S02):375-379. 被引量：22
3王珂,杨芳,姜杉.光学字符识别综述[J].计算机应用研究,2020,37(S02):22-24. 被引量：37
4石林,梁芙茹.阿尔茨海默病与认知储备[J].世界最新医学信息文摘,2020(70):50-51. 被引量：2
5张艳,张重阳,郁生阳,杨静宇.基于框线检测的票据图像分类方法[J].南京理工大学学报,2007,31(4):409-413. 被引量：6
6程爱武,邹文华.老年痴呆患者高危行为的相关因素分析及护理对策[J].中国民康医学,2010,22(12):1557-1558. 被引量：12
7李国亮.医院网络数据灾难恢复与备份[J].中国医疗设备,2011,26(2):87-87. 被引量：4
8蒋艳荣,刘习文,陈耿涛.基于Viterbi改进算法的高棉语分词研究[J].计算机工程,2011,37(15):174-176. 被引量：3
9李新良.基于模板匹配法的字符识别算法研究[J].计算技术与自动化,2012,31(2):90-93. 被引量：22
10彭立波,于淑平.勘测设计单位档案信息化管理实践与探索[J].黑龙江水利科技,2012,40(12):227-229. 被引量：6

引证文献16

1龙之冠.征地档案数字识别研究与应用[J].国土资源导刊,2019,16(4):81-86. 被引量：1
2梁国贤,陈广华,梁国胜.基于Tesseract中文全血化验单信息提取研究[J].电脑编程技巧与维护,2020(4):96-100. 被引量：1
3许郭樑.一种基于OCR技术在评价机器人轨迹可行性的应用[J].内燃机与配件,2020(12):233-234. 被引量：2
4刘丽玲,范慧莉,赵青青,闫顺琪,孙麒,刘启贤.面向航天专网的敏感内容审查系统构建浅析[J].网信军民融合,2020(8):58-61. 被引量：1
5王麟,何安松.基于LSTM神经网络进行LED面板数字识别的方法研究[J].中国机械,2020(19):63-64.
6左嵩,潘伟华.安卓平台上的医用图像信息采集系统的开发设计[J].现代科学仪器,2021,38(1):19-24.
7李沛霖,吕巍,姚琳,尚丹梅.基于Tesseract的会计票据图像识别系统设计研究[J].中国管理信息化,2021,24(17):107-110. 被引量：2
8邢宝峻,彭晓明,殷哲.战斗机机载雷达视频识别与分析方法研究[J].舰船电子工程,2021,41(12):93-97.
9邢宝峻,殷哲,王卫星,彭晓明.基于视频识别的飞行训练考核评估方法[J].舰船电子工程,2022,42(7):88-90. 被引量：1
10徐雯青,吴欧.“互联网+”三级防治模式应对阿尔茨海默病患者激越行为及其伤害事件转归探索的研究进展[J].伤害医学（电子版）,2022,11(3):53-59.

二级引证文献11

1欧杰.基于OCR 技术的政府机关制度文件文字内容识别研究[J].电脑知识与技术,2021,17(9):201-202. 被引量：5
2李沛霖,吕巍,姚琳,尚丹梅.基于Tesseract的会计票据图像识别系统设计研究[J].中国管理信息化,2021,24(17):107-110. 被引量：2
3王栋.人工智能OCR技术的应用研究[J].电子技术与软件工程,2022(1):122-125. 被引量：30
4曹慧静.基于手机的OCR测试集构建及自动化评估模型[J].现代信息科技,2022,6(12):11-13.
5薛静,陈鹏,朱魁,孙精通.计算机图像处理和识别技术在中药研究中的应用进展[J].天津药学,2023,35(4):69-73. 被引量：3
6谭静.基于Tesseract-OCR的农村房地一体归档系统研究[J].黑龙江科学,2024,15(12):154-157. 被引量：1
7邓又琦,张明,马敬济.基于深度学习识别算法的文件敏感词多维度检测技术研究[J].计算机与数字工程,2024,52(8):2435-2439.
8刘占鹏,王元斌,周倜.一种跨域的视频时空攻击方法[J].智能安全,2024,3(4):21-28.
9邢浩,孙孟宇,石杰.pytest自动测试框架通用搭建方法研究[J].山西电子技术,2025(1):102-105.
10吕宜光,郝明,孙凯明,高亮,周丽丽.基于OCR技术的远程工业数据采集系统的设计[J].黑龙江科学,2025,16(4):131-133.

1高分党交流问卷[J].故事家,2019,0(5):112-112.
2高分党交流问卷[J].故事家,2019,0(2):112-112.
3周宙.我宁愿失去手机,也不愿失去真实[J].北方文学,2019,0(5):17-17.
4高分党交流问卷[J].故事家,2019,0(3):112-112.
5高分党交流问卷[J].故事家,2019,0(4):112-112.
6高查清,吴礼敬.翻译的真相伦理与译者主体性——以《翻译的文本分析模式》汉译为例[J].宜春学院学报,2018,40(11):64-69.
7徐梦琳,韩驰,刘经纬.基于二次邻近算法和支持向量机算法的质量判别算法研究[J].现代信息科技,2019,3(6):104-105. 被引量：1
8曹梦龙,霍立斌.轮胎钉孔视觉检测系统设计[J].青岛科技大学学报（自然科学版）,2019,40(2):102-107. 被引量：1
9赵天鸿,涂伟,栾兆亮,陈斯达.面向工作者的空间众包动态任务规划算法[J].测绘地理信息,2019,44(2):41-44. 被引量：2
10曾志鸿,刘军.基于HALCON的快递地址信息识别研究[J].机电信息,2019(17):1-3. 被引量：7

北京生物医学工程

2019年第3期

浏览历史

内容加载中请稍等...

基于Tesseract的医学化验单内容识别技术被引量：16

参考文献4

二级参考文献29

共引文献74

同被引文献149

引证文献16

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Tesseract的医学化验单内容识别技术 被引量：16

参考文献4

二级参考文献29

共引文献74

同被引文献149

引证文献16

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Tesseract的医学化验单内容识别技术被引量：16