[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN118279923B - 基于深度学习训练的图片文字识别方法、系统及存储介质 - Google Patents

基于深度学习训练的图片文字识别方法、系统及存储介质 Download PDF

Info

Publication number
CN118279923B
CN118279923B CN202410674467.8A CN202410674467A CN118279923B CN 118279923 B CN118279923 B CN 118279923B CN 202410674467 A CN202410674467 A CN 202410674467A CN 118279923 B CN118279923 B CN 118279923B
Authority
CN
China
Prior art keywords
gray
image
value
character
pixel point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410674467.8A
Other languages
English (en)
Other versions
CN118279923A (zh
Inventor
张欣
陈震
王海军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan Jike Technology Co ltd
Tianjin Tianyida Technology Development Co ltd
Original Assignee
Hainan Jike Technology Co ltd
Tianjin Tianyida Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan Jike Technology Co ltd, Tianjin Tianyida Technology Development Co ltd filed Critical Hainan Jike Technology Co ltd
Priority to CN202410674467.8A priority Critical patent/CN118279923B/zh
Publication of CN118279923A publication Critical patent/CN118279923A/zh
Application granted granted Critical
Publication of CN118279923B publication Critical patent/CN118279923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Character Input (AREA)

Abstract

本发明公开了基于深度学习训练的图片文字识别方法、系统及存储介质,涉及图像文字识别技术领域,包括如下步骤:建立图像识别样本库;对样本图像进行灰度化处理,得到灰度图像,对灰度图像进行特征分析,通过特征分析对灰度图像进行轮廓增强,得到特征图像;对特征图像进行文字检测,定位特征图像中的文字区域,对定位好的文字区域进行识别,将图像中的文字区域转化为字符信息;对无法识别的文字区域进行文字修补;本发明用于解决现有的图像文字识别技术还存在二值化处理不够合理以及无法对非完整文字进行修补,导致图像文字识别的结果易出现错误的问题。

Description

基于深度学习训练的图片文字识别方法、系统及存储介质
技术领域
本发明涉及图像文字识别技术领域,具体为基于深度学习训练的图片文字识别方法、系统及存储介质。
背景技术
图像文字识别技术,是指一种将印刷体或手写体文字从图像中提取并转换为可编辑文本的技术,它利用计算机视觉和模式识别技术,通过对图像进行分析和处理,自动识别和提取其中的文字信息;图像文字识别技术的主要目标是实现自动化的文字识别和提取,以替代人工对图像中的文字进行手动输入或转录的过程,它可以应用于各种领域,包括文档处理、数字化档案管理、自动化数据录入、身份证识别、银行支票处理以及车牌识别等。
现有的图像文字识别技术通常都是按照图像预处理、文字检测以及文字识别的方法进行图像文字识别,在图像预处理方面通常都是简单的灰度化或二值化处理,特别是在二值化处理中,普通的二值化处理会导致部分文字无法识别,且现有的图像文字识别技术仅能够识别图像中完整的文字,无法对不完整的文字进行修补,比如在申请公开号为CN110826360A的中国专利中,公开了OCR图像预处理与文字识别,该方案在二值化处理时就仅通过现有的二值化判定标准直接对灰度图像进行二值化处理,易出现部分文字无法识别的情况,且无法对非完整文字进行修补,现有的图像文字识别技术还存在二值化处理不够合理以及无法对非完整文字进行修补,导致图像文字识别的结果易出现错误的问题。
发明内容
本发明旨在至少在一定程度上解决现有技术中的技术问题之一,通过对样本图像进行灰度化处理,得到灰度图像,再对灰度图像进行邻域分析,将灰度图像划分为不同的灰度区域,对不同的灰度区域进行二值化处理,得到特征图像,再通过PSENe文字检测技术以及CNN+RNN+CTC文本识别技术对特征图像进行文字识别,识别完成后再基于识别出的字符信息以及文字修补深度学习模型对特征图像中无法识别的文字进行修补,以解决现有的图像文字识别技术还存在二值化处理不够合理以及无法对非完整文字进行修补,导致图像文字识别的结果易出现错误的问题。
为实现上述目的,第一方面,本申请提供基于深度学习训练的图片文字识别方法,包括如下步骤:
建立图像识别样本库,通过大数据收录样本图像;
对样本图像进行灰度化处理,得到灰度图像,对灰度图像进行特征分析,通过特征分析对灰度图像进行轮廓增强,得到特征图像;
对特征图像进行文字检测,定位特征图像中的文字区域,对定位好的文字区域进行识别,将图像中的文字区域转化为字符信息;
对无法识别的文字区域进行文字修补。
进一步地,所述样本图像用于后续处理后对文字识别模型进行训练。
进一步地,对样本图像进行灰度化处理,得到灰度图像,对灰度图像进行特征分析,通过特征分析对灰度图像进行轮廓增强,得到特征图像包括如下子步骤:
对样本图像进行灰度化处理,得到灰度图像;
对灰度图像进行邻域分析,将灰度图像划分为不同的灰度区域;
对灰度区域进行二值化处理,得到特征图像。
进一步地,对灰度图像进行邻域分析,将灰度图像划分为不同的灰度区域包括如下子步骤:
获取灰度图像的图像分辨率,所述图像分辨率为m×n,m以及n均为正整数;
对像素点进行编号,命名为像素编号,所述像素编号为S(m,n);
针对S(m,n),获取S(m,n)的灰度值并命名为目标灰度值,获取S(m,n)八邻域的灰度值并命名为邻域灰度值,所述邻域灰度值从左上至右下依次命名为第一灰度值、第二灰度值、第三灰度值、第四灰度值、第五灰度值、第六灰度值、第七灰度值以及第八灰度值;
依次计算邻域灰度值与目标灰度值的差值的绝对值,命名为邻域灰度差值,所述邻域灰度差值包括第一灰度差值、第二灰度差值、第三灰度差值、第四灰度差值、第五灰度差值、第六灰度差值、第七灰度差值以及第八灰度差值;
将邻域灰度差值按照从小到大的顺序进行排序,通过符号P1至P8表示;
获取P8对应的邻域灰度差值,标记为最大灰度差值,对应的像素点标记为定向像素点,以目标像素点为起点,沿着定向像素点方向查找与定向像素点相邻的像素点,标记为判定像素点;
对目标像素点、定向像素点以及判定像素点进行分析,判断目标像素点是否为边界。
进一步地,对目标像素点、定向像素点以及判定像素点进行分析包括如下子步骤:
查找定向像素点的邻域灰度值,标记为验证灰度值;将定向像素点的灰度值标记为定向灰度值;
计算验证灰度值与定向灰度值的差值的绝对值,命名为验证灰度差值;
查找验证灰度差值中的最大值对应的像素点,标记为验证像素点;
比对验证像素点是否为判定像素点,若验证像素点是判定像素点,则输出图像边界信号;若验证像素点不是判定像素点,则输出非边界信号;
若输出图像边界信号,则将目标像素点标记为边界像素点;若输出非边界信号,则将目标像素点标记为图像像素点;所述相邻的图像像素点以及边界像素点组合为灰度区域。
进一步地,对灰度区域进行二值化处理,得到特征图像包括如下子步骤:
查找灰度区域中的图像像素点,将图像像素点填充为白色;
查找灰度区域中的边界像素点,将边界像素点填充为黑色,得到特征图像。
进一步地,对特征图像进行文字检测,定位特征图像中的文字区域,对定位好的文字区域进行识别,将图像中的文字区域转化为字符信息包括如下子步骤:
通过PSENe文字检测技术对特征图像进行文字检测;
通过CNN+RNN+CTC文本识别技术对文字区域进行文本识别,得到字符信息以及不完整字符。
进一步地,对无法识别的文字区域进行文字修补包括如下子步骤:
选取字符信息中第一个完整的字符,标记为样本字符;
获取样本字符所属灰度区域,标记为样本区域,获取样本区域中像素点的像素编号S(m,n)中m的最大值以及最小值,分别命名为最大宽度以及最小宽度;获取样本区域中像素点的像素编号S(m,n)中n的最大值以及最小值,分别命名为最大高度以及最小高度;
将最大宽度减去最小宽度得到字体宽度;将最大高度减去最小高度得到字体高度,将字体宽度×字体高度得到字体大小;
获取不完整字符所属灰度区域,标记为目标区域,获取目标区域中像素点的像素编号S(m,n)中m的最大值以及最小值,分别命名为最大目标宽度以及最小目标宽度;获取目标区域中像素点的像素编号S(m,n)中n的最大值以及最小值,分别命名为最大目标高度以及最小目标高度;
将最大目标宽度减去最小目标宽度得到目标宽度;将最大目标高度减去最小目标高度得到目标高度,将目标宽度×目标高度得到目标大小;
将目标大小/字体大小得到目标占比;
通过文字修补深度学习模型对目标占比以及目标区域进行判断,输出修补结果得到字符信息。
第二方面,本申请提供基于深度学习训练的图片文字识别系统,包括数据存储库、特征提取模块、文字识别模块以及文字修补模块,所述数据存储库、特征提取模块以及文字修补模块分别与文字识别模块数据连接;
所述数据存储库用于建立图像识别样本库,通过大数据收录样本图像;
所述特征提取模块用于对样本图像进行灰度化处理,得到灰度图像,对灰度图像进行特征分析,通过特征分析对灰度图像进行轮廓增强,得到特征图像;
所述文字识别模块用于对特征图像进行文字检测,定位特征图像中的文字区域,对定位好的文字区域进行识别,将图像中的文字区域转化为字符信息;
所述文字修补模块用于对无法识别的文字区域进行文字修补。
第三方面,本申请提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,运行如上方法中的步骤。
本发明的有益效果:本发明通过对样本图像进行灰度化处理得到灰度图像,在基于灰度图像中的像素点的灰度值分析像素点是否为边界,优势在于,分析边界点可以对图像的轮廓进行增强,让图像更加清晰且更易于识别,提高了图像文字识别的准确性;
本发明通过将边界像素点以及图像像素点划分为不同的灰度区域,在对灰度区域进行二值化处理,优势在于,将边界像素点所属的灰度区域填充为黑色,将图像像素点所属的灰度区域填充为白色能够更加准确地划分图像中不同部分的形状,提高了二值化处理的有效性以及图像的清晰度;
本发明通过对识别出的字符信息进行分析,得到图像中文字的字体大小,再基于字体大小计算不完整字符的目标占比,基于目标占比以及文字修补深度学习模型对不完整字符进行修补,优势在于,汉字过于复杂,且部分汉字可由其他汉字组合而得到,而结合目标占比可以确保不完整字符不会修补为原字符的组成部分,提高了图像文字识别的智能性以及文字修补的准确性。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本发明的方法的步骤流程图。
图2为本发明的灰度图像。
图3为本发明的邻域灰度值的示意图。
图4为本发明的特征图像。
图5为本发明的文字区域以及不完整字符的示意图。
图6为本发明的系统的原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1,请参阅图1所示,第一方面,本申请提供基于深度学习训练的图片文字识别方法,包括如下步骤:
步骤S1,建立图像识别样本库,通过大数据收录样本图像;样本图像用于后续处理后对文字识别模型进行训练;
具体实施中,图像识别样本库仅用于存储图像数据,存储的样本图像经过本实施例中的处理后得到特征图像,再用于PSENe文字检测技术以及CNN+RNN+CTC文本识别技术的深度学习样本训练。
步骤S2,对样本图像进行灰度化处理,得到灰度图像,对灰度图像进行特征分析,通过特征分析对灰度图像进行轮廓增强,得到特征图像;步骤S2包括如下子步骤:
请参阅图2所示,步骤S201,对样本图像进行灰度化处理,得到灰度图像;
具体实施中,灰度图像如图2所示;
步骤S202,对灰度图像进行邻域分析,将灰度图像划分为不同的灰度区域;
步骤S202包括如下子步骤:
步骤S2021,获取灰度图像的图像分辨率,图像分辨率为m×n,m以及n均为正整数;
步骤S2022,对像素点进行编号,命名为像素编号,像素编号为S(m,n);
请参阅图3所示,步骤S2023,针对S(m,n),获取S(m,n)的灰度值并命名为目标灰度值,获取S(m,n)八邻域的灰度值并命名为邻域灰度值,邻域灰度值从左上至右下依次命名为第一灰度值、第二灰度值、第三灰度值、第四灰度值、第五灰度值、第六灰度值、第七灰度值以及第八灰度值;
具体实施中,获取到图像分辨率为294×89,其中,m=294,n=89,以S(11,24)为例,对邻域灰度值以及邻域灰度差值进行具体解释,其余像素点的分析过程与S(11,24)相同;针对S(11,24),获取到目标灰度值为224,八邻域以及邻域灰度值如图3所示,获取到邻域灰度值中,第一灰度值至第八灰度值依次为224、224、224、224、224、82、90以及90;
步骤S2024,依次计算邻域灰度值与目标灰度值的差值的绝对值,命名为邻域灰度差值,邻域灰度差值包括第一灰度差值、第二灰度差值、第三灰度差值、第四灰度差值、第五灰度差值、第六灰度差值、第七灰度差值以及第八灰度差值;
步骤S2025,将邻域灰度差值按照从小到大的顺序进行排序,通过符号P1至P8表示;
步骤S2026,获取P8对应的邻域灰度差值,标记为最大灰度差值,对应的像素点标记为定向像素点,以目标像素点为起点,沿着定向像素点方向查找与定向像素点相邻的像素点,标记为判定像素点;
具体实施中,通过计算得到第一灰度差值至第八灰度差值依次为0、0、0、0、0、142、134以及134,排序得到P1至P8为0、0、0、0、0、134、134以及142,相同大小的邻域灰度差值的排序可随意排序,若最大灰度差值存在相同的邻域灰度差值,则将按照P8降序的方式对与最大灰度差值相同的邻域灰度差值进行分析,例如P8以及P7均为142,则先将P8对应的像素点标记为定向像素点,步骤S2027分析完成后,若目标像素点是边界像素点,则不再对P7进行分析,若目标像素点不是边界像素点,则将P7对应的像素点标记为定向像素点,再次进行分析;获取到P8对应的像素点为S(10,25),则将S(10,25)标记为定向像素点;查找得到判定像素点为S(9,26);
步骤S2027,对目标像素点、定向像素点以及判定像素点进行分析,判断目标像素点是否为边界;
步骤S2027包括如下子步骤:
步骤S2027.1,查找定向像素点的邻域灰度值,标记为验证灰度值;将定向像素点的灰度值标记为定向灰度值;
步骤S2027.2,计算验证灰度值与定向灰度值的差值的绝对值,命名为验证灰度差值;
具体实施中,获取到验证灰度值从左上至右下依次为188、224、224、0、90、0、0以及0,定向灰度值为0;计算得到验证灰度差值依次为36、0、0、224、134、224、224、224;
步骤S2027.3,查找验证灰度差值中的最大值对应的像素点,标记为验证像素点;
步骤S2027.4,比对验证像素点是否为判定像素点,若验证像素点是判定像素点,则输出图像边界信号;若验证像素点不是判定像素点,则输出非边界信号;
步骤S2027.5,若输出图像边界信号,则将目标像素点标记为边界像素点;若输出非边界信号,则将目标像素点标记为图像像素点;相邻的图像像素点以及边界像素点组合为灰度区域;
具体实施中,查找得到验证灰度差值中的最大值为224,对应的验证像素点包括S(9,25)、S(9,26)、S(10,26)以及S(11,26),查找得到验证像素点中存在判定像素点S(9,26),即验证像素点是判定像素点,则输出图像边界信号;将目标像素点S(11,24)标记为边界像素点,对灰度图像中的所有像素点进行判定分析;
请参阅图4所示,步骤S203,对灰度区域进行二值化处理,得到特征图像;
步骤S203包括如下子步骤:
步骤S2031,查找灰度区域中的图像像素点,将图像像素点填充为白色;
步骤S2032,查找灰度区域中的边界像素点,将边界像素点填充为黑色,得到特征图像;
具体实施中,对灰度区域进行二值化处理后得到特征图像如图4所示。
步骤S3,对特征图像进行文字检测,定位特征图像中的文字区域,对定位好的文字区域进行识别,将图像中的文字区域转化为字符信息;步骤S3包括如下子步骤:
步骤S301,通过PSENe文字检测技术对特征图像进行文字检测;
步骤S302,通过CNN+RNN+CTC文本识别技术对文字区域进行文本识别,得到字符信息以及不完整字符;
具体实施中,PSENe文字检测技术以及CNN+RNN+CTC文本识别技术均采用现有技术,本实施例仅为优化图像文字识别技术中的图像预处理技术以及对不完整文字的补全技术,不涉及文字检测技术以及文本识别技术的原理;通过PSENe文字检测技术检测得到文字区域如图5所示,通过CNN+RNN+CTC文本识别技术识别得到字符信息为“明天会更”,不完整字符如图5所示。
步骤S4,对无法识别的文字区域进行文字修补;步骤S4包括如下子步骤:
步骤S401,选取字符信息中第一个完整的字符,标记为样本字符;
步骤S402,获取样本字符所属灰度区域,标记为样本区域,获取样本区域中像素点的像素编号S(m,n)中m的最大值以及最小值,分别命名为最大宽度以及最小宽度;获取样本区域中像素点的像素编号S(m,n)中n的最大值以及最小值,分别命名为最大高度以及最小高度;
步骤S403,将最大宽度减去最小宽度得到字体宽度;将最大高度减去最小高度得到字体高度,将字体宽度×字体高度得到字体大小;
具体实施中,样本文字为“明”,获取到最大宽度以及最小宽度为57以及7,最大高度以及最小高度为78以及19;计算得到字体宽度为50,字体高度为59,计算得到字体大小为2950;
步骤S404,获取不完整字符所属灰度区域,标记为目标区域,获取目标区域中像素点的像素编号S(m,n)中m的最大值以及最小值,分别命名为最大目标宽度以及最小目标宽度;获取目标区域中像素点的像素编号S(m,n)中n的最大值以及最小值,分别命名为最大目标高度以及最小目标高度;
步骤S405,将最大目标宽度减去最小目标宽度得到目标宽度;将最大目标高度减去最小目标高度得到目标高度,将目标宽度×目标高度得到目标大小;
步骤S406,将目标大小/字体大小得到目标占比;
具体实施中,获取到最大目标宽度以及最小目标宽度分别为294以及269,最大目标高度以及最小目标高度分别为77以及18,通过计算得到目标宽度为25,目标高度为59,计算得到目标大小为1475;计算1475/2950=0.5;
步骤S407,通过文字修补深度学习模型对目标占比以及目标区域进行判断,输出修补结果得到字符信息;
具体实施中,文字修补深度学习模型采用卷积神经网络,通过深度学习技术并联合目标占比对不完整文字进行修补,以本实施例为例,本实施例中不完整文字可识别出为“女”,由于目标占比不完整,因此判定为不完整文字,而女可以组合为很多汉字,但在不同的汉字中所占比例也不相同,本实施例中文字修补深度学习模型结合语义可直接判定为“明天会更好”,假设字符信息为“我和好”,而这句话原本为“我和好朋友”,图像中仅能够识别出“我和女”,此时无法通过语义进行分析,而“女”的目标占比为0.5,文字修补深度学习模型通过大量样本图像的训练,结合目标占比进行判定即可将“女”修补为“好”。
实施例2,请参阅图6所示,第二方面,本申请提供基于深度学习训练的图片文字识别系统,包括数据存储库、特征提取模块、文字识别模块以及文字修补模块,数据存储库、特征提取模块以及文字修补模块分别与文字识别模块数据连接;
数据存储库用于建立图像识别样本库,通过大数据收录样本图像;样本图像用于后续处理后对文字识别模型进行训练;
特征提取模块用于对样本图像进行灰度化处理,得到灰度图像,对灰度图像进行特征分析,通过特征分析对灰度图像进行轮廓增强,得到特征图像;特征提取模块包括灰度处理单元、灰度区域划分单元以及二值化处理单元;
灰度处理单元配置有灰度处理策略,灰度处理策略包括:
对样本图像进行灰度化处理,得到灰度图像;
对灰度图像进行邻域分析,将灰度图像划分为不同的灰度区域;
对灰度区域进行二值化处理,得到特征图像;
灰度区域划分单元配置有灰度区域划分策略,灰度区域划分策略包括:
获取灰度图像的图像分辨率,图像分辨率为m×n,m以及n均为正整数;
对像素点进行编号,命名为像素编号,像素编号为S(m,n);
针对S(m,n),获取S(m,n)的灰度值并命名为目标灰度值,获取S(m,n)八邻域的灰度值并命名为邻域灰度值,邻域灰度值从左上至右下依次命名为第一灰度值、第二灰度值、第三灰度值、第四灰度值、第五灰度值、第六灰度值、第七灰度值以及第八灰度值;
依次计算邻域灰度值与目标灰度值的差值的绝对值,命名为邻域灰度差值,邻域灰度差值包括第一灰度差值、第二灰度差值、第三灰度差值、第四灰度差值、第五灰度差值、第六灰度差值、第七灰度差值以及第八灰度差值;
将邻域灰度差值按照从小到大的顺序进行排序,通过符号P1至P8表示;
获取P8对应的邻域灰度差值,标记为最大灰度差值,对应的像素点标记为定向像素点,以目标像素点为起点,沿着定向像素点方向查找与定向像素点相邻的像素点,标记为判定像素点;
对目标像素点、定向像素点以及判定像素点进行分析,判断目标像素点是否为边界;
查找定向像素点的邻域灰度值,标记为验证灰度值;将定向像素点的灰度值标记为定向灰度值;
计算验证灰度值与定向灰度值的差值的绝对值,命名为验证灰度差值;
查找验证灰度差值中的最大值对应的像素点,标记为验证像素点;
比对验证像素点是否为判定像素点,若验证像素点是判定像素点,则输出图像边界信号;若验证像素点不是判定像素点,则输出非边界信号;
若输出图像边界信号,则将目标像素点标记为边界像素点;若输出非边界信号,则将目标像素点标记为图像像素点;相邻的图像像素点以及边界像素点组合为灰度区域;
二值化处理单元配置有二值化处理策略,二值化处理策略包括:
查找灰度区域中的图像像素点,将图像像素点填充为白色;
查找灰度区域中的边界像素点,将边界像素点填充为黑色,得到特征图像;
文字识别模块用于对特征图像进行文字检测,定位特征图像中的文字区域,对定位好的文字区域进行识别,将图像中的文字区域转化为字符信息;
文字识别模块配置有文字识别策略,文字识别策略包括:
通过PSENe文字检测技术对特征图像进行文字检测;
通过CNN+RNN+CTC文本识别技术对文字区域进行文本识别,得到字符信息以及不完整字符;
文字修补模块用于对无法识别的文字区域进行文字修补;
文字修补模块配置有文字修补策略,文字修补策略包括:
选取字符信息中第一个完整的字符,标记为样本字符;
获取样本字符所属灰度区域,标记为样本区域,获取样本区域中像素点的像素编号S(m,n)中m的最大值以及最小值,分别命名为最大宽度以及最小宽度;获取样本区域中像素点的像素编号S(m,n)中n的最大值以及最小值,分别命名为最大高度以及最小高度;
将最大宽度减去最小宽度得到字体宽度;将最大高度减去最小高度得到字体高度,将字体宽度×字体高度得到字体大小;
获取不完整字符所属灰度区域,标记为目标区域,获取目标区域中像素点的像素编号S(m,n)中m的最大值以及最小值,分别命名为最大目标宽度以及最小目标宽度;获取目标区域中像素点的像素编号S(m,n)中n的最大值以及最小值,分别命名为最大目标高度以及最小目标高度;
将最大目标宽度减去最小目标宽度得到目标宽度;将最大目标高度减去最小目标高度得到目标高度,将目标宽度×目标高度得到目标大小;
将目标大小/字体大小得到目标占比;
通过文字修补深度学习模型对目标占比以及目标区域进行判断,输出修补结果得到字符信息。
实施例3,第三方面,本申请提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时,运行如上方法中的步骤。通过上述技术方案,计算机程序s被处理器执行时,执行上述实施例的任一可选的实现方式中的方法,以实现以下功能:建立图像识别样本库;对样本图像进行灰度化处理,得到灰度图像,对灰度图像进行特征分析,通过特征分析对灰度图像进行轮廓增强,得到特征图像;对特征图像进行文字检测,定位特征图像中的文字区域,对定位好的文字区域进行识别,将图像中的文字区域转化为字符信息;对无法识别的文字区域进行文字修补。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random AccessMemory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable ProgrammableRead Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。

Claims (6)

1.基于深度学习训练的图片文字识别方法,其特征在于,包括如下步骤:
建立图像识别样本库,通过大数据收录样本图像;
对样本图像进行灰度化处理,得到灰度图像,对灰度图像进行特征分析,通过特征分析对灰度图像进行轮廓增强,得到特征图像;
对特征图像进行文字检测,定位特征图像中的文字区域,对定位好的文字区域进行识别,将图像中的文字区域转化为字符信息;
对无法识别的文字区域进行文字修补;
所述样本图像用于后续处理后对文字识别模型进行训练;
对样本图像进行灰度化处理,得到灰度图像,对灰度图像进行特征分析,通过特征分析对灰度图像进行轮廓增强,得到特征图像包括如下子步骤:
对样本图像进行灰度化处理,得到灰度图像;
对灰度图像进行邻域分析,将灰度图像划分为不同的灰度区域;
对灰度区域进行二值化处理,得到特征图像;
对灰度图像进行邻域分析,将灰度图像划分为不同的灰度区域包括如下子步骤:
获取灰度图像的图像分辨率,所述图像分辨率为m×n,m以及n均为正整数;
对像素点进行编号,命名为像素编号,所述像素编号为S(m,n);
针对S(m,n),获取S(m,n)的灰度值并命名为目标灰度值,获取S(m,n)八邻域的灰度值并命名为邻域灰度值,所述邻域灰度值从左上至右下依次命名为第一灰度值、第二灰度值、第三灰度值、第四灰度值、第五灰度值、第六灰度值、第七灰度值以及第八灰度值;
依次计算邻域灰度值与目标灰度值的差值的绝对值,命名为邻域灰度差值,所述邻域灰度差值包括第一灰度差值、第二灰度差值、第三灰度差值、第四灰度差值、第五灰度差值、第六灰度差值、第七灰度差值以及第八灰度差值;
将邻域灰度差值按照从小到大的顺序进行排序,通过符号P1至P8表示;
获取P8对应的邻域灰度差值,标记为最大灰度差值,对应的像素点标记为定向像素点,以目标像素点为起点,沿着定向像素点方向查找与定向像素点相邻的像素点,标记为判定像素点;
对目标像素点、定向像素点以及判定像素点进行分析,判断目标像素点是否为边界;
对目标像素点、定向像素点以及判定像素点进行分析包括如下子步骤:
查找定向像素点的邻域灰度值,标记为验证灰度值;将定向像素点的灰度值标记为定向灰度值;
计算验证灰度值与定向灰度值的差值的绝对值,命名为验证灰度差值;
查找验证灰度差值中的最大值对应的像素点,标记为验证像素点;
比对验证像素点是否为判定像素点,若验证像素点是判定像素点,则输出图像边界信号;若验证像素点不是判定像素点,则输出非边界信号;
若输出图像边界信号,则将目标像素点标记为边界像素点;若输出非边界信号,则将目标像素点标记为图像像素点;所述相邻的图像像素点以及边界像素点组合为灰度区域。
2.根据权利要求1所述的基于深度学习训练的图片文字识别方法,其特征在于,对灰度区域进行二值化处理,得到特征图像包括如下子步骤:
查找灰度区域中的图像像素点,将图像像素点填充为白色;
查找灰度区域中的边界像素点,将边界像素点填充为黑色,得到特征图像。
3.根据权利要求2所述的基于深度学习训练的图片文字识别方法,其特征在于,对特征图像进行文字检测,定位特征图像中的文字区域,对定位好的文字区域进行识别,将图像中的文字区域转化为字符信息包括如下子步骤:
通过PSENe文字检测技术对特征图像进行文字检测;
通过CNN+RNN+CTC文本识别技术对文字区域进行文本识别,得到字符信息以及不完整字符。
4.根据权利要求3所述的基于深度学习训练的图片文字识别方法,其特征在于,对无法识别的文字区域进行文字修补包括如下子步骤:
选取字符信息中第一个完整的字符,标记为样本字符;
获取样本字符所属灰度区域,标记为样本区域,获取样本区域中像素点的像素编号S(m,n)中m的最大值以及最小值,分别命名为最大宽度以及最小宽度;获取样本区域中像素点的像素编号S(m,n)中n的最大值以及最小值,分别命名为最大高度以及最小高度;
将最大宽度减去最小宽度得到字体宽度;将最大高度减去最小高度得到字体高度,将字体宽度×字体高度得到字体大小;
获取不完整字符所属灰度区域,标记为目标区域,获取目标区域中像素点的像素编号S(m,n)中m的最大值以及最小值,分别命名为最大目标宽度以及最小目标宽度;获取目标区域中像素点的像素编号S(m,n)中n的最大值以及最小值,分别命名为最大目标高度以及最小目标高度;
将最大目标宽度减去最小目标宽度得到目标宽度;将最大目标高度减去最小目标高度得到目标高度,将目标宽度×目标高度得到目标大小;
将目标大小/字体大小得到目标占比;
通过文字修补深度学习模型对目标占比以及目标区域进行判断,输出修补结果得到字符信息。
5.基于深度学习训练的图片文字识别系统,基于权利要求1-4任意一项所述的基于深度学习训练的图片文字识别方法的系统,其特征在于,包括数据存储库、特征提取模块、文字识别模块以及文字修补模块,所述数据存储库、特征提取模块以及文字修补模块分别与文字识别模块数据连接;
所述数据存储库用于建立图像识别样本库,通过大数据收录样本图像;
所述特征提取模块用于对样本图像进行灰度化处理,得到灰度图像,对灰度图像进行特征分析,通过特征分析对灰度图像进行轮廓增强,得到特征图像;
所述文字识别模块用于对特征图像进行文字检测,定位特征图像中的文字区域,对定位好的文字区域进行识别,将图像中的文字区域转化为字符信息;
所述文字修补模块用于对无法识别的文字区域进行文字修补。
6.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,运行如权利要求1-4任一项所述方法中的步骤。
CN202410674467.8A 2024-05-29 2024-05-29 基于深度学习训练的图片文字识别方法、系统及存储介质 Active CN118279923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410674467.8A CN118279923B (zh) 2024-05-29 2024-05-29 基于深度学习训练的图片文字识别方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410674467.8A CN118279923B (zh) 2024-05-29 2024-05-29 基于深度学习训练的图片文字识别方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN118279923A CN118279923A (zh) 2024-07-02
CN118279923B true CN118279923B (zh) 2024-08-23

Family

ID=91637104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410674467.8A Active CN118279923B (zh) 2024-05-29 2024-05-29 基于深度学习训练的图片文字识别方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN118279923B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101170641A (zh) * 2007-12-05 2008-04-30 北京航空航天大学 一种基于阈值分割的图像边缘检测方法
CN112183233A (zh) * 2020-09-09 2021-01-05 上海鹰觉科技有限公司 基于深度学习的船牌识别方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652292B (zh) * 2020-05-20 2022-12-06 贵州电网有限责任公司 一种基于ncs、ms的相似物体实时检测方法及系统
CN112926565B (zh) * 2021-02-25 2024-02-06 中国平安人寿保险股份有限公司 图片文本的识别方法、系统、设备和存储介质
CN115082763B (zh) * 2022-08-22 2022-11-29 江苏安弘电气有限公司 一种隔离换向开关状态识别方法及系统
CN117423126B (zh) * 2023-12-18 2024-03-08 广州市省信软件有限公司 一种基于数据分析的票据图文识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101170641A (zh) * 2007-12-05 2008-04-30 北京航空航天大学 一种基于阈值分割的图像边缘检测方法
CN112183233A (zh) * 2020-09-09 2021-01-05 上海鹰觉科技有限公司 基于深度学习的船牌识别方法及系统

Also Published As

Publication number Publication date
CN118279923A (zh) 2024-07-02

Similar Documents

Publication Publication Date Title
US10817741B2 (en) Word segmentation system, method and device
CN109784342B (zh) 一种基于深度学习模型的ocr识别方法及终端
CN110598686B (zh) 发票的识别方法、系统、电子设备和介质
CN111860525B (zh) 一种适用于端子排的自底向上光学字符识别方法
CN108108734B (zh) 一种车牌识别方法及装置
CN111382704A (zh) 基于深度学习的车辆压线违章判断方法、装置及存储介质
CN111178290A (zh) 一种签名验证方法和装置
CN111274957A (zh) 网页页面验证码识别方法、装置、终端和计算机存储介质
CN111626249B (zh) 题目图像中几何图形的识别方法、装置和计算机存储介质
CN106326887A (zh) 一种光学字符识别结果的校验方法及装置
CN107563386A (zh) 元器件验证方法、装置、设备与计算机可读存储介质
CN110705488A (zh) 图像文字识别方法
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN114092938A (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN111462388A (zh) 一种票据检验方法、装置、终端设备及存储介质
CN111915635A (zh) 支持自阅卷的试题解析信息生成方法及系统
CN114723677A (zh) 图像缺陷检测方法、检测装置、检测设备及存储介质
CN115984859A (zh) 一种图像文字识别的方法、装置及存储介质
CN111126266A (zh) 文本处理方法、文本处理系统、设备及介质
CN113361547B (zh) 一种签章识别方法、装置、设备及可读存储介质
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
CN118279923B (zh) 基于深度学习训练的图片文字识别方法、系统及存储介质
CN113569677A (zh) 一种基于扫描件的纸质试验报告生成方法
CN111753842B (zh) 票据文本区域检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant