CN116723412B - 一种照片中背景光影均化方法及文本拍摄扫描系统 - Google Patents
一种照片中背景光影均化方法及文本拍摄扫描系统 Download PDFInfo
- Publication number
- CN116723412B CN116723412B CN202311003858.9A CN202311003858A CN116723412B CN 116723412 B CN116723412 B CN 116723412B CN 202311003858 A CN202311003858 A CN 202311003858A CN 116723412 B CN116723412 B CN 116723412B
- Authority
- CN
- China
- Prior art keywords
- photo
- processed
- noise
- fuzzy
- image block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 104
- 230000002708 enhancing effect Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims description 36
- 230000008030 elimination Effects 0.000 claims description 27
- 238000003379 elimination reaction Methods 0.000 claims description 27
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 239000000654 additive Substances 0.000 claims description 15
- 230000000996 additive effect Effects 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 7
- 230000000903 blocking effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 9
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 235000012434 pretzels Nutrition 0.000 description 2
- 208000012641 Pigmentation disease Diseases 0.000 description 1
- 241000540325 Prays epsilon Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
- H04N23/81—Camera processing pipelines; Components thereof for suppressing or minimising disturbance in the image signal generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
- H04N23/84—Camera processing pipelines; Components thereof for processing colour signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种照片中背景光影均化方法及文本拍摄扫描系统,涉及图像处理技术领域。该方法包括:获取待处理照片;其中,待处理照片为背景光影待均化的照片;将所述待处理照片输入至预设模型中进行处理,得到目标照片;其中,所述预设模型为通过对预设样本照片进行训练后得到,所述预设样本照片包括:预设模糊照片、预设噪声照片、预设对比度照片以及预设亮度照片;所述预设模型用于消除所述待处理照片中的模糊伪影、噪声、增强所述待处理照片中的对比度,及用于对所述待处理照片进行亮度均衡。通过该方式,能够同时解决不同方式所导致的背景光影的问题,简化了处理过程。
Description
技术领域
本发明涉及图像处理技术领域,尤其是一种照片中背景光影均化方法及文本拍摄扫描系统。
背景技术
随着社会的不断发展,数字化技术逐渐成为人们生活中不可或缺的一部分。在日常生活中我们经常需要处理大量的文本信息,如文件、合同、发票等等,而手动输入这些信息耗时且容易出错。为解决这一问题,人们设计了文本扫描仪。
文本扫描仪是一种专门用来扫描纸质文档并将其转换为数字格式的设备,当用户将纸质文档放入文本扫描仪的进纸槽中后,扫描头会对文档进行高速扫描,并将所捕捉到的图像转换为数字格式。但扫描仪的使用过程中需要不停地对纸质文档进行反复翻动和调整,操作繁琐且不能满足快速处理文档的需求。
文本拍照扫描系统应运而生,文本拍照扫描系统不仅可以通过手机轻松拍照快速完成文档扫描,还能针对文本图片进行后期处理,大大提高了工作效率和便利性。
然而,文本拍照扫描系统对文本的识别准确率很大程度受到拍摄者拍摄水平及环境光的影响。当拍摄者的拍摄手法不正确(包含角度不正确、拍摄抖动、拍摄参数设置错误等)或者环境光光源分布不均时,所拍摄照片会出现背景光影。背景光影可能会影响文本的清晰度,使得文本上的字迹或图案不清晰甚至模糊,导致识别不准确。
发明内容
为解决上述现有技术问题,本发明提供一种照片中背景光影均化方法及文本拍摄扫描系统。
第一方面,本申请实施例提供一种照片中背景光影均化方法,包括:获取待处理照片;其中,所述待处理照片为背景光影待均化的照片;基于串联的模糊处理模块、噪声消除及对比度调节模块对所述待处理照片进行处理,得到目标照片;其中,所述模糊处理模块用于消除所述待处理照片中的模糊伪影;所述噪声消除及对比度调节模块用于消除所述待处理照片中的噪声、增强所述待处理照片中的对比度,及用于对所述待处理照片进行亮度均衡。
可选地,所述基于串联的模糊处理模块、噪声消除及对比度调节模块对所述待处理照片进行处理,得到目标照片,包括:将所述待处理照片输入至所述模糊处理模块,得到目标图块以及原始图块;其中,所述原始图块为所述待处理照片被分割后的图块;所述目标图块为将所述原始图块的模糊伪影消除后的图块;所述模糊处理模块包括滤波器;将所述目标图块以及所述原始图块共同输入至所述噪声消除及对比度调节模块中进行处理,得到所述目标照片;其中,所述噪声消除及对比度调节模块为卷积神经网络。
可选地,在所述获取待处理照片之前,所述方法还包括:基于模糊生成器模块获取模糊数据集,基于噪声生成器模块获取噪声数据集,以及基于对比度及亮度生成器模块获取对比度及亮度数据集;基于所述模糊数据集进行参数调节,得到所述模糊处理模块;基于所述噪声数据集、所述对比度及亮度数据集进行训练与测试,得到所述噪声消除及对比度调节模块。
可选地,所述基于模糊生产器模块获取模糊数据集,包括:获取多个第一原始照片以及多个第二原始照片;基于聚焦模糊卷积核对所述多个第一原始照片进行处理,得到多个聚焦模糊照片;基于运动模糊卷积核对所述多个第二原始照片进行处理,得到多个运动模糊照片;生成所述模糊数据集;其中,所述模糊数据集包括所述多个第一原始照片、所述多个聚焦模糊照片、所述多个第二原始照片及所述多个运动模糊照片。
可选地,所述基于噪声生成器模块获取噪声数据集,包括:获取多个第三原始照片;基于预设噪声生成算法对多个所述第三原始照片进行处理,得到多个噪声照片;生成所述噪声数据集;其中,所述噪声数据集包括所述多个第三原始照片及所述多个噪声照片;所述基于对比度及亮度生成器模块获取对比度及亮度数据集,包括:获取多个第四原始照片以及多个第五原始照片;基于预设低对比度生成算法对所述多个第四原始照片进行处理,得到多个低对比度照片;基于预设亮度变化算法对所述多个第五原始照片进行处理,得到多个亮度异常照片;生成对比度及亮度数据集;其中,所述对比度及亮度数据集包括所述多个第四原始照片、所述多个低对比度照片、所述多个第五原始照片以及所述多个亮度异常照片。
可选地,所述模糊处理模块包括图像分块单元、均值滤波单元以及纹理滤波单元;所述将所述待处理照片输入至模糊处理模块,得到目标图块以及原始图块,包括:将所述待处理照片输入至所述模糊处理模块中,基于所述图像分块单元将所述待处理照片分割为所述原始图块;基于所述均值滤波单元对所述原始图块进行滤波处理,得到第一图块;其中,所述均值滤波单元用于消除运动模糊所造成的模糊伪影;基于所述纹理滤波单元对所述原始图块进行滤波处理,得到第二图块;其中,所述纹理滤波单元用于消除聚焦模糊所造成的模糊伪影;所述目标图块包括所述第一图块以及所述第二图块。
可选地,被分割后的至少两个所述原始图块之间存在重叠区域。
可选地,所述噪声消除及对比度调节模块为卷积神经网络;所述卷积神经网络包括依次连接的第一卷积层、批量归一化层、N层残差单元以及第二卷积层;其中,所述第一卷积层与所述模糊处理模块连接,其用于接收所述模糊处理模块处理后的图像,并进行卷积处理;所述第二卷积层用于接收一层残差单元处理后的图像,并进行卷积处理;所述卷积神经网络用于消除所述待处理照片中的噪声、增强所述待处理照片中的对比度,及用于对所述待处理照片进行亮度均衡。
可选地,所述方法还包括:对所述目标照片进行文字识别,得到所述目标照片中的文本数据;输出所述文本数据;和/或输出所述目标照片。
第二方面,本申请实施例还提供一种文本拍摄扫描系统,包括:图像采集设备;其中,所述图像采集设备用于拍摄待扫描对象,得到待处理照片;数据处理设备,与所述图像采集设备连接;所述数据处理设备用于执行如上述第一实施例所述的方法。
本发明的有益效果体包括:将模糊处理模块与噪声消除及对比度调节模块进行串联处理,其集成度高,使用便捷,所有类型的背景光影(不同类别指的该光影产生的原因不同)都通过流水线式的方式进行均化,不需要按类分别处理,提高了处理效率。换言之,通过本申请实施例提供的照片中背景光影均化方法,能够同时解决不同方式所导致的背景光影的问题,简化了处理过程。
附图说明
图1为本发明实施例所提供的一种照片中背景光影均化方法的步骤流程图;
图2为本发明实施例所提供的一种照片中背景光影均化方法中各模块的示意图;
图3为本发明实施例所提供的另一种照片中背景光影均化方法中各模块的示意图;
图4为本发明实施例所提供的又一种照片中背景光影均化方法中各模块的示意图;
图5为本发明实施例所提供的一种照片中背景光影均化装置的结构示意图;
图6为本发明实施例所提供的一种文本拍摄扫描系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,本申请实施例提供一种照片背景光影均化方法,包括:步骤101-步骤102。
步骤101:获取待处理照片。
其中,待处理照片为背景光影待均化的照片。即,待处理照片存在背景光影不均的问题,比如拍摄者的拍摄手法不正确(包含角度不正确、拍摄抖动、拍摄参数设置错误等)或者环境光光源分布不均时,所拍摄照片会出现背景光影。
具体的,背景光影指的是图像中背景的光照不均匀问题。当拍摄者的拍摄产生抖动时,所拍摄照片会产生运动模糊。当拍摄使用参数不正确时,所拍摄照片会产生聚焦模糊。这两类模糊都会在文字与背景之间产生模糊伪影,具体表现为文字与背景的交界处产生突变暗区或突变亮区。除此之外,拍摄环境光光源分布不均时,所拍摄照片中不同区域的光照会有所差异,这些差异同样会产生背景光影。具体的,当光照整体偏暗时,相机会使用较低的快门速度或高ISO(感光度)值来拍摄照片,这可能会使拍摄图片产生噪声,主要表现为图片中的异常色素点。当光照整体偏亮时,所拍摄图片可能出现过曝,主要表现为暗区与亮区亮度差异巨大且对比度低。
在这里,该待处理照片可以是通过文本拍摄扫描系统中的图像采集设备对待扫描对象进行扫描得到。其中,上述待扫描对象可以是,但不限于文件、合同、发票。
在这里,该待处理照片还可以是通过网络获取的网络照片等等,对此,本申请不作限定。
步骤102:基于串联的模糊处理模块、噪声消除及对比度调节模块对待处理照片进行处理,得到目标照片。
其中,模糊处理模块用于消除待处理照片中的模糊伪影;噪声消除及对比度调节模块用于消除待处理照片中的加性噪声、增强待处理照片中的对比度,及用于对待处理照片进行亮度均衡。
请参照图2,在获取到待处理照片201后,将其输入至模糊处理模块202,经过模糊处理模块202进行消除模糊伪影后,再输入至噪声消除及对比度调节模块203,在经过噪声消除及对比度调节模块203进行噪声消除、对比度增强以及亮度均衡后,得到目标照片204。
综上,本申请实施例中,将模糊处理模块与噪声消除及对比度调节模块进行串联处理,其集成度高,使用便捷,所有类型的背景光影(不同类别指的该光影产生的原因不同)都通过流水线式的方式进行均化,不需要按类分别处理,提高了处理效率。换言之,通过本申请实施例提供的照片中背景光影均化方法,能够同时解决不同方式所导致的背景光影的问题,简化了处理过程。
一实施例中,上述步骤102基于串联的模糊处理模块、噪声消除及对比度调节模块对待处理照片进行处理,得到目标照片,还可以具体包括:将待处理照片输入至模糊处理模块,得到目标图块以及原始图块;将目标图块以及原始图块共同输入至噪声消除及对比度调节模块中进行处理,得到目标照片。
其中,原始图块为待处理照片被分割后的图块;目标图块为将原始图块的模糊伪影消除后的图块;模糊处理模块包括滤波器;其中,噪声消除及对比度调节模块为卷积神经网络。
具体的,在获取到待处理照片后,将其输入至模糊处理模块,先将其进行分割,即,将待处理照片分割为多个原始图块,然后将原始图块进行模糊伪影消除处理,得到多个目标图块。接着,再将所有原始图块、目标图块共同输入至噪声消除及对比度调节模块中进行处理,进而得到目标照片。
需要说明的是,为了避免后续处理背景光影过程中由于图像质量下降从而导致细节的缺失的问题,此处是将所有原始图块、目标图块共同输入至噪声消除及对比度调节模块,进而能够最大程度保留图像细节。即,将滤波处理后的图块与原始图块同时送入卷积神经网络中,以便最大程度保留图像细节,且能够提高网络模型的收敛速度。
下面对上述分割进行说明,在获取到待处理照片后,可以先对该照片的尺寸进行缩放,将图像缩放为2460*2460。缩放完成后,将缩放后的照片进行分割,比如,可以将缩放后的照片分割为的多个原始图块。其中,N的的取值可以根据需求进行设定,比如,N的的取值可以是4,对此,本申请不作限定。
当然,在其他实施例中,也可以是在获取到待处理照片后,直接将该待处理照片进行分割,且分割的尺寸也可以根据需求设定,此处不作限定。
在一实施例中,被分割后的至少两个原始图块之间存在重叠区域。换言之,被分割后的原始图块之间会有部分重叠,重叠部分能够使得后期更好地重建完整的图像。
一实施例中,模糊处理模块还可以具体包括图像分块单元、均值滤波单元以及纹理滤波单元;其中,均值滤波单元以及纹理滤波单元均为滤波器。
相应的,上述步骤将待处理照片输入至模糊处理模块,得到目标图块以及原始图块,还可以具体包括:将待处理照片输入至模糊处理模块中,基于图像分块单元将待处理照片分割为原始图块;然后基于均值滤波单元对原始图块进行滤波处理,得到第一图块;其中,均值滤波单元用于消除运动模糊所造成的模糊伪影;再基于纹理滤波单元对原始图块进行滤波处理,得到第二图块;其中,纹理滤波单元用于消除聚焦模糊所造成的模糊伪影;上述目标图块具体包括第一图块以及第二图块。
在这里,模糊处理模块包括三部分,分别为图像分块单元、均值滤波单元以及纹理滤波单元。其中,图像分块单元用于将照片进行分割,得到原始图块。均值滤波单元用于消除运动模糊所造成的模糊伪影。纹理滤波单元用于消除聚焦模糊所造成的模糊伪影。
于本申请实施例中,均值滤波单元可以具体为Blur滤波单元。纹理滤波单元可以具体为Gabor滤波单元。需要说明的是,模糊伪影通常分布在文字的边缘。模糊伪影会使得文字与背景的交界处产生突变暗区或突变亮区。经过Blur滤波单元和Gabor滤波单元的处理后,模糊伪影会被平滑,并生成Blur图块(对应第一图块)和Gabor图块(对应第二图块)。当模糊伪影处理完成后,原始图块、Blur图块和Gabor图块同时会作为卷积神经网络,即噪声消除及对比度调节模块的输入。同时输入的原因是Blur滤波单元和Gabor滤波单元已经帮助过滤了一些非兴趣区域,因此可以使用更小的卷积神经网络完成对噪声的消除及对比度的调节。除此之外,该方式还能加快卷积神经网络的收敛。
具体的,请参照图3,待处理照片输入至模糊处理模块后,先通过图像分块单元分割为多个原始图块(图块1、图块2、图块3...图块N);然后所有原始图块分别经过Blur滤波单元和Gabor滤波单元进行滤波处理。然后,进行特征连接,最后,将原始图块、Blur图块和Gabor图块作为卷积神经网络,即噪声消除及对比度调节模块的输入。
在一实施例中,噪声消除及对比度调节模块为卷积神经网络;卷积神经网络包括依次连接的第一卷积层、批量归一化层、N层残差单元以及第二卷积层。
其中,第一卷积层与模糊处理模块连接,其用于接收模糊处理模块处理后的图像,并进行卷积处理;第二卷积层用于接收一层残差单元处理后的图像,并进行卷积处理;卷积神经网络用于消除待处理照片中的噪声、增强待处理照片中的对比度,及用于对待处理照片进行亮度均衡。
于本申请实施例中,可以通过对同一卷积神经网络进行训练,以使其能够同时消除待处理照片中的噪声、增强待处理照片中的对比度,及用于对待处理照片进行亮度均衡。
需要说明的是,由于噪声、亮度和对比度,大多数情况是整个画面都存在,所以可以采用同一个卷积神经网络进行解决。
当然,在其他实施例中,也可以针对不同的功能,训练得到不同的卷积神经网络,本申请不作限定。
在噪声消除及对比度调节模块中,使用残差块代替纯卷积层。残差块由第三卷积层形成,该第三卷积层对齐最后求和的层数。该层的输出被复制到主张量和残差张量中。主张量前进到一组卷积层和批量归一化中,最后添加到残差张量中。这有助于通过将复杂性封装到残差块中来进一步提高收敛速度。
上述N的取值可以根据实际需求进行设定,比如,于本申请实施例中,N的取值为4。
示例性的,请继续参照图3,在噪声消除及对比度调节模块中,经过模糊处理模块后的数据,依次经过第一卷积层、一层批量归一化层(BN层)、四层残差单元(包括残差单元1、残差单元2、残差单元3及残差单元4)以及第二卷积层。
此外,需要说明的是,经过噪声消除及对比度调节模块输出的仍然是特征图。最后,将特征图进行拼接即可得到目标照片。
在一实施例中,该照片中背景光影均化方法还包括:对目标照片进行文字识别,得到目标照片中的文本数据;输出文本数据;和/或输出目标照片。
需要说明的是,上述方式还可以通过文本文字识别模块实现。
可选地,一实施例中,还可以包括乘性噪声处理模块。即,预设模型包括依次串联的模糊处理模块、乘性噪声处理模块、加性噪声消除及对比度调节模块。
该方法还可以具体包括:将待处理照片输入至预设模型中,依次通过模糊处理模块、乘性噪声处理模块、加性噪声消除及对比度调节模块进行处理,得到目标照片;其中,模糊处理模块用于消除待处理照片中的模糊伪影;乘性噪声处理模块用于消除待处理照片中的乘性噪声,噪声消除及对比度调节模块用于消除待处理照片中的加性噪声、增强待处理照片中的对比度,及用于对待处理照片进行亮度均衡。
请参阅图4,文本识别模块可以具体包括图块拼接单元、文字提取单元以及图像导出单元。
由于噪声消除及对比度调节模块的输出依然是特征图,因此,将所有特征图送入文本文字识别模块中,先通过图块拼接单元进行拼接。具体的,可以根据重叠部分进行特征图拼接。拼接后的特征图会分别送入文字提取单元和图像导出单元。文字提取单元使用预训练的文本识别模型,比如可以是TransOCR。该文字提取单元会将图像数据转换为纯文本数据。图像导出单元可以为反卷积模块,将特征图还原为原始尺寸的RGB图像,并根据用户需求导出为JPG或PDF格式文件。
下面对模糊处理模块、噪声消除及对比度调节模块的生成过程进行说明。即,在获取待处理照片之前,该方法还包括:基于模糊生成器模块获取模糊数据集,基于噪声生成器模块获取噪声数据集,以及基于对比度及亮度生成器模块获取对比度及亮度数据集;基于模糊数据集进行参数调节,得到模糊处理模块;基于噪声数据集、对比度及亮度数据集进行训练与测试,得到噪声消除及对比度调节模块。
可选地,上述基于模糊生产器模块获取模糊数据集,还可以具体包括:获取多个第一原始照片以及多个第二原始照片;基于聚焦模糊卷积核对多个第一原始照片进行处理,得到多个聚焦模糊照片;基于运动模糊卷积核对多个第二原始照片进行处理,得到多个运动模糊照片;生成所述模糊数据集;其中,模糊数据集包括多个第一原始照片、多个聚焦模糊照片、多个第二原始照片及多个运动模糊照片。
模糊生成器模块:该模块负责将模糊工件添加到标准数据集中,用于训练和测试目的。它包含两种类型的模糊,这两种类型是基于PSF库的聚焦模糊和运动模糊。
聚焦模糊的生成原理如下:
imageoutput=imageinput*Kernelfocus_blur
其中,Kernelfocus_blur为聚焦模糊卷积核。该公式中,imageinput表示第一原始照片;imageoutput表示聚焦模糊照片。
运动模糊的生成原理如下:
imageoutput=imageinput*Kernelmotion_blur
其中,Kernelmotion_blur为运动模糊卷积核。该公式中,imageinput表示第二原始照片;imageoutput表示运动模糊照片。
可选地,上述基于噪声生成器模块获取噪声数据集,包括:获取多个第三原始照片;基于预设噪声生成算法对多个第三原始照片进行处理,得到多个噪声照片;生成噪声数据集;其中,噪声数据集包括多个第三原始照片及所述多个噪声照片。
噪声生成器模块:该模块负责将噪声伪影添加到标准数据集中。在这里,可以包含三种类型的噪声,这三种类型分别是高斯噪声、椒盐噪声和斑点噪声。
高斯噪声的生成原理如下:
imageoutput=imageinput+Norm(u,σ)
其中,Norm(u,σ)是一个平均值为u、标准差为σ的高斯随机生成器,且u∈[-10,10],σ∈[0,10]。该公式中,imageinput表示第三原始照片;imageoutput表示噪声照片,具体为高斯噪声照片。
椒盐噪声的生成原理如下:
imageoutput=imageinput*P*(1-S)+S*255
其中,S和P初始化为两个矩阵,且S∈Zm,n和P∈Zm,n,两个矩阵中的元素可以是0或1,m和n分别为图像的宽和高。对S和P做运算:
∑si,j=o*t
∑pi,j=o*(1-t)
t∈[0.475,0.525]
f∈[0,80]
t,f,o都为运算因子。该公式中,imageinput表示第三原始照片;imageoutput表示噪声照片,具体为椒盐噪声照片。
斑点噪声的生成原理如下:
imageoutput=imageinput*(1+Norm(0,σ))
其中,Norm(0,σ)为均值为0的高斯随机生成器,σ∈[0,0.04]。该公式中,imageinput表示第三原始照片;imageoutput表示噪声照片,具体为斑点噪声照片。
可选地,上述基于对比度及亮度生成器模块获取对比度及亮度数据集,包括:获取多个第四原始照片以及多个第五原始照片;基于预设低对比度生成算法对多个第四原始照片进行处理,得到多个低对比度照片;基于预设亮度变化算法对所述多个第五原始照片进行处理,得到多个亮度异常照片;生成对比度及亮度数据集;其中,对比度及亮度数据集包括多个第四原始照片、多个低对比度照片、多个第五原始照片以及多个亮度异常照片。
对比度及亮度生成器模块:该模块负责为标准数据集添加低对比度和亮度变化。
低对比度生成原理:
imageoutput=R*imageinput+(1-R)*128
其中,R为变化系数,R∈[-0.5,0.5]。该公式中,imageinput表示第四原始照片;imageoutput表示低对比度照片。
亮度变化生成原理如下:
imageoutput=imageinput+R
其中,R为变化增量,R∈[-128,128]。该公式中,imageinput表示第五原始照片;imageoutput表示亮度异常照片。
上述三个模块所使用图像来源于公开数据集、网络图像资料以及真实采集照片。
可见,本申请实施例中,通过模糊生成器模块、噪声生成器模块、以及对比度及亮度生成器模块获取各种类型数据,并根据需求使用对应类型数据对模型不同任务模块进行训练。多任务模块共同工作,解决多种类型光影,提高文本识别的准确率。
请参照图5,本申请实施例还提供一种照片中背景光影均化装置50,包括:获取单元501及处理单元502。
获取单元501,用于获取待处理照片;其中,所述待处理照片为背景光影待均化的照片;
处理单元502,用于基于串联的模糊处理模块、噪声消除及对比度调节模块对所述待处理照片进行处理,得到目标照片;
其中,所述模糊处理模块用于消除所述待处理照片中的模糊伪影;所述噪声消除及对比度调节模块用于消除所述待处理照片中的噪声、增强所述待处理照片中的对比度,及用于对所述待处理照片进行亮度均衡。
需要说明的是,装置实施例与前述方法实施例中的步骤对应,相同部分参考即可,此处不作赘述。
请参照图6,本申请实施例还提供一种文本拍摄扫描系统60,包括:
图像采集设备601。其中,图像采集设备601用于拍摄待扫描对象,得到待处理照片。
数据处理设备602,与图像采集设备601连接。数据处理设备用于执行上述实施例所提供的照片中背景光影均化方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明的实施例的描述中,术语“第一”、“第二”、“第三”、“第四”仅用以描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“组装”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的实施例的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
在本发明的实施例的描述中,需要理解的是,“-”和“~”表示的是两个数值之同的范围,并且该范围包括端点。例如:“A-B”表示大于或等于A,且小于或等于B的范围。“A~B”表示大于或等于A,且小于或等于B的范围。
在本发明的实施例的描述中,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种照片中背景光影均化方法,其特征在于,包括:
获取待处理照片;其中,所述待处理照片为背景光影待均化的照片;
将所述待处理照片输入至预设模型中进行处理,得到目标照片;其中,所述预设模型为通过对预设样本照片进行训练后得到,所述预设样本照片包括:预设模糊照片、预设噪声照片、预设对比度照片以及预设亮度照片;所述预设模型用于消除所述待处理照片中的模糊伪影、噪声、增强所述待处理照片中的对比度,及用于对所述待处理照片进行亮度均衡;
所述预设模型包括依次串联的模糊处理模块、乘性噪声处理模块、加性噪声消除及对比度调节模块;所述将所述待处理照片输入至预设模型中进行处理,得到目标照片,包括:将所述待处理照片输入至预设模型中,依次通过所述模糊处理模块、所述乘性噪声处理模块、所述加性噪声消除及对比度调节模块进行处理,得到所述目标照片;其中,所述模糊处理模块用于消除所述待处理照片中的模糊伪影;所述乘性噪声处理模块用于消除所述待处理照片中的乘性噪声,所述加性噪声消除及对比度调节模块用于消除所述待处理照片中的加性噪声、增强所述待处理照片中的对比度,及用于对所述待处理照片进行亮度均衡;
其中,所述将所述待处理照片输入至预设模型中,依次通过所述模糊处理模块、所述乘性噪声处理模块、所述加性噪声消除及对比度调节模块进行处理,得到所述目标照片,包括:将所述待处理照片输入至所述模糊处理模块,得到目标图块以及原始图块;其中,所述原始图块为所述待处理照片被分割后的图块;所述目标图块为将所述原始图块的模糊伪影消除后的图块;所述模糊处理模块包括滤波器;将所述目标图块以及所述原始图块共同输入至所述乘性噪声处理模块进行处理,得到第一特征图;将所述第一特征图输入至所述加性噪声消除及对比度调节模块进行处理,得到所述目标照片;其中,所述加性噪声消除及对比度调节模块为卷积神经网络。
2.根据权利要求1所述的照片中背景光影均化方法,其特征在于,所述模糊处理模块包括图像分块单元、均值滤波单元以及纹理滤波单元;所述将所述待处理照片输入至模糊处理模块,得到目标图块以及原始图块,包括:
将所述待处理照片输入至所述模糊处理模块中,基于所述图像分块单元将所述待处理照片分割为所述原始图块;
基于所述均值滤波单元对所述原始图块进行滤波处理,得到第一图块;其中,所述均值滤波单元用于消除运动模糊所造成的模糊伪影;
基于所述纹理滤波单元对所述原始图块进行滤波处理,得到第二图块;其中,所述纹理滤波单元用于消除聚焦模糊所造成的模糊伪影;
所述目标图块包括所述第一图块以及所述第二图块。
3.根据权利要求2所述的照片中背景光影均化方法,其特征在于,被分割后的至少两个所述原始图块之间存在重叠区域。
4.根据权利要求1所述的照片中背景光影均化方法,其特征在于,在所述获取待处理照片之前,所述方法还包括:
基于模糊生成器模块获取模糊数据集,基于噪声生成器模块获取噪声数据集,以及基于对比度及亮度生成器模块获取对比度及亮度数据集;其中,所述噪声数据集包括乘性噪声数据集及加性噪声数据集;所述模糊数据集包括聚焦模糊数据集及运动模糊数据集;
基于所述模糊数据集进行参数调节,得到所述模糊处理模块;
基于所述乘性噪声数据集进行训练与测试,得到所述乘性噪声处理模块;以及
基于所述加性噪声数据集、所述对比度及亮度数据集进行训练与测试,得到所述加性噪声消除及对比度调节模块。
5.根据权利要求1所述的照片中背景光影均化方法,其特征在于,所述加性噪声消除及对比度调节模块为卷积神经网络;所述卷积神经网络包括依次连接的第一卷积层、批量归一化层、N层残差单元以及第二卷积层;其中,所述第一卷积层与所述模糊处理模块连接,其用于接收所述模糊处理模块处理后的图像,并进行卷积处理;所述第二卷积层用于接收一层残差单元处理后的图像,并进行卷积处理;所述卷积神经网络用于消除所述待处理照片中的噪声、增强所述待处理照片中的对比度,及用于对所述待处理照片进行亮度均衡。
6.根据权利要求1所述的照片中背景光影均化方法,其特征在于,所述方法还包括:
对所述目标照片进行文字识别,得到所述目标照片中的文本数据;
输出所述文本数据;和/或
输出所述目标照片。
7.一种文本拍摄扫描系统,其特征在于,包括:
图像采集设备;其中,所述图像采集设备用于拍摄待扫描对象,得到待处理照片;
数据处理设备,与所述图像采集设备连接;所述数据处理设备用于执行如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311003858.9A CN116723412B (zh) | 2023-08-10 | 2023-08-10 | 一种照片中背景光影均化方法及文本拍摄扫描系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311003858.9A CN116723412B (zh) | 2023-08-10 | 2023-08-10 | 一种照片中背景光影均化方法及文本拍摄扫描系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116723412A CN116723412A (zh) | 2023-09-08 |
CN116723412B true CN116723412B (zh) | 2023-11-10 |
Family
ID=87864762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311003858.9A Active CN116723412B (zh) | 2023-08-10 | 2023-08-10 | 一种照片中背景光影均化方法及文本拍摄扫描系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116723412B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017122396A1 (ja) * | 2016-01-15 | 2017-07-20 | ソニー株式会社 | 制御装置、制御方法及びプログラム |
CN107016639A (zh) * | 2017-03-30 | 2017-08-04 | 努比亚技术有限公司 | 一种图像处理方法和装置 |
CN111161181A (zh) * | 2019-12-26 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 图像数据的增强方法、模型的训练方法、设备和存储介质 |
CN111915526A (zh) * | 2020-08-05 | 2020-11-10 | 湖北工业大学 | 一种基于亮度注意力机制低照度图像增强算法的摄影方法 |
CN113301221A (zh) * | 2021-03-19 | 2021-08-24 | 西安电子科技大学 | 一种深度网络相机图像处理方法、系统及应用 |
CN113487530A (zh) * | 2021-08-02 | 2021-10-08 | 广东工业大学 | 一种基于深度学习的红外与可见光融合成像方法 |
WO2021218765A1 (zh) * | 2020-04-27 | 2021-11-04 | 深圳市中兴微电子技术有限公司 | 图像去噪方法及装置、电子设备以及存储介质 |
CN116486240A (zh) * | 2023-05-06 | 2023-07-25 | 国网青海省电力公司海西供电公司 | 图像识别算法在输电线路无人机智能巡检方法上的应用 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7362284B2 (ja) * | 2019-03-29 | 2023-10-17 | キヤノン株式会社 | 画像処理方法、画像処理装置、プログラム、画像処理システム、および、学習済みモデルの製造方法 |
US20230153964A1 (en) * | 2021-11-16 | 2023-05-18 | Samsung Electronics Co., Ltd. | Method and apparatus with image processing |
-
2023
- 2023-08-10 CN CN202311003858.9A patent/CN116723412B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017122396A1 (ja) * | 2016-01-15 | 2017-07-20 | ソニー株式会社 | 制御装置、制御方法及びプログラム |
CN107016639A (zh) * | 2017-03-30 | 2017-08-04 | 努比亚技术有限公司 | 一种图像处理方法和装置 |
CN111161181A (zh) * | 2019-12-26 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 图像数据的增强方法、模型的训练方法、设备和存储介质 |
WO2021218765A1 (zh) * | 2020-04-27 | 2021-11-04 | 深圳市中兴微电子技术有限公司 | 图像去噪方法及装置、电子设备以及存储介质 |
CN111915526A (zh) * | 2020-08-05 | 2020-11-10 | 湖北工业大学 | 一种基于亮度注意力机制低照度图像增强算法的摄影方法 |
CN113301221A (zh) * | 2021-03-19 | 2021-08-24 | 西安电子科技大学 | 一种深度网络相机图像处理方法、系统及应用 |
CN113487530A (zh) * | 2021-08-02 | 2021-10-08 | 广东工业大学 | 一种基于深度学习的红外与可见光融合成像方法 |
CN116486240A (zh) * | 2023-05-06 | 2023-07-25 | 国网青海省电力公司海西供电公司 | 图像识别算法在输电线路无人机智能巡检方法上的应用 |
Non-Patent Citations (1)
Title |
---|
多输入融合对抗网络的水下图像增强;林森等;红外与激光工程(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116723412A (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fan et al. | A generic deep architecture for single image reflection removal and image smoothing | |
US8724007B2 (en) | Metadata-driven method and apparatus for multi-image processing | |
US8340453B1 (en) | Metadata-driven method and apparatus for constraining solution space in image processing techniques | |
US8194993B1 (en) | Method and apparatus for matching image metadata to a profile database to determine image processing parameters | |
US8842190B2 (en) | Method and apparatus for determining sensor format factors from image metadata | |
US7885477B2 (en) | Image processing method, apparatus, and computer readable recording medium including program therefor | |
Šindelář et al. | Image deblurring in smartphone devices using built-in inertial measurement sensors | |
Joze et al. | Imagepairs: Realistic super resolution dataset via beam splitter camera rig | |
EP1223551A2 (en) | Doubleprint photofinishing service with the second print having subject content-based modifications | |
US11763430B2 (en) | Correcting dust and scratch artifacts in digital images | |
US20040247196A1 (en) | Method and system for modifying a digital image taking into account it's noise | |
US9508131B2 (en) | Removal of image artifacts from sensor dust | |
Zamir et al. | Learning digital camera pipeline for extreme low-light imaging | |
WO2007095483A2 (en) | Detection and removal of blemishes in digital images utilizing original images of defocused scenes | |
Asha et al. | Auto removal of bright spot from images captured against flashing light source | |
JP2018107593A (ja) | 画像処理装置、画像処理方法およびプログラム | |
CN111986106A (zh) | 一种基于神经网络的高动态图像重建方法 | |
JP2007074578A (ja) | 画像処理装置、撮影装置、及びプログラム | |
JP2003527655A (ja) | 改良されたデジタル画像ファイルを提供するためのシステムおよび方法 | |
CN116723412B (zh) | 一种照片中背景光影均化方法及文本拍摄扫描系统 | |
JP2010074672A (ja) | 画像処理装置、画像処理方法、及び、画像処理プログラム | |
JP4366634B2 (ja) | ノイズ画素マップ作成方法とその方法を実施する装置とプログラム及び写真プリント装置 | |
Zhang et al. | RT-VENet: a convolutional network for real-time video enhancement | |
Tezaur et al. | A system for estimating optics blur psfs from test chart images | |
JP2002117400A (ja) | 画像補正方法および装置ならびに画像補正プログラムを記録したコンピュータ読取可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |