[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111340022A - 身份证信息识别方法、装置、计算机设备及存储介质 - Google Patents

身份证信息识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111340022A
CN111340022A CN202010111192.9A CN202010111192A CN111340022A CN 111340022 A CN111340022 A CN 111340022A CN 202010111192 A CN202010111192 A CN 202010111192A CN 111340022 A CN111340022 A CN 111340022A
Authority
CN
China
Prior art keywords
data
text
training
neural network
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010111192.9A
Other languages
English (en)
Inventor
管水城
温凯雯
吕仲琪
顾正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huayun Zhongsheng Technology Co ltd
Original Assignee
Shenzhen Huayun Zhongsheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huayun Zhongsheng Technology Co ltd filed Critical Shenzhen Huayun Zhongsheng Technology Co ltd
Priority to CN202010111192.9A priority Critical patent/CN111340022A/zh
Publication of CN111340022A publication Critical patent/CN111340022A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及身份证信息识别方法、装置、计算机设备及存储介质,该方法包括获取待识别的身份证图片数据,以形成待识别数据;将待识别数据输入至文本方向识别模型进行方向识别,以得到识别结果;根据识别结果对待识别数据进行方向调整,以得到中间数据;将中间数据输入至文本区域检测模型进行文本区域检测,以得到检测结果;根据检测结果对中间数据进行切割,以得到处理后的数据;将处理后的数据输入至文本信息识别模型进行文本信息识别,以得到信息识别结果;对待识别数据进行人脸识别,以得到人脸坐标信息;发送所述信息识别结果以及人脸坐标信息至终端,以使终端显示所述信息识别结果以及人脸坐标信息。本发明实现提升身份证识别的效率和精准度。

Description

身份证信息识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及身份证识别方法,更具体地说是指身份证信息识别方法、装置、计算机设备及存储介质。
背景技术
身份证是公民进行社会活动,维护社会秩序,保障公民合法权益,证明公民身份的法定证件。户口登记、兵役登记、婚姻登记、入学、就业、办理公证事务、投宿旅店办理登记手续、提取汇款、邮寄物品、参加从业资格考试以及办理其他事务等无数的场景都需要使用到身份证。OCR(光学字符识别,Optical Character Recognition)现今主要应用于文档识别以及证件识别,文档识别可以将印刷文档数字化以快速准确提取有效信息,证件识别则是将证件扫描件或通过手机等带有摄像头的终端设备对证件拍照实现数字化,从而在提高工作效率的同时降低工作强度。作为人工智能领域的一个分支,深度学习可以提高OCR识别的适用范围,应用于OCR的文字区域提取可以大大提高OCR对文字提取的准确率。
近年来,居民身份证实名制在各行各业各个实用领域已经屡见不鲜,不同领域的实名制不断涌现,传统的人工录入方法耗费了业务人员大量的时间与精力,同时也很难保证身份证信息采集的准确率,因此,利用深度学习技术,对居民身份证进行快速、智能化的识别将大大减少业务人员的工作量,并提升其业务效率。
现今的身份证的OCR识别技术涵盖文字区域检测、字符切割以及字符识别,文字区域检测较为成熟的方法包括模板匹配、opencv灰度化、二值化、图片腐蚀以及深度学习方法CPTN(场景文字检测,Connectionist Text Proposal Network)等,字符识别方法包括通过人工设计的特征例如HOG(方向梯度直方图,Histogram of Oriented Gridients)来训练字符识别模型以及卷积神经网络和循环神经网络,但是实现操作繁琐,识别速度慢,模板的可迁移性差,采集的目标由于尺度上的差异会在很大程度上影响识别效果;网络模型极其复杂,需采集大量数据进行标注训练,且训练成本较高;模型识别精度不稳定,抗噪能力较差,无法适应多种复杂场景;对生产环境部署的配置要求高,后期的运维过程中不易维护。采用上述方式进行身份证信息识别,效率较为低下,且精准度较低。
因此,有必要设计一种新的方法,实现提升身份证识别的效率和精准度。
发明内容
本发明的目的在于克服现有技术的缺陷,提供身份证信息识别方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:身份证信息识别方法,包括:
获取待识别的身份证图片数据,以形成待识别数据;
将待识别数据输入至文本方向识别模型进行方向识别,以得到识别结果;
根据识别结果对待识别数据进行方向调整,以得到中间数据;
将中间数据输入至文本区域检测模型进行文本区域检测,以得到检测结果;
根据检测结果对中间数据进行切割,以得到处理后的数据;
将处理后的数据输入至文本信息识别模型进行文本信息识别,以得到信息识别结果;
对待识别数据进行人脸识别,以得到人脸坐标信息;
发送所述信息识别结果以及人脸坐标信息至终端,以使终端显示所述信息识别结果以及人脸坐标信息;
其中,所述文本方向识别模型是通过带有文本方向标签的文本数据作为第一训练数据训练第一神经网络所得的;
所述文本区域检测模型是通过带有文本区域标签的文本数据作为第二训练数据训练迁移化的YOLOv3神经网络所得的;
所述文本信息识别模型是通过带有文本信息标签的文本框图片作为第三训练数据训练迁移化的CRNN神经网络所得的。
其进一步技术方案为:所述文本方向识别模型是通过带有文本方向标签的文本数据作为第一训练数据训练第一神经网络所得的,包括:
获取带有文本方向标签的文本数据,以得到第一样本数据;
将第一样本数据划分为第一训练数据以及第一测试数据;
构建第一神经网络以及第一损失函数;
将第一训练数据输入至第一神经网络中进行卷积训练,以得到第一训练结果;
利用第一损失函数计算第一训练结果与文本方向标签的损失值,以得到第一损失值;
判断所述第一损失值是否维持不变;
若所述第一损失值不是维持不变,则调整所述第一神经网络的参数,并执行所述将第一训练数据输入至第一神经网络中进行卷积训练,以得到第一训练结果;
若所述第一损失值维持不变,则将第一测试数据输入至第一神经网络内进行卷积测试,以得到第一测试结果;
判断所述第一测试结果是否符合条件;
若所述第一测试结果符合条件,则将所述第一神经网络作为文本方向识别模型;
若所述第一测试结果不符合条件,则执行所述调整所述第一神经网络的参数。
其进一步技术方案为:所述获取带有文本方向标签的文本数据,以得到第一样本数据,包括:
获取带有文本的图片数据,以得到初始数据;
对初始数据进行数据增强处理,以得到二次数据;
对二次数据标注文本方向标签,以得到第一样本数据。
其进一步技术方案为:所述文本区域检测模型是通过带有文本区域标签的文本数据作为第二训练数据训练迁移化的YOLOv3神经网络所得的,包括:
获取带有文本区域标签的文本数据,以得到第二样本数据;
将第二样本数据划分为第二训练数据以及第二测试数据;
构建迁移化的YOLOv3神经网络以及第二损失函数;
将第二训练数据输入至迁移化的YOLOv3神经网络中进行卷积训练,以得到第二训练结果;
利用第二损失函数计算第二训练结果与文本区域标签的损失值,以得到第二损失值;
判断所述第二损失值是否维持不变;
若所述第二损失值不是维持不变,则调整所述迁移化的YOLOv3神经网络的参数,并执行所述将第二训练数据输入至迁移化的YOLOv3神经网络中进行卷积训练,以得到第二训练结果;
若所述第二损失值维持不变,则将第二测试数据输入至迁移化的YOLOv3神经网络内进行卷积测试,以得到第二测试结果;
判断所述第二测试结果是否符合条件;
若所述第二测试结果符合条件,则将所述迁移化的YOLOv3神经网络作为文本区域检测模型;
若所述第二测试结果不符合条件,则执行所述调整所述迁移化的YOLOv3神经网络的参数。
其进一步技术方案为:所述文本信息识别模型是通过带有文本信息标签的文本框图片作为第三训练数据训练迁移化的CRNN神经网络所得的,包括:
获取文本信息标签的文本框图片,以得到第三样本数据;
将第三样本数据划分为第三训练数据以及第三测试数据;
构建迁移化的CRNN神经网络以及第三损失函数;
将第三训练数据输入至迁移化的CRNN神经网络中进行卷积训练,以得到第三训练结果;
利用第三损失函数计算第三训练结果与文本信息标签的损失值,以得到第三损失值;
判断所述第三损失值是否维持不变;
若所述第三损失值不是维持不变,则调整所述迁移化的CRNN神经网络的参数,并执行所述将第三训练数据输入至迁移化的CRNN神经网络中进行卷积训练,以得到第三训练结果;
若所述第三损失值维持不变,则将第三测试数据输入至迁移化的CRNN神经网络内进行卷积测试,以得到第三测试结果;
判断所述第三测试结果是否符合条件;
若所述第三测试结果符合条件,则将所述迁移化的CRNN神经网络作为文本信息识别模型;
若所述第三测试结果不符合条件,则执行所述调整所述迁移化的CRNN神经网络的参数。
其进一步技术方案为:所述迁移化的CRNN神经网络采用双向的长短期记忆网络,所述迁移化的CRNN神经网络的最后一层网络为全连接层。
其进一步技术方案为:所述对待识别数据进行人脸识别,以得到人脸坐标信息,包括:
采用face_recognition库进行待识别数据的人脸识别,以得到人脸坐标信息。
本发明还提供了身份证信息识别装置,包括:
图片数据获取单元,用于获取待识别的身份证图片数据,以形成待识别数据;
方向识别单元,用于将待识别数据输入至文本方向识别模型进行方向识别,以得到识别结果;
方向调整单元,用于根据识别结果对待识别数据进行方向调整,以得到中间数据;
文本区域检测单元,用于将中间数据输入至文本区域检测模型进行文本区域检测,以得到检测结果;
切割单元,用于根据检测结果对中间数据进行切割,以得到处理后的数据;
信息识别单元,用于将处理后的数据输入至文本信息识别模型进行文本信息识别,以得到信息识别结果;
人脸识别单元,用于对待识别数据进行人脸识别,以得到人脸坐标信息;
发送单元,用于发送所述识别结果以及人脸坐标信息至终端,以使终端显示所述识别结果以及人脸坐标信息。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过文本方向识别模型进行待识别数据的文本方向识别,根据识别结果处理待识别数据后,再经过文本区域检测模型进行区域检测,以得到仅包括文本区域的数据,最后经过文本信息识别模型进行文本信息识别,再利用face_recognition库实现身份证头像人脸检测,实现提升身份证识别的效率和精准度。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的身份证信息识别方法的应用场景示意图;
图2为本发明实施例提供的身份证信息识别方法的流程示意图;
图3为本发明实施例提供的身份证信息识别装置的示意性框图;
图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的身份证信息识别方法的应用场景示意图。图2为本发明实施例提供的身份证信息识别方法的示意性流程图。该身份证信息识别方法应用于服务器,该服务器与终端进行数据交互,终端输入需要识别的身份证图片数据,服务器对该输入的数据进行识别和分析,以得到识别后的身份证文本信息以及人脸坐标等信息,并将得到的信息发送至终端显示。
图2是本发明实施例提供的身份证信息识别方法的流程示意图。如图2所示,该方法包括以下步骤S110至S180。
S110、获取待识别的身份证图片数据,以形成待识别数据。
在本实施例中,待识别数据是通过终端直接拍摄所得的身份证图片数据,可以是任一角度拍摄所得的身份证图片数据,对拍摄的角度等并无特殊要求,使用便捷性高。
用户从终端输入身份证图片数据,数据类型支持常见的图片格式,如:png、jpg、jpeg、JPG等。
S120、将待识别数据输入至文本方向识别模型进行方向识别,以得到识别结果。
在本实施例中,识别结果是指待识别数据的倾斜角度或者旋转至身份证处于与水平线平行的角度。
其中,所述文本方向识别模型是通过带有文本方向标签的文本数据作为第一训练数据训练第一神经网络所得的;利用卷积神经网络构成的模型进行文本方向识别,可达到效率高以及准确率高的识别方式。在本实施例中,第一神经网络包括迁移化的VGG16神经网络或者深度神经网络。
在一实施例中,上述的文本方向识别模型是通过带有文本方向标签的文本数据作为第一训练数据训练第一神经网络所得的,可包括以下步骤S120a~S120j。
S120a、获取带有文本方向标签的文本数据,以得到第一样本数据。
在本实施例中,第一样本数据是指与水平线呈不同角度倾斜的身份证图片数据,且该身份证图片数据已标注文本方向标签,该文本方向标签是指将身份证图片旋转至于水平线平行的所需角度。
在一实施例中,上述的步骤S120a可包括步骤S120a1~S120a3。
S120a1、获取带有文本的图片数据,以得到初始数据。
在本实施例中,初始数据是指通过网络爬虫和终端拍摄的方式获取所得的身份证图片数据。
通过网络爬虫以及终端拍摄等方式获取了部分居民身份证图片数据,网络爬虫获取的身份证图片数据一般噪声较大,主要体现在图片分辨率较低、部分区域被遮挡或模糊不清、角度变换大以及拍摄时由于镜头反光导致的部分区域高光等,终端自主拍摄获取的居民身份证图片数据噪声相对较小,为了模拟真实场景下用户的数据采集情况,调整多个角度、与镜头之间的距离以及背景区域等进行拍摄,获取的数据格式包括:jpg、png等。
S120a2、对初始数据进行数据增强处理,以得到二次数据。
在本实施例中,二次数据是指经过不同角度旋转处理等手段增强后形成的居民身份证数据。通过数据增强手段拓展了数据集,具体的增强手段包括:平移、裁剪、颜色变化以及噪声扰动等。
S120a3、对二次数据标注文本方向标签,以得到第一样本数据。
具体地,将居民身份证图片数据通过旋转等手段增强获取了一部分不同角度的数据,旋转的角度为各个方向随机90度,并进行文本方向标签标注,标注的文本方向标签包括:0度,90度,180度以及270度等。
S120b、将第一样本数据划分为第一训练数据以及第一测试数据。
将第一样本数据划分为第一训练数据以及第一测试数据后,先利用第一训练数据进行第一神经网络的训练,训练至第一神经网络能够输出符合要求的文本方向,再利用第一测试数据对训练后的第一神经网络进行验证,以确保整个第一神经网络作为文本方向识别模型时能够输出准确率符合要求的文本方向。
S120c、构建第一神经网络以及第一损失函数。
在本实施例中,第一神经网络采用的是卷积神经网络VGG16,VGG16是图象分类领域开创性的一个模型架构,包含16个卷积层和一个全连接层,具有分类精度高、模型结构简洁等特点,同时也是优秀的特征提取器,其预训练模型的性能已经在ImageNet大规模图象数据集上得到了验证。使用VGG16的预训练模型作为基础的骨架模型进一步场景化迁移学习身份证文本方向识别模型,文本方向识别模型为4分类问题,其标签为0度、90度、180度以及270度,因此文本方向识别模型的最后一层网络结构,其输出神经元数量设定为4个,进一步划分第一训练数据以及第一测试数据,其中划分比例为9:1,调整模型超参数,训练得到最优的文本方向识别模型。
S120d、将第一训练数据输入至第一神经网络中进行卷积训练,以得到第一训练结果。
在本实施例中,第一训练结果包括文本方向的角度,即文本数据旋转至与水平线平行的方向的角度。
S120e、利用第一损失函数计算第一训练结果与文本方向标签的损失值,以得到第一损失值。
在本实施例中,第一损失值是指第一训练结果与文本方向标签的拟合度。
具体是利用损失函数计算第一训练结果与文本方向标签之间拟合程度,也可以认为是差异程度。
S120f、判断所述第一损失值是否维持不变。
在本实施例中,当第一损失值维持不变,即当前的第一神经网络已经收敛,即第一损失值基本不变且非常小,也表明当前的第一神经网络是可以被用作文本方向识别模型的,一般是开始训练时第一损失值比较大,越往后训练,第一损失值越小,倘若该第一损失值未维持不变,表明当前的第一神经网络不可以用作文本方向识别模型,也就是评估出来的文本方向并不准确,会导致后期的文本信息识别也不准确。
S120g、若所述第一损失值不是维持不变,则调整所述第一神经网络的参数,并执行所述将第一训练数据输入至第一神经网络中进行卷积训练,以得到第一训练结果。
在本实施例中,调整第一神经网络的参数是指调整第一神经网络中各个层的权重值。通过不断地训练,便可以得到满足要求的第一神经网络。
S120h、若所述第一损失值维持不变,则将第一测试数据输入至第一神经网络内进行卷积测试,以得到第一测试结果。
在本实施例中,第一测试结果是指第一测试数据进行文本方向识别后,便可得到第一测试数据对应的文本方向。
S120i、判断所述第一测试结果是否符合条件;
S120j、若所述第一测试结果符合条件,则将所述第一神经网络作为文本方向识别模型;
若所述第一测试结果不符合条件,则执行所述步骤S120g。
当第一测试结果的精度和召回率这两个指标评估符合条件,则表明拟合程度符合要求,便可认为第一测试结果是符合要求的;否则,则认为该第一测试结果不符合要求。第一神经网络收敛时停止训练。第一神经网络训练好后对第一神经网络进行测试,如果第一测试结果不好,需要调整训练策略重新进行第一神经网络训练。当然,在训练的过程中,会进行训练和测试,训练时测试是为了实时查看训练情况;而训练第一神经网络完成后的测试,用精度和召回率这两个指标评估整个第一神经网络的执行准确程度。
S130、根据识别结果对待识别数据进行方向调整,以得到中间数据。
在本实施例中,中间数据是指根据文本方向识别模型输出的文本方向进行旋转等处理,以形成与水平线平行的身份证图片数据。
S140、将中间数据输入至文本区域检测模型进行文本区域检测,以得到检测结果。
在本实施例中,检测结果是指文本内容所在的文本框信息,包括文本区域的长度与宽度、中心点坐标以及倾斜角度。
其中,所述文本区域检测模型是通过带有文本区域标签的文本数据作为第二训练数据训练迁移化的YOLOv3神经网络所得的。利用卷积神经网络构成的模型进行文本区域识别,可达到效率高以及准确率高的识别方式。
在一实施例中,上述的文本区域检测模型是通过带有文本区域标签的文本数据作为第二训练数据训练迁移化的YOLOv3神经网络所得的,可包括步骤S140a~S140j。
S140a、获取带有文本区域标签的文本数据,以得到第二样本数据。
在本实施例中,第二样本数据是指带有标签数据格式分别为txt和xml的文本区域标签且与水平线平行的文本数据,也就是身份证图片数据。
具体地,可将上述文本方向识别模型所输出的识别结果旋转处理后的第二样本数据进行文本区域标签标注后形成的数据作为第二样本数据。对获取的居民身份证数据进行文本框区域标注,根据业务场景中的需求,将文本区域界定在以下几个部分:姓名、性别、民族、出生、住址以及公民身份证号码等,标注工具为改进了的labelImg,从而能在标注过程中自动计算处文本区域的长度与宽度、中心点坐标以及倾斜角度。
S140b、将第二样本数据划分为第二训练数据以及第二测试数据。
将第二样本数据划分为第二训练数据以及第二测试数据后,先利用第二训练数据进行迁移化的YOLOv3神经网络的训练,训练至迁移化的YOLOv3神经网络能够输出符合要求的文本区域,再利用第二测试数据对训练后的迁移化的YOLOv3神经网络进行验证,以确保整个迁移化的YOLOv3神经网络作为文本区域检测模型时能够输出准确率符合要求的文本区域信息。
S140c、构建迁移化的YOLOv3神经网络以及第二损失函数。
在本实施例中,迁移化的YOLOv3神经网络采用的是卷积神经网络YOLOv3,YOLOv3是目标检测领域中里程碑的一个模型,具有检测精度高、速度快等特点,可通过较少的业务数据实现场景化的目标检测需求。使用YOLOv3预训练模型进一步迁移训练场景化的身份证文本区域检测模型,并对网络模型作了进一步的改进,即将卷积层提高到74层,以提高检测精度,文本区域检测模型为二分类问题,其中目标文本区域为一个类别,其他区域为另外一个类别,进一步划分第二训练数据以及第二测试数据,其中划分比例为9:1,设置调整合理的超参数,训练获得最优的文本区域检测模型。
S140d、将第二训练数据输入至迁移化的YOLOv3神经网络中进行卷积训练,以得到第二训练结果。
在本实施例中,第二训练结果包括文本区域的长度与宽度、中心点坐标以及倾斜角度。
S140e、利用第二损失函数计算第二训练结果与文本区域标签的损失值,以得到第二损失值。
在本实施例中,第二损失值是指第二训练结果与文本区域标签的拟合度。
具体是利用第二损失函数计算第二训练结果与文本方向标签之间拟合程度,也可以认为是差异程度。
S140f、判断所述第二损失值是否维持不变。
在本实施例中,当第二损失值维持不变,即当前的迁移化的YOLOv3神经网络已经收敛,即第二损失值基本不变且非常小,也表明当前的迁移化的YOLOv3神经网络是可以被用作文本区域检测模型的,一般是开始训练时第二损失值比较大,越往后训练,第二损失值越小,倘若该第二损失值未维持不变,表明当前的迁移化的YOLOv3神经网络不可以用作文本区域检测模型,也就是评估出来的文本区域信息并不准确,会导致后期的文本信息识别也不准确。
S140g、若所述第二损失值不是维持不变,则调整所述迁移化的YOLOv3神经网络的参数,并执行所述将第二训练数据输入至迁移化的YOLOv3神经网络中进行卷积训练,以得到第二训练结果。
在本实施例中,调整迁移化的YOLOv3神经网络的参数是指调整迁移化的YOLOv3神经网络中各个层的权重值。通过不断地训练,便可以得到满足要求的迁移化的YOLOv3神经网络。
S140h、若所述第二损失值维持不变,则将第二测试数据输入至迁移化的YOLOv3神经网络内进行卷积测试,以得到第二测试结果。
在本实施例中,第二测试结果是指第二测试数据进行文本区域检测后,便可得到第二测试数据对应的文本区域信息。
S140i、判断所述第二测试结果是否符合条件;
S140j、若所述第二测试结果符合条件,则将所述迁移化的YOLOv3神经网络作为文本区域检测模型;
若所述第二测试结果不符合条件,则执行所述调整所述迁移化的YOLOv3神经网络的参数。
当第二测试结果的精度和召回率这两个指标评估符合条件,则表明拟合程度符合要求,便可认为第二测试结果是符合要求的;否则,则认为该第二测试结果不符合要求。迁移化的YOLOv3神经网络收敛时停止训练。迁移化的YOLOv3神经网络训练好后对迁移化的YOLOv3神经网络进行测试,如果第二测试结果不好,需要调整训练策略重新进行迁移化的YOLOv3神经网络训练。当然,在训练的过程中,会进行训练和测试,训练时测试是为了实时查看训练情况;而训练迁移化的YOLOv3神经网络完成后的测试,用精度和召回率这两个指标评估整个迁移化的YOLOv3神经网络的执行准确程度。
S150、根据检测结果对中间数据进行切割,以得到处理后的数据。
在本实施例中,处理后的数据是指对中间数据进行切割后仅留下文本区域的内容。
S160、将处理后的数据输入至文本信息识别模型进行文本信息识别,以得到信息识别结果。
在本实施例中,信息识别结果是指文本具体内容,包括姓名、性别、民族、出生、住址以及公民身份证号码等。
其中,所述文本信息识别模型是通过带有文本信息标签的文本框图片作为第三训练数据训练迁移化的CRNN神经网络所得的,利用卷积神经网络构成的模型进行文本信息识别,可达到效率高以及准确率高的识别方式。
在一实施例中,上述的文本信息识别模型是通过带有文本信息标签的文本框图片作为第三训练数据训练迁移化的CRNN神经网络所得的,可包括以下步骤S160a~S160j。
S160a、获取文本信息标签的文本框图片,以得到第三样本数据。
在本实施例中,第三样本数据是指仅包括文本区域的文本框图片,具体地,可将上述文本区域检测模型所输出的检测结果进行切割形成第三样本数据,以便采集文本识别模型的训练数据。
S160b、将第三样本数据划分为第三训练数据以及第三测试数据。
经过文本去重处理,构建文本词库,为了提高文本识别模型的抗噪能力,对分割获取的文本框数据随机加入指定比例的不同噪声信息,其中噪声信息包含:高斯噪声、泊松噪声以及椒盐噪声等;进一步划分第三训练数据以及第三测试数据,其中划分比例为9:1。一个文本区域的图片对应一个txt文件,txt文件内容为文本区域图片的文字内容。
将第三样本数据划分为第三训练数据以及第三测试数据后,先利用第三训练数据进行迁移化的CRNN神经网络的训练,训练至迁移化的CRNN神经网络能够输出符合要求的文本信息,再利用第三测试数据对训练后的迁移化的CRNN神经网络进行验证,以确保整个迁移化的CRNN神经网络作为文本信息识别模型时能够输出准确率符合要求的文本信息。
S160c、构建迁移化的CRNN神经网络以及第三损失函数。
在本实施例中,迁移化的CRNN神经网络使用卷积循环神经网络进行身份证文本识别模型的训练,设计的卷积循环神经网络模型的卷积层为6层,卷积循环神经网络采用双向的LSTM(长短期记忆网络,Long Short-Term Memory),最后一层网络为全连接层,设定相关的训练评估指标,测试集准确率,待测试集准确率达到预期值则停止训练,最终得到身份证文本信息识别模型。卷积循环神经网络与传统神经网络模型相比具有一些独特的优点:一是直接从图像数据学习信息表示时具有与DCNN相同的性质,既不需要手工特征也不需要预处理步骤,包括二值化、分割,组件定位等,二是具有与RNN(循环神经网络,RecurrentNeural Network))相同的性质,能够产生一系列标签;三是对类序列对象的长度无约束,只需要在训练阶段和测试阶段对高度进行归一化;在场景文本比如字符识别上获得更好或更具竞争力的表现。
S160d、将第三训练数据输入至迁移化的CRNN神经网络中进行卷积训练,以得到第三训练结果。
在本实施例中,第三训练结果包括文本信息内容,精准匹配到姓名、性别、民族、出生、住址以及公民身份证号码等字段信息。
S160e、利用第三损失函数计算第三训练结果与文本信息标签的损失值,以得到第三损失值。
在本实施例中,第三损失值是指第三训练结果与文本信息标签的拟合度。
具体是利用第三损失函数计算第三训练结果与文本信息标签之间拟合程度,也可以认为是差异程度。
S160f、判断所述第三损失值是否维持不变。
在本实施例中,当第三损失值维持不变,即当前的迁移化的CRNN神经网络已经收敛,即第三损失值基本不变且非常小,也表明当前的迁移化的CRNN神经网络是可以被用作文本信息识别模型的,一般是开始训练时第三损失值比较大,越往后训练,第三损失值越小,倘若该第三损失值未维持不变,表明当前的迁移化的CRNN神经网络不可以用作文本信息识别模型,也就是评估出来的文本信息并不准确。
S160g、若所述第三损失值不是维持不变,则调整所述迁移化的CRNN神经网络的参数,并执行所述将第三训练数据输入至迁移化的CRNN神经网络中进行卷积训练,以得到第二训练结果。
在本实施例中,调整迁移化的CRNN神经网络的参数是指调整迁移化的CRNN神经网络中各个层的权重值。通过不断地训练,便可以得到满足要求的迁移化的CRNN神经网络。
S160h、若所述第三损失值维持不变,则将第三测试数据输入至迁移化的CRNN神经网络内进行卷积测试,以得到第三测试结果。
在本实施例中,第三测试结果是指第三测试数据进行文本区域检测后,便可得到第三测试数据对应的文本区域信息。
S160i、判断所述第三测试结果是否符合条件;
S160j、若所述第三测试结果符合条件,则将所述迁移化的CRNN神经网络作为文本信息识别模型;
若所述第三测试结果不符合条件,则执行所述步骤S150g。
当第三测试结果的精度和召回率这两个指标评估符合条件,则表明拟合程度符合要求,便可认为第三测试结果是符合要求的;否则,则认为该第三测试结果不符合要求。迁移化的CRNN神经网络收敛时停止训练。迁移化的CRNN神经网络训练好后对迁移化的CRNN神经网络进行测试,如果第三测试结果不好,需要调整训练策略重新进行迁移化的CRNN神经网络训练。当然,在训练的过程中,会进行训练和测试,训练时测试是为了实时查看训练情况;而训练迁移化的CRNN神经网络完成后的测试,用精度和召回率这两个指标评估整个迁移化的CRNN神经网络的执行准确程度。
S170、对待识别数据进行人脸识别,以得到人脸坐标信息。
在本实施例中,人脸坐标信息是指人脸头像位于待识别数据内的坐标信息。
具体地,采用face_recognition库进行待识别数据的人脸识别,以得到人脸坐标信息。
使用face_recognition库实现身份证头像人脸检测与原图人脸坐标返回,face_recognition是一个强大、易于上手的人脸检测与识别的开源项目,基于业内领先的C++开源库dlib中的深度学习模型,使用Labeled Faces in the Wild大型开源人脸数据集进行测试,达到了极高的99.38%准确率,将face_recognition方法引入本实施例的方法,可实现高精度、快速的身份证头像人脸检测。
S180、发送所述信息识别结果以及人脸坐标信息至终端,以使终端显示所述信息识别结果以及人脸坐标信息。
用户从终端输入身份证图片数据,数据类型支持常见的图片格式,如:png、jpg、jpeg、JPG等,经过数据处理之后,文本方向识别模型首先识别图片的文本方向,并进行对应角度的调整,调整完毕的身份证图片进入文本区域检测模型,输出检测完毕的文本区域信息,经过后处理的文本区域信息并行进入文本信息识别模型,并输出信息识别结果,使用规则等手段过滤掉噪声数据,并精准匹配到姓名、性别、民族、出生、住址以及公民身份证号码等字段信息,最后调用face_recognition库实现身份证头像人脸检测,并返回原图人脸坐标。上述的方法从端到端,可实现自动化的高精度、高效率的居民身份证识别及身份证头像人脸检测。
上述的身份证信息识别方法,通过文本方向识别模型进行待识别数据的文本方向识别,根据识别结果处理待识别数据后,再经过文本区域检测模型进行区域检测,以得到仅包括文本区域的数据,最后经过文本信息识别模型进行文本信息识别,再利用face_recognition库实现身份证头像人脸检测,实现提升身份证识别的效率和精准度。
图3是本发明实施例提供的一种身份证信息识别装置300的示意性框图。如图3所示,对应于以上身份证信息识别方法,本发明还提供一种身份证信息识别装置300。该身份证信息识别装置300包括用于执行上述身份证信息识别方法的单元,该装置可以被配置于服务器中。具体地,请参阅图3,该身份证信息识别装置300包括图片数据获取单元301、方向识别单元302、方向调整单元303、文本区域检测单元304、切割单元305、信息识别单元306、人脸识别单元307以及发送单元308。
图片数据获取单元301,用于获取待识别的身份证图片数据,以形成待识别数据;方向识别单元302,用于将待识别数据输入至文本方向识别模型进行方向识别,以得到识别结果;方向调整单元303,用于根据识别结果对待识别数据进行方向调整,以得到中间数据;文本区域检测单元304,用于将中间数据输入至文本区域检测模型进行文本区域检测,以得到检测结果;切割单元305,用于根据检测结果对中间数据进行切割,以得到处理后的数据;信息识别单元306,用于将处理后的数据输入至文本信息识别模型进行文本信息识别,以得到信息识别结果;人脸识别单元307,用于对待识别数据进行人脸识别,以得到人脸坐标信息;发送单元308,用于发送所述识别结果以及人脸坐标信息至终端,以使终端显示所述识别结果以及人脸坐标信息。
具体地,上述的人脸识别单元307,用于采用face_recognition库进行待识别数据的人脸识别,以得到人脸坐标信息。
在一实施例中,上述的装置还包括:第一构建单元,用于通过带有文本方向标签的文本数据作为第一训练数据训练第一神经网络,以得到文本方向识别模型。
在一实施例中,上述的装置还包括:第二构建单元,用于通过带有文本区域标签的文本数据作为第二训练数据训练迁移化的YOLOv3神经网络,以得到文本区域检测模型。
在一实施例中,上述的装置还包括:第三构建单元,用于通过带有文本信息标签的文本框图片作为第三训练数据训练迁移化的CRNN神经网络,以得到文本信息识别模型。
在一实施例中,所述第一构建单元包括第一样本获取子单元、第一划分子单元、第一网络构建子单元、第一训练子单元、第一计算子单元、第一损失值判断子单元、第一调整子单元、第一测试子单元以及第一测试结果判断子单元。
第一样本获取子单元,用于获取带有文本方向标签的文本数据,以得到第一样本数据;第一划分子单元,用于将第一样本数据划分为第一训练数据以及第一测试数据;第一网络构建子单元,用于构建第一神经网络以及第一损失函数;第一训练子单元,用于将第一训练数据输入至第一神经网络中进行卷积训练,以得到第一训练结果;第一计算子单元,用于利用第一损失函数计算第一训练结果与文本方向标签的损失值,以得到第一损失值;第一损失值判断子单元,用于判断所述第一损失值是否维持不变;第一调整子单元,用于若所述第一损失值不是维持不变,则调整所述第一神经网络的参数,并执行所述将第一训练数据输入至第一神经网络中进行卷积训练,以得到第一训练结果;第一测试子单元,用于若所述第一损失值维持不变,则将第一测试数据输入至第一神经网络内进行卷积测试,以得到第一测试结果;第一测试结果判断子单元,用于判断所述第一测试结果是否符合条件;若所述第一测试结果符合条件,则将所述第一神经网络作为文本方向识别模型;若所述第一测试结果不符合条件,则执行所述调整所述第一神经网络的参数。
在一实施例中,所述第一样本获取子单元包括初始数据获取模块、增强处理模块以及标注模块。
初始数据获取模块,用于获取带有文本的图片数据,以得到初始数据;增强处理模块,用于对初始数据进行数据增强处理,以得到二次数据;标注模块,用于对二次数据标注文本方向标签,以得到第一样本数据。
在一实施例中,所述第二构建单元包括第二样本获取子单元、第二划分子单元、第二网络构建子单元、第二训练子单元、第二计算子单元、第二损失值判断子单元、第二调整子单元、第二测试子单元以及第二测试结果判断子单元。
第二样本获取子单元,用于获取带有文本区域标签的文本数据,以得到第二样本数据;第二划分子单元,用于将第二样本数据划分为第二训练数据以及第二测试数据;第二网络构建子单元,用于构建迁移化的YOLOv3神经网络以及第二损失函数;第二训练子单元,用于将第二训练数据输入至迁移化的YOLOv3神经网络中进行卷积训练,以得到第二训练结果;第二计算子单元,用于利用第二损失函数计算第二训练结果与文本区域标签的损失值,以得到第二损失值;第二损失值判断子单元,用于判断所述第二损失值是否维持不变;第二调整子单元,用于若所述第二损失值不是维持不变,则调整所述迁移化的YOLOv3神经网络的参数,并执行所述将第二训练数据输入至迁移化的YOLOv3神经网络中进行卷积训练,以得到第二训练结果;第二测试子单元,用于若所述第二损失值维持不变,则将第二测试数据输入至迁移化的YOLOv3神经网络内进行卷积测试,以得到第二测试结果;第二测试结果判断子单元,用于判断所述第二测试结果是否符合条件;若所述第二测试结果符合条件,则将所述迁移化的YOLOv3神经网络作为文本区域检测模型;若所述第二测试结果不符合条件,则执行所述调整所述迁移化的YOLOv3神经网络的参数。
在一实施例中,所述第三构建单元包括第三样本获取子单元、第三划分子单元、第三网络构建子单元、第三训练子单元、第三计算子单元、第三损失值判断子单元、第三调整子单元、第三测试子单元以及第三测试结果判断子单元。
第三样本获取子单元,用于获取文本信息标签的文本框图片,以得到第三样本数据;第三划分子单元,用于将第三样本数据划分为第三训练数据以及第三测试数据;第三网络构建子单元,用于构建迁移化的CRNN神经网络以及第三损失函数;第三训练子单元,用于将第三训练数据输入至迁移化的CRNN神经网络中进行卷积训练,以得到第三训练结果;第三计算子单元,用于利用第三损失函数计算第三训练结果与文本信息标签的损失值,以得到第三损失值;第三损失值判断子单元,用于判断所述第三损失值是否维持不变;第三调整子单元,用于若所述第三损失值不是维持不变,则调整所述迁移化的CRNN神经网络的参数,并执行所述将第三训练数据输入至迁移化的CRNN神经网络中进行卷积训练,以得到第三训练结果;第三测试子单元,用于若所述第三损失值维持不变,则将第三测试数据输入至迁移化的CRNN神经网络内进行卷积测试,以得到第三测试结果;第三测试结果判断子单元,用于判断所述第三测试结果是否符合条件;若所述第三测试结果符合条件,则将所述迁移化的CRNN神经网络作为文本信息识别模型;若所述第三测试结果不符合条件,则执行所述调整所述迁移化的CRNN神经网络的参数。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述身份证信息识别装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述身份证信息识别装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图4,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种身份证信息识别方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种身份证信息识别方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取待识别的身份证图片数据,以形成待识别数据;将待识别数据输入至文本方向识别模型进行方向识别,以得到识别结果;根据识别结果对待识别数据进行方向调整,以得到中间数据;将中间数据输入至文本区域检测模型进行文本区域检测,以得到检测结果;根据检测结果对中间数据进行切割,以得到处理后的数据;将处理后的数据输入至文本信息识别模型进行文本信息识别,以得到信息识别结果;对待识别数据进行人脸识别,以得到人脸坐标信息;发送所述信息识别结果以及人脸坐标信息至终端,以使终端显示所述信息识别结果以及人脸坐标信息。
其中,所述文本方向识别模型是通过带有文本方向标签的文本数据作为第一训练数据训练第一神经网络所得的;所述文本区域检测模型是通过带有文本区域标签的文本数据作为第二训练数据训练迁移化的YOLOv3神经网络所得的;所述文本信息识别模型是通过带有文本信息标签的文本框图片作为第三训练数据训练迁移化的CRNN神经网络所得的。
在一实施例中,处理器502在实现所述文本方向识别模型是通过带有文本方向标签的文本数据作为第一训练数据训练第一神经网络所得的步骤时,具体实现如下步骤:
获取带有文本方向标签的文本数据,以得到第一样本数据;将第一样本数据划分为第一训练数据以及第一测试数据;构建第一神经网络以及第一损失函数;将第一训练数据输入至第一神经网络中进行卷积训练,以得到第一训练结果;利用第一损失函数计算第一训练结果与文本方向标签的损失值,以得到第一损失值;判断所述第一损失值是否维持不变;若所述第一损失值不是维持不变,则调整所述第一神经网络的参数,并执行所述将第一训练数据输入至第一神经网络中进行卷积训练,以得到第一训练结果;若所述第一损失值维持不变,则将第一测试数据输入至第一神经网络内进行卷积测试,以得到第一测试结果;判断所述第一测试结果是否符合条件;若所述第一测试结果符合条件,则将所述第一神经网络作为文本方向识别模型;若所述第一测试结果不符合条件,则执行所述调整所述第一神经网络的参数。
在一实施例中,处理器502在实现所述获取带有文本方向标签的文本数据,以得到第一样本数据步骤时,具体实现如下步骤:
获取带有文本的图片数据,以得到初始数据;对初始数据进行数据增强处理,以得到二次数据;对二次数据标注文本方向标签,以得到第一样本数据。
在一实施例中,处理器502在实现所述文本区域检测模型是通过带有文本区域标签的文本数据作为第二训练数据训练迁移化的YOLOv3神经网络所得的步骤时,具体实现如下步骤:
获取带有文本区域标签的文本数据,以得到第二样本数据;将第二样本数据划分为第二训练数据以及第二测试数据;构建迁移化的YOLOv3神经网络以及第二损失函数;将第二训练数据输入至迁移化的YOLOv3神经网络中进行卷积训练,以得到第二训练结果;利用第二损失函数计算第二训练结果与文本区域标签的损失值,以得到第二损失值;判断所述第二损失值是否维持不变;若所述第二损失值不是维持不变,则调整所述迁移化的YOLOv3神经网络的参数,并执行所述将第二训练数据输入至迁移化的YOLOv3神经网络中进行卷积训练,以得到第二训练结果;若所述第二损失值维持不变,则将第二测试数据输入至迁移化的YOLOv3神经网络内进行卷积测试,以得到第二测试结果;判断所述第二测试结果是否符合条件;若所述第二测试结果符合条件,则将所述迁移化的YOLOv3神经网络作为文本区域检测模型;若所述第二测试结果不符合条件,则执行所述调整所述迁移化的YOLOv3神经网络的参数。
在一实施例中,处理器502在实现所述文本信息识别模型是通过带有文本信息标签的文本框图片作为第三训练数据训练迁移化的CRNN神经网络所得的步骤时,具体实现如下步骤:
获取文本信息标签的文本框图片,以得到第三样本数据;将第三样本数据划分为第三训练数据以及第三测试数据;构建迁移化的CRNN神经网络以及第三损失函数;将第三训练数据输入至迁移化的CRNN神经网络中进行卷积训练,以得到第三训练结果;利用第三损失函数计算第三训练结果与文本信息标签的损失值,以得到第三损失值;判断所述第三损失值是否维持不变;若所述第三损失值不是维持不变,则调整所述迁移化的CRNN神经网络的参数,并执行所述将第三训练数据输入至迁移化的CRNN神经网络中进行卷积训练,以得到第三训练结果;若所述第三损失值维持不变,则将第三测试数据输入至迁移化的CRNN神经网络内进行卷积测试,以得到第三测试结果;判断所述第三测试结果是否符合条件;若所述第三测试结果符合条件,则将所述迁移化的CRNN神经网络作为文本信息识别模型;若所述第三测试结果不符合条件,则执行所述调整所述迁移化的CRNN神经网络的参数。
其中,所述迁移化的CRNN神经网络采用双向的长短期记忆网络,所述迁移化的CRNN神经网络的最后一层网络为全连接层。
在一实施例中,处理器502在实现所述对待识别数据进行人脸识别,以得到人脸坐标信息步骤时,具体实现如下步骤:
采用face_recognition库进行待识别数据的人脸识别,以得到人脸坐标信息。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取待识别的身份证图片数据,以形成待识别数据;将待识别数据输入至文本方向识别模型进行方向识别,以得到识别结果;根据识别结果对待识别数据进行方向调整,以得到中间数据;将中间数据输入至文本区域检测模型进行文本区域检测,以得到检测结果;根据检测结果对中间数据进行切割,以得到处理后的数据;将处理后的数据输入至文本信息识别模型进行文本信息识别,以得到信息识别结果;对待识别数据进行人脸识别,以得到人脸坐标信息;发送所述信息识别结果以及人脸坐标信息至终端,以使终端显示所述信息识别结果以及人脸坐标信息。
其中,所述文本方向识别模型是通过带有文本方向标签的文本数据作为第一训练数据训练第一神经网络所得的;所述文本区域检测模型是通过带有文本区域标签的文本数据作为第二训练数据训练迁移化的YOLOv3神经网络所得的;所述文本信息识别模型是通过带有文本信息标签的文本框图片作为第三训练数据训练迁移化的CRNN神经网络所得的。
在一实施例中,所述处理器在执行所述计算机程序而实现所述文本方向识别模型是通过带有文本方向标签的文本数据作为第一训练数据训练第一神经网络所得的步骤时,具体实现如下步骤:
获取带有文本方向标签的文本数据,以得到第一样本数据;将第一样本数据划分为第一训练数据以及第一测试数据;构建第一神经网络以及第一损失函数;将第一训练数据输入至第一神经网络中进行卷积训练,以得到第一训练结果;利用第一损失函数计算第一训练结果与文本方向标签的损失值,以得到第一损失值;判断所述第一损失值是否维持不变;若所述第一损失值不是维持不变,则调整所述第一神经网络的参数,并执行所述将第一训练数据输入至第一神经网络中进行卷积训练,以得到第一训练结果;若所述第一损失值维持不变,则将第一测试数据输入至第一神经网络内进行卷积测试,以得到第一测试结果;判断所述第一测试结果是否符合条件;若所述第一测试结果符合条件,则将所述第一神经网络作为文本方向识别模型;若所述第一测试结果不符合条件,则执行所述调整所述第一神经网络的参数。
在一实施例中,所述处理器在执行所述计算机程序而实现所述获取带有文本方向标签的文本数据,以得到第一样本数据步骤时,具体实现如下步骤:
获取带有文本的图片数据,以得到初始数据;对初始数据进行数据增强处理,以得到二次数据;对二次数据标注文本方向标签,以得到第一样本数据。
在一实施例中,所述处理器在执行所述计算机程序而实现所述文本区域检测模型是通过带有文本区域标签的文本数据作为第二训练数据训练迁移化的YOLOv3神经网络所得的步骤时,具体实现如下步骤:
获取带有文本区域标签的文本数据,以得到第二样本数据;将第二样本数据划分为第二训练数据以及第二测试数据;构建迁移化的YOLOv3神经网络以及第二损失函数;将第二训练数据输入至迁移化的YOLOv3神经网络中进行卷积训练,以得到第二训练结果;利用第二损失函数计算第二训练结果与文本区域标签的损失值,以得到第二损失值;判断所述第二损失值是否维持不变;若所述第二损失值不是维持不变,则调整所述迁移化的YOLOv3神经网络的参数,并执行所述将第二训练数据输入至迁移化的YOLOv3神经网络中进行卷积训练,以得到第二训练结果;若所述第二损失值维持不变,则将第二测试数据输入至迁移化的YOLOv3神经网络内进行卷积测试,以得到第二测试结果;判断所述第二测试结果是否符合条件;若所述第二测试结果符合条件,则将所述迁移化的YOLOv3神经网络作为文本区域检测模型;若所述第二测试结果不符合条件,则执行所述调整所述迁移化的YOLOv3神经网络的参数。
在一实施例中,所述处理器在执行所述计算机程序而实现所述文本信息识别模型是通过带有文本信息标签的文本框图片作为第三训练数据训练迁移化的CRNN神经网络所得的步骤时,具体实现如下步骤:
获取文本信息标签的文本框图片,以得到第三样本数据;将第三样本数据划分为第三训练数据以及第三测试数据;构建迁移化的CRNN神经网络以及第三损失函数;将第三训练数据输入至迁移化的CRNN神经网络中进行卷积训练,以得到第三训练结果;利用第三损失函数计算第三训练结果与文本信息标签的损失值,以得到第三损失值;判断所述第三损失值是否维持不变;若所述第三损失值不是维持不变,则调整所述迁移化的CRNN神经网络的参数,并执行所述将第三训练数据输入至迁移化的CRNN神经网络中进行卷积训练,以得到第三训练结果;若所述第三损失值维持不变,则将第三测试数据输入至迁移化的CRNN神经网络内进行卷积测试,以得到第三测试结果;判断所述第三测试结果是否符合条件;若所述第三测试结果符合条件,则将所述迁移化的CRNN神经网络作为文本信息识别模型;若所述第三测试结果不符合条件,则执行所述调整所述迁移化的CRNN神经网络的参数。
其中,所述迁移化的CRNN神经网络采用双向的长短期记忆网络,所述迁移化的CRNN神经网络的最后一层网络为全连接层。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对待识别数据进行人脸识别,以得到人脸坐标信息步骤时,具体实现如下步骤:
采用face_recognition库进行待识别数据的人脸识别,以得到人脸坐标信息。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.身份证信息识别方法,其特征在于,包括:
获取待识别的身份证图片数据,以形成待识别数据;
将待识别数据输入至文本方向识别模型进行方向识别,以得到识别结果;
根据识别结果对待识别数据进行方向调整,以得到中间数据;
将中间数据输入至文本区域检测模型进行文本区域检测,以得到检测结果;
根据检测结果对中间数据进行切割,以得到处理后的数据;
将处理后的数据输入至文本信息识别模型进行文本信息识别,以得到信息识别结果;
对待识别数据进行人脸识别,以得到人脸坐标信息;
发送所述信息识别结果以及人脸坐标信息至终端,以使终端显示所述信息识别结果以及人脸坐标信息;
其中,所述文本方向识别模型是通过带有文本方向标签的文本数据作为第一训练数据训练第一神经网络所得的;
所述文本区域检测模型是通过带有文本区域标签的文本数据作为第二训练数据训练迁移化的YOLOv3神经网络所得的;
所述文本信息识别模型是通过带有文本信息标签的文本框图片作为第三训练数据训练迁移化的CRNN神经网络所得的。
2.根据权利要求1所述的身份证信息识别方法,其特征在于,所述文本方向识别模型是通过带有文本方向标签的文本数据作为第一训练数据训练第一神经网络所得的,包括:
获取带有文本方向标签的文本数据,以得到第一样本数据;
将第一样本数据划分为第一训练数据以及第一测试数据;
构建第一神经网络以及第一损失函数;
将第一训练数据输入至第一神经网络中进行卷积训练,以得到第一训练结果;
利用第一损失函数计算第一训练结果与文本方向标签的损失值,以得到第一损失值;
判断所述第一损失值是否维持不变;
若所述第一损失值不是维持不变,则调整所述第一神经网络的参数,并执行所述将第一训练数据输入至第一神经网络中进行卷积训练,以得到第一训练结果;
若所述第一损失值维持不变,则将第一测试数据输入至第一神经网络内进行卷积测试,以得到第一测试结果;
判断所述第一测试结果是否符合条件;
若所述第一测试结果符合条件,则将所述第一神经网络作为文本方向识别模型;
若所述第一测试结果不符合条件,则执行所述调整所述第一神经网络的参数。
3.根据权利要求2所述的身份证信息识别方法,其特征在于,所述获取带有文本方向标签的文本数据,以得到第一样本数据,包括:
获取带有文本的图片数据,以得到初始数据;
对初始数据进行数据增强处理,以得到二次数据;
对二次数据标注文本方向标签,以得到第一样本数据。
4.根据权利要求1所述的身份证信息识别方法,其特征在于,所述文本区域检测模型是通过带有文本区域标签的文本数据作为第二训练数据训练迁移化的YOLOv3神经网络所得的,包括:
获取带有文本区域标签的文本数据,以得到第二样本数据;
将第二样本数据划分为第二训练数据以及第二测试数据;
构建迁移化的YOLOv3神经网络以及第二损失函数;
将第二训练数据输入至迁移化的YOLOv3神经网络中进行卷积训练,以得到第二训练结果;
利用第二损失函数计算第二训练结果与文本区域标签的损失值,以得到第二损失值;
判断所述第二损失值是否维持不变;
若所述第二损失值不是维持不变,则调整所述迁移化的YOLOv3神经网络的参数,并执行所述将第二训练数据输入至迁移化的YOLOv3神经网络中进行卷积训练,以得到第二训练结果;
若所述第二损失值维持不变,则将第二测试数据输入至迁移化的YOLOv3神经网络内进行卷积测试,以得到第二测试结果;
判断所述第二测试结果是否符合条件;
若所述第二测试结果符合条件,则将所述迁移化的YOLOv3神经网络作为文本区域检测模型;
若所述第二测试结果不符合条件,则执行所述调整所述迁移化的YOLOv3神经网络的参数。
5.根据权利要求1所述的身份证信息识别方法,其特征在于,所述文本信息识别模型是通过带有文本信息标签的文本框图片作为第三训练数据训练迁移化的CRNN神经网络所得的,包括:
获取文本信息标签的文本框图片,以得到第三样本数据;
将第三样本数据划分为第三训练数据以及第三测试数据;
构建迁移化的CRNN神经网络以及第三损失函数;
将第三训练数据输入至迁移化的CRNN神经网络中进行卷积训练,以得到第三训练结果;
利用第三损失函数计算第三训练结果与文本信息标签的损失值,以得到第三损失值;
判断所述第三损失值是否维持不变;
若所述第三损失值不是维持不变,则调整所述迁移化的CRNN神经网络的参数,并执行所述将第三训练数据输入至迁移化的CRNN神经网络中进行卷积训练,以得到第三训练结果;
若所述第三损失值维持不变,则将第三测试数据输入至迁移化的CRNN神经网络内进行卷积测试,以得到第三测试结果;
判断所述第三测试结果是否符合条件;
若所述第三测试结果符合条件,则将所述迁移化的CRNN神经网络作为文本信息识别模型;
若所述第三测试结果不符合条件,则执行所述调整所述迁移化的CRNN神经网络的参数。
6.根据权利要求5所述的身份证信息识别方法,其特征在于,所述迁移化的CRNN神经网络采用双向的长短期记忆网络,所述迁移化的CRNN神经网络的最后一层网络为全连接层。
7.根据权利要求1所述的身份证信息识别方法,其特征在于,所述对待识别数据进行人脸识别,以得到人脸坐标信息,包括:
采用face_recognition库进行待识别数据的人脸识别,以得到人脸坐标信息。
8.身份证信息识别装置,其特征在于,包括:
图片数据获取单元,用于获取待识别的身份证图片数据,以形成待识别数据;
方向识别单元,用于将待识别数据输入至文本方向识别模型进行方向识别,以得到识别结果;
方向调整单元,用于根据识别结果对待识别数据进行方向调整,以得到中间数据;
文本区域检测单元,用于将中间数据输入至文本区域检测模型进行文本区域检测,以得到检测结果;
切割单元,用于根据检测结果对中间数据进行切割,以得到处理后的数据;
信息识别单元,用于将处理后的数据输入至文本信息识别模型进行文本信息识别,以得到信息识别结果;
人脸识别单元,用于对待识别数据进行人脸识别,以得到人脸坐标信息;
发送单元,用于发送所述识别结果以及人脸坐标信息至终端,以使终端显示所述识别结果以及人脸坐标信息。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。
CN202010111192.9A 2020-02-24 2020-02-24 身份证信息识别方法、装置、计算机设备及存储介质 Pending CN111340022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010111192.9A CN111340022A (zh) 2020-02-24 2020-02-24 身份证信息识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010111192.9A CN111340022A (zh) 2020-02-24 2020-02-24 身份证信息识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111340022A true CN111340022A (zh) 2020-06-26

Family

ID=71185385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010111192.9A Pending CN111340022A (zh) 2020-02-24 2020-02-24 身份证信息识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111340022A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626274A (zh) * 2020-07-30 2020-09-04 四川骏逸富顿科技有限公司 一种社保卡识别方法及其识别系统
CN111860522A (zh) * 2020-07-23 2020-10-30 中国平安人寿保险股份有限公司 身份证图片处理方法、装置、终端及存储介质
CN112232354A (zh) * 2020-11-23 2021-01-15 中国第一汽车股份有限公司 一种文字识别方法、装置、设备及存储介质
CN112241994A (zh) * 2020-09-28 2021-01-19 北京迈格威科技有限公司 模型训练方法及渲染方法、装置、电子设备及存储介质
CN113051901A (zh) * 2021-03-26 2021-06-29 重庆紫光华山智安科技有限公司 一种身份证文本识别方法、系统、介质及电子终端
CN114445437A (zh) * 2021-12-29 2022-05-06 福建慧政通信息科技有限公司 一种证照图片的图像压缩剪裁方法及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034050A (zh) * 2018-07-23 2018-12-18 顺丰科技有限公司 基于深度学习的身份证图像文本识别方法及装置
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110348441A (zh) * 2019-07-10 2019-10-18 深圳市华云中盛科技有限公司 增值税发票识别方法、装置、计算机设备及存储介质
CN110363199A (zh) * 2019-07-16 2019-10-22 济南浪潮高新科技投资发展有限公司 基于深度学习的证件图像文本识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN109034050A (zh) * 2018-07-23 2018-12-18 顺丰科技有限公司 基于深度学习的身份证图像文本识别方法及装置
CN110348441A (zh) * 2019-07-10 2019-10-18 深圳市华云中盛科技有限公司 增值税发票识别方法、装置、计算机设备及存储介质
CN110363199A (zh) * 2019-07-16 2019-10-22 济南浪潮高新科技投资发展有限公司 基于深度学习的证件图像文本识别方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860522A (zh) * 2020-07-23 2020-10-30 中国平安人寿保险股份有限公司 身份证图片处理方法、装置、终端及存储介质
CN111860522B (zh) * 2020-07-23 2024-02-02 中国平安人寿保险股份有限公司 身份证图片处理方法、装置、终端及存储介质
CN111626274A (zh) * 2020-07-30 2020-09-04 四川骏逸富顿科技有限公司 一种社保卡识别方法及其识别系统
CN112241994A (zh) * 2020-09-28 2021-01-19 北京迈格威科技有限公司 模型训练方法及渲染方法、装置、电子设备及存储介质
CN112241994B (zh) * 2020-09-28 2024-05-31 爱芯元智半导体股份有限公司 模型训练方法及渲染方法、装置、电子设备及存储介质
CN112232354A (zh) * 2020-11-23 2021-01-15 中国第一汽车股份有限公司 一种文字识别方法、装置、设备及存储介质
CN113051901A (zh) * 2021-03-26 2021-06-29 重庆紫光华山智安科技有限公司 一种身份证文本识别方法、系统、介质及电子终端
CN113051901B (zh) * 2021-03-26 2023-03-24 重庆紫光华山智安科技有限公司 一种身份证文本识别方法、系统、介质及电子终端
CN114445437A (zh) * 2021-12-29 2022-05-06 福建慧政通信息科技有限公司 一种证照图片的图像压缩剪裁方法及存储介质

Similar Documents

Publication Publication Date Title
CN111340022A (zh) 身份证信息识别方法、装置、计算机设备及存储介质
CN110348441B (zh) 增值税发票识别方法、装置、计算机设备及存储介质
WO2019169532A1 (zh) 车牌识别方法及云系统
CN104463101B (zh) 用于文字性试题的答案识别方法及系统
EP3772036A1 (en) Detection of near-duplicate image
CN110008909B (zh) 一种基于ai的实名制业务实时稽核系统
CN108009472B (zh) 一种基于卷积神经网络和贝叶斯分类器的指背关节纹识别方法
CN105574550A (zh) 一种车辆识别方法及装置
US20200134382A1 (en) Neural network training utilizing specialized loss functions
CN108171127A (zh) 一种基于深度学习的发票自动识别方法
CN105335760A (zh) 一种图像数字字符识别方法
US10423817B2 (en) Latent fingerprint ridge flow map improvement
CN109711416A (zh) 目标识别方法、装置、计算机设备和存储介质
US11715288B2 (en) Optical character recognition using specialized confidence functions
US20210089825A1 (en) Systems and methods for cleaning data
Saba et al. Online versus offline Arabic script classification
Du High-precision portrait classification based on mtcnn and its application on similarity judgement
CN112102201A (zh) 图像阴影反光消除方法、装置、计算机设备及存储介质
CN114418124A (zh) 生成图神经网络模型的方法、装置、设备及存储介质
CN114360038A (zh) 基于深度学习的弱监督rpa元素识别方法及系统
US10755074B2 (en) Latent fingerprint pattern estimation
CN111652117A (zh) 一种对多文档图像分割的方法及介质
CN114358279A (zh) 图像识别网络模型剪枝方法、装置、设备及存储介质
Huahong et al. A new type method of adhesive handwritten digit recognition based on improved faster RCNN
Ou et al. ERCS: An efficient and robust card recognition system for camera-based image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200626

RJ01 Rejection of invention patent application after publication