CN110852713A - 一种统一信用代码证识别系统和算法 - Google Patents
一种统一信用代码证识别系统和算法 Download PDFInfo
- Publication number
- CN110852713A CN110852713A CN201911075854.5A CN201911075854A CN110852713A CN 110852713 A CN110852713 A CN 110852713A CN 201911075854 A CN201911075854 A CN 201911075854A CN 110852713 A CN110852713 A CN 110852713A
- Authority
- CN
- China
- Prior art keywords
- information
- module
- character
- credit card
- unified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012795 verification Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 14
- 238000003491 array Methods 0.000 claims description 6
- 238000011426 transformation method Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000012550 audit Methods 0.000 claims description 4
- 230000015654 memory Effects 0.000 claims description 4
- 229910052704 radon Inorganic materials 0.000 claims description 3
- SYUHGPGVQRZVTB-UHFFFAOYSA-N radon atom Chemical compound [Rn] SYUHGPGVQRZVTB-UHFFFAOYSA-N 0.000 claims description 3
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种统一信用代码证识别系统和算法,包括:上传统一信用证代码图片;输入单位基本信息;提取统一信用证代码图片信息;将输入信息和图片信息进行对比;若对比一致则通过审核,若对比不一致则需重新填写单位基本信息;本发明通过对图像进行多次处理,可以精准的提取出上传的图像信息,使对比的结果更加的精准,减小了识别误差;通过自动对比输入信息和图像信息,有效减小了核对工作中的人力资源和成本。
Description
技术领域
本发明涉及图像识别领域,尤其是一种统一信用代码证识别系统和算法。
背景技术
企业、事业单位在招投标、申报项目或者办理其他业务时,需要填写单位基本信息并上单位传统一信用代码证,但是由于填写者和上传者的失误或者其他原因,往往会导致填写信息与上传的图片信息不一致,从而致使返工或者耽误相关活动,给企业或事业单位造成麻烦;因此能精准的识别填写信息和上传的图片信息一致的方法,可以有效增加工作效率。
而在现在的处理方式中,多数是认为进行核对,而一些借助工具的核对也存在很大的误差,会忽略掉很多细节上的错误。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种统一信用代码证识别系统和算法;本发明解决了在核对图片信息和填写信息结果不精确的问题;解决了在核对工作中耗时较多的问题。
本发明采用的技术方案如下:
一种统一信用代码证识别算法,包括:上传统一信用证代码图片;输入单位基本信息;提取统一信用证代码图片信息;将输入信息和图片信息进行对比;若对比一致则通过审核,若对比不一致则需重新填写单位基本信息。
进一步的,所述提取统一信用证代码图片信息方法为:使用长短期记忆网络检测和提取文本区域;再利用Radon变换方法和Hough变换方法对提取的文本进行校正;再将校正后的文本分割为单行的文本的图片;判断分割出的图片是否需要进行字符分割,若需要进行字符分割则将字符分割后进行提取,若无需进行字符分割,则可直接进行提取。
进一步的,所述字符分割方法为:基于投影直方图极值点作为候选分割点并使用分类器搜索最佳分割点,搜索到分割点之后对于单个字符进行特征分类,提取出信息。
进一步的,所述无需进行字符分割的提取方法为:使用训练好的单个字符分类器在序列图像上滑动,输出概率图,接着用神经网络建立的序列模型并校正后输出提取的字符序列。
进一步的,所述提取统一信用证代码图片信息包括单位统一社会信用代码、单位名称、住所、法定代表人、成立日期、营业期限和经营范围。
进一步的,所述将输入信息和图片信息进行对比方法为:提取出的图像信息和输入的信息会存储在两个不同的数组中,通过对比两个数组中的信息内容判断内容是否一致。
一种统一信用代码证识别系统,包括:获取模块、输入模块、提取模块、审核模块和显示模块;所述获取模块用于获取图片信息,输入模块用于获取输入信息,提取模块用于提取图像中的文字信息,审核模块用于对比输入信息和提取出的文字信息,显示模块用于显示审核结果;所述获取模块和输入模块分别和提取模块连接,提取模块还与审核模块连接,审核模块与显示模块连接。
进一步的,所述提取模块还可以对提取出的文字信息进行分割。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明通过对图像进行多次处理,可以精准的提取出上传的图像信息,使对比的结果更加的精准,减小了识别误差。
2、本发明通过对比输入信息和图像信息,有效减小了核对工作中的人力资源和成本。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是统一信用代码证识别算法流程图。
图2是提取图片信息的方法流程图。
图3是统一信用代码证识别系统结构图。
其中,1-获取模块;2-输入模块;3-提取模块;4-审核模块;5-显示模块。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
实施例1
一种统一信用代码证识别算法,包括:
S1:上传统一信用证代码图片;
上述步骤中,所述统一信用证代码图片为识别数据,用于在输入单位信息后,与输入的信息进行对比。
S2:输入单位基本信息;
上述步骤中,当输入单位基本信息后,该输入信息会和上传的图片信息进行对比判断输入是否出错。
S3:提取统一信用证代码图片信息;
上述步骤中,提取图片信息的方法为:
S31:使用长短期记忆网络检测和提取文本区域;
上述步骤中,通过长短期记忆网络可以将上传的统一信用证代码图片中的文本信息完整的检测识别出,并且可以将识别出的文本部分进行单独提取;本实施例中,提取的信息包括单位统一社会信用代码、单位名称、住所、法定代表人、成立日期、营业期限和经营范围。
S32:再利用Radon变换方法和Hough变换方法对提取的文本进行校正;
上述步骤中,可以先将图像进行灰度值处理,将处理后的图像进行一次校正,再将图像进行二值化处理,将处理后的图像进行再次校正。
S33:再将校正后的文本分割为单行的文本的图片;
上述步骤中,将提取的文本图像进行单行分割可以减小图形识别时的范围,可以更精准的对图像中的文字进行识别。
S34:判断分割出的图片是否需要进行字符分割,若需要进行字符分割则执行S35,若无需进行字符分割,则执行S36;
S35:对分割出的图片进行字符分割;
S36:提取图片信息;
上述步骤中,所述所述字符分割方法为:基于投影直方图极值点作为候选分割点并使用分类器搜索最佳分割点,搜索到分割点之后对于单个字符进行特征分类,提取出信息。
所述无需进行字符分割的提取方法为:使用训练好的单个字符分类器在序列图像上滑动,输出概率图,接着用神经网络建立的序列模型并校正后输出提取的字符序列;所述神经网络为长短记忆网络和循环神经网络。
S4:将输入信息和图片信息进行对比;
上述步骤中,若输入信息和图片信息对比一致则通过审核,若对比不一致则需重新填写单位基本信息;所述将输入信息和图片信息进行对比方法为:提取出的图像信息和输入的信息会存储在两个不同的数组中,通过对比两个数组中的信息内容判断内容是否一致;本实施例中,以ajax(Asynchronous Javascript And XML)为例,图像内容识别结果将被放置在key+value的数组内;用户输入的信息将以form表单的形式在ajax请求时同步被放置到后台,存储在Request数组中;当图像识别操作完成时使用:
if($cname1==$cname2){return true}else{return false}即可完成对比。
实施例2
一种统一信用代码证识别系统,如图3所示,包括:获取模块1、输入模块2、提取模块3、审核模块4和显示模块5;所述获取模块1和输入模块2分别和提取模块3连接,提取模块3还与审核模块4连接,审核模块4与显示模块5连接。
所述获取模块1用于获取图片信息,当需要对统一信用代码证进行识别时,可以通过获取模块1采集统一信用代码证的图片信息,并将获取的图像信息发送至提取模块3中。
输入模块2用于获取输入信息,所述输入信息为用户手写的统一信用代码证上的文字信息,当用户书写完成后,输入模块2会将该手写信息发送至审核模块4中,用于进行比对。
提取模块3用于提取图像中的文字信息,当统一信用代码证的图像信息发送至提取模块3中后,提取模块3会将图像信息中的文字部分进行识别和提取,再将图像进行灰度值处理,将处理后的图像进行一次校正,再将图像进行二值化处理,将处理后的图像进行再次校正,得到一个清晰的文字信息;再将校正后的文字信息图像进行分割,将大的文字模块信息分割为一个个小的文字信息模块,再将分割后的文字模块信息发送至审核模块4中;在其他实施例中,若提取出的文字信息不需要分割,则可以直接发送至审核模块4中。
审核模块4用于对比输入信息和提取出的文字信息,当审核模块4接收到输入的手写文字信息和提取模块3提取出的图像中的文字信息后,会将两个信息进行一一比对,核实两个信息中的文字部分是否一致,若一致则会发送审核一致的命令至显示模块5;若对比不一致会发送存在差异的文字部分至显示模块5。
显示模块5用于显示审核结果;显示模块5在接收到审核模块4发出的信息后,会将该信息显示在屏幕上,若审核结果一致,则会显示审核一致字样;若审核结果不一致,则会显示出存在错误的文字位置,用户可以根据显示出的内容进行修改,并重新输入和审核。
本发明通过对图像进行多次处理,可以精准的提取出上传的图像信息,使对比的结果更加的精准,减小了识别误差;通过自动对比输入信息和图像信息,有效减小了核对工作中的人力资源和成本。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
Claims (8)
1.一种统一信用代码证识别算法,其特征在于,包括:上传统一信用证代码图片;输入单位基本信息;提取统一信用证代码图片信息;将输入信息和图片信息进行对比;若对比一致则通过审核,若对比不一致则需重新填写单位基本信息。
2.如权利要求1所述的统一信用代码证识别算法,其特征在于,所述提取统一信用证代码图片信息方法为:使用长短期记忆网络检测和提取文本区域;再利用Radon变换方法和Hough变换方法对提取的文本进行校正;再将校正后的文本分割为单行的文本的图片;判断分割出的图片是否需要进行字符分割,若需要进行字符分割则将字符分割后进行提取,若无需进行字符分割,则可直接进行提取。
3.如权利要求2所述的统一信用代码证识别算法,其特征在于,所述字符分割方法为:基于投影直方图极值点作为候选分割点并使用分类器搜索最佳分割点,搜索到分割点之后对于单个字符进行特征分类,提取出信息。
4.如权利要求2所述的统一信用代码证识别算法,其特征在于,所述无需进行字符分割的提取方法为:使用训练好的单个字符分类器在序列图像上滑动,输出概率图,接着用神经网络建立的序列模型并校正后输出提取的字符序列。
5.如权利要求2所述的统一信用代码证识别算法,其特征在于,所述提取统一信用证代码图片信息包括单位统一社会信用代码、单位名称、住所、法定代表人、成立日期、营业期限和经营范围。
6.如权利要求2所述的统一信用代码证识别算法,其特征在于,所述将输入信息和图片信息进行对比方法为:提取出的图像信息和输入的信息会存储在两个不同的数组中,通过对比两个数组中的信息内容判断内容是否一致。
7.一种统一信用代码证识别系统,其特征在于,包括:获取模块(1)、输入模块(2)、提取模块(3)、审核模块(4)和显示模块(5);所述获取模块(1)用于获取图片信息,输入模块(2)用于获取输入信息,提取模块(3)用于提取图像中的文字信息,审核模块(4)用于对比输入信息和提取出的文字信息,显示模块(5)用于显示审核结果;所述获取模块(1)和提取模块(3)连接,提取模块(3)还与审核模块(4)连接,审核模块(4)分别与输入模块(2)和显示模块(5)连接。
8.如权利要求7所述的统一信用代码证识别系统,其特征在于,所述提取模块(3)还可以对提取出的文字信息进行分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911075854.5A CN110852713A (zh) | 2019-11-06 | 2019-11-06 | 一种统一信用代码证识别系统和算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911075854.5A CN110852713A (zh) | 2019-11-06 | 2019-11-06 | 一种统一信用代码证识别系统和算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110852713A true CN110852713A (zh) | 2020-02-28 |
Family
ID=69598475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911075854.5A Pending CN110852713A (zh) | 2019-11-06 | 2019-11-06 | 一种统一信用代码证识别系统和算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852713A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780038A (zh) * | 2020-06-10 | 2021-12-10 | 深信服科技股份有限公司 | 一种图片审计方法、装置、计算设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005069166A1 (fr) * | 2004-01-06 | 2005-07-28 | CORBIERE, Jérôme | Systeme automatique de traitement des informations portees par des textes courts |
CN108399405A (zh) * | 2017-02-07 | 2018-08-14 | 腾讯科技(上海)有限公司 | 营业执照识别方法和装置 |
CN109377397A (zh) * | 2018-11-07 | 2019-02-22 | 中国平安财产保险股份有限公司 | 保险业务单审核方法、装置、计算机设备和存储介质 |
CN109670788A (zh) * | 2018-12-13 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 基于数据分析的医保审核方法、装置、设备和存储介质 |
CN109784158A (zh) * | 2018-12-11 | 2019-05-21 | 平安科技(深圳)有限公司 | 凭证管理控制方法、装置、计算机设备及存储介质 |
CN109831572A (zh) * | 2018-12-14 | 2019-05-31 | 深圳壹账通智能科技有限公司 | 聊天图片控制方法、装置、计算机设备及存储介质 |
-
2019
- 2019-11-06 CN CN201911075854.5A patent/CN110852713A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005069166A1 (fr) * | 2004-01-06 | 2005-07-28 | CORBIERE, Jérôme | Systeme automatique de traitement des informations portees par des textes courts |
CN108399405A (zh) * | 2017-02-07 | 2018-08-14 | 腾讯科技(上海)有限公司 | 营业执照识别方法和装置 |
CN109377397A (zh) * | 2018-11-07 | 2019-02-22 | 中国平安财产保险股份有限公司 | 保险业务单审核方法、装置、计算机设备和存储介质 |
CN109784158A (zh) * | 2018-12-11 | 2019-05-21 | 平安科技(深圳)有限公司 | 凭证管理控制方法、装置、计算机设备及存储介质 |
CN109670788A (zh) * | 2018-12-13 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 基于数据分析的医保审核方法、装置、设备和存储介质 |
CN109831572A (zh) * | 2018-12-14 | 2019-05-31 | 深圳壹账通智能科技有限公司 | 聊天图片控制方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
WEIXIN_30239339: "OCR研究现状", pages 7 * |
高志强等: "深度学习 从入门到实战", vol. 1, 西安电子科技大学出版社, pages: 293 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780038A (zh) * | 2020-06-10 | 2021-12-10 | 深信服科技股份有限公司 | 一种图片审计方法、装置、计算设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11170248B2 (en) | Video capture in data capture scenario | |
US11514698B2 (en) | Intelligent extraction of information from a document | |
CN109034050B (zh) | 基于深度学习的身份证图像文本识别方法及装置 | |
JP6366024B2 (ja) | 画像化された文書からテキストを抽出する方法及び装置 | |
US10489645B2 (en) | System and method for automatic detection and verification of optical character recognition data | |
RU2760471C1 (ru) | Способы и системы идентификации полей в документе | |
KR101769918B1 (ko) | 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치 | |
CN110210294B (zh) | 优化模型的评价方法、装置、存储介质及计算机设备 | |
CN104079587A (zh) | 证书识别装置及证书检验系统 | |
CN112818785B (zh) | 一种气象纸质表格文档的快速数字化方法及系统 | |
CN110569856A (zh) | 样本标注方法及装置、损伤类别的识别方法及装置 | |
CN114219507A (zh) | 中药供应商的资质审核方法、装置、电子设备及存储介质 | |
CN117037198A (zh) | 一种银行对账单的识别方法 | |
CN116612479A (zh) | 一种轻量级的票据ocr识别方法及系统 | |
CN110852713A (zh) | 一种统一信用代码证识别系统和算法 | |
CN114386013A (zh) | 学籍自动认证方法、装置、计算机设备及存储介质 | |
KR20180126352A (ko) | 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치 | |
CN117649671A (zh) | 快递包裹主分发站点分拣方法、装置、设备及存储介质 | |
CN207037679U (zh) | 一种快捷扫描发票信息的系统 | |
US11798268B2 (en) | Method for improving reliability of artificial intelligence-based object recognition using collective intelligence-based mutual verification | |
CN112861841A (zh) | 票据置信值模型的训练方法、装置、电子设备及存储介质 | |
US11763589B1 (en) | Detection of blanks in documents | |
CN110751140A (zh) | 字符批量识别方法、装置和计算机设备 | |
CN116090422B (zh) | 一种电力业扩表单的录入方法及装置 | |
CN118470730B (zh) | 基于深度学习的document AI系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200228 |